旅游类网站建设定制官网
旅游类网站建设,定制官网,j建设网站,建设银行信用卡境外网站盗刷诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称#xff1a;Large Language Models Struggle to Learn Long-Tail Knowledge
ArXiv网址#xff1a;https://arxiv.org/abs/2211.08411
官方GitHub项目#xff08;代码和实体#xff09;#xf…诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称Large Language Models Struggle to Learn Long-Tail Knowledge
ArXiv网址https://arxiv.org/abs/2211.08411
官方GitHub项目代码和实体https://github.com/nkandpa2/long_tail_knowledge
本文是2023年ICML论文主要关注LLM无法记忆长尾知识的问题。 检测方式是让LLM基于事实回答问题4-shot closed-book QA evaluations看准确率与预训练语料中问题相关文档数的关系。文档中包含问题里的实体对就算相关文档。 增大模型确实能缓解长尾问题但是要求规模指数级提升才能匹配数据集出现频率的一点点提升。还是用检索增强的方式比较好。但是检索系统的方法本身也需要有相关文档才行。
预训练语料用于链接实体和找相关文档ROOTS, The Pile, C4, OpenWebText, and Wikipedia 话说本文提到没有研究跨语言知识。我感觉这一点也挺值得研究的
QA数据集Natural Questions TriviaQA
模型 Transformer decoder-only LMs: GPT-Neo BLOOM-176B BLOOM: A 176B-Parameter Open-Access Multilingual Language Model GPT-3 文章目录 1. 研究背景核心观察结果2. 实验1. 实验设置2. 观察实验结果3. 解决方案 1. 研究背景核心观察结果
LLM难以记忆长尾知识
相关文档数量指数分箱取QA准确率平均值
2. 实验
1. 实验设置
1. 找相关文档 事实QA数据集→从预训练文档里找出相关文档如果问答对中的两个实体都出现就算相关文档 实体链接工具DBpedia Spotlight Entity Linker1
2. QA 其他示例样本数得到的结果差别不大
解码方案贪心解码
2. 观察实验结果
TriviaQA在BLOOM上的结果图Figure 1我放在第一节了 证明相关文档必须要同时含有问答中的实体的必要性 用问题实体或回答实体可以得到与同时使用中相似的结果但是如果去掉问答都有的情况就没有这样的表现了。说明其实模型学习靠的是问答都有的情况
人工结果和LM结果趋势相反
对LM预测结果出现原因的分析 对比实验证明去掉相关文档重新训练LM后准确率会下降
3. 解决方案
scale数据集 没啥用各个数据集的支持信息都差不多
scale模型 想法是好的但是需要的增量太大了 调整训练目标 改为encourage memorization 增大训练epoch数……等等
检索增强 直接用相关文档效果能得到大幅度提升 用BM25算法实现检索 果然表现好起来了 (2011 I-Semantics) DBpedia spotlight: shedding light on the web of documents ↩︎
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/88681.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!