论文浅尝 | 问题多样性对于问答的帮助

笔记整理 |  毕胜 东南大学在读博士,研究方向:自然语言处理 知识图谱


问题生成通过生成一些合成的问题作为训练语料有效提高了问答系统的效果,本文的研究点是:在QG中,生成问题的文本多样性是否对下游的QA有帮助?

直观上来看,多样的问题确实是能够提升QA的效果。

背景

现有QG大部分采用beam search试图产生多样性的问题,同时采用如BLEU、ROUGE等metric作为评估方式。这样做存在两个问题:1、BLEU、ROUGE这类评估方式都倾向于让生成的结果与Ground Truth (GT)更加相似,而多样性是希望生成的结果和GT更加不同,这两个指标的趋势是相反的;2、我们希望对于一个答案有更多的标注数据,这样就能模型学习生成更多的多样性问题,但是通常没有足够的标注数据。

于是,作者希望提出一种新的metric,既能够使得生成的问题准确、又兼具多样性。在此之前,作者做了大量的实验,来验证多样性对于下游任务QA的重要性。

方法

方法上,作者并没有太多的创新,直接使用了RoBERTa进行Fine-Tuning,inference时采用了top-p nucleus sampling[1]。其实还有很多种采样方式,作者认为NS有效、简单、速度快。Top-p nucleus sampling (NS@p),简单来说,就是从nucleus N中采样词。

以一个例子来说明:假设词典中存在1k个词,p设置为0.5,在每一个时间步,通过softmax我们会得到一个词分布,我们从中选取一个最小的子集(在实验部分,作者说明这个自己的最大数量为20),满足:(1)、子集中的词的概率和大于p;(2)、在所有满足条件(1)的子集中,其概率最大:

与top-k采样相比,通过将采样池限制在词汇表的一个更大可能性区域,当原始分布在一个或几个项目达到峰值时,NS减少了生成低概率词的可能性。

实验

首先,在SQuAD1.0 上,对比了beam seach(b=5)和NS@p的结果,p=0.1,0.5,0.75,0.95。对比的评估指标包括 BLEU-1, ROUGE-4,METEOR。同时,还对比了将该生成结果用于QA 模型(基于BERT)的fine-tuning,得到的QA模型在测试时的F1值,以此来对比不同方式生成的问题对于QA的提升程度。实验使用的数据量分别为原始training data的5%,20%,50%,100%。采用的RoBERTa分别为base和large。一共进行了四组实验,每组训练10个模型。

如上图,绿色代表每个指标中最优结果,红色代表最差结果。可以看出:尽管beam search在不同数据量的训练中,所有QG metrics都高于NS@p的方式,但是在QA的表现上,只有在数据量为5%时高于NS@p。上述实验对于每个答案只生成一个问题,作者还增加了一个实验,在RoBERTa-large,数据量100%,p=0.95,每个答案生成5个问题时,QA F1=86.4。

其次,作者增加了四组实验,这四组实验是将上面训练好的模型,直接对NewsQA的数据进行测试(zero-shot),结果如下图:

结论与前面的实验类似。随着p的提高,BLEU、ROUGE的值越低,意味着问题的多样性越大,同时,QA F1随之升高。

最后,文章对比了生成的问题和GT对于QA系统的效果。作者采用上述最好的QG模型(large-100%-NS@0.95),来对比手动标注的结果,即GT。实验结果如下图:

可以看出,在SQuAD上,GT的效果86.3略高于SYNTH(合成问题)86.1,但是当使用该模型对每个答案生成5个问题时,其QA F1达到了86.4,高于GT。将合成结果和GT合并后,其效果1+1>2。在NewsQA也出现类似的结论。

通过上面三次实验可以看出,(1)、多样性QG确实能够提升QA的训练;(2)、总是生成类似的问题(beam seach)用处很小;(3)、常用的QG meitrics并不足以评估生成的问题对于QA模型训练的有效性。

因此,作者探索了新的QG评估方式。

新的指标

通过前面的实验可以看出,现有的metrics并不充分,因为它们只关注和GT有关的准确性。作者提出两个metrics:

Accuracy:类似于语言模型的困惑度评估,在时间步t,给定标准答案和前t-1步的标准结果,把生成正确词汇的概率当作时间t的准确率,最后求均值作为当前整个问题的Accuracy P(GT)。

Diversity:衡量问题多样性最符合直觉的方式就是评估所有时间步生成的词的平均熵,但是首先熵是一个无界度量,另一点就是它和Accuracy的趋势是相反的。也就是说,需要存在一种度量方式,在Accuracy提高的同时,Diversity也是提高的。回到前面的实验数据,通过观察可以发现,对着p的增大,多样性也随之提升,subset N也是增加的,因此,标准词(GT)在N中的概率也增加了。由于GT是否在N中是一个bool值,因此统计全部时间步GT在N中的概率。

综上,最后的metric为:

w∈[0,1],是一个微调参数。

结论

整体来说,本文论证了问题多样性对于QA模型训练的重要性,通过实验证明了top-p的采样方式在QG中的有效性,同时通过实验提出了一个新的metric。

文章还是挺有意思的,但是存在一些疑问。首先文章没有做case study,我们也看不出生成的问题到底长什么样子,通过BLEU、ROUGE来看,可能效果不是很好,存在语法、逻辑错误等问题。如果QG的目的不是为了提升QA那么将会有很大问题。当然,作者题目中也说明了for QA,也没啥好说的。但即便如此,如果生成的问题很糟糕,这些实验就变成地一种数据增强,按照这种思路,不考虑生成问题的可读性、语法、语义等,直接进行数据增强是不是也能达到类似的效果呢?上述实验中对于QA的提升到底是来源于问题的多样性还是来源于BERT呢?

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RDS平台介绍

本文整理自美团点评技术沙龙第10期:数据库技术架构与实践。 美团点评技术沙龙由美团点评技术团队主办,每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 本次沙龙主要围绕数据库相关的主题&#…

你已经是一个成熟的地图了,该学会帮我...

文 | 小戏当我们打开百度地图,选定到达目的地,导航软件里的小姐姐马上就用不紧不慢的语调告诉我们“准备出发,全程12公里,预计需要30分钟……”但一看手表上显示的不风驰电掣铁定迟到的时间,肯定不允许我们和导航软件里…

DevOps笔记-05:IT行业中BA、SM、PO、PM、PD、Dev、Ops、QA都是什么角色

https://blog.csdn.net/weibo1230123/article/details/122986082 1、BA (1)定义 BA是Business Analys缩写,即业务需求分析师。在互联网公司里,BA的角色就是产品经(PM),只是BA要承接某个很具体的业务或者领…

LeetCode 427. 建立四叉树(递归)

1. 题目 我们想要使用一棵四叉树来储存一个 N x N 的布尔值网络。网络中每一格的值只会是真或假。树的根结点代表整个网络。对于每个结点, 它将被分等成四个孩子结点直到这个区域内的值都是相同的. 每个结点还有另外两个布尔变量: isLeaf 和 val。isLeaf 当这个节点是一个叶子…

基于 KIF 的 iOS UI 自动化测试和持续集成

客户端 UI 自动化测试是大多数测试团队的研究重点,本文介绍猫眼测试团队在猫眼 iOS 客户端实践的基于 KIF 的 UI 自动化测试和持续集成过程。 一、测试框架的选择 iOS UI 自动化测试框架有不少,其中 UI Automation 是 Apple 早期提供的 UI 自动化测试解决…

论文浅尝 | 利用冻结语言模型的多模态少样本学习

笔记整理 | 李磊,浙江大学硕士,研究方向为自然语言处理链接:https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力&#xff0c…

ACL’21 | 对话系统也要进军多模态了!

文 | 胡煌,梁祖杰编 | 小轶对于一个对话Bot来讲,拥有对视觉信息的感知和联想能力是非常重要的。比如,我们人类在对话中谈到大海的时候,就会自然地联想到蓝天、白云和飞翔的海鸟。然而,当前的对话模型,如 Me…

x86系统与arm64系统不兼容的linux服务器问题

一键离线安装命令: pip install --no-index --find-links/home/digital_package -r requirements.txt --ignore-installed 1 cython 2 gensim:

LeetCode 541. 反转字符串 II

1. 题目 给定一个字符串和一个整数 k,你需要对从字符串开头算起的每个 2k 个字符的前k个字符进行反转。如果剩余少于 k 个字符,则将剩余的所有全部反转。如果有小于 2k 但大于或等于 k 个字符,则反转前 k 个字符,并将剩余的字符保…

HDFS NameNode内存全景

一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏…

OpenKG开源系列|首个多模态开放知识图谱OpenRichpedia (东南大学)

OpenKG地址:http://openkg.cn/dataset/richpeidaGitHub地址:https://github.com/OpenKG-ORG/OpenRichpediaGitee地址:https://gitee.com/openkg/richpedia官网地址:http://richpedia.cn(提供Dump)开放许可协…

电商业务中的五大机器学习问题!

机器学习正在从曾经的“科幻”,走向大众生活,比如:高铁站的人脸识别系统、小区门口的无人化测量体温,还有这些年很火的自动驾驶,再到电商的精准推荐系统...等等,背后都是机器学习。今天就以电商业务场景为例…

LeetCode 404. 左叶子之和(递归)

1. 题目 计算给定二叉树的所有左叶子之和。 示例:3/ \9 20/ \15 7在这个二叉树中,有两个左叶子,分别是 9 和 15,所以返回 24来源:力扣(LeetCode) 链接:https://leetcode-cn.co…

论文浅尝 | 将结构预测作为增广自然语言间的翻译任务

笔记整理 | 叶宏彬,浙江大学计算机博士生论文地址:https://openreview.net/pdf?idUS-TP-xnXI摘要:我们提出了一个新的框架,即增强自然语言之间的翻译(Translation-between-Augmented Natural Languages,TA…

ReactiveCocoa中潜在的内存泄漏及解决方案

ReactiveCocoa是GitHub开源的一个函数响应式编程框架,目前在美团App中大量使用。用过它的人都知道很好用,也确实为我们的生活带来了很多便利,特别是跟MVVM模式结合使用,更是如鱼得水。不过刚开始使用的时候,可能容易疏…

EXCEL如何快速拆分合并单元格数据

EXCEL如何快速拆分合并单元格数据

学完文本知识,我就直接看懂图片了!

文 | Yimin_饭煲2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世,震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时,想必对GPT-3中的Prompt方法印象深刻。简单来说,(GPT-3中的)Prompt就是为输入的…

LeetCode 914. 卡牌分组(最大公约数)

1. 题目 给定一副牌,每张牌上都写着一个整数。 此时,你需要选定一个数字 X,使我们可以将整副牌按下述规则分成 1 组或更多组: 每组都有 X 张牌。 组内所有的牌上都写着相同的整数。 仅当你可选的 X > 2 时返回 true。 示例…

RestQL:现代化的 API 开发方式

koa-restql 已经在 github 开源并在 npm 发布。感兴趣的同学可以前往围观一下。欢迎 Pull Request,同时热烈欢迎 Star。 在现代的业务系统中,后端开发工作基本上可以被拆分为三项: 接口鉴权。例如判断是不是当前系统的用户,以及该…

论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

笔记整理 | 崔凌云,天津大学硕士链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber8362657动机基于知识图的广泛应用和在教育领域日益增长的需求,作者提出了一个名为KnowEdu的系统,以自动构建教育知识图。通过利用教育…