bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大

选自Medium

作者:Alex Wang等

机器之心编译

参与:Panda

BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE 指标进行更新。为此,纽约大学、Facebook 人工智能研究所、华盛顿大学和剑桥大学的多名研究者联合整理发布了 SuperGLUE 基准,其中保留了两项 GLUE 任务,另外又加入了其它五项新任务。相关工具包和数据集将于五月初发布。

  • GLUE 基准与 SuperGLUE 发布地址:https://gluebenchmark.com

  • 论文:https://w4ngatang.github.io/static/papers/superglue.pdf

过去一年来,机器学习模型在 NLP 领域很多语言理解任务上的表现都获得了极大提升。Elmo、BERT、ALICE、之前被称为 BigBird 的模型(现在叫做 MT-DNN)都取得了显著进展,OpenAI GPT 也有一种非常有效的方案,即将用简单的多任务在大量文本数据集上预训练的语言建模方法与将所得模型适应到下游应用的迁移学习技术结合起来。

一年前发布的 GLUE 是用于评估这些方案的一套基准和工具包。GLUE 是九种(英语)语言理解任务的集合,包括文本蕴涵、情感分析和语法判断等。其设计目的是覆盖足够大的 NLP 领域,以使得只有开发出足够通用的工具,才能在这一基准上表现良好;这样也有助于解决未来可能新遇到的语言理解问题。

基于 GLUE 基准的进展

在 GLUE 基准上表现最佳的模型已经非常接近人类在这些任务上的水平:

b63df915546ffe2b03f5089f4db9f5c5.png

不同模型相对于人类水平的 GLUE 进展。Y 轴是相对于人类水平的表现。

随着 GPT 和 BERT 的出现,模型水平大幅提升;而且随着研究者持续开发更好的算法以将 BERT 用于其它任务,模型的表现正在稳步追赶人类水平。在三个 GLUE 任务(QNLI、 MRPC 和 QQP)上,最佳的模型已经超过了人类基准,但这并不意味着机器已掌握英语。比如,WNLI 任务涉及到确定一个句子「John couldn』t fit the trophy in the suitcase because it was too big.(约翰没法把奖杯放进箱子,因为它太大了。)」究竟是指「奖杯太大」还是「箱子太大」。人类可以完美地解决这一任务,而机器的表现还和随机乱猜差不多。

在创造能够理解自然语言的机器之路上,我们显然还有很大的进步空间,但 GLUE 在进一步发展的道路上已不适合作为评估基准了。

进入 SuperGLUE 时代

21a60564cbcd9bc123dfc81b84b12848.png

吉祥物的诞生,来自 Nikita Nangia

SuperGLUE 与 GLUE 类似,是一个用于评估通用 NLP 模型的基准,同样也基于在多种不同语言理解任务集上的评估。

为了发现新的挑战性任务集,SuperGLUE 提出者向更广泛的 NLP 社区发起了任务提议征集,得到了一个包含约 30 种不同 NLP 任务的列表。在选择 SuperGLUE 的任务时,提出者考虑了多项设计原则,包括必须涉及到语言理解、这些任务还无法通过已有的方法解决、存在公开的训练数据、任务格式以及证书。经过验证,最终得到了一个包含七个任务的集合。

革新之处

SuperGLUE 遵照了 GLUE 的基本设计:包含一个围绕这七个语言理解任务构建的公开排行榜、基于已有数据的抽取、一个单个数值的表现指标和一套分析工具包。

SuperGLUE 与 GLUE 也有很多差异:

  • SuperGLUE 仅保留了 GLUE 九项任务中的两项(其中一项还经过修改),还引入了五个难度更大的新任务。这些任务的选择标准包括为了实现难度和多样性的最大化。

  • 初始的 SuperGLUE 基准版本即包含了人类水平估计结果。在 SuperGLUE 中这些被选中的任务上,基于 BERT 的强基线与人类水平之间还存在显著的差距。

  • 任务格式(API)的集合在 GLUE 中的句子和句子对分类上进行了扩展,SuperGLUE 另外还包含共指消解、句子完成和问答。

  • 为了促使研究者针对这种多样性的任务集合开发统一的新方法,与 SuperGLUE 一起发布的还有一套用于操作 NLP 的预训练、多任务学习和迁移学习的模块化建模工具包。这套工具包基于 PyTorch 和 AllenNLP。

  • 管理 SuperGLUE 排行榜的规则有多个地方不同于 GLUE 排行榜的管理规则,这些变化都是为了确保该排行榜竞争公平、信息丰富,并能充分体现数据和任务创建者的贡献。

SuperGLUE 与 GLUE 的两项共同任务是:识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)。此外,SuperGLUE 还添加了测试模型问答、执行共指消解和执行常识推理能力的任务。下表给出了 SuperGLUE 包含的任务:

8bee60743b36a34551e892cc9bba6a53.png

SuperGLUE 包含的任务。WSD 是词义消岐、NLI 是自然语言推理、coref. 是共指消解、SC 是句子完成、QA 是问答。其中,MultiRC 列出了 456/83/166 个 train/dev/test 问题的总答案数。

下面对这些任务进行更详细的说明和示例介绍:

CB:CommitmentBank(De Marneffe et al., 2019)是一个短文本语料库,其中至少有一个句子包含一个嵌入从句。其中每个嵌入从句都标注了该从句的预期的真实性程度。所得到的任务框架是三类文本蕴涵(three-class textual entailment),其样本来自《华尔街日报(Wall Street Journal)》、英国国家语料库(British National Corpus)的小说、Switchboard。每个样本都包含一个含有一个嵌入从句的前提(premise),对应的假设(hypothesis)则是该从句的提取。SuperCLUE 使用了该数据集的一个子集,该子集中注释之间的一致程度超过 0.85。这些数据不很平衡(中性样本相对较少),所以评估指标是准确度和 F1 分数,其中多类 F1 分数是每类 F1 分数的不加权的平均值。

09c835f9008506fa8c09a3f334cceac2.png

COPA:Choice Of Plausible Alternatives(Roemmele et al., 2011)数据集代表了一项因果推理任务,其会向系统提供一个前提句子和两个可能的可选项。系统必须选择与前提句子有更可信因果关系的可选项。用于构建可选项的方法要确保需要因果推理才能解决该任务。样本要么针对前提句子的可能原因,要么则是可能结果,再加上模型的两个实例类型之间的简单问题消岐。所有的样本都是人工设计的,关注的主题有网络博客和与摄影相关的百科内容。根据 COPA 作者的建议,SuperCLUE 使用准确度作为评估指标。

77cfbc9c5cd7592831f3989382b65c5f.png

GAP:Gendered Ambiguous Pronoun Coreference(Webster et al., 2018)是一个性别方面平衡的语料库,其测试的是识别有歧义代词的指代目标的能力。给定一个句子、该句子中的一个特定代词以及该句子中的两个名词短语,任务目标是预测哪个名词短语(或两者同时)与那个代词共指。SuperCLUE 将其中公开可用的开发集用于训练,公开可用的测试集用于验证,另外 GAP 作者还提供了一个私有的测试集。评估指标为 F1 分数和偏见(bias),即在测试样本的男性代词和女性代词子集上的 F1 分数的比值。

2cd03a21e1d3242a8ec23fad34225cc5.png

MultiRC:Multi-Sentence Reading Comprehension 数据集(Khashabi et al., 2018)代表了一项真假问答任务。每个样本都包含一个上下文段落、一个有关该段落的问题和一个该问题的可能答案的列表,这些答案必须标注了「真(true)」或「假(false)」。问答是很常见的问题,有很多数据集。这里选择 MultiRC 的原因包括:(1)每个问题都可以有多个可能的正确答案,所以每个问答对都必须独立于其它问答对进行评估;(2)问题的设计方式使得每个问题的解答都需要从多个上下文句子中提取事实;(3)相比于基于范围的抽取型问答,这个数据集的问答对格式更匹配其它 SuperGLUE 任务的 API。这些段落取自七个领域,包括新闻、小说和历史文本。评估指标是每个问题的正确答案集的 macro-average F1 分数(F1m)和在所有答案选项上的 binary F1 分数(F1a)。

c9407a56767609d2378624c9b78be207.png

RTE:Recognizing Textual Entailment 数据集来自一系列文本蕴涵方面的年度竞赛。文本蕴涵任务是要预测给定的前提句子是否蕴涵给定的假设句子(也称为自然语言推理/NLI)。GLUE 之前就已包含 RTE。SuperGLUE 使用了一样的数据和格式:融合了来自 RTE1 (Dagan et al., 2006)、 RTE2 (Bar Haim et al., 2006)、RTE3 (Giampiccolo et al., 2007) 和 RTE5 (Bentivogli et al., 2009) 的数据。所有数据集经过组合,并被转换成了两类分类问题:entailment 和 not_entailment。相比于其它 GLUE 任务,RTE 是从迁移学习获益最多的任务,准确度表现水平从 GLUE 发布时的接近随机(约 56%)提升至了目前的 85%,但这一表现与人类水平仍有 8 个百分点的差距,所以还值得进一步研究探索。

e6317e6ce1dcfdf5c0b98ecccad6ca05.png 

WiC:Word-in-Context(Pilehvar and Camacho-Collados, 2019)数据集针对的是词义消岐任务,该任务被设定成了在句子对上的二元分类问题。给定两个句子和一个出现在这两个句子中的多义词(歧义词),任务目标是决定该词在这两个句子中是否含义相同。数据集中句子取自 WordNet (Miller, 1995)、VerbNet (Schuler, 2005) 和维基百科。这项任务的评估指标是准确度。

97cca31cf68f3c70fe04bdf3423394ad.png

WSC:Winograd Schema Challenge(Levesque et al., 2012)是一个阅读理解任务,其中系统必须阅读一个带有一个代词的句子,并从一个选项列表中选择该代词所代指的目标。GLUE 中就已包含 WSC 任务,这个任务难度颇大,仍有很大的进步空间。SuperGLUE 中的 WSC 数据集被重新设定成了其共指形式,任务则被设定成了一个二元分类问题,而不再是 N 项多选题;这样做的目的是单独验证模型理解句子中共指链接的能力,而不会涉及到多选题环境中可能用到的其它策略。

9a635d7240ad69ff64130b11014cf22b.png

综合以上各项任务,SuperGLUE 基准也设置了一个总体评估指标:SuperGLUE 分数。该分数即是在以上所有任务上所得分数的平均。对于 Commitment Bank 和 MultiRC,会首先先取该任务在各项指标上的平均,比如对于 MultiRC,会首先先平均 F1m 和 F1a,之后在整体平均时将所得结果作为单个数值纳入计算。另外,GAP 的偏见(bias)分数不会纳入 SuperGLUE 分数的计算;原因是在性别平衡的 GAP 上训练的大多数系统在偏见分数上都表现良好。

模型基准与人类水平

SuperGLUE 提出者已经提供了在其中七项任务上的基准结果,这些结果是使用基于 BERT 的方法得到的,因为 BERT 在 GLUE 上是当前最成功的方法。具体而言,基准结果来自 BERT-LARGE-CASED variant.11,遵照了 Devlin et al. (2019) 的标准实践方法。对于每个任务,所选择的架构都是基于 BERT 的尽可能最简单的架构。下表给出了得到的基准结果:

f13cfe68bce81dd7d5dbd371e92b458e.png

在 SuperGLUE 各项任务的测试集上得到的初步基准结果,加粗数值是机器在该任务上的当前最佳水平;最后一行是估计的人类水平。

可以看到,最佳的预训练基准结果仍大幅落后于人类水平。平均而言,BERT++ 的结果与人类水平相差 16.8;其中在 WSC 上差距最大,为 27.5,而人类在这一任务上表现完美。期待未来的新思路和新方法进一步减小这些差距,甚至解决这些任务。

原文链接:https://medium.com/@wang.alex.c/introducing-superglue-a-new-hope-against-muppetkind-2779fd9dcdd5

本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

thread.sleep是让哪个线程休眠_Java多线程:多线程基础知识

点击上方☝SpringForAll社区 轻松关注!及时获取有趣有料的技术文章本文来源:https://www.cnblogs.com/ITtangtang/p/7602363.html一、线程安全性定义:多个线程之间的操作无论采用何种执行时序或交替方式,都要保证不变性条件不被破…

拉格朗日插值函数计算机实现流程图,拉格朗日插值实验报告.doc

实验名称: 实验一 拉格朗日插值引言我们在生产生活中常常会遇到这样的问题:某个实际问题中,函数f(x)在区间[a,b]上存在且连续,但找到其表达式,只能通过实验和观测得到有限点上的函数表。有些情况虽然可以写出表达式&am…

整个领域没了!学术界有史以来最大的丑闻

来源:中大科技处10月15日,学术界发生了一件大事。哈佛终身教授学术造假,31篇文献被撤,无数研究化为泡影……哈佛一次性从各类顶尖期刊上撤稿了31篇论文,整个心肌干细胞相关的研究被认定为“从一开始就基于欺诈性数据”…

布隆过滤器误判怎么办为什么会_最牛一篇布隆过滤器详解,布隆过滤器使用原理...

前言我们之前讲了Redis的缓存雪崩、穿透、击穿。在文章里我们说了解决缓存穿透的办法之一,就是布隆过滤器,但是上次并没有讲如何使用布隆过滤器。作为暖男的老哥,给你们补上,请叫我IT老暖男。什么是布隆过滤器布隆过滤器(Bloom Fi…

thinkPHP-空操作

空操作 当访问的方法不存在时&#xff0c;可以定义一个empty方法来避免空操作 function _empty(){echo "网页不存在&#xff0c;请检查地址信息";} 这样当访问不存在的方法时就会显示以上信息 当访问的控制器不存在时&#xff0c;可以定义一个空操作器 <?php nam…

python3 面向对象_Python3 面向对象

Python和C都是一门面向对象的语言&#xff0c; 面向对象技术简介 类(Class):用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。比如 f file()##创建了一个类(file())的对象f 类变量&#xff1a;类变量在整个实例的对象…

口腔ct重建服务器原理,牙科CT是什么?牙科CT的原理及优势介绍

原标题&#xff1a;牙科CT是什么&#xff1f;牙科CT的原理及优势介绍牙科CT是什么&#xff1f;牙科CT&#xff0c;又称口腔CT&#xff0c;是一种新型牙科类仪器&#xff0c;它可以从三维角度对口腔部组织情况进行扫描检查。牙科CT在业界被誉为神奇的“慧眼”&#xff0c;它犹如…

机器学习奠基人Michael Jordan:下代技术是融合经济学,解读2项重要进展

来源&#xff1a; 北京智源人工智能研究院2019年11月1日北京智源大会全体大会及闭幕式上&#xff0c;被誉为“机器学习之父”的加州大学伯克利教授、智源研究院学术顾问委员会委员 Michael I.Jordan 做了题为《决策与情境&#xff1a;基于梯度的博弈均衡求解方法》&#xff08;…

matlab 带有下标的赋值维度不匹配_远见另类资产管理体系下的核心系统搭建

另类资产管理体系下的信息化建设&#xff0c;或许是小众领域中的更小众话题&#xff0c;但仍值得讨论。很多基金公司、投资公司或资产管理公司都搭建了各种大大小小的应用系统&#xff0c;如OA系统、财务系统、CRM系统等&#xff0c;但对于上系统的价值&#xff0c;不仅很难量化…

cfree运行程序错误的原因_Python入门教程 | 第 8 章 错误、调试和测试

第八章 错误、调试和测试在程序运行过程中&#xff0c;总会遇到各种各样的错误。有的错误是程序编写有问题造成的&#xff0c;比如本来应该输出整数结果输出了字符串&#xff0c;这种错误我们通常称之为bug&#xff0c;bug是必须修复的。有的错误是用户输入造成的&#xff0c;比…

python更新后yum问题

python更新后yum问题 How to switch between Python versions on Fedora Linux Currently, the default python version on Fedora Linux is Python 2. Later Fedora Linux release 22 will ship with the Python 3 as a default version. In this config you will learn how t…

我的世界服务器物品id错误,我的世界错误代码,怎么弄

我的世界错误代码&#xff0c;怎么弄0xu1125yuan2017.07.24浏览323次分享举报1.Minecraft:[16:05:37][Clientthread/FATAL][NotEnoughItemsFingerprintVerification]:ThefingerprintformodNotEnoughItemsisinvalid!Expected:f1850c39b2516232a2108a7bd84d1cb5df9... 1.Minecraf…

友友球捕获率_神奇宝贝球内部秘密公开!大师球原来是这样达到100%捕获率的...

要想获得神奇宝贝&#xff0c;首先就要用精灵球&#xff0c;精灵球的作用是捕捉或者携带宝可梦&#xff0c;不同种类的精灵球拥有不同的特殊效果。一名训练家最多只能携带6枚装有宝可梦的精灵球&#xff0c;空的精灵球则没有携带数量的限制。目前为止&#xff0c;已经有27种不同…

今日头条CEO朱文佳:新一代搜索引擎已经来了

来源&#xff1a;今日头条11月27日&#xff0c;今日头条CEO朱文佳在36kr wise大会上谈及头条搜索。在他看来&#xff0c;要做好搜索&#xff0c;有三件事最重要。首先是技术&#xff0c;技术决定搜索的体验&#xff1b;其次是内容&#xff0c;内容是搜索的根本&#xff1b;最后…

javascript事件监听与事件委托

事件监听与事件委托 在js中&#xff0c;常用到element.addEventListener()来进行事件的监听。但是当页面中存在大量需要绑定事件的元素时&#xff0c;这种方式可能会带来性能影响。此时&#xff0c;我们可以用事件委托的方式来进行事件的监听。 每个事件都经历三个阶段 捕获到达…

串口打印怎么使用】_爱普生打印机怎么使用 爱普生打印机使用方法【详解】...

市面上的打印机品牌有很多&#xff0c;其中就有爱普生打印机&#xff0c;这个品牌的打印机是在上个世纪的四十年代成立的&#xff0c;并且爱普生这款打印机逐渐深入我们的生活&#xff0c;一般我们很多都会使用爱普生打印机来打印资料或者是下载各种工作材料&#xff0c;那么你…

中科院大学计算机研究生考试大纲,中国科学院大学《计算机原理》2019年硕士研究生入学考试大纲...

(二)计算机组成原理 (50分)1、计算机系统概论(1)计算机的分类。(2)计算机的硬件。(3)计算机的软件。(4)计算机系统的层次结构。2、 运算方法和运算器(1)数据与文字的表示方法。(2)定点加法、减法运算。(3)定点乘法运算。(4)定点除法运算。(5)定点运算器的组成。(6)浮点运算方法…

linux 测试cpu计算圆周率_Linux下测试CPU性能

一、安装stress服务2、解压tar xvf stress_1.0.1.orig.tar.gz3、进入解压目录执行./configure4、make5、make check6、make install7、make clean二、安装sysstat服务2、解压tar xvf sysstat-11.5.6.tar.gz3、进入解压目录执行./configure4、make & make install三、测试C…

日益谨慎的谷歌AI,会在自我限制中越走越慢吗?

来源&#xff1a;wired为了防止技术被滥用&#xff0c;谷歌对新推出的人脸识别服务进行了限制&#xff0c;但这种限制有时候反而会让竞争对手抢得市场先机。谷歌之所以成为今天的谷歌&#xff0c;是因为它不断创造先进的新技术&#xff0c;并将这些技术向所有人开放。大型企业和…