论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...

006c249b3da7520ff651afdf00d7eb9b.png

论文作者:吴林娟,天津大学,研究方向为自然语言理解

论文链接:http://arxiv.org/abs/2204.00996

代码地址:https://github.com/wulinjuan/SSDM_MRC

摘要

多语言预训练模型在机器阅读理解(Machine Reading Comprehension, MRC)任务上能够将知识从资源丰富的语言上零资源迁移到低资源语言。然而,不同语言中固有的语言差异可能会使零资源迁移后预测的答案跨度违反目标语言的句法约束。我们提出了一种新的多语言机器阅读理解框架,该框架配备了孪生语义解耦模型(Siamese Semantic Disentanglement Model,   ),实现在多语言预训练模型学习的表示中将语义与语法分离。为了显式地将丰富的语义知识迁移到目标语言,我们提出了两组针对语义和句法编码和解开的损失。在三个多语言机器阅读理解评估集上实验证明了我们提出的方法的有效性。

动机和思路

随着多语言预训练模型和多语言机器阅读理解评估数据集的提出,多语言机器阅读理解任务受到了越来越多的关注。基于多语言预训练模型的跨语言迁移方法也成为了多语言MRC的主流方法。但是我们发现基于预训练模型的迁移方法在目标语言上获取的答案跨度存在不符合句法约束的现象,如下图(b)中的例子所示,跨语言迁移模型获得的答案“月光不住”跨越了句法树的两个子树。在双语语料BiPaR上我们也进行了实验统计,跨语言迁移的方法降低了目标语言答案跨度和句法约束的一致性。

e958b1501d1a3b1733dbd06c1bef284b.png

为了解决这类由于语言间句法差异带来的目标语言答案跨度不符合句法约束的问题,我们提出了基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解。将多语言预训练表示的语义和句法部分分离,通过迁移解耦的语义表示减少句法信息对于跨语言带来的消极影响。

贡献

我们的贡献包括以下三点:

1.提出了一种多语言MRC框架,通过显式迁移源语言解耦的语义知识来减少由于句法差异带给目标语言答案跨度识别的消极影响;2.提出了一种多语言孪生语义解耦模型,可以有效将多语言预训练模型中的语义和句法分离;3.在三个公开权威的多语言MRC数据集(XQuAD、MLQA和TyDiQA)上证明了我们的模型相比

模型:

•多语言机器阅读理解模型

我们提出了一种新的多语言机器阅读理解框架,如图(a)所示,主要由多语言预训练模型、语义解耦模块和用于MRC预测的线性输出层组成。其中语义解耦模块来自于孪生解耦语义模型(Siamese Semantic Disentanglement Model,   )的一部分,模型最终输出对于答案跨度的起始和终止位置的预测。我们的多语言MRC模型的训练主要分为两步:首先使用带标注的平行语料对孪生语义解耦模型S2DM进行训练,期间固定预训练模型的参数;然后将训练好的  模型中的语义编码模块((b)中绿色的模块)嵌入到MRC框架中,通过在源语言MRC数据集上微调预训练模型和线性输出层实现阅读理解。训练好的模型可以在其他目标语言上测试阅读理解的效果。

49c6fe667ab222da56343a3177e3c0c8.png

•多语言孪生语义解耦模型

  模型构建的假设是:句子  是由语义变量  和句法变量  组成。模型基于VGVAE将语义变量假设为vMF分布,将句法变量假设为高斯分布,句子和两个变量的联合分布形式化为:

e3726f370919cf4778401bbd6c6de746.png

其中 θ 表示生成模型,由简单词袋编码器组成。

VGVAE的目标函数为:

01c39c775b42266bcdf64872e299dc9d.png

包括重构损失RL和两个变量分布的KL散度损失。除此之外,为了让句法和语义变量获取更多相应的信息我们设计了多个损失。

为了鼓励语义变量y捕捉语义信息,我们额外设计了跨语言重构损失CRL和语义辨别损失SDL:

a4e061bfd407846166541c8be9912438.png

其中下标s表示源语言,下标t表示目标语言,n代表非平行的样例,sim()是相似度计算函数。

为了让句法信息和语义分离,我们也引入了了句法相关的损失,包含无监督的词序预测损失WPL和有监督的词性标注损失POS以及句法树预测损失STL。WPL和POS表示如下:

9b15d1737b723040a9201149c12a43a3.png

0af662e714f94652a36d456b61b39cdf.png

也就是对每个词进行位置的预测和词性的预测,然后计算交叉熵损失。

为了学习结构化的句法信息,我们设计了句法树损失STL。这也是基于现有工作研究发现,预训练模型已经编码了句子的句法结构。为了将结构信息转化为序列信号进行学习和预测,我们参考结构探针的设计把句法树的预测看作两个子任务:单个词在句法树的深度预测以及两个词在句法树中的距离预测。通过给定一个矩阵  对解耦的句法变量表示进行线性变换,两个子任务的损失计算为:

e30763a2e65239abd792cf5641aff96a.png

其中  表示句子树中第i和第j个词之间的边数,而  是经过线性变换后两个词表示的L2距离平方:

059a401992a1355cb90bc39eddf8fcd6.png

句法树损失就是两个子任务的和:

7bdf757166063199efbb56e14bea6eee.png

为了验证不同粒度的句法信息对于解耦模型的影响,我们根据不同的句法任务设置了两个解耦模型:  和  ,对应的损失分别为:

9b76cf8bfc259b7982c0d796e55cb814.png

•泛化性分析

由于解耦模型需要在带有标注的平行语料上训练,然而不是所有语言都有相应的训练语料,于是我们对模型的泛化性进行了分析。从两个重构损失和语义判别损失分别证明了解耦后的语义和句法表示的语言无关性。

将两个重构损失变换后我们可以得到:

9c99403f311dadb50a32015b83cc5135.png

f45fe0c4ab2139de03cbefd8fcb54404.png

由于无论源语言还是目标语言的句法(或语义)变量最终都会拟合到相同的分布:标准正态分布和均匀vMF分布。所以 θ 和 θ 最终会拟合到相同的分布, θ 和 θ 最终也会拟合到相同的分布。这符合我们使用孪生网络结构的动机。

然后我们对语义判别损失进行变换得到:

b73e42eef9da52a3042f9e24e3385774.png

最大化  鼓励目标语言语义向量接近并行的源语言语义向量,保障了语义向量的语言无关性。

综上可以证明  模型获得的语义和句法向量的语言无关性。

实验结果

基于mBERT和XLM-100实现了我们的MRC模型,两阶段的训练集分别来自多语言通用依存树库UD 2.7和英语MRC数据集SQuAD1.0。我们在三个公开的多语言评估数据集上对模型进行了评估,基线模型为基于mBERT和XLM-100微调的多语言MRC模型,在MLQA数据集上和现有工作LAKM进行了比较(在预训练模型的基础上引入短语知识库增加了短语边界检测预训练任务)。实验结果如下几个表格,

197cc32b71e8cea105b43f6ae120b8e4.png

bdd765d6fb0b21f5516beac23552a1c0.png

我们的模型在三个数据集上有效提升了基于mBERT和XLM-100微调的多语言MRC模型,而且对于没有S2DM模型训练集的语言也得到了提升,例如XQuAD中和XLM相比,模型在希腊语(el)、 罗马尼亚语(ro)和越南语(vi)上的EM值分别提升了6.2%、2.4%和1.8%。

和LAKM对比,其外部训练数据大小高于我们三个数量级,但是我们获得了和LAKM差不多的效果。

TyDiQA-GoldP数据集比XQuAD和MLQA更具挑战性。模型在所有8种低资源目标语言的EM或F1分数上都有提升。其中,在与英语语系不同的芬兰语(fi)和俄语(ru)中,模型  的EM性能相比基线分别提高8.4%和9.5%。  在无解耦训练语料的斯瓦希里语(sw)的EM比mBERT基线高13.6%。我们对设计的loss也进行了消融实验,证明了每个loss的有效性和必要性。消融实验结果如下:

2a4a6d78952666b17183aa82216f6097.png

更进一步的,我们对孪生网络结构、解耦效果进行了验证,结合语义表示可视化说明解耦的效果。在BiPaR数据集中证明了我们的模型有效提高了目标语言答案跨度和句法约束的一致性,符合我们的动机。

总结

本文对由于句法差异导致跨语言迁移过程中存在目标语言答案跨度和句法约束不一致的问题进行了探究,通过解耦多语言的语义和句法表示,然后显式迁移语义表示减少句法差异带来的消极影响。通过在三个多语言阅读理解评估集上证明我们方法的有效性,并进一步通过理论分析和实验验证证明了MRC模型的泛化性以及解耦的有效性。文章从句法入手解决跨语言阅读理解的问题,初步证明了句法对于跨语言语义理解任务的助益,后期工作将深入探索句法信息和跨语言任务的结合,欢迎大家与我们探讨交流。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

03932b03909a6414673e220d18391117.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1017. 负二进制转换(负数进制转换)

1. 题目 给出数字 N,返回由若干 “0” 和 "1"组成的字符串,该字符串为 N 的负二进制(base -2)表示。 除非字符串就是 “0”,否则返回的字符串中不能含有前导零。 示例 1: 输入:2 输…

公益:开放一台Nacos服务端给各位Spring Cloud爱好者

之前开放过一台公益Eureka Server给大家,以方便大家在阅读我博客中教程时候做实验。由于目前在连载Spring Cloud Alibaba,所以对应的也部署了一台Nacos,并且也开放出来,给大家学习测试之用。 Nacos控制台 地址:http:/…

一份北大信科内部流传的 “CS 自救指南”(无广推荐)

文 | PKUFlyingPig,智商掉了一地编 | 小轶小编记:从上周开始,一篇 github 博客就在北大同学的朋友圈之间刷屏。不到一周时间,已收获了 1.8 k stars。这是一篇来自一位北大学弟的博客——“CS自学指南”,一份自学式 cs …

论文浅尝 | Rot-Pro:通过知识图谱嵌入中的投影建模关系的传递性

笔记整理:陈湘楠,浙江大学硕士在读。研究背景知识图嵌入模型学习知识图谱中实体和关系的表示,以预测实体之间的缺失链接(关系)。它们的有效性深受建模和推断不同关系模式(如对称、不对称、逆向、组合和传递…

隐马尔科夫模型(HMM)笔记(公式+代码)

文章目录1. 基本概念1.1 HMM模型定义1.2 盒子和球模型1.3 观测序列生成过程1.4 HMM模型3个基本问题2. 概率计算问题2.1 直接计算法2.2 前向算法2.2.1 前向公式证明2.2.2 盒子和球例子2.2.3 前向算法Python代码2.3 后向算法2.3.1 后向公式证明2.3.2 后向算法Python代码2.4 一些概…

Spring Cloud Alibaba基础教程:Sentinel Dashboard中修改规则同步到Apollo

在之前的两篇教程中我们分别介绍了如何将Sentinel的限流规则存储到Nacos和Apollo中。同时,在文末的思考中,我都指出了这两套整合方案都存在一个不足之处:不论采用什么配置中心,限流规则都只能通过Nacos界面或Apollo界面来完成修改…

中科院科研人员自白:我为什么离开北京

文 | 榴莲EDU源 | 知乎北大本硕博毕业,毕业到中科院北京某所。今年是我工作第三年,年前刚刚调动了工作,转战南京某高校。为什么?细说起来一大堆,总结起来就两个字:房子。上学的时候不了解墙外的世界&#x…

评测通知 | 2022年全国知识图谱与语义计算大会评测任务发布

一、任务简介CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2021评测竞赛环节共设立了5个主题共计14个任务&#xf…

LeetCode 38. 报数

1. 题目 报数序列是一个整数序列,按照其中的整数的顺序进行报数,得到下一个数。其前五项如下: 1 11 21 1211 111221 1 被读作 "one 1" ("一个一") , 即 11。 11 被读作 "two 1s" ("两个一"&…

Spring Cloud Alibaba基础教程版本升级:0.2.1-gt;0.2.2

最近Spring Cloud Alibaba发布了最新版本,其中包含了一些比较重要的内容,比如:Nacos 1.0.0支持,Dubbo的支持等。所以把之前的系列文章中内容以及代码案例都做了升级,其中包括: Spring Cloud Alibaba 从 0.…

Google掀桌了,GLUE基准的时代终于过去了?

文 | Severus大家好,我是Severus,一个在某厂做中文文本理解的老程序员。今年11月,Google 在 NeurIPS2021 投稿了一篇文章,名为 AI and the Everything in the Whole Wide World Benchmark,矛头直指评估AI模型“通用”能…

技术动态 | W3C计划成立RDF-star工作组

转载公众号 | W3C资讯W3C 计划成立 RDF-star 工作组,现开始筹备小组工作章程,界定标准化范畴及工作模式。详情参见以下章程草案:https://w3c.github.io/rdf-star-wg-charter/RDF-star(最初拼写为 RDF*)是 RDF 的一种扩…

LeetCode 1282. 用户分组(桶排序思想)

1. 题目 有 n 位用户参加活动,他们的 ID 从 0 到 n - 1,每位用户都 恰好 属于某一用户组。给你一个长度为 n 的数组 groupSizes,其中包含每位用户所处的用户组的大小,请你返回用户分组情况(存在的用户组以及每个组中用…

Spring Cloud Alibaba 新版本发布:众多期待内容整合打包加入!

在Nacos 1.0.0 Release之后,Spring Cloud Alibaba也终于发布了最新的版本。该版本距离上一次发布,过去了整整4个月!下面就随我一起看看,这个大家期待已久的版本都有哪些内容值得我们关注。 版本变化 之前在《Spring Cloud Aliba…

MSRA-万字综述 直击多模态文档理解

文 | 付奶茶随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction&…

LeetCode 991. 坏了的计算器(逆向思考)

1. 题目 在显示着数字的坏计算器上,我们可以执行以下两种操作: 双倍(Double):将显示屏上的数字乘 2;递减(Decrement):将显示屏上的数字减 1 。 最初,计算器…

Spring Cloud Alibaba基础教程:Sentinel使用Apollo存储规则

上一篇我们介绍了如何通过Nacos的配置功能来存储限流规则。Apollo是国内用户非常多的配置中心,所以,今天我们继续说说Spring Cloud Alibaba Sentinel中如何将流控规则存储在Apollo中。 使用Apollo存储限流规则 Sentinel自身就支持了多种不同的数据源来…

评测 | CCKS2022-面向数字商务的知识图谱比赛重磅上线,奖金等你来拿!

转载公众号 | 夕小瑶的卖萌屋CCKS 2022面向数字商务的知识图谱评测赛题介绍阿里巴巴商品数据规模庞大,商品知识图谱为海量异构的商品数据的组织、管理和利用提供了有效的方式。商品数据模态丰富,动态性高,数据存在噪声,这些都对商…

安利几个优质NLP开源项目!搜索、问答、情感分析…

自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能&#xff…

Spring Cloud Alibaba基础教程:Sentinel使用Nacos存储规则

通过上一篇《使用Sentinel实现接口限流》的介绍,相信大家对Sentinel已经有了初步的认识。在Spring Cloud Alibaba的整合封装之下,接口限流这件事情可以非常轻易的整合到我们的Spring Cloud应用中。但是,通过上篇的整合,依然还不能…