论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

转载公众号 | 浙大KG


论文题目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining

本文作者:张宁豫(浙江大学)、邓淑敏(浙江大学)、张亦弛(阿里巴巴)、张伟(阿里巴巴)、陈华钧(浙江大学)等

发表会议:IJCAI 2021 (欢迎转载,转载请注明出处)

引言

近年来,有很多工作尝试将知识图谱等外部知识融入到BERT为代表的预训练语言模型中。但是,不少外部知识存在一定程度的噪音,且不少实体存在歧义。事实上,先前工作已发现预训练语言模型中捕获了相当数量的实体、常识知识,那么不加选择地将所有的外部知识融入语言模型真的最优么?本文探讨了语言模型中融入知识噪音的问题,并提出了一种基于频率采样和谱正则化的选择性知识融入方法。在基准数据集上的实验结果表明,我们的方法可以增强最新的知识注入的预训练语言模型。

一、前言

2018年以来,预训练语言模型的研究风起云涌。由于预训练过程缺乏对知识的捕捉,学者们提出不少将知识融合预训练语言模型的方法如ERNIE[1]、KnowBERT[2]、CoLake[3]等。知识的融入的确提升了不少知识密集型任务如关系抽取、实体分类等的效果。然而,外部知识中存在相当程度的噪音。一方面,由于实体的歧义性,文本可能会被融入完全错误、不相关的实体知识。比如,对于“qq飞车小橘子”这句话,如果将水果“小橘子”的实体知识融入语言模型,对语义理解反而可能会其负面作用。另一方面,并不是所有的三元组知识都能促进语义理解。比如对于“斯蒂芬·库里和克莱·汤普森带领勇士队勇夺2015年nbva冠军”这句话,三元组知识(斯蒂芬·库里,女儿,赖利)在可能对理解语义起不到多少帮助。事实上,CokeBERT[4]和K-BERT[5]都曾在实验中发现,不加选择的融入知识并非最优。

从另一个角度,2019年Allan 发表在EMNLP2019的论文[6]及一些后续工作[7,8,9]指出,预训练语言模型在参数空间其实学习到了大量的实体、常识知识,甚至可以作为一个连续型知识库,这启发了我们思考:语言模型注入的知识真的越多越好么?外部的噪音知识对模型有什么影响呢?我们有没有办法对知识加以选择更好地进行知识注入呢?其实,[10]中有学者发现,不加选择的注入实体知识并不一定会带来知识密集型任务性能的提升。受到这些工作启发,我们首先分析了知识中噪音对预训练语言模型的影响。

二、分析

我们首先采样了部分实体和实例,并根据实体频率分析不同知识注入的差异,其次分析了知识噪音对模型的影响。由于很难判断知识图谱中究竟有多少噪音,因此我们采取人工控制噪音的方式来分析,这里的噪音主要是指实体的歧义性。我们通过实体替换的方式来人工制造知识噪音。

如上图a所示,我们发现对于低频实体而言,注入实体的增益相对较大,这一发现也同[10]中的结论类似。在图b中,我们发现,随着噪音的注入,模型性能显著下降。这一发现也同[11]中的随机扰动知识图谱导致的结论一致。由此我们发现,一般来说,知识噪音会损害模型性能(极少数情况噪音会修复知识图谱中错误的关联关系进而提升鲁棒性,见[11])。基于此发现,我们可以通过频率对知识进行选择,以注入对模型更加有用的知识,减少噪音注入的可能性。

受到迁移学习中负迁移理论的启发[12,13],我们进行进一步分析。我们对知识注入模型的权重和特征及其奇异值进行分析,以验证语言模型是否可以适用于负迁移理论。

具体的说,我们对预训练语言模型的最后一层输出特征进行SVD分解,并比较模型在给定15%、30%、50%和100%训练样本时奇异值的情况,如下公式所示:

如下图所示,我们发现在下游任务微调过程中,模型特征的尾部奇异值往往会自动下降,这一发现也和论文[13]中结论一致,也就说注入的噪音知识可以类比成迁移学习中造成负迁移的原因之一。基于此发现,我们可以直接对尾部奇异值进行约束,以减轻源领域(注入了噪音的语言模型)对下有任务的影响。

三、方法

方法包含两部分,首先我们提出一种基于频率的实体采样算法来选择知识(这一方法不需要额外参数,也可以基于注意力机制来选择知识如[14])。先前的工作表明,语言模型其实已经掌握了大部分高频实体知识,因此我们对预训练语料(维基百科)中的高频实体设置一个较低的权重,鼓励模型注入低频实体。

然而,由于知识图谱中存在大量一对多、多对一的事实知识,这部分知识高频实体也较难习得,且这些实体包含的信息相对较为丰富,因此,我们提高同一个文档内的实体间跳数较少的实体的采样权重(超参数控制),具体采样公式如下:

其次,我们采用了一种谱正则技术来减轻噪音对微调的影响。一般来说传统的机器学习模型可以通过对参数或特征进行正则来减轻迁移学习的负迁移现象,然而对于语言模型,其参数维度远大于特征维度,因此我们仅对特征进行正则。我们对语言模型的输出特征进行SVD分解,并对尾部k个特征值进行约束:

整体的模型图如下:

四、实验

我们基于维基百科重新进行了知识注入预训练(ERNIR,KnowBERT),并在多个知识密集型数据集上进行了实验,如下表所示,我们的方法在大多数数据集上都取得了较好的效果。此外,我们还发现,通过知识选择和正则化,我们的方法在GLUE上的性能下降小于原始的知识注入模型。

五、总结与展望

在本文中,我们分析了知识噪音对语言模型性能的影响,并提出一种基于知识选择的知识融入方法。随着人工神经网络技术的不断发展,数据驱动渐入天花板。尽管超大规模的预训练语言模型如GPT-3取得了令人惊艳的效果,它仍然经常闹笑话。数据+知识是驱动未来认知AI的重要路线之一。对于通用的、高频的实体、常识等知识,也许可以通过大规模预训练习得,然而更多的低频长尾知识、多元关联知识、复杂逻辑知识,数据驱动的方法较难使模型具备相应的能力,可能知识注入和融合符号化推理的方式更加有效。我们的工作探讨了如何更好的利用知识,但仍然有模型训练慢、知识选择相对Ad hoc等不足。在未来很多可以改进的方向如:

1)深入探索哪些知识对神经网络更有用?

神经网络通过海量的数据预训练可能已经在参数空间习得部分知识,这些连续空间的参数更加有利于机器去适应下有任务,[15]探索了模型究竟掌握了哪些常识知识,仍需要更多的工作去探索神经网络的能与不能。

2)如何高效注入知识?

符号化知识和向量化表征存在显著的异构性,[16]提出了一种基于Graph-to-text的方式减轻了数据差异,然而对于大多数人类可读的知识,如何高效的将其转换为机器可理解的方式,并注入模型中,仍面临较大挑战。

3)如何更新模型中的知识?

互联网每天会产生海量的新文本,人类知识也在不断更新,比如在不同时间阶段三元组知识(美国,现任总统,特朗普)会更新为(美国,现任总统,拜登)。因此,如何更新预训练语言模型参数空间的知识面临研究挑战。[17]对这一问题进行了初步探索。事实上,降低预训练语言模型的迭代成本,使得模型低碳、经济、环保具有非常重要的现实意义。

4)如何解耦模式识别和符号推理?

神经网络由于其强大的非线性拟合能力,使其在一定程度上具备超越人类的模式识别能力。然而,对于一些基本的常识、数值、逻辑推理问题,预训练语言模型经常闹笑话。融合数据和知识,进行神经符号化学习可能是使机器具备推理能力的重要技术路线之一。然而神经网络的向量空间高度抽象,符号空间相对离散,如何针对具体任务将符号表示Grounding到向量空间,解耦模式识别和符号推理仍面临严峻挑战。

[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL2019

[2] Knowledge Enhanced Contextual Word Representations. EMNLP2019

[3] CoLAKE: Contextualized Language and Knowledge Embedding.COLING2020

[4] CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models

[5] K-BERT: Enabling Language Representation with Knowledge Graph.AAAI2020

[6] Language Models as Knowledge Bases? EMNLP2019

[7] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries.

[8] How can we know what language models know

[9] Language Models are Open Knowledge Graphs.

[10] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL2020

[11] Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ICLR2020

[12] Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation. ICML2019

[13] Catastrophic Forgetting Meets Negative Transfer: Batch Spectral Shrinkage for Safe Transfer Learning. NeurIPS 2020

[14] Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI2018

[15] Dimensions of Commonsense Knowledge

[16] Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation. AAAI2021

[17] Knowledge Neurons in Pretrained Transformers


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

圆形的CNN卷积核?华中大清华康奈尔提出圆形卷积,进一步提升卷积结构性能!...

文 | 小马编 | 极市平台写在前面目前正常卷积的感受野大多都是一个矩形的,因为矩形更有利于储存和计算数据的方便。但是,人类视觉系统的感受野更像是一个圆形的。因此,作者就提出,能不能将CNN卷积核的感受野也变成圆形呢&#xff…

Android自定义Lint实践

Android Lint是Google提供给Android开发者的静态代码检查工具。使用Lint对Android工程代码进行扫描和检查,可以发现代码潜在的问题,提醒程序员及早修正。 为保证代码质量,美团在开发流程中加入了代码检查,如果代码检测到问题&…

关于PaddleNLP如何加载训练好的模型进行NER

关于PaddleNLP如何加载训练好的模型进行NER 关于PaddleNLP如何加载训练好的模型进行NER 当时在如何加载已经训练好的模型的问题上花了很长时间,后来也是受另一篇文章启发,问题才得以解决,此文章写的很详细,所以不再详细介绍&#…

论文浅尝 | 利用机器翻译和多任务学习进行复杂的知识图谱问答

笔记整理 | 谭亦鸣,东南大学博士生。来源:EACL‘21链接:https://www.aclweb.org/anthology/2021.eacl-main.300.pdf概述知识图谱问答过程一般包括实体链接,多跳推理等步骤,传统方法将各个步骤作为模块单独处理&#xf…

LeetCode 134. 加油站(贪心)

文章目录1. 题目2. 解题1. 题目 在一条环路上有 N 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。 …

诺奖级成果开源!为什么说AlphaFold2足以改变全人类?

文 | 炼丹学徒编 | 小轶前天,AlphaFold2开源,相信大家被大大小小的公众号刷屏了。谷歌Deepmind团队此前使用基于Transformer的模型,在CASP14比赛上,刷新蛋白质三维结构预测的新高度,而详细论文,代码&#x…

美团外卖前端可视化界面组装平台 —— 乐高

乐高,是美团点评一个快速搭建后台系统页面的平台。名称来源于大家熟悉的丹麦知名玩具品牌,他们的玩具都是通过组合易拆卸、装配的零件,形成最终的作品。经过长期的发展,乐高品牌渐渐有了“快乐、想象、创意的未来”的寓意。 随着外…

[Paddle2.0学习之第四步](下)词向量之CBOW

[Paddle2.0学习之第四步](下)词向量之CBOW:https://blog.csdn.net/qq_41976613/article/details/118977184

论文浅尝 | 主题驱动的分子图表示对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习。论文地址:https://arxiv.org/abs/2012.12533动机与贡献现有的对比学习框架中可能存在以下几个弊端:1.把节点看成一种视图,在节点和图之间进行对比学…

LeetCode 931. 下降路径最小和(DP)

文章目录1. 题目2. 动态规划解题1. 题目 给定一个方形整数数组 A,我们想要得到通过 A 的下降路径的最小和。 下降路径可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选元素最多相隔一列。 示例: 输…

到2021年,目前深度学习领域有哪些除了调模型以外的硬核研究工作和进展?

文 | 刘斯坦,电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白,一方面为深度学习的实际效果和应用价值而感到兴奋,另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是,调模型的强应用向的研究工作,由…

美团点评SQL优化工具SQLAdvisor开源

在数据库运维过程中,优化 SQL 是 DBA 团队的日常任务。例行 SQL 优化,不仅可以提升程序性能,还能够降低线上故障的概率。 目前常用的 SQL 优化方式包括但不限于:业务层优化、SQL逻辑优化、索引优化等。其中索引优化通常通过调整索…

使用flask调用接口去加载模型和数据集,避免每次运行都会重复加载数据集或模型,节约大量等待时间

配置python程序debug/run,避免每次运行都会重复加载数据集或模型,节约大量等待时间 使用轻量级的后端框架flask运行要加载的模型,作为后端,保持在后端运行 调用程序时直接使用url访问即可 需要用到的依赖包: pip inst…

LeetCode 295. 数据流的中位数(大小堆)

文章目录1. 题目2. 大小堆解题1. 题目 中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。 例如, [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 3) / 2 2.5设计一个支持以下两种操作的数据结构:void addNum(int…

论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

笔记整理 | 朱珈徵,天津大学硕士。链接:https://arxiv.org/pdf/2009.11692.pdf动机尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要对基础常识知识进行推理的情况下,它们仍然会受到影响。现有的方法…

成本砍砍砍!不用数据也能用 BERT 做对比学习?

文 | 小昌编 | 小戏大家好,我是小昌,今天和大家聊一聊如何从 BERT 中获取好的句子表征。大家都知道,BERT 的设计初衷是为了获得更好的单词表征。但是,利用 BERT 来表征句子的需求无论在学术界还是工业界都是非常紧迫的。因此&…

Mt-Falcon——Open-Falcon在美团点评的应用与实践

监控系统是整个业务系统中至关重要的一环,它就像眼睛一样,时刻监测机房、网络、服务器、应用等运行情况,并且在出现问题时能够及时做出相应处理。 美团点评刚开始使用的是Zabbix监控系统,几经优化,在当时能够达到2W机器…

paddlenlp 任务清单 中文分词、中文纠错、文本相似度、情感分析、词性标注等一键

PaddleNLP Taskflow https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md#paddlenlp-taskflow PaddleNLP Taskflow PaddleNLP Taskflow 介绍 任务清单 用法 查看使用示例中文分词词性标注命名实体识别文本纠错句法分析情感分析文本相似度『解…

论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划

笔记整理 | 韩振峰,天津大学硕士。链接:https://ojs.aaai.org//index.php/AAAI/article/view/6474动机 之前有关开放域对话生成的神经模型没有有效的机制来管理聊天主题,并且往往会生成不连贯的对话。受到人与人对话策略的启发,本…

LeetCode 378. 有序矩阵中第K小的元素(二分查找)

文章目录1. 题目2. 解题2.1 暴力法2.2 二分查找1. 题目 给定一个 n x n 矩阵,其中每行和每列元素均按升序排序,找到矩阵中第k小的元素。 请注意,它是排序后的第k小元素,而不是第k个元素。 示例: matrix [[ 1, 5, 9],[10, 11,…