论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

笔记整理 | 潘晓梅,东南大学硕士,研究方向为知识图谱构建、自然语言处理。


来源:EMNLP 2020.

论文下载地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf

项目源码地址: https://github.com/ccclyu/ComHyper

动机

Taxonomy中包含了结构的良好的词汇知识资源,对各种自然语言处理任务至关重要,包括问答、文本蕴含和文本生成等。当从零开始自动构建或填充手工创建taxonomy时,上下位关系检测任务起着核心作用。对于一对查询词  ,需要推断  和  之间是否存在上下义关系。

目前主要有两种方法,基于模式的方法和基于分布的方法。基于模式的方法有较高的精确度,但由于稀疏性问题导致召回率一般,并且目前已有的方法主要致力于解决第一类稀疏性问题;而基于分布的方法尽管适用范围更广,但整体表现较差,并且不足以填补基于模式方法由于第二类稀疏性问题带来的数据缺失。

为了解决以上问题,作者提出了一个补充框架ComHyper模型——综合了基于模式与基于分布方法在解决稀疏性问题上的优势。

1概要

1.1证明当前基于模式的方法的稀疏性问题是不可忽略的;

1.2提出一种基于Hearst和分布式模型互补的框架,使得二者更加充分地发挥效果;

1.3对几个常见的数据集进行了系统的比较,验证了框架的优越性。

2主要内容

2.1提出基于模式的方法的缺陷之一,稀疏性的两种表现形式(正式提出并量化论证):

2.1.1第一类稀疏性问题:x和y分别出现在一些提取的对中,但是(x, y)不存在;

2.1.2第二类稀疏性问题:x或y不包含在任何提取的配对中(看不见的关系)。

2.1.3研究现状:通过矩阵分解或嵌入技术仅能缓解第一类稀疏性,并不能推广到第二类。DIH能够利用上下文来提取出一些看不见的关系,但是效果仍然不如基于模式的方法。

2.2提出两个问题

2.2.1问题1:第二类问题在实践中常见吗?

经过对真实世界的语料进行分析,表明在实践中遇到第二类问题的概率甚至可以达到50%以上,因此这是不可忽略的。

论证:

(1)将“可见的词”定义为IP,而“不可见的词”定义为OOP,整个训练语料库包含的名词词汇定义为V。通过统计词频和基于Hearst模式得到的词汇进行统计分析计算两条曲线之间形成的面积得出实际场景中大概有19.9%的OOP情况,如图1所示。

图1 语料库中所有名词和IP名词的频率

(2)同时对几个数据集中的数据进行了统计对比,结果如图2 所示。

图2 几个数据集OOP类型数据占比结果

(3)结论:有了OOP的概率,可以估计出现第二类稀疏性情况的概率,即  中有任意一项是OOP的概率,通过计算估计出现第二类问题的概率在19.9%-35.8%之间,甚至可能超过50%。

2.2.2问题2:如何用分布的方法补充基于模式无效的看不见的数据?

2.3提出框架ComHyper:利用了基于模式的模型在第一类情况下的优越性能和第二类情况下分布模型的广泛覆盖性。具体来说,为了处理第二类稀疏性,ComHyper使用了一个训练阶段从基于模式的输出空间进行采样,用于另一个由不同上下位编码器实现的监督模型。在推理阶段,ComHyper使用这两个模型分别处理他们擅长的稀疏类型。框架结构如图3所示:

图3 从语料库中检测上下义关系的补充方法的总体框架

Pattern-Based Model:在整个框架中有两个重要作用:(1)从P(从语料库中提取的所有名词)进行统计和归纳,以评估  中pair;(2)通过采样器为后面的监督训练提供训练样本,用于训练分布模型。

Distributional Model:训练一个监督神经网络模型,输入为上下词对的上下文向量,训练点积用于分类(0或1)。

Training the Distributional Model:损失函数设置如下:

Encoding Queried Words:

(1)Transformed Word Vector:预训练词嵌入,采用预训练的向量并通过多层感知机MLP得到嵌入向量。

(2)NBOW with MEAN-Pooling:  是x的上下位语料,针对们每一个词汇c,通过预训练得到c的每一个  ,求得平均得到c向量,在通过MLP得到输入向量。但是这样的方法忽略了上下文单词的顺序,可能不能很好的保留语义。

(3)CONTEXT2VEC with MEAN-Pooling:使用context2vec编码器代替NBOW,分别使用两个方向相反的LSTM对c进行编码;

(4)Hierarchical Attention Networks.:将注意力放在不同的上下文单词和文本上,通过前馈神经网络来估计每个单词的重要性。

3数据集

3.1Is-a关系数据集:用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》发布的421K is-a关系pair。

3.2语料库:用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword语料库。

3.3评估数据集:BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)

4实验过程和实验结果

4.1实验过程:在框架中采用SVDPPMI作为基于模式的模型。用Skip-Gram在语料库上预先训练300维的单词嵌入,以便使用分布模型。比较了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks几种嵌入方式对实验结果的影响。编码器的输出向量维度设置为300。Batch=128,学习率设置为0.003。

4.2实验结果:

(1)如图4所示,在OOP上的表现,除了Leads数据集,模型都比其他方法有一个更好的表现。尤其是在BLESS数据集上,其cosine余弦相似度的准确率为0(这是由于余弦相似度的对称性),但论文中提出的模型准确率可以达到0.975。

图4 在OOP数据上的实验结果

(2)在所有查询对上的实验结果如图5所示,与仅仅只是基于模式的方法和仅仅只是基于监督模型的方法作对比,发现除了在词汇蕴含上论文方法表现不如基于模式的方法外,在其他几个数据及上都明显比另外两个单独的方法表现更好。其中,表现最好的是HAN。

图5 在“所有查询对”上的实验结果

5评估方法

5.1采用三个子任务来评估:(1)排序上位词预测:使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等数据集进行准确率评估,正例的预测的排名应该高于负例;(2)上下位词的方向确定:确定一对中哪个词的意义更广;(3)分级蕴含:预测HYPERLEX上的标量分数,评估真实标签和预测分数之间的相关性ρ。

6总结

6.1将基于模式的方法与基于分布的方法相结合,并提出了一个互补框架来检测上下位关系。

6.2正式定义和描述了稀疏性的两种表现形式,并论证了第二类稀疏性情况的普遍存在性与不可忽略性。

6.3实验对比分析验证了互补框架能够综合两种方法在解决两类稀疏性问题上的优势,从而提升预测上下位的表现。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 连接 rabbitMQ以及rabbitMQssl注意事项,password

pip3 install pika1.1.0官方对于pika有如下介绍# Since threads aren’t appropriate to every situation, it doesn’t require threads. Pika core takes care not to forbid them, either. The same goes for greenlets, callbacks, continuations, and generators. An inst…

LeetCode 887. 鸡蛋掉落(DP,难、不懂)

1. 题目 你将获得 K 个鸡蛋&#xff0c;并可以使用一栋从 1 到 N 共有 N 层楼的建筑。 每个蛋的功能都是一样的&#xff0c;如果一个蛋碎了&#xff0c;你就不能再把它掉下去。 你知道存在楼层 F &#xff0c;满足 0 < F < N 任何从高于 F 的楼层落下的鸡蛋都会碎&…

正确的LeetCode刷题姿势!

名师 带你刷爆LeetCode算法知识 讲解训练免费0元报名参加在讲到 AI 算法工程师时&#xff0c;大部分同学关注点都在高大上的模型&#xff0c;一线优秀的项目。但大家往往忽略了一点&#xff0c;人工智能的模型、项目最终还是要靠程序和算法实现。算法能力是每一个程序员的基本功…

论文浅尝 | DI刊发的那些有关Knowledge Graph的论文

本文转载自公众号&#xff1a;数据智能英文刊知识图谱被称为人工智能的基石&#xff0c;它的前身是语义网&#xff0c;由谷歌在2012年率先提出&#xff0c;用于改善自身的搜索业务。Data Intelligence执行主编、东南大学计算机科学与技术学院漆桂林教授这样定义知识图谱&#x…

缓存那些事

本文已发表于《程序员》杂志2017年第3期&#xff0c;下面的版本又经过进一步的修订。 一般而言&#xff0c;现在互联网应用&#xff08;网站或App&#xff09;的整体流程&#xff0c;可以概括如图1所示&#xff0c;用户请求从界面&#xff08;浏览器或App界面&#xff09;到网络…

浅析消息队列 RabbitMQ

浅析消息队列 RabbitMQhttps://www.pianshen.com/article/4275953257/

LeetCode 42. 接雨水(双指针、单调栈)

文章目录1. 题目2. 解题2.1 正反扫描法2.2 双指针2.3 单调栈1. 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图&#xff0c;在这种情况下&am…

论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

转载公众号 | 浙大KG论文题目&#xff1a;Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining本文作者&#xff1a;张宁豫&#xff08;浙江大学&#xff09;、邓淑敏&#xff08;浙江大学&#xff09;、张亦弛&#xff08;阿里…

圆形的CNN卷积核?华中大清华康奈尔提出圆形卷积,进一步提升卷积结构性能!...

文 | 小马编 | 极市平台写在前面目前正常卷积的感受野大多都是一个矩形的&#xff0c;因为矩形更有利于储存和计算数据的方便。但是&#xff0c;人类视觉系统的感受野更像是一个圆形的。因此&#xff0c;作者就提出&#xff0c;能不能将CNN卷积核的感受野也变成圆形呢&#xff…

Android自定义Lint实践

Android Lint是Google提供给Android开发者的静态代码检查工具。使用Lint对Android工程代码进行扫描和检查&#xff0c;可以发现代码潜在的问题&#xff0c;提醒程序员及早修正。 为保证代码质量&#xff0c;美团在开发流程中加入了代码检查&#xff0c;如果代码检测到问题&…

关于PaddleNLP如何加载训练好的模型进行NER

关于PaddleNLP如何加载训练好的模型进行NER 关于PaddleNLP如何加载训练好的模型进行NER 当时在如何加载已经训练好的模型的问题上花了很长时间&#xff0c;后来也是受另一篇文章启发&#xff0c;问题才得以解决&#xff0c;此文章写的很详细&#xff0c;所以不再详细介绍&#…

论文浅尝 | 利用机器翻译和多任务学习进行复杂的知识图谱问答

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生。来源&#xff1a;EACL‘21链接&#xff1a;https://www.aclweb.org/anthology/2021.eacl-main.300.pdf概述知识图谱问答过程一般包括实体链接&#xff0c;多跳推理等步骤&#xff0c;传统方法将各个步骤作为模块单独处理&#xf…

LeetCode 134. 加油站(贪心)

文章目录1. 题目2. 解题1. 题目 在一条环路上有 N 个加油站&#xff0c;其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车&#xff0c;从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发&#xff0c;开始时油箱为空。 …

诺奖级成果开源!为什么说AlphaFold2足以改变全人类?

文 | 炼丹学徒编 | 小轶前天&#xff0c;AlphaFold2开源&#xff0c;相信大家被大大小小的公众号刷屏了。谷歌Deepmind团队此前使用基于Transformer的模型&#xff0c;在CASP14比赛上&#xff0c;刷新蛋白质三维结构预测的新高度&#xff0c;而详细论文&#xff0c;代码&#x…

美团外卖前端可视化界面组装平台 —— 乐高

乐高&#xff0c;是美团点评一个快速搭建后台系统页面的平台。名称来源于大家熟悉的丹麦知名玩具品牌&#xff0c;他们的玩具都是通过组合易拆卸、装配的零件&#xff0c;形成最终的作品。经过长期的发展&#xff0c;乐高品牌渐渐有了“快乐、想象、创意的未来”的寓意。 随着外…

[Paddle2.0学习之第四步](下)词向量之CBOW

[Paddle2.0学习之第四步]&#xff08;下&#xff09;词向量之CBOW&#xff1a;https://blog.csdn.net/qq_41976613/article/details/118977184

论文浅尝 | 主题驱动的分子图表示对比学习

笔记整理 | 方尹&#xff0c;浙江大学在读博士&#xff0c;研究方向&#xff1a;图表示学习。论文地址&#xff1a;https://arxiv.org/abs/2012.12533动机与贡献现有的对比学习框架中可能存在以下几个弊端&#xff1a;1.把节点看成一种视图&#xff0c;在节点和图之间进行对比学…

LeetCode 931. 下降路径最小和(DP)

文章目录1. 题目2. 动态规划解题1. 题目 给定一个方形整数数组 A&#xff0c;我们想要得到通过 A 的下降路径的最小和。 下降路径可以从第一行中的任何元素开始&#xff0c;并从每一行中选择一个元素。在下一行选择的元素和当前行所选元素最多相隔一列。 示例&#xff1a; 输…

到2021年,目前深度学习领域有哪些除了调模型以外的硬核研究工作和进展?

文 | 刘斯坦&#xff0c;电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白&#xff0c;一方面为深度学习的实际效果和应用价值而感到兴奋&#xff0c;另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是&#xff0c;调模型的强应用向的研究工作&#xff0c;由…