论文浅尝 | 基于注意力图卷积神经网络的依存驱动关系抽取

bd97cc6e775035fa3e11fed0c7bf670a.png

笔记整理:王大壮

论文链接:https://aclanthology.org/2021.acl-long.344.pdf

动机

句法信息,特别是依存树,已经被广泛应用于关系提取,以更好地分析与给定实体相关联的上下文信息。然而大多数现有的研究都饱受依赖树噪声的影响,特别是当它们自动生成时。由于直接利用依存信息可能会引入混淆,所以需要对依存信息进行筛选。为此,本文通过注意力图卷积神经网络(A-GCN)来辨别不同词依存的重要性,同时考虑到不同依存关系类型对关系分类的作用,在模型中也引入了依存关系类型的信息。

论文方法

关系抽取旨在辨别给定文本中提及的实体之间的关系。

本文方法可以分为以下两步,模型整体框架如下:

018e86b98bb57b75dfb6be2d4c5872c3.png

1.考虑依存类别的注意力图神经网络

a)通过依存句法树构建邻接矩阵A(存储两次之间是否存在依存关系:两词之间有关系为1,没关系为0);

b)构建依存类别邻接矩阵T(存储两词之间依存关系类别,比如nsubj)

c)对于每层A-GCN网络,给定上一层第i个词(表示为  )和第j个词(表示为  ),可以从T中得到对应关系类型,经嵌入表示为  。

(1)首先使用下式求得第i个词的中间表示:

5e786baeaaea7c6f23ad3ef054166507.png

同理求得第j个词的中间表示:

a2b1378eab6e6364c5c0cb9b42e6277f.png

(2)考虑到不同依存关系应该具有不同的权重。用下式计算当前依存关系的权重:

069e03fef66a76bd567c755607e895e7.png

其中,  对应矩阵A(两词之间有关系为1,没关系为0)中的元素。

(3)下一层第i个词的表示经下式得到(加权求和):

7d8727b07b108a0cffc25d8520a25c63.png

其中,W、b代表一个线性层的参数,  代表相应权重,  是依存关系类型增强(考虑到依存关系类别对关系抽取的影响)的词表示,由下式计算:

a33f06c981eae8f3ac1d44695c563a7c.png

2.使用A-GCN的关系分类

(1)将输入文本经过BERT得到隐层表示,第i个词表示为  ,将  传入A-GCN模型得到第L层的输出  。

(2)接着使用最大池化对属于实体描述范围的词的隐层表示进行处理:

e6b77c0b9b4b7f3507c2880cfef0e6e1.png

(3)接着用整句文本(  )的表示和两个实体( 、 )的表示进行拼接,然后使用一个可训练矩阵来得到输出空间的向量:

9144181ce9d1ca9563ea0bd22bb26619.png

(4)最后应用一个softmax函数来预测两个实体之间的关系:

ac14ce0e592e78ac263ff76e0fa98ddb.png

实验

1.实验首先设计了以下几个变量进行比较,实验结果如下:

a)采用BERT-base 或BERT-large

b)进行依存剪枝L+G 或不剪枝Full

c)使用一般的GCN 和GAT

d)对于GCN 和A-GCN使用了不同的层数进行比较

a15a89517f7ceffb56d6decdaba73567.png

1)使用A-GCN的模型均比BERT-base和BERT-large要好。

2)在所有的数据集同样的设置下,A-GCN均比GAT和GCN的基线要好。

3)对于使用A-GCN的模型,进行依存剪枝L+G的效果均比Full好。

4)使用A-GCN的模型在两层时达到最佳性能。

2.使用上述实验得到的最佳模型设置和之前工作的比较:

88596904694488229f44c3937d49ca4c.png

可以看到提出的模型达到了最佳效果。

3.使用不同依存信息的比较:

49e679b7c20faaa15e0c0bc4b210610d.png

4.消融实验(注意力机制+依存类型)

a14dae54fcf08c7ccdd8e8c459b29996.png

总结

该论文提出了一种基于注意力图卷积神经网络来利用依存信息用于关系抽取的方法,通过注意力机制来对依存关系及其类型进行加权,从而更好地区分重要的依存信息并加以利用,使得A-GCN可以动态地学习不同的依存关系并剪枝掉无用的依存信息。在两个英文基准数据集上的实验结果证明了提出方法的有效性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

e9976295fb01efd4a73350e4455a737d.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

别再龟速炼丹了!聊聊怎样科学提升训练效率

文 | Horace He等编 | Juniper源 | 机器之心深度学习是门玄学?也不完全是。每个人都想让模型训练得更快,但是你真的找对方法了吗?在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来,这个问题应该分几步解决&#xff1a…

LeetCode 第 17 场双周赛(469/897,前52.3%)

文章目录1. 比赛结果2. 题目LeetCode 5143. 解压缩编码列表 easyLeetCode 5144. 矩阵区域和 mediumLeetCode 5145. 祖父节点值为偶数的节点和 mediumLeetCode 5146. 不同的循环子字符串 hard1. 比赛结果 做出来了1, 3两题,第2题在比赛结束后10分钟提交通过。 2.…

Spring Cloud构建微服务架构:分布式配置中心【Dalston版】

Spring Cloud Config是Spring Cloud团队创建的一个全新项目,用来为分布式系统中的基础设施和微服务应用提供集中化的外部配置支持,它分为服务端与客户端两个部分。其中服务端也称为分布式配置中心,它是一个独立的微服务应用,用来连…

图谱实战 | 知识图谱在美团搜索酒旅场景认知中的应用

分享嘉宾:陈骐 美团 高级算法专家编辑整理:毛佳豪 中国平安浙江分公司(实习)出品平台:DataFunTalk导读:知识图谱凭借能够以图模型描述知识和世界万物关联关系的特性,在各行业领域大放异彩。与此同时,知识图…

AI技术在空气净化机器人中的高能应用

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Spring Cloud构建微服务架构:服务消费(Feign)【Dalston版】

通过前两篇《Spring Cloud构建微服务架构:服务消费(基础)》和《Spring Cloud构建微服务架构:服务消费(Ribbon)》,我们已经学会了在Spring Cloud中基本的服务调用方式。本文我们将继续介绍Spring…

LeetCode 1317. 将整数转换为两个无零整数的和

1. 题目 「无零整数」是十进制表示中 不含任何 0 的正整数。 给你一个整数 n,请你返回一个 由两个整数组成的列表 [A, B],满足: A 和 B 都是无零整数A B n 题目数据保证至少有一个有效的解决方案。 如果存在多个有效解决方案&#xff…

预训练模型对实体的表示能力差?一个简单有效的解法来了(开源)

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

图谱实战 | 深度应用驱动的医学知识图谱构建

分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任编辑整理:李杰 京东出品平台:DataFunTalk导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的经验、心得分享给大家&#…

朴素贝叶斯法(Naive Bayes,NB)

文章目录1. 朴素贝叶斯法的学习与分类1.1 基本方法2. 参数估计2.1 极大似然估计2.2 学习与分类算法2.2.1 例题2.2.2 例题代码2.3 贝叶斯估计(平滑)2.3.1 例题2.3.2 例题代码3. 自编程实现NB4. sklearn.naive_bayes1. 朴素贝叶斯法的学习与分类 1.1 基本…

《Easy RL:强化学习教程》出版了!文末送书

作为人工智能里最受关注的领域之一,强化学习的热度一直居高不下,但它的学习难度也同样不低。在学习强化学习的过程中,遇到了有无数资料却难以入门的问题,于是发起了Datawhale强化学习项目,希望自学的同时帮助更多学习者…

Spring Cloud构建微服务架构:服务消费(基础)【Dalston版】

通过上一篇《Spring Cloud构建微服务架构:服务注册与发现》,我们已经成功地将服务提供者:eureka-client或consul-client注册到了Eureka服务注册中心或Consul服务端上了,同时我们也通过DiscoveryClient接口的getServices获取了当前…

论文浅尝 | Temporal Knowledge Graph Completion Using Box Embeddings

笔记整理:杨露露,天津大学硕士论文链接:https://www.aaai.org/AAAI22Papers/AAAI-6210.MessnerJ.pdf动机时态知识图谱补全(TKGC)中的主要挑战是额外学习时间戳嵌入,以便嵌入模型根据关系、实体和时间戳嵌入…

别再无脑wwm了,在下游任务中不一定有效

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)

文章目录1. Logistic Regression 模型1.1 logistic 分布1.2 二项逻辑斯谛回归模型1.3 模型参数估计1.4 多项逻辑斯谛回归1.5 Python代码2. Maximum Entropy 模型2.1 最大熵原理2.2 最大熵模型的定义2.3 最大熵模型的学习2.4 例题3. 模型学习的最优化算法4. 鸢尾花LR分类实践1. …

Spring Cloud构建微服务架构:服务注册与发现(Eureka、Consul)【Dalston版】

已经有非常长的时间没有更新《Spring Cloud构建微服务架构》系列文章了,自从开始写Spring Cloud的专题内容开始就获得了不少的阅读量和认可,当然也有一些批评,其中也不乏一些很中肯的意见和深度的问题,对我来说也是进一步提高的契…

虚拟专辑丨知识图谱

虚 拟 专 辑 “武大学术期刊”的“虚拟专辑” 旨在将已发表在武汉大学科技期刊中心旗下期刊的论文以时下热点领域按主题重新组合,集中推送,以方便不同专业领域的读者集中查阅、追踪最新研究成果。此次推送的“知识图谱”虚拟专辑,为近几年发…

prompt你到底行不行?

文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风,但是玩完后发现太菜了所以连文章都没写,刚好今天工作比较闲就来写写了。 先上结论,连续prompt为运用大模型提供了一种思路,其实这种思路早就见过不少了。。。…

LeetCode 1323. 6 和 9 组成的最大数字

1. 题目 给你一个仅由数字 6 和 9 组成的正整数 num。 你最多只能翻转一位数字,将 6 变成 9,或者把 9 变成 6 。 请返回你可以得到的最大数字。 示例 1: 输入:num 9669 输出:9969 解释: 改变第一位数字…

Spring Cloud实战小贴士:Zuul统一异常处理(二)

在前几天发布的《Spring Cloud实战小贴士:Zuul统一异常处理(一)》一文中,我们详细说明了当Zuul的过滤器中抛出异常时会发生客户端没有返回任何内容的问题以及针对这个问题的两种解决方案:一种是通过在各个阶段的过滤器…