论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

笔记整理 | 谭亦鸣,东南大学博士


来源:  ACL 2020

链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf

资源:https://github.com/bernhard2202/intkb.

概述

知识库作为许多下游NLP任务的资源基础,存在的一个普遍缺陷是它的不完整性。目前最好的知识库补全框架则缺乏足够的准确性,无法在脱离人工监督的情况下完全自动化的完成知识补全。因此,作为弥补方案,本文提出了IntKB,一种基于问答pipeline的交互式图谱补全框架。该框架的设计面向“人在回路”范式的特性需求:i. 该系统生成的事实与文本片段一致,可由人类直接验证。ii. 该系统设计为可在知识库补全过程中不断学习,因此能够使zero-或者few-shot的初始状态随着时间推移而显著提升性能。iii. 当且仅当存在足够信息进行正确预测的情况下,才会出发与人的交互。因此,作者采用负例和无答案的fold-option来训练系统。该框架在实验中取得较好的性能:对于初始状态下的未见关系,它实现了29.7%的Hits@1,并且在此基础上,这个结果逐渐提高到46.2%。

方法

图1描述了本文所提方法的大致框架,主要包含三个过程:

1.Sentence selection:句子筛选模块的输入是一个不完整的三元组形如[h, r, _](同指查询),针对这个输入,返回一个经过排序的候选句子集(即可能涵盖尾实体(答案)的文本)。在这里,用于检索的文档被约束为与头实体h相关的文档子集,接着作者为每个句子建立基于tf-idf的向量表示(这里只考虑上述文档子集的idf而不是整个文档)。对于查询向量,论文使用关系类型的semantic names,并将每个关系类型转换为对应的tf-idf向量,而后计算每个句子和查询之间的相似性得分。该结果用于步骤2中的关系抽取。

2.Relation extraction: 关系抽取模型的输入是上一步中排序Top-n的句子,以及原始查询[h, r, _],每条句子都被转换成一条查询,而后输入BERT-QA模型,用于返回作为候选答案的文本区间。之后,作者将关系抽取视作阅读理解的一个特例(即“问”未知的尾实体),不同于过去需要构建问题模板的方式,这里通过关系类型的semantic names构建多个噪声关键词查询。因此,本文的知识库补全工作是在数据缺少的情况下进行的,且只使用知识库中的信息无需额外的人工监督。

3.Answer re-ranking:从BERT-QA获取到若干候选答案之后,最后一步就是对它们进行重排序。排序前,作者首先汇总所有具有匹配文本的候选答案,例如预测中多次出现了某个关键词,则合并这些候选答案为一个。而后使用前两步得到的候选答案的特征信息做排序(使用Kratzwald et al., 2019提出的方法),最终,得到对于[h, r, _]的预测候选。

面向知识库补全的Continuous Learning

1.冷启动

作者建议使用以下三步对框架进行初始化,首先是事实对齐,使用远程监督的方式将初始知识库中的事实与文本语料中的句子进行对齐,其次是对数据集中不存在的事实生成负例训练样本,再者,知识转移,通过训练将负样本和对齐的事实反馈到问答pipeline中。

2.基于用户反馈的持续提升

由于对训练中未见关系类型的预测是很困难的,因此这里作者通过交互机制,在标注过程中动态生成关于zero-shot关系的训练数据,所有用户正反馈的事实都会立刻添加到知识库中。

实验

本文针对其框架机制,构建了一个数据集,包括一个不完整知识库,一个文本语料(都是来自Wikidata的子集),知识库中的关系被分为已知关系(训练可见),和未知关系(训练中看不见,zero-shot)等两类。作者首先评估了模型在可见知识子集上的性能,而后评估了zero-shot子集上的性能,论文构建了两套baseline,分别为BERT-Sentence 与Na¨ıve QA pipeline,实验结果如以下两张表所示


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预训练模型的前世今生(有福利!)

近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展。而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注。通过大数据预训练加小数据微调,自然语言处理任务的解决,无须再依赖大量…

LeetCode 337. 打家劫舍 III(记忆化+递归)

文章目录1. 题目1.1 相关题目:2. 解题2.1 递归2.2 记忆化递归1. 题目 在上次打劫完一条街道之后和一圈房屋后,小偷又发现了一个新的可行窃的地区。这个地区只有一个入口,我们称之为“根”。 除了“根”之外,每栋房子有且只有一个…

孵化业务快速落地与优化

海外酒店是酒旅事业群第一个孵化的业务,从2016年9月份开始到现在已经半年多的时间。在业务后台搭建、成长、优化过程中,经历了很多的思考与选择。 主要分为下面几个阶段: 初建:调研、落地,合理复用,高效自建…

TPLinker 联合抽取 实体链接方式+源码分析

关系抽取–TPLinker: https://blog.csdn.net/weixin_42223207/article/details/116425447 Tagging TPLinker模型需要对关系三元组(subject, relation, object)进行手动Tagging,过程分为三部分: (1)entity head to enti…

论文浅尝 | KGAT: 用于推荐的知识图注意力网络

笔记整理 | 李爽,天津大学链接:https://arxiv.org/pdf/1905.07854v1.pdf动机为了提供更准确、多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助信息。传统的方法,如因子分解机(FM),将其视为…

对话系统答非所问?快试试这篇ACL'21的连贯性评估大法

文 | 页眉3编 | 小轶背景当我们在绞尽脑汁地想怎么设计一个对话系统的时候,我们当然希望最后训练出来的系统能越像人越好,输出的回复很连贯,很有趣,很体贴。而其中,连贯性可以说是最基本的要求之一了,毕竟不…

LeetCode 384. 打乱数组(rand)

1. 题目 打乱一个没有重复元素的数组。 示例:// 以数字集合 1, 2 和 3 初始化数组。 int[] nums {1,2,3}; Solution solution new Solution(nums);// 打乱数组 [1,2,3] 并返回结果。任何 [1,2,3]的排列返回的概率应该相同。 solution.shuffle();// 重设数组到它的初始状态[…

复杂语境下的实体关系抽取

复杂语境下的实体关系抽取 https://mp.weixin.qq.com/s/NAyuYMLDyx9Fut2blpvbRA

论文浅尝 - ACL2020 | 知识图谱补全方法的再评估

笔记整理 | 谭亦鸣,东南大学博士来源:ACL 2020链接:https://www.aclweb.org/anthology/2020.acl-main.489.pdf源码:http://github.com/svjan5/kg-reeval概述图谱补全(KGC)的目标是自动的预测大规模知识图谱…

美团数据库高可用架构的演进与设想

本文介绍最近几年美团MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新。同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望。 在2015年之前,美团&…

恕我直言,很多小样本学习的工作就是不切实际的

文 | ????????????????编 | 小轶以前的小样本学习(Few-shot Learning),是需要用一个巨大的训练集训练的。测试时只给出 n-way k-shot,在这 N * k 个样本上学习并预测。我第一次看到这种任务设定的时候真是非常失望…

LeetCode 204. 计数质数(质数的倍数不是质数)

1. 题目 统计所有小于非负整数 n 的质数的数量。 示例:输入: 10 输出: 4 解释: 小于 10 的质数一共有 4 个, 它们是 2, 3, 5, 7 。2. 填表解题 2的倍数不是质数3的倍数不是质数5的倍数,7的倍数,11的倍数。。。质数的倍数不是质数 class Solution { p…

论文浅尝 | 六篇2020年知识图谱预训练论文综述

转载公众号 | AI机器学习与知识图谱本文介绍六篇有关知识图谱预训练的优秀论文,大致上可分为两类,生成学习模型和对比学习模型。其中GPT-GNN模型是生成学习模型,模型灵感来源于自然语言处理中的GPT模型;GCC,GraphCL&am…

distutils.errors.DistutilsError: Could not find suitable distribution for Requirement.parse(‘setupto

distutils.errors.DistutilsError: Could not find suitable distribution for Requirement.parse(‘setupto: 解决办法 1、安装scm:pip install setuptools-scm 2、 升级pip:pip install --upgrade pip 3、安装setuptools:pip install set…

客户端自动化测试研究

测试作为质量保证极其重要的一环,在移动App开发流程中起到非常关键的作用。从开发工程师到测试工程师,人人都应具备良好的测试意识,将隐患和风险在上线之前找出并解决,可以有效的减少线上事故。 美团和大众点评App作为美团点评平台…

视觉增强词向量:我是词向量,我开眼了!

文 | 橙橙子亲爱的读者,你是否被各种千亿、万亿模型的发布狂轰乱炸,应接不暇,甚至有点产生对大模型的审美疲劳?出于这个目的,今天来分享一篇研究静态词向量的小清新文章。希望大家可以在理性追热的同时,小冶…

会议交流 | 知识图谱前沿技术与热门应用

长按上图或点击『阅读原文』免费报名随着人工智能技术的发展与应用,知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视,并且已经在很多领域、场景中体现出自身的价值。从最初的互联网搜索、推荐、问答等ToC场景,逐渐进入到垂直行业ToB…

PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别

PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别 https://mp.weixin.qq.com/s/mpSdV2_rk3SPlwPpcoUCdA

美团点评酒店后台故障演练系统

随着海量请求、节假日峰值流量和与日俱增的系统复杂度出现的,很有可能是各种故障。在分析以往案例时我们发现,如果预案充分,即使出现故障,也能及时应对。它能最大程度降低故障的平均恢复时间(MTTR)&#xf…

那些在家啃书自学算法的人,最后都找到工作了吗?

面试官手把手带你刷题AI岗位面试题 详解训练特惠免费0元在准备应聘的过程中,大部分同学关注点都在自己的技术水平以及项目经验是否能够比过其他人。但往往忽略了一点,你会的和你在面试中能完全讲清楚是两码事,如果不提前梳理好思路&#xff0…