论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全

笔记整理 | 谭亦鸣,东南大学博士生


概述

预测图谱中缺失的事实(fact)是知识图谱构建与推理中的一个重要任务,近年来也被许多KG embedding研究的关注对象。虽然目前的KG embedding方法主要学习和预测的是单个图谱中的事实,但是考虑到KG之间不同规模,不同质量和覆盖面的差异,一个更加合理的解决方案是将其应用于多语言知识上。由于知识在不同KG之间的传递往往收到描述不一致和对齐信息缺失的问题,因此(多语言知识图谱上的补全)这是一个具有挑战性的任务。本文提出了KEnS,一个新的框架,可以用于embedding学习以及在多个特定语言KG上集成知识并相互转换。KEnS将所有的KG embed进一个共享空间,通过self-learning捕获关联实体,之后执行集成推理从而将多语言KG embedding上的预测结果联合起来。作者探究了多种联合的模式,在五个真实多语言KG上的实验表明,通过有效识别和利用补充的知识,KEnS在补全任务上进一步提升了SOTA方法的性能。

方法

图1描述了KEnS的集成推理过程,该模型首先联合多语言KG embedding模型的预测结果,然后从那些结果中找出可能性最大的答案,从而提升图谱补全的性能。KEnS包括两个主要过程:1. Embedding学习;2. 集成推理。前者将每个KG的实体和关系编码进一个共享的embedding空间(类似于对齐模型的做法),这使得模型支持跨不同KG的查询。集成推理过程联合来自不同KG的预测结果,并且为了进一步提高每个KG上预测的可靠性,作者引入了一种增强方法来学习知识模型的实体特定权重。

下面分别对KG embedding及集成推理的细节进行说明:

在embedding方面,包含知识模型与对齐模型两个部分,其中知识模型的学习目标可以通过公式1表示:

其中[·]+=max(·, 0),f是一个三元组打分函数,越高的得分表明该三元组描述的事实越可靠,是一个超参数,则表示通过随机替换生成的的负例,在f函数方面,作者考虑了TransE以及RotatE两种方式:

在对齐模型方面,其学习目标如公式4(通过训练使对齐实体之间的向量距离尽可能小):

两者整合的目标函数为:

集成推理部分,首先KEnS通过对齐模型预测多语言图谱之间的实体对齐,基于对齐实体,将query转换到其他KG上,获取结果之后再通过对齐转换回初始KG,接着对于获取的候选结果,利用公式6对其进行加权:

其中,e表示目标KG上的一个实体,wi(e)表示一个实体特定模型权重,当e在KGi的embedding模型fi上排在Top-K, 则Ni(e)为1,否则Ni(e)为0。这里在w的计算上,作者构建了三种变体,其一是利用boosting方法对每个实体学习特定权重,其二是对所有实体和embedding模型修正权重为1,其三则是使用embedding模型f在验证集上的mean reciprocal rank(MRR)作为权重。

实验

数据方面,由于目前还没有一个面向多语言补全的数据集,因此他们收集了一个涵盖英语,法语,西班牙语,日语以及希腊语等语言的DBpedia子集,并命名为DBP-5L,其上的预测结果如标2所示:


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LsLoader——通用移动端Web App离线化方案

由于JavaScript(以下简称JS)语言的特性,前端作用域拆分一直是前端开发中的首要关卡。从简单的全局变量分配,到RequireJS实现的AMD模块方式,browserify/webpack实现的静态引用方式。前端的业务逻辑也从一个个精心按顺序…

ACL'21 | debug完的神经网络,如何测试是否仍然存在bug?

文 | Sherry回归测试熟悉软件工程的小伙伴们一定知道回归测试:修改了旧代码后,重新进行测试以确认修改没有引入新的错误或导致其他代码产生错误。它可以大幅降低系统测试、维护升级等阶段的成本。随着深度学习网络的不断发展,越来越多的系统都…

LeetCode 198. 打家劫舍(DP)

1. 题目 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存…

Python快速找到列表中所有重复的元素

Python快速找到列表中所有重复的元素:https://blog.csdn.net/sinat_29957455/article/details/103886088 index方法 为了能够找到元素在列表中的位置,我们通常会使用list.index()方法来元素的下标,但是这种方法有一个弊端,就是当列…

论文浅尝 - ACL2020 | 利用常识知识图对会话流进行显式建模

笔记整理 | 韩振峰,天津大学硕士链接:https://arxiv.org/pdf/1911.02707.pdf动机人类对话自然地围绕相关概念发展,并分散到多跳概念。本文提出了一种新的会话生成模型——概念流(ConceptFlow),它利用常识知识图对会话流进行显式建…

百度NLP、视频搜索团队招聘算法实习生!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1问答工作职责研发文本问答、多模态问答、阅读理解、端到端问答等技术,利用NLP理论和方法解决实际问题结合数据、算力优势,在百度的搜索、凤巢等产品和业务实现技术落地研究问答、…

人工智能在线特征系统中的数据存取技术

主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智能设计,建立在人工智能技术之上的策略系统已经深入到了产品功能的方方面面。相应的,每一个策略系统都离不开大量的在线特征&#xf…

将二维列表输出到excel

list1 [[张三,男,未婚,20],[李四,男,已婚,28],[小红,女,未婚,18],[小芳,女,已婚,25]] output open(data.txt,w,encodinggbk) output.write(name,gender,status,age\n) for row in list1:rowtxt {},{},{},{}.format(row[0],row[1],row[2],row[3])output.write(rowtxt)output.…

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

笔记整理 | 谭亦鸣,东南大学博士来源: ACL 2020链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf资源:https://github.com/bernhard2202/intkb.概述知识库作为许多下游NLP任务的资源基础,存在的一个普遍缺陷是它…

预训练模型的前世今生(有福利!)

近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展。而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注。通过大数据预训练加小数据微调,自然语言处理任务的解决,无须再依赖大量…

LeetCode 337. 打家劫舍 III(记忆化+递归)

文章目录1. 题目1.1 相关题目:2. 解题2.1 递归2.2 记忆化递归1. 题目 在上次打劫完一条街道之后和一圈房屋后,小偷又发现了一个新的可行窃的地区。这个地区只有一个入口,我们称之为“根”。 除了“根”之外,每栋房子有且只有一个…

孵化业务快速落地与优化

海外酒店是酒旅事业群第一个孵化的业务,从2016年9月份开始到现在已经半年多的时间。在业务后台搭建、成长、优化过程中,经历了很多的思考与选择。 主要分为下面几个阶段: 初建:调研、落地,合理复用,高效自建…

TPLinker 联合抽取 实体链接方式+源码分析

关系抽取–TPLinker: https://blog.csdn.net/weixin_42223207/article/details/116425447 Tagging TPLinker模型需要对关系三元组(subject, relation, object)进行手动Tagging,过程分为三部分: (1)entity head to enti…

论文浅尝 | KGAT: 用于推荐的知识图注意力网络

笔记整理 | 李爽,天津大学链接:https://arxiv.org/pdf/1905.07854v1.pdf动机为了提供更准确、多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助信息。传统的方法,如因子分解机(FM),将其视为…

对话系统答非所问?快试试这篇ACL'21的连贯性评估大法

文 | 页眉3编 | 小轶背景当我们在绞尽脑汁地想怎么设计一个对话系统的时候,我们当然希望最后训练出来的系统能越像人越好,输出的回复很连贯,很有趣,很体贴。而其中,连贯性可以说是最基本的要求之一了,毕竟不…

LeetCode 384. 打乱数组(rand)

1. 题目 打乱一个没有重复元素的数组。 示例:// 以数字集合 1, 2 和 3 初始化数组。 int[] nums {1,2,3}; Solution solution new Solution(nums);// 打乱数组 [1,2,3] 并返回结果。任何 [1,2,3]的排列返回的概率应该相同。 solution.shuffle();// 重设数组到它的初始状态[…

复杂语境下的实体关系抽取

复杂语境下的实体关系抽取 https://mp.weixin.qq.com/s/NAyuYMLDyx9Fut2blpvbRA

论文浅尝 - ACL2020 | 知识图谱补全方法的再评估

笔记整理 | 谭亦鸣,东南大学博士来源:ACL 2020链接:https://www.aclweb.org/anthology/2020.acl-main.489.pdf源码:http://github.com/svjan5/kg-reeval概述图谱补全(KGC)的目标是自动的预测大规模知识图谱…

美团数据库高可用架构的演进与设想

本文介绍最近几年美团MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新。同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望。 在2015年之前,美团&…

恕我直言,很多小样本学习的工作就是不切实际的

文 | ????????????????编 | 小轶以前的小样本学习(Few-shot Learning),是需要用一个巨大的训练集训练的。测试时只给出 n-way k-shot,在这 N * k 个样本上学习并预测。我第一次看到这种任务设定的时候真是非常失望…