论文浅尝 - ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询

论文笔记整理:胡楠,东南大学博士。


来源:ISWC 2020

动机

像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖。同时在NLP研究的最新进展表明,可以轻松地查询神经语言模型以获得相关知识而无需大量的训练数据。这项论文工作综合这些进展通过在知识图谱的顶部创建一个结合BERT的混合查询应答系统来改善补全查询结果,将知识图谱中的有价值的结构和语义信息与语言模型中的文本知识相结合,以达到高精度查询结果。当前处理不完整知识图谱的标准技术是(1)需要大量训练数据的关系提取,或者(2)知识图谱嵌入,这些知识在简单的基准数据集之外就难以成功。论文为此提出的混合系统KnowlyBERT仅需要少量的训练数据,并且在Wikidata上进行实验,结果表明优于最新技术。


模型

系统概述图如上所示。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);最后,将语言模型和知识图谱的结果合并(g)并返回给用户。

关系模板生成

作为查询语言模型以获取相关知识的第一步,需要将SPARQL查询转换为带有[MASK]标记的自然语言语句。在这项工作中采用自动生成的句子思想,并在预处理步骤中针对知识图谱的每个关系自动提取候选句子并对其进行评分,以生成相关句子模板。这样的模板可以具有以下格式:“[S]出生于[O]”,用于出生地关系,而[S]被查询的主题实体替换,或[O]被对象替换。生成句子模板不是在查询时执行,而是一个预处理步骤。

附加上下文段落。通过向查询语句提供额外的上下文信息,可以进一步提高语言模型的预测质量。对于查询中的每个实体,文章已经从相应的Wikipedia摘要中提取了前五个句子,并使用BERT的[SEP]令牌将其添加到了生成模板中。与现有工作相比,文章将自动模板生成和上下文段落检索结合在一起,从而提高了结果质量。

查询语言模型并组合结果

现在使用多个句子模板以及相应的上下文段落,以从语言模型中获得对应查询的可能答案。由于可能的答案实体标签可能包含多个单词,因此文章使用单个[MASK]标记构成查询以返回可能的单个单词实体,还要使用多个[MASK]标记进行查询。文中将结果列表中所有可能的单词组合连接起来,并检查是否已创建知识图谱中的有效实体标签,这一步能够过滤掉大部分无法映射到任何实体的预测单词。

汇总来自多个模板的结果。单个查询的不同句子模板导致每个结果实体具有不同概率值的独立结果列表。文中首先简单地合并列表,如果一个实体出现在多个列表中,则选择最大概率。此外,还比较在多个列表中出现的每个实体的最大概率和最小概率,如果它们的差值超过设定的阈值,则该实体不会进入最终结果列表。

语义类型过滤

大多数知识图谱为实体提供了非常详细的类型层次结构,文章将其用于进一步过滤语言模型结果。在语义类型过滤步骤之后,仍然可以得到具有相同实体标签的多个可能的答案实体,对于此类罕见情况,文中执行了额外的实体消歧步骤,使用流行度过滤器排除了极为罕见的实体。具体为,当实体在整个知识图中从不出现为对象实体时,将其排除;如果存在多个同音异义词,则返回最流行的实体作为答案。

阈值设定与结果返回

作为返回结果列表之前的最后一步,文中执行阈值确定过程以确保仅将高质量结果返回给用户。文中执行了两种不同的阈值机制,通过预测值之间的统计异常值分析为每个查询动态选择第一阈值,如果语言模型未返回正确答案,则动态阈值方法将不起作用。因此还选择了一个对所有查询均有效的附加静态阈值,该阈值是通过对不完整知识图中已经存在的已知结果的概率求平均,也可以对语言模型结果列表中的已知结果概率求平均值。最后,文中将不完整知识图谱的结果列表与基于语言模型的管道的结果列表结合在一起,并消除重复项。


实验

数据集基于2020年2月6日的Wikidata Truthy dump,实验仅对三元组进行评估,其中主语和宾语是具有rdf : label关系的实体。实验通过查询语言模型并删除不完整的KG中已经存在的答案三元组来分别评估每个查询,对于其余的其他结果计算精度和召回率值。报告的结果是返回其他结果的所有查询的平均精度和召回值。

表1概述了KnowlyBERT和两个基线系统的精度和召回率。最后一行中描述了的总精度和召回率值,KnowlyBERT的平均精度达到47.5%,比其他两种方法的精度高出30%以上。与关系提取基准(RE)相比,该方法极大地提高了精度,但是与RE基准的17.6%相比,方法的召回率略低,为10.1%。在表2中给出了各种关系比较的实验结果。


总结

这项工作中提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。该工作不会像以前的工作那样污染知识图谱的质量,并且在必要时仍可以帮助提供完整的结果。在现实知识图谱上的查询实验表明,语言模型是减少不完整知识图谱和完整结果集之间差距的一种很有前途的方法。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478659.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Webpack构建性能优化指南

本指南翻译自webpack官方性能指南文档:https://webpack.js.org/guides/build-performance/ 构建性能 本指南涵盖了对增进构建或编译性能的一些有效的提示。 General 以下提示对开发环境或者生产环境都有效。 Stay Up to Date 保持最新的webpack版本。我们总是在…

LeetCode 92. 反转链表 II(双指针)

1. 题目 反转从位置 m 到 n 的链表。请使用一趟扫描完成反转。 说明: 1 ≤ m ≤ n ≤ 链表长度。 示例:输入: 1->2->3->4->5->NULL, m 2, n 4 输出: 1->4->3->2->5->NULL来源:力扣(LeetCode) 链接&#xf…

我对你的爱,是只为你而留的神经元

文 | 白鹡鸰有一个小轶专属神经元编 | 小轶有一个白鹡鸰专属神经元什么是苹果?红的?绿的?黄的?球状?斑点?香气?需要咬上一口才能确定?或者……其实我们在说某家技术公司?…

Android动态日志系统Holmes

背景 美团是全球领先的一站式生活服务平台,为6亿多消费者和超过450万优质商户提供连接线上线下的电子商务网络。美团的业务覆盖了超过200个丰富品类和2800个城区县网络,在餐饮、外卖、酒店旅游、丽人、家庭、休闲娱乐等领域具有领先的市场地位。平台大&a…

领域应用 | 知识图谱在小米的应用与探索

本文转载自公众号:DataFunTalk。分享嘉宾:彭力 小米编辑整理:马瑶出品平台:DataFunTalk导读:小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问…

前端应用开发架构图谱

个人整理的前端架构图谱,之后会根据这个图谱不断的完善内容。希望这个图谱可以对开发同学的知识脉络有个梳理的作用。 相关图谱文件已上传至Github:https://github.com/sahadev/front-end-architecture,后续将不定期更新。 2020年02月28日已…

丹琦女神新作:对比学习,简单到只需要Dropout两下

文 | 花小花Posy上周把 《对比学习有多火?文本聚类都被刷爆了...》分享到卖萌屋的群里后,遭到了群友们一波嫌弃安利。小伙伴们表示,插入替换的数据增强方式已经Out了,SimCSE才是现在的靓仔。snowfloating说:看完Danqi …

美团点评移动端基础日志库——Logan

背景 对于移动应用来说,日志库是必不可少的基础设施,美团点评集团旗下移动应用每天产生的众多种类的日志数据已经达到几十亿量级。为了解决日志模块普遍存在的效率、安全性、丢失日志等问题,Logan基础日志库应运而生。 现存问题 目前&#xf…

整理一波国外前端学习网站

国内的普通开发者对于掌握一门新的技术不知道从哪里下手,看哪些书。为了获得相关知识会关注各种公众号、购买各种视频课程来学习,但由于这些内容本身有碎片化的特点,效果往往不太理想。以至于付出了大量的时间到最后不能够形成系统化的知识。…

论文浅尝 - ACL2020 | Segmented Embedding of Knowledge Graphs

来源:ACL2020链接:https://arxiv.org/pdf/2005.00856.pdf摘要知识图谱的嵌入愈发变成AI的热点之一,对许多下游任务至关重要(如个性化推荐、问答等)同时,此模型强调两个关键特性:利用足够多的特征…

【论文翻译】HeteSim:异构网络中相关性度量的通用框架

原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许多应用中的一个重要功能,它通常侧重于度量同一类型对象之间的相似性。然而,在许多场景中&a…

LeetCode 234. 回文链表(快慢指针+链表反转)

1. 题目 请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false示例 2: 输入: 1->2->2->1 输出: true进阶: 你能否用 O(n) 时间复杂度和 O(1) 空间复杂度解决此题?来源:力扣(LeetCode) 链接&a…

随机/线性颜色生成器(RandomColorGenerator)

最近在实现https://javascript30.com/的课程,其中有一门课程要求利用Canvas实现一个效果,我发现这个效果其中的颜色是线性生成的。结合我之前已经写过一个随机颜色生成器,就想将这个随机颜色生成器写出来,作为一个工具使用&#x…

美团点评运营数据产品化应用与实践

背景 美团点评作为全球最大的生活服务平台,承接超过千万的POI,服务于数量庞大的活跃用户。在海量数据的前提下,定位运营业务、准确找到需要数据的位置,并快速提供正确、一致、易读的数据就变得异常困难,这些困难主要体…

NAACL’21 | 来看如何让模型学会因为所以但是如果

文 | Eleanor 编 | 戏有一些标准考试那是真的难,难到能分分钟教你做人。对于留学党来说,申请法学博士需要 LSAT 考试成绩、申请商学院需要 GMAT 考试成绩。这些标准考试到底有多难,大概考过的都懂8(嘤嘤嘤_(:з」∠)_)…

领域应用 | 知识计算,华为云赋能企业知识化转型

本文转载自公众号:华为云AI。从计算智能,到感知智能,再到认知智能,是业界普遍认同的人工智能技术发展路径。随着技术的演进,人工智能已经在"听、说、看"等感知智能领域达到或超越了人类水准,但是…

我在小程序工程化方面的一些实践

我在小程序工程化方面的一些实践 早期做小程序时,还是原始时代,项目结构混乱,各种冗余代码,每次迭代时由于高昂的维护成本,极为头疼。遂在一次次的更迭中完成了基础组件的初版,极为酸爽。从此之后在当时的…

LeetCode 430. 扁平化多级双向链表(DFS)

1. 题目 您将获得一个双向链表,除了下一个和前一个指针之外,它还有一个子指针,可能指向单独的双向链表。这些子列表可能有一个或多个自己的子项,依此类推,生成多级数据结构,如下面的示例所示。 扁平化列表…

详解:多模态知识图谱种类及其应用

详解:多模态知识图谱种类及其应用 本文系统的讲述了一些关于多模态知识图谱的相关知识,作者介绍了一些重要的开源多模态知识图谱,基于百科多模态知识图谱Richpedia以及相关使用网站和多模态知识图谱的应用。>>加入极市CV技术交流群&am…

Android Hook技术防范漫谈

背景 当下,数据就像水、电、空气一样无处不在,说它是“21世纪的生产资料”一点都不夸张,由此带来的是,各行业对于数据的争夺热火朝天。随着互联网和数据的思维深入人心,一些灰色产业悄然兴起,数据贩子、爬虫…