论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。


会议:ESWC 2020

链接:https://suchanek.name/work/publications/eswc-2020-yago.pdf

Introduction

YAGO是世界上最大的链接数据库之一,由德国马普研究所发布。在本篇论文中,作者发布了最新版本的YAGO 4,包含约20亿三元组和6400万实体,融合了schema.org规范的分类体系和Wikidata丰富的实例数据。

Wikidata被认为是世界上最大的知识库之一,包括了超过7000万实体。与此同时,Wikidata社区对自己的定位是信息的集合,而不是我们传统意义上的“知识”。Wikidata没有严格的语义约束,且存在一些不同来源的自相矛盾的描述。对于下游应用来说,Wikidata的分类体系过于复杂和令人费解;经典的推理机无法在Wikidata知识库上进行推理,因为其本身存在很多不一致性。

举个例子阐述Wikidata的分类体系存在的问题,实体“布达拉宫”是“touristattraction”的一个实例,而“tourist attraction”是“geographic object”的子类,“geographic object”是“geometric concept”的实例,而“geometric concept”是“mathematical concepts”的子类。所以当你在Wikidata搜索“mathematical concepts”,返回的结果有张量,多边形, … ,以及布达拉宫。

在YAGO 4中,作者采用schema.org简单且清晰的分类体系来取代Wikidata复杂且费解的分类体系。因此,YAGO 4是一个逻辑一致的知识库,可以进行基于OWL的推理。

Design

YAGO 4的建立是基于5个主要的设计思路,在这里依次阐述。

1.Concise Taxonomy

Wikidata拥有一个非常庞大的分类体系,其类别层级结构过深且混乱。同时,分类体系存在不稳定性,任何贡献者都可以在两个类别之间添加或删除“subclassOf”关系,即一次编辑就可能导致上百万个实体分类结果不同。另一方面,schema.org的分类体系稳定,维护良好,由W3C Schema.org Community Group维护。但是,schema.org的分类体系中缺少一些细粒度的类别和生物化学相关的类别。为了解决这个问题,作者手工融入了Bioschemas,一个在生命科学领域的分类体系。关于细粒度类别缺失的问题,对于top-level的类别,作者选取schema.org的类别;对于leaf-level的类别(即细粒度的类别),选取Wikidata中的类别。对于Wikidata中实例数量小于10的类别,部分类别的子类以及不符约束的类别,进行丢弃。原始的Wikidata中有240万个类别,经过清洗保留了10k个类别。

2.Legible Entities and Relations

YAGO 4以RDF格式存储。与Wikidata不同,采用了可读性更高的方式来进行URI的命名。若实体有相应的维基百科页面,以维基百科页面标题作为URI。若无维基百科页面,以该实体的英文标签和Wikidata标识符作为URI。若无英文标签,即以Wikidata标识符作为URI。

3.Well-typed Values

YAGO 4对于literal也进行了处理,使之更为规范化。比如,对于日期值,转换成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear。

4.Semantic Constraints

YAGO 4采取了一系列的语义限制,使得可以在知识库上进行逻辑推理。语义限制利用结构性约束语言(SHACL)和OWL进行建模。语义限制主要包括以下5类:Disjointness:类别之间存在互斥性;Domainand Range:每一个关系都有相应的定义域和值域;Functional Constraints:对于一个特定的关系和subject,只能有一个object;Cardinality Constraints,即限制object的最大数量。

5.Annotations for Temporal Scope

YAGO 4 对于其中的三元组添加了时间信息,通过添加schema:startDate和schema:endDate进行限制。

Knowledge Base

      作者设计了一个系统,从Wikidatadump和语义限制自动构建YAGO 4,采用Rust语言编写。YAGO 4 有 3 种版本:

1)Full:采用了Wikidata中所有数据;

2)Wikipedia:包括Wikidata中所有存在维基百科页面的实例;

3)EnglishWikipedia:包括Wikidata中所有存在英文维基百科页面的实例。统计情况如下表所示:

YAGO的网站:http://yago-knowledge.org/

YAGO 4的源代码:https://github.com/yago-naga/yago4

YAGO 4的SPARQL Endpoint:http://yago-knowledge.org/sparql/query

YAGO 4的Browser:YAGO 4在其网站的首页提供了图像化的浏览界面,其界面如下图所示:

YAGO 4的应用:YAGO之前已经成功地应用在了多个项目中,包括问答,实体识别,语义分析等。YAGO 4知识库可以进行逻辑推理,这将为很多新的应用提供可能。作者在YAGO 4上尝试了HermiT推理机,证明了其逻辑一致性。

Conclusion

本文阐述了YAGO的最新版本YAGO 4的特点和建立过程。YAGO 4的优势在于结合了Wikidata海量的知识和schema.org规范化的分类体系,且在其上可以进行逻辑推理。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479025.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

责任链模式在Android中的应用

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 责任链其实在Android中出现的频率还蛮高的,事件传递就是一种责任链机制。接下来我为大家介绍在开发应用时责任链的用处: 1.触摸事件的应用。2.响应事件的应用。 何为责任…

sklearn网格搜索找寻最优参数

大家好,在机器学习中,调参是一个非常重要的步骤,它可以帮助我们找到最优的模型参数,从而提高模型的性能。然而,手动调参是一项繁琐且耗时的工作,因此需要一种自动化的方法来搜索最佳参数组合。在这方面&…

最新版《神经网络和深度学习》中文版.pdf

获取最新版《神经网络和深度学习》最新版PDF和PPT的方法: 1.扫码关注 “Python与机器智能” 公众号2.后台回复关键词:神经网络注:此处建议复制,不然容易打错▲长按扫描关注,回复神经网络即可获取文档目录如下获取最新版…

一文盘点PaddlePaddle官方九大自然语言处理模型

一文盘点PaddlePaddle官方九大自然语言处理模型:百度paddlepaddle模型

论文浅尝 | 知识图谱的不确定性衡量

论文笔记整理:谭亦鸣,东南大学博士。来源:Knowledge and Information Systems volume 62, pages611–637(2020)链接:https://link.springer.com/article/10.1007/s10115-019-01363-0概要本文的核心工作是利用知识结构来衡量知识库…

LeetCode 709. 转换成小写字母

1. 题目 实现函数 ToLowerCase(),该函数接收一个字符串参数 str,并将该字符串中的大写字母转换成小写字母,之后返回新的字符串。 2. 解题 char tolower(char)小写比大写对应字符大32 class Solution { public:string toLowerCase(strin…

Logan:美团点评的开源移动端基础日志库

前言 Logan是美团点评集团移动端基础日志组件,这个名称是Log和An的组合,代表个体日志服务。同时Logan也是“金刚狼”大叔的名号,当然我们更希望这个产品能像金刚狼大叔一样犀利。 Logan已经稳定迭代了一年多的时间。目前美团点评绝大多数App已…

如何实现一个循环显示超长图片的控件

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 某次被问到如何实现一个滚筒状的控件,就是可以将一张很长的图片沿着Y轴无限旋转,如下图所示: 大概就是这个意思,当时还不知道图片可以裁剪&…

斯坦福大学——人工智能本科4年课程清单

文 | Mihail Eric编 | 大数据文摘相信每个入行人工智能的老手,对自己过往的几年学习生涯都或多或少会有一些遗憾:如果我当年先从基本概念入手就好了,如果我当年把核心算法吃的更透一点就好了……最近,一位在行业内工作了几年的斯坦…

bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结

bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结:https://blog.csdn.net/HUSTHY/article/details/105882989 目录 一、bert模型简介 bert与训练的流程: bert模型的输入 二、huggingface的bert源码浅析 bert提取文本词向量 BertMo…

LeetCode 476. 数字的补数(移位 异或^)

1. 题目 给定一个正整数,输出它的补数。补数是对该数的二进制表示取反。 2. 解题 先求出该数的2进制有多少位然后分别每位与1进行异或操作 class Solution { public:int findComplement(int num) {int n 1, num_copy num;while(num_copy/2){n;num_copy / 2;}wh…

论文浅尝 - ICLR 2020 | 用于文本推理的神经模块网络

论文笔记整理:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。论文链接:https://openreview.net/pdf?idSygWvAVFPr Demo链接: https://demo.allennlp.org/reading-comprehension 代码链接: htt…

Android官方开发文档Training系列课程中文版:通知用户之构建通知

原文地址:http://android.xsoftlab.net/training/notify-user/index.html 引言 通知用于在有事件发生时,将事情以更便捷的方式展示给用户。用户可以在他们方便的时候直接与通知交互。 Notifications design guide课程讲述了如何设计有效的通知以及何时…

前端安全系列(二):如何防止CSRF攻击?

背景 随着互联网的高速发展,信息安全问题已经成为企业最为关注的焦点之一,而前端又是引发企业安全问题的高危据点。在移动互联网时代,前端人员除了传统的 XSS、CSRF 等安全问题之外,又时常遭遇网络劫持、非法调用 Hybrid API 等新…

全栈深度学习第3期: 怎样科学管理实验数据?

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群…

PDFMiner:python 读取 pdf 内容

PDF的格式不是规范的,很多情况下没有逻辑结构,不能自适应页面大小的调整。PDFMiner是通过尝试猜测PDF的布局来重建其结构,有时候效果并不理想。 import importlib import sys import timeimportlib.reload(sys) time1 time.time()import os…

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

论文笔记整理:朱渝珊,浙江大学直博生。研究方向:知识图谱,快速表示学习等。论文链接:https://arxiv.org/pdf/1910.02481.pdf本文是ICLR 2020的一篇关于知识图谱中关于复杂(树状、组合)规则可微学…

Android官方开发文档Training系列课程中文版:通知用户之创建不同导航方式的Activity

原文地址:http://android.xsoftlab.net/training/notify-user/navigation.html 设计通知时要考虑到用户所预想的导航体验。通常有以下两种情况: 常规的Activity(Regular activity) 这里所启动的Activity是作为应用程序的正常流程部分出现的。 指定的…

上海交大张拳石:神经网络的变量交互可解释性研究

文 | Qs.Zhang张拳石知乎可解释性研究一直有两副嘴脸,一副烈火烹油繁花似锦,一副如履薄冰零丁洋里叹零丁。在2018年我开始发知乎是为了“活着”——被刷榜为王的风气屡屡打击之后,一朝中稿,倒过一口气来,终于可以跟大家…

基于TensorFlow Serving的深度学习在线预估

一、前言 随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷: Wide and Deep[^1]、DeepCross Network[^2]、DeepFM[^3]、xDeepFM[^…