论文浅尝 - ESWA | 知识图谱的自动扩充方法

论文笔记整理:谭亦鸣,东南大学博士。


来源:ESWA141(2020)

链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

为了使计算机理解人类语言,并且实现推理,人类知识需要被表示并储存为能够被计算机处理的形式。知识图谱(KG)被设计为一种反应词及词间关系的结构形式。但是目前的知识图谱存在两个限制因素:其一是对于大部分人类语言来说,图谱的规模和范围存在局限性;其二则是新词跟进。为了解决这些问题,本文提出PolarisX,一种通过实时抓取分析网络新闻和社交媒体实现自动扩展的知识图谱,利用微调的BERT模型构建无语言依赖性的知识图谱。基于BERT的关系抽取模型被用来抽取新的关系,并将它们添加到知识图谱中。作者验证了PolarisX的novelty与准确性,确认其新词处理能力以及“无语言依赖性”。

动机与贡献

如上文所属,现有KG存在(大多数语言上的)规模不足,无法跟进新词等两个局限性。

如表1所示,这里的新词分为两种:1.新词新意;2.旧词新意。

对于这两个问题,作者认为解决的关键在于KG的构建需要跟上新词出现的节奏(考虑到新词出现的频率以及开放域等特点,显然依赖人工跟进解决不了这个问题),一种合理的方式是爬取社交媒体获取新词,而后抽取新的知识(尤其是关系),并添加到知识图谱中。

因此,本文提出了一种自动成长的知识图谱PolarisX(大数据处理平台Polaris的一个部分),通过爬取新闻网站以及社交媒体,抽取新的关系,生成对应的知识子图,然后添加到知识图谱中,并采用ConceptNet验证了它的有效性。

作者认为本文的主要贡献为:

1.处理新词:PolarisX能够利用已有数据生成KG并通过新闻和社交媒体实时跟进新词的涵盖

2.无语言依赖性:使用multilingual BERT模型通用的处理各种语言

模型与算法

下图是PolarisX的自动构建框架,主要包含三个部分:

1.Social Crawler用于扩充知识资源(社交媒体/新闻),并做关键词抽取

2.Semantic Analyzer的主要作用是确定新的关系

3.Knowledge Miner负责构建和扩充知识图谱

Social Crawler:

这里主要实时爬取Twitter和新闻数据,这些数据被作为扩充KG的原始资源,推特数据利用Apache AsterixDB系统的 Feed Adapter function实现实时收集,新闻数据则来自NewsAPI(https://newsapi.org/.),对于获取的资源使用LDA(Latent Dirichlet Allocation)抽取其中的关键词。

Semantic analyzer:

新关系(主要指关键词之间的关系)的抽取是通过BERT模型实现的(作者在这里使用的是BERT-base,Multilingual Cased预训练模型,支持104种语言),微调使用TACRED数据集实现。

Knowledge Miner

如下图,knowledge miner利用字符串匹配将新发现的关系链接到现有知识图谱上

实验与结果

为了验证自动扩充KG方法的效果,作者提出了四个实验方式:

1.验证处理新词的能力

使用ConceptNet 5.5(英语/韩语)以及使用PolarisX扩充的ConceptNet 5.5对比其中一词“Sonata”(一般视作一个音乐术语,在韩国则还有相同名字的汽车品牌)

从效果上看,使用PolarisX扩充的ConceptNet涵盖了许多Sonata汽车的信息,下表展示了ConceptNet及ConceptNet+PolarisX两者的一个对比:

2.知识图谱扩充

与DBpedia,YAGO等现有KG的对比来看,ConceptNet+PolarisX具有更多的边,作者认为这粗略的表明具有更加丰富的知识(A higher total number of edges roughly means a richer knowledge base)

3.语义解析准确率

作者验证BERT-based关系抽取模型的效果如下表所示:


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团大脑:知识图谱的建模方法及其应用

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图谱,为用户和商家建立…

Android官方开发文档Training系列课程中文版:连接无线设备之通过P2P搜索网络服务

原文地址:http://android.xsoftlab.net/training/connect-devices-wirelessly/nsd-wifi-direct.html 本阶段的第一节课 Using Network Service Discovery 展示了如何搜索本地网络服务。然而,使用WI-FI P2P搜索服务可以直接搜索附近的设备,而…

全栈深度学习第2期: 开发套件与工具篇

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群…

LeetCode 700. 二叉搜索树中的搜索

1. 题目 给定二叉搜索树(BST)的根节点和一个值。 你需要在BST中找到节点值等于给定值的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 NULL。 2. 解题 class Solution {//递归写法TreeNode *ans NULL; public:TreeNode* searchB…

NLP-美团技术团队(搜索-推荐-召回排序-Bert)

NLP-美团技术团队:https://tech.meituan.com/tags/nlp.html

iOS系统中导航栏的转场解决方案与最佳实践

背景 目前,开源社区和业界内已经存在一些 iOS 导航栏转场的解决方案,但对于历史包袱沉重的美团 App 而言,这些解决方案并不完美。有的方案不能满足复杂的页面跳转场景,有的方案迁移成本较大,为此我们提出了一套解决方案…

论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。来源:WSDM ’20链接:https://dl.acm.org/doi/abs/10.1145/3336191.3371812动机知识图谱问答(KG-QA)系统大多包含两个步骤:链接问题中的topic entity到KG&…

Android官方开发文档Training系列课程中文版:网络操作之网络连接

原文地址:http://android.xsoftlab.net/training/basics/network-ops/index.html 引言 这节课将会学习最基本的网络连接,监视网络连接状况及网络控制等内容。除此之外还会附带描述如何解析、使用XML数据。 这节课所包含的示例代码演示了最基本的网络操…

算法工程师的落地能力具体指的是什么?

文 | 桔了个仔知乎本文已获作者授权,禁止二次转载大家好,这里是桔了个仔,目前是一名Data Scientist(不太想翻译成数据科学家,毕竟感觉自己就是个工程师),过去几年在做基于机器学习的风控与合规系统&#xf…

国内外自然语言处理(NLP)研究组

2015年国内外自然语言处理(NLP)研究组: https://blog.csdn.net/wangxinginnlp/article/details/44890553 补充: 名称 地址 最近更新 HanLP https://github.com/hankcs/HanLP 2天前 腾讯开源深度学习文本分类工具 https://github.com/Tencent/NeuralNLP-…

Android官方开发文档Training系列课程中文版:网络操作之网络管理

原文地址:http://android.xsoftlab.net/training/basics/network-ops/managing.html 这节课将会学习如何对网络资源的使用情况拥有更细粒度的控制力。如果应用程序经常执行大量的网络操作,那么程序应当提供一项设置,以便用户可以控制应用的数…

LeetCode 728. 自除数

1. 题目 自除数 是指可以被它包含的每一位数除尽的数。 例如,128 是一个自除数,因为 128 % 1 0,128 % 2 0,128 % 8 0。 还有,自除数不允许包含 0 。 给定上边界和下边界数字,输出一个列表&#xff0…

论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成

论文笔记整理:王春培,天津大学硕士。链接:https://arxiv.org/pdf/1912.00879.pdf动机本文主要聚焦问答系统(Q&A)的反问题---问题生成(Question Generation,Q&G)。问题生成的…

美团深度学习系统的工程实践

背景 深度学习作为AI时代的核心技术,已经被应用于多个场景。在系统设计层面,由于其具有计算密集型的特性,所以与传统的机器学习算法在工程实践过程中存在诸多的不同。本文将介绍美团平台在应用深度学习技术的过程中,相关系统设计的…

一个程序员的理财观

文 | 王喆你好,我叫王喆,看过我技术文章的朋友知道,我是一个搞推荐系统的机器学习工程师,不熟悉的同学也没关系,就当我是一名普普通通的程序员就好。但今天我们不谈技术,也不谈996这些烦人的话题&#xff0…

Android官方开发文档Training系列课程中文版:网络操作之XML解析

原文地址:http://android.xsoftlab.net/training/basics/network-ops/xml.html 扩展标记语言(XML)是一系列有序编码的文档。它是一种很受欢迎的互联网数据传输格式。像需要频繁更新内容的网站来说,比如新闻站点或者博客,需要经常更新它们的X…

2020年最值得收藏的60个AI开源工具

原本链接:https://www.infoq.cn/article/2uabiqaxicqifhqikeqw 本文,InfoQ梳理了60个2019年至今GitHub上热门的开源工具,献给那些对新征程满怀期待的开发者们。Flair (顶级 NLP 库)2018 年是 NLP 井喷的一年。像 ELMo 和谷歌 BERT 这样的库层…

LeetCode 942. 增减字符串匹配

1. 题目 给定只含 “I”(增大)或 “D”(减小)的字符串 S ,令 N S.length。 返回 [0, 1, …, N] 的任意排列 A 使得对于所有 i 0, …, N-1,都有: 如果 S[i] "I",那么…

Netty堆外内存泄露排查盛宴

导读 Netty 是一个异步事件驱动的网络通信层框架,用于快速开发高可用高性能的服务端网络框架与客户端程序,它极大地简化了 TCP 和 UDP 套接字服务器等网络编程。 Netty 底层基于 JDK 的 NIO,我们为什么不直接基于 JDK 的 NIO 或者其他NIO框架…

论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。会议:ESWC 2020链接:https://suchanek.name/work/publications/eswc-2020-yago.pdfIntroductionYAGO是世界上最大的链接数据库之一,由德国马普研…