OpenKG开源系列|首个多模态开放知识图谱OpenRichpedia (东南大学)

OpenKG地址:http://openkg.cn/dataset/richpeida

GitHub地址:https://github.com/OpenKG-ORG/OpenRichpedia

Gitee地址:https://gitee.com/openkg/richpedia

官网地址:http://richpedia.cn(提供Dump)

开放许可协议:CC BY 4.0

贡献者:东南大学(漆桂林,王萌,郑秋硕,郑健雄,柏超宇,王硕)


提出背景

知识图谱技术已经被广泛用于处理结构化数据(采用本体+D2R技术)和文本数据(采用文本信息抽取技术),但是还有一类非结构化数据,即视觉数据,则相对关注度较低,而且缺乏有效的技术手段来从这些数据中提取结构化知识。最近几年,虽然有一些多模态视觉技术提出,这些技术主要还是为了提升图像分类、图像生成、图像问答的效果,不能很好地支撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源,并提供关于知识图谱中实体的充分视觉信息。显然,如果可以在在更大范围内进行链接预测和实体对齐,进而进行实体关系抽取,可以使现有的模型在综合考虑文本和视觉特征时获得更好的性能,这也是我们研究多模态知识图谱(multi-modal knowledge graph)的意义所在。

目前,已经有很多开放知识图谱(见https://lod-cloud.net/和openkg),而且不少企业也有自己的企业知识图谱。然而,这些知识图谱很少有可视化的数据资源。

多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。例如在OpenRichpedia中,首先构建了图像模态伦敦眼图像与文本模态知识图谱实体(DBpedia实体:London eye)之间的多模态语义关系(rpo:imageof),之后还构建了图像模态实体伦敦眼与图像模态实体大本钟之间的多模态语义关系(rpo:nextTo)。

基于百科的多模态知识图谱OpenRichpedia

尽管已有一些研究工作(IMGpedia,MMKG)在构建知识图谱的过程中融合了多模态知识,但这些工作仍存在一些问题。例如在IMGPedia中关系类型稀疏,关系数量少,图像分类不清晰等,在MMKG中图像并没有作为单独的图像实体存在,而是依赖于相应的传统文本实体。这些问题限制了它们在多模态任务中的应用。为了解决上述问题,我们提出了多模态知识图谱OpenRichpedia。其中包含城市实体10,274个,景点实体214,751个,人物实体823,495个,各类实体间的关系总数为3,246,306。

1、OpenRichpedia多模态知识图谱的定义如下:

实体集合E包括文本知识图谱实体EKG和图像实体EIM,R表示一系列关系的集合,其中E和R利用统一资源标识符(IRIs)表示。L是文字的集合(例如:“伦敦”,“750px”),B表示为一系列的空白节点。Richpedia三元组t表示格式为<subject, predicate, object>,即(E∪B)×R×(E∪L∪B)。Richpedia多模态知识图谱为Richpedia三元组的集合。

2、构建多模态知识图谱的流程总体如下:

接下来逐步介绍OpenRichpedia的构建流程。

  • 数据收集:与一般的文本知识图谱不同,OpenRichpedia的出发点是构造一个多模态知识图谱,其中包含了全面的图像实体及图像实体之间的关系。但是,如下图所示,文本知识图谱实体对应的图像资源有存在长尾分布的问题,平均每一个文本实体在Wikipedia中只有很少的视觉信息。因此,我们考虑借助外部来源来填充OpenRichpedia的图像实体。首先我们基于现有的传统文本实体,从维基百科,谷歌,必应和雅虎四大图像搜索引擎中获取相应的图像实体,每一个图像作为知识图谱中的一个实体存储于OpenRichpedia中。Wikidata已经为每个文本知识图谱实体定义了唯一的统一资源标识符,我们将这些统一资源标识符添加到OpenRichpedia作为文本知识图谱实体。在目前的版本中,我们主要收集了30,638个关于城市、景点和名人的实体。对于图像实体,我们可以直观地从Wikipedia上收集图像,然后在OpenRichpedia中创建相应的统一资源标识符。

  • 图像处理:在数据收集完成后,需要对图像实体进行预处理和筛选。因为我们的数据来自开放资源,搜索引擎会基于数据与查询字段的相关性评分对其进行排名。以多模态知识图谱的角度而言,文本知识图谱实体所关联的图像实体需要满足高相关性和多样性的条件。如下图所示,对于中间的图像实体,右侧的图像实体因为较高的相似性从而被系统过滤掉,保留左侧相似性较低的图像实体。因为从搜索引擎中获取的图像实体难免存在重复问题,接下来通过一系列的预处理操作,使得每个图像实体都与相应的传统文本实体具有较高的相关度。其中预处理操作包括去噪操作和多样性检测,去噪操作的目的是去除不相关的图像实体,多样性检测的目的是使得图像实体具有尽可能高的多样性。

  • 关系抽取:由于以现有的技术很难基于不同图像的像素特征直接检测出这些图像之间存在的语义关系,所以我们利用基于规则的关系抽取模板,借助Wikipedia图像描述中的超链接信息,生成图像实体间的多模态语义关系。在下图中,我们以rpo:contain和rpo:nearBy为例说明如何发现协和广场,卢克索方尖碑和航运喷泉图像实体间的语义关系。我们先在中文维基百科中协和广场词条中获取到包含卢克索方尖碑和航运喷泉的图像实体,从语义视觉关系的角度上看,协和广场包括了卢克索方尖碑和航运喷泉,卢克索方尖碑就在航运喷泉的旁边。为了发现这些关系,我们收集这些图像的文本描述,并提出三个有效的规则来抽取多模态语义关系:

    ①如果在描述中有一个超链接,其指向的对应Wikipedia实体的概率很高。我们利用Stanford CoreNLP检测描述中的关键字。然后,通过字符串映射算法发现预定义关系。例如,如果我们在两个实体之间的文本描述中得到单词‘left’,我们将得到‘nearBy’关系。

    ②如果描述中有多个超链接,我们基于语法分析器和语法树检测核心知识图谱实体(即描述的主体)。然后,我们以核心知识图谱实体作为输入,将这种情况简化为规则1。

    ③如果在描述中没有指向其他词条的超链接,我们使用Stanford CoreNLP来查找描述中包含的Wikipedia知识图谱实体,并将这种情况简化为规则1和规则2。因为规则3依赖于NER结果,准确率低于相应的预标注超链接信息,所以它的优先级低于前两个规则。

基于OpenRichpedia的多模态知识服务网站

OpenRichpedia网站(http://richpedia.cn/)是为OpenRichpedia开发的线上知识图谱服务平台,其依托于OpenRichpedia多模态知识数据库,基于Node.js, Flask, AllegroGraph数据库等,实现了比较全面的功能和较好的性能。网站提供了对OpenRichpedia知识数据库的介绍,查询,资源检索,使用说明以及数据下载服务,同时提供了多模态知识图谱相关的SPARQL和图像实体链接,图像关系检测等功能。下面是对其功能的说明:

Home page:此处以卡片的形式展示了OpenRichpedia所提供的主要功能,包括查询,SPARQL,实体链接和关系抽取。

SPARQL:为了方便使用者查询OpenRichpedia,网站提供了基于AllegroGraph的SPARQL查询接口。有使用SPARQL语言可以查询知识库中的知识三元组。更详细的使用说明可以参考SPARQL页面。

Entity Linking:实体链接会根据使用者提供的文本和图片来将图片和文本中的实体链接起来。其主要涉及目标检测,文本实体识别以及知识图谱实体对齐等技术,通过引入知识图谱的背景知识来提升实体识别的效果。可以使用该页面提供的样例来查看预测的结果。

Relation Extraction:关系抽取部分会分析使用者提供的图片,检测出图片中的目标以及目标之间的关系。该部分主要应用了场景图生成的技术。可以使用该页面提供的样例来查看预测的结果。

Query:提供了对地名和人物的直接查询相关图片功能。City&Sight部分提供了对OpenRichpedia中地理实体的相关内容展示,包括实体对应的Wikidata_id,名字,Wikidata和DBPedia链接,维基百科摘要以及地理位置信息和实体的相关图片。People部分则展示人物实体的知识,诸如richpedia_id,姓名,国籍,出生日期以及人物图片。该模块展示了OpenRichpedia知识库的部分内容,方便使用者直观的了解OpenRichpedia的内容和效果。

Tutorial:为了方便使用者使用,OpenRichpedia提供了Tutorial部分。使用者可以从中查看对应功能的使用方法。

Ontology:Ontology页面展示了OpenRichpedia知识库所基于的本体。

Download:该页面提供了OpenRichpedia多模态知识库的图片和NT文件资源,开放给研究者们使用。

多模态知识图谱的应用前景

多模态知识图谱的应用场景十分广泛,首先一个完备的多模态知识图谱可以很好地促进现有自然语言处理和计算机视觉等领域的发展,同时对于跨领域的融合研究也会有显著的帮助,多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在高层语义上是统一的,所以多种模态数据的融合有利于推进语言表示等模型的发展,对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可以广泛应用于新闻阅读,时事推荐,商品查询(如下图所示)等场景中,多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱,完善现有的多模态知识图谱,利用动态更新技术使其更加的完备,多模态对话系统的应用就更加的广泛,现阶段电商领域中集成图像和文本的多模态对话系统的研究正在稳步发展,多模态对话系统对于电商推荐,商品问答领域的进步有着重大的推进作用。

多模态知识图谱是一个新兴领域,受益于近年来通讯技术的发展,多模态数据越来越成为人们生活中触手可及的信息,种种多模态技术也成为当下研究的热门方向。

结束语

基于OpenRichpedia开发的服务平台的功能还尚未完善,一些新的功能和对当前服务的改进会逐步更新。如果您在使用OpenRichpedia的过程中遇到什么问题,欢迎通过OpenRichpedia页面提供的联络邮箱进行交流。感谢郑秋硕在OpenRichpedia多模态知识图谱构建中做出的工作,柏超宇对OpenRichpedia中知识的进一步完善和补充,郑健雄和王硕构建和完善OpenRichpedia线上服务系统的相关工作。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电商业务中的五大机器学习问题!

机器学习正在从曾经的“科幻”&#xff0c;走向大众生活&#xff0c;比如&#xff1a;高铁站的人脸识别系统、小区门口的无人化测量体温&#xff0c;还有这些年很火的自动驾驶&#xff0c;再到电商的精准推荐系统...等等&#xff0c;背后都是机器学习。今天就以电商业务场景为例…

LeetCode 404. 左叶子之和(递归)

1. 题目 计算给定二叉树的所有左叶子之和。 示例&#xff1a;3/ \9 20/ \15 7在这个二叉树中&#xff0c;有两个左叶子&#xff0c;分别是 9 和 15&#xff0c;所以返回 24来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://leetcode-cn.co…

论文浅尝 | 将结构预测作为增广自然语言间的翻译任务

笔记整理 | 叶宏彬&#xff0c;浙江大学计算机博士生论文地址&#xff1a;https://openreview.net/pdf?idUS-TP-xnXI摘要&#xff1a;我们提出了一个新的框架&#xff0c;即增强自然语言之间的翻译&#xff08;Translation-between-Augmented Natural Languages&#xff0c;TA…

ReactiveCocoa中潜在的内存泄漏及解决方案

ReactiveCocoa是GitHub开源的一个函数响应式编程框架&#xff0c;目前在美团App中大量使用。用过它的人都知道很好用&#xff0c;也确实为我们的生活带来了很多便利&#xff0c;特别是跟MVVM模式结合使用&#xff0c;更是如鱼得水。不过刚开始使用的时候&#xff0c;可能容易疏…

EXCEL如何快速拆分合并单元格数据

EXCEL如何快速拆分合并单元格数据

学完文本知识,我就直接看懂图片了!

文 | Yimin_饭煲2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世&#xff0c;震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时&#xff0c;想必对GPT-3中的Prompt方法印象深刻。简单来说&#xff0c;(GPT-3中的)Prompt就是为输入的…

LeetCode 914. 卡牌分组(最大公约数)

1. 题目 给定一副牌&#xff0c;每张牌上都写着一个整数。 此时&#xff0c;你需要选定一个数字 X&#xff0c;使我们可以将整副牌按下述规则分成 1 组或更多组&#xff1a; 每组都有 X 张牌。 组内所有的牌上都写着相同的整数。 仅当你可选的 X > 2 时返回 true。 示例…

RestQL:现代化的 API 开发方式

koa-restql 已经在 github 开源并在 npm 发布。感兴趣的同学可以前往围观一下。欢迎 Pull Request&#xff0c;同时热烈欢迎 Star。 在现代的业务系统中&#xff0c;后端开发工作基本上可以被拆分为三项&#xff1a; 接口鉴权。例如判断是不是当前系统的用户&#xff0c;以及该…

论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

笔记整理 | 崔凌云&#xff0c;天津大学硕士链接&#xff1a;https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber8362657动机基于知识图的广泛应用和在教育领域日益增长的需求&#xff0c;作者提出了一个名为KnowEdu的系统&#xff0c;以自动构建教育知识图。通过利用教育…

arm64麒麟安装paddlehub(国产化)注意事项

python 版本 3.7 pip install paddlehub需要 onnx<0.9&#xff0c;进行源码安装 基础环境&#xff1a; yum install cmake yum install protobuf-compiler protobuf # libprotoc-dev yum install make gcc gcc-c pip3 install --upgrade cmake3.23.2 yum install boost …

我在斯坦福做科研的碎碎念

文 | Jazon编 | 小轶大家好&#xff0c;我是 Jazon。作为 AI 科研工作者&#xff0c;我们的目光不该只聚焦在开发新技术、刷榜打 SoTA 上。学界如职场&#xff0c;还有很多技术之外的软实力需要培养。这篇文章里&#xff0c;我想以我个人的经历作为切入点&#xff0c;聊一聊与此…

论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

笔记整理 | 李爽&#xff0c;天津大学链接&#xff1a;http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp?tp&arnumber9359364动机知识图谱 (KG) 嵌入旨在研究嵌入表示以保留 KG 的固有结构。图神经网络(GNN)作为一种有效的图表示技术&…

分布式队列编程优化篇

“分布式队列编程”是一个系列文&#xff0c;之前我们已经发布了《分布式队列编程模型、实战》&#xff0c;主要剖析了分布式队列编程模型的需求来源、定义、结构以及其变化多样性&#xff1b;根据作者在新美大实际工作经验&#xff0c;给出了队列式编程在分布式环境下的一些具…

LeetCode 443. 压缩字符串(双指针)

1. 题目 给定一组字符&#xff0c;使用原地算法将其压缩。 压缩后的长度必须始终小于或等于原数组长度。 数组的每个元素应该是长度为1 的字符&#xff08;不是 int 整数类型&#xff09;。 在完成原地修改输入数组后&#xff0c;返回数组的新长度。 进阶&#xff1a; 你能…

docker常用命令,容器复制,查看镜像,删除镜像,启动容器,运行容器

docker常用命令&#xff0c;容器复制&#xff0c;查看镜像&#xff0c;删除镜像&#xff0c;启动容器&#xff0c;运行容器 docker commit -a "zt" -m "arm_digital_docm" bff6699759f2 arm_digital_docm:last#将镜像 runoob/ubuntu:v3 生成 my_ubuntu_v3…

程序员在体制内的工作与生活是怎样的?

文 | 森林鱼&#xff08;转载于公众号&#xff1a;森林鱼的时光&#xff09;前言这篇文章原本是要在公众号上更新的&#xff0c;但考虑到修改问题&#xff0c;还是放在了这边。公众号那边会放一个最终相对完整的版本&#xff0c;日常更新与整理的话还是会在这边。主要是想尽量客…

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...

OpenKG地址&#xff1a;http://openkg.cn/dataset/c-clueGitHub地址&#xff1a;https://github.com/jizijing/C-CLUE网站地址&#xff1a;http://152.136.45.252:60002/pages/login.html开放许可协议&#xff1a;CC BY-SA 4.0 &#xff08;署名相似共享&#xff09;贡献者&…

解析各种文本的年月日

解析各种文本的年月日 def str2date(str_date):str_datestr_date.strip()if(len(str_date)>11):str_datestr_date[:11]if(str_date.find(-)>0):yearstr_date[:4]if(year.isdigit()):yearint(year)else:year0monthstr_date[5:str_date.rfind(-)]if(month.isdigit()):mont…

谷歌:一篇论文,让研究者吃我三份安利

文 | 白鹡鸰想用Transformer做CV编 | 小轶想用Transformer做NLP前言计算机视觉、机器学习&#xff0c;这两个词会让你想到什么&#xff1f;相信绝大多数人第一反应都是CNN&#xff0c;而持续关注这些领域发展的人&#xff0c;则会进一步联想到近几年大火的Transformer&#xff…

LeetCode 290. 单词规律(哈希)

1. 题目 给定一种规律 pattern 和一个字符串 str &#xff0c;判断 str 是否遵循相同的规律。 这里的 遵循 指完全匹配&#xff0c;例如&#xff0c; pattern 里的每个字母和字符串 str 中的每个非空单词之间存在着双向连接的对应规律。 示例1: 输入: pattern "abba&q…