开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...

1《大词林》简介

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。自2014年11月推出第一版《大词林》,《大词林》共经历了两次大的版本变化。第一版的《大词林》包含了自动挖掘的实体和细粒度的上位概念词,类似一个大规模的汉语词典,其特点在于自动构建、自动扩充,细粒度的上下位层次关系。第二版的《大词林》引入了实体的义项和关系、属性数据,将每一个实体的义项唯一对应到细粒度的上位词概念路径,让《大词林》中实体的含义更加清晰。

相比于传统的开放域实体知识库,《大词林》的特点在于:1)构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。2)其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。3)每一个实体的义项均能够唯一对应到细粒度的上位词概念路径且具有丰富的实体和关系数据,能够更加清晰明确的展示实体的含义。

2 开源数据规模和用途

本次,我们开源了《大词林》中的75万的核心实体,和该核心实体对应的细粒度概念词(共1.8万概念词,300万实体-概念元组),及相关的关系三元组(共300万)。这75万核心实体列表涵盖了常见的人名、地名、物品名等术语。概念词列表则包含了细粒度的实体概念信息。借助于细粒度的上位概念层次结构和丰富的实体间关系,本次开源的数据能够为智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。

在http://101.200.120.155/browser/页面下有全部开源数据的下载链接,用户也可直接利用下面的链接直接下载全部数据。数据包括JSON格式的schema,同时包括实体列表、概念列表、实体-概念词列表和实体元组列表。

下载地址:http://www.openkg.cn/dataset/hit

             

图1 开源实体的抽样分布情况

 

数据格式如下:

Schema文件, bigcilin_schema.json

实体词表, entity.txt

实体名1

实体名2

……

概念词表, concept.txt

概念词1

概念词2

……

实体-概念词表, hyper.txt

实体名1,上位词1

实体名2, 上位词2

……

实体三元组表, triple.txt

实体名1,关系名1,实体名1

实体名1,关系名2,实体名2

……

 

为方便用户查看不同类别下的实体,将本次开源的实体中常见的类别放在此demo下http://101.200.120.155/browser/。为加快加载速度,此demo仅展示了类别下的抽样实体。

       

     图2 开源实体按类别浏览

3 结语

 

如需要查询更多的数据可使用《大词林》系统网站(http://101.200.120.155/),该系统支持用户查询任意实体,并以有向图的形式展现实体的层次化概念体系,同时支持以目录方式浏览部分公开的知识库。经过如上的改进后,目前《大词林》2.0版已拥有实体30,102,845 (三千万),上位词182,079(十八万),优质的实体上下位关系对15,577,846(一千五百万对),属性-值对79,568,791(七千九百万对),关系(属性)数436,961(四十三万)。有关《大词林》的功能介绍及详细的接口说明请联系mliu@ir.hit.edu.cn。

 

4 开源协议

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。本次开源是《大词林》中的75万核心实体和核心实体对应的1.8万细粒度概念词表,其中核心实体涵盖了包括常见的人名、地名、物品名等术语,概念词列表则包含了细粒度的实体概念信息。同时开源的还包括由实体和概念形成的上下位关系列表(300万)和实体对应的关系三元组列表(300万)。本批数据面向国内外大学、中科院各研究所以及个人研究者开放,上述开放资源可免费用于学术研究,如要商用,需付费购买。如需完整版数据或咨询购买事宜请向mliu@ir.hit.edu.cn咨询。如果您在《大词林》开源数据基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了哈工大社会计算与信息检索研究中心研制的《大词林》”,同时发信给 mliu@ir.hit.edu.cn,说明发表论文或申报成果的题目、出处等。

 

5 作者介绍

张裕舟 哈尔滨工业大学社会计算与信息检索研究中心 yzzhang@ir.hit.edu.cn

佘琪星 哈尔滨工业大学社会计算与信息检索研究中心 qxshe@ir.hit.edu.cn

王必聪 哈尔滨工业大学社会计算与信息检索研究中心 bcwang@ir.hit.edu.cn

刘铭   哈尔滨工业大学社会计算与信息检索研究中心 mliu@ir.hit.edu.cn

秦兵   哈尔滨工业大学社会计算与信息检索研究中心 bqin@ir.hit.edu.cn

刘挺   哈尔滨工业大学社会计算与信息检索研究中心 tlu72@ir.hit.edu.cn

点击阅读原文,下载《大词林》数据。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐几个不错的CUDA入门教程(非广告)

文 | godweiyang最近因为项目需要,入坑了CUDA,又要开始写很久没碰的C了。对于CUDA编程以及它所需要的GPU、计算机组成、操作系统等基础知识,我基本上都忘光了,因此也翻了不少教程。这里简单整理一下,给同样有入门需求的…

logging.getLogger(logger)

https://www.cnblogs.com/bjdxy/archive/2012/12/03/2799322.html logging模块学习笔记:logger 对象、日志等级 logger:日志对象,logging模块中最基础的对象,用logging.getLogger(name)方法进行初始化,name可以不填。通…

Android官方开发文档Training系列课程中文版:高效显示位图之加载大位图

原文地址:http://android.xsoftlab.net/training/displaying-bitmaps/index.html 引言 学习如何使用一种常规的手段来处理及加载Bitmap对象,这种方式除了使用户界面是可响应的之外,还会避免超出内存的限制。如果你不小心点的话,…

美团DB数据同步到数据仓库的架构与实践

背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数…

论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

论文笔记整理:耿玉霞,浙江大学直博生。研究方向:知识图谱,零样本学习等。来源:AAAI2020论文链接:https://arxiv.org/pdf/2001.02332.pdf本文是发表在AAAI2020上的一篇基于生成对抗网络进行知识图谱零样本关…

LeetCode 1184. 公交站间的距离

1. 题目 环形公交路线上有 n 个站,按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离,distance[i] 表示编号为 i 的车站和编号为 (i 1) % n 的车站之间的距离。 环线上的公交车都可以按顺时针和逆时针的方向行驶。 返回乘客从出发点…

【python】详解类class的继承、__init__初始化、super方法

原文链接; https://blog.csdn.net/brucewong0516/article/details/79121179?utm_mediumdistribute.pc_relevant_t0.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_sourcedistribute.pc_relevant_t0.none-task-blog-BlogCommendFromBaidu-1.control 通过之前…

追剧计划第三弹!UC Berkeley出品,全栈深度学习!

关注卖萌屋比较早的小伙伴,大概还记得2020年初时我们组织的斯坦福大学CS224N自然语言处理公开课追剧计划,以及后来的斯坦福大学CS520知识图谱公开课追剧活动。尽管活动已经结束很长一段时间,但是仍然有小伙伴后台问“什么时候开始下一波追剧哇…

Android官方开发文档Training系列课程中文版:高效显示位图之在非UI线程中处理图片

原文地址:http://android.xsoftlab.net/training/displaying-bitmaps/process-bitmap.html 我们在上节课Load Large Bitmaps Efficiently中讨论了BitmapFactory.decode*方法,说到了不应该在UI线程中执行读取数据的过程,尤其是从磁盘或者网络…

美团外卖iOS App冷启动治理

一、背景 冷启动时长是App性能的重要指标,作为用户体验的第一道“门”,直接决定着用户对App的第一印象。美团外卖iOS客户端从2013年11月开始,历经几十个版本的迭代开发,产品形态不断完善,业务功能日趋复杂;…

LeetCode 538. 把二叉搜索树转换为累加树(逆中序 根右左)

文章目录1. 题目2. 逆中序(根右左,降序循环遍历)1. 题目 给定一个二叉搜索树(Binary Search Tree),把它转换成为累加树(Greater Tree),使得每个节点的值是原来的节点值加上所有大于…

应用实践 | 电商应用——一种基于强化学习的特定规则学习模型

本文转载自公众号:浙大KG。作者:汪寒,浙江大学硕士,主要研究方向为知识图谱和自然语言处理。应用场景在电商实际应用中,每个商品都会被挂载到若干个场景,以图结构中的节点形式存在。商品由结构化信息表示&a…

20W奖金+实习机会:阿里巴巴达摩院最新时间序列赛事来了!

Datawhale赛事 赛事:2021“AI Earth”人工智能挑战赛2021“AI Earth”人工智能创新挑战赛,由阿里巴巴达摩院联合南京信息工程大学、国家气候中心、国家海洋环境预报中心、安徽省气象局共同创办。大赛以“AI助力精准气象和海洋预测”为主题,聚…

关于python中带下划线的变量和函数 的意义,class类带一个下划线和带两个下划线的定义

总结:变量:1. 前带_的变量: 标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量2. 前带两个_ ,后带两个_ 的变量: 标明是内置变量,3. 大写加下划线的变量: 标明是 不会发生改变的全局变量函数:1. 前带_的变量: 标明是一个私有函数, 只用于标明,2. 前带两个_…

Android官方开发文档Training系列课程中文版:高效显示位图之位图缓存

原文地址:http://android.xsoftlab.net/training/displaying-bitmaps/cache-bitmap.html 往UI界面中加载单张图片的过程是很简单的,然而如果需要在某个时刻同时加载大量的图片,那么这事情就有些复杂了。在很多情况下,比如使用了L…

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文笔记整理:吴锐,东南大学计算机学院硕士。来源:ICLR 2020链接:https://arxiv.org/pdf/1911.03082.pdf动机目前针对于GCN的研究大多数都关注在学习无向图的结点表示上,然而我们在研究中更常见的通常是多关系图&#…

Hades:移动端静态分析框架

只有通过别人的眼睛,才能真正地了解自己 ——《云图》 背景 作为全球最大的互联网 生活服务平台,美团点评近年来在业务上取得了飞速的发展。为支持业务的快速发展,移动研发团队规模也逐渐从零星的小作坊式运营,演变为千人级研发军…

GitHub超级火!任意爬取,超全开源爬虫工具箱

文 | 程序员GitHub最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!有多火呢?开源没几天就登上GitHub周榜第四,标星1.3K,累计分支 172 …

Android官方开发文档Training系列课程中文版:高效显示位图之管理位图内存

原文地址:http://developer.android.com/training/displaying-bitmaps/manage-memory.html 除了在上一节中描述的步骤之外,还有一些细节上的事情可以促进垃圾回收器的回收及位图的复用。其推荐的策略取决于Android的目标版本。示例APP BitmapFun展示了如…

Pytorch与tensorflow模型转换

使用pytorch_pretrained_bert将tensorflow模型转化为pytorch模型:https://blog.csdn.net/sunyueqinghit/article/details/103458365/ bert_config.json bert_model.ckpt.data-00000-of-00001 bert_model.ckpt.index bert_model.ckpt.meta vocab.txt 比如&#xff…