OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)

OpenKG地址:http://openkg.cn/dataset/ckgg

GitHub地址:https://github.com/nju-websoft/CKGG

数据地址:https://doi.org/10.5281/zenodo.4668711

论文地址:https://doi.org/10.1007/978-3-030-88361-4_25

开放许可协议:CC BY-SA 4.0

贡献者:南京大学(沈俞霖,陈子恒,程龚,瞿裕忠)


1、背景

使用人工智能技术解答学业测验的题目是人工智能和知识工程领域的一个长期挑战。我们长期研究使用人工智能技术构建问答系统解答中国高中教育中的地理学科的题目。从此项研究中,我们发现,现有的开放数据中,仍缺乏可以覆盖高中阶段核心地理知识的高质量知识图谱。

在高中地理科目的应用上,现有的地理主题的知识图谱不够完整、准确。例如,GeoNames 仅涵盖地点位置和行政区划等基本地理数据。Clinga 从百度百科中提取了气候等丰富的地理数据,但受制于在线数据缺乏统一的验证,提取的数据准确性不高,并多存在分类标准不一致等情况。

虽然相关的知识图谱较为缺乏,高质量的地理数据仍在网络上广泛存在。例如,Berkeley Earth 提供了全球温度的数据, GES DISC 提供了全球降水量的数据。然而这些数据均以数据网格的格式提供,为了便于查询,我们需要将这些数据关联到具体的地点实体。此外,还存在一些以图片、表格格式存储的数据,均需将其关联到地点实体并转换为便于的格式。整合这些异构数据需要使用复杂的方法。

2、CKGG 概述

为解决高质量高中地理知识图谱缺乏的问题,我们首先从教辅资料中构建了覆盖高中地理核心概念的本体。以此为基础,我们构建了中文高中地理知识图谱 CKGG (Chinese Knowledge Graph for Geography),覆盖高中阶段的核心知识。我们基于 GeoNames 和 Wikidata 的实体合并得到了 CKGG 中的地点实体,并使用了多种工具整合了不同来源不同格式的数据。CKGG 共包含 15 亿个 RDF 三元组,120 余万实体。下图概述了 CKGG 的数据来源。

55dd995a16889b92b43288d5efdd281d.png

3、CKGG 本体构建

CKGG 的本体包含 755 个类,304 个简单属性,89 个复杂属性。CKGG本体的一个示例如下。

524243a556285bdc337870fdc4d7a1d0.png

我们使用7步法构建本体,详细过程为:

  • 明确范围:CKGG 需覆盖高中地理教材/教辅中的大部分核心概念,我们使用教辅资料作为本体的数据源。

  • 考虑重用:我们重用了标准的 RDF 和 RDFS 术语表达实体的名称和类型,重用了 WGS84 Geo Positioning 术语 (wgs84_pos:lat, wgs84_pos:long) 表达实体的经纬度信息,并重用了 Clinga 本体的行政区划层级关系。

  • 列举术语:我们人工从教辅资料中收集了术语,并加入了少量的常识术语(如“公共设施”)

  • 定义类:我们使用自顶向下的方法,定义了地理实体大类,在大类下定义了地点、气候类型等子类,并根据教辅资料和常识对类进行了进一步细分。

  • 定义属性:我们将收集到的术语中的属性关联到其对应的 rdfs:domain 类型上。大多数属性的 rdfs:domain 类型为“地点”,例如海拔高度、气候类型、受洋流影响等。此外我们定义了“上级地点”属性,表述地点之间的从属关系。

  • 定义约束:对每个属性,我们通过定义 rdfs:range 属性设置了它们的取值范围。对于一些枚举类型的属性,我们使用了 owl:oneOf 进行定义。例如“科技水平”被定义为可取值“极高”、“高”、“中”、“低”、“极低”,以便表达此类定性的属性值。

  • 创建实例:对于 CKGG 的本体,我们没有定义对应实例,实例将在 CKGG 的图谱中构建时进行定义。

4、CKGG 图谱构建

CKGG的图谱构建主要分为实体构建、基本属性构建和其他属性构建,此外我们还构建了地点的重要性分数属性以便下游应用进行消歧。下面对各个步骤进行详细介绍。

实体构建:我们收集了 GeoNames 的所有实体和 Wikidata 的含中文标签和经纬度的地理实体。我们使用了两个数据源中原有的实体之间的对应关系。此外,我们使用启发式的方法得到了 GeoNames 中可能重复的实体之间的关系。最后我们使用这些对应关系将相同实体合并为 CKGG 中的一个实体。

dd5702e6bd71457dfc850aadae2d04c3.png

基本属性构建:我们考虑地点的类型、名称和经纬度作为基本属性,要求 CKGG 中每个地点必须包含这三个属性。我们使用 AgreeMakerLight 跨语言本体对齐工具得到了 CKGG 本体和 GeoNames 特征码的对齐,进行人工验证后,使用该信息设置地点的类型。地点的名称我们使用了 Wikidata 和 GeoNames 的所有中文名,以及 GeoNames 中的标准英文名。对于地点的经纬度,由于之前实体合并的影响,可能存在多值,我们选择中心点作为地点的标准经纬度。

c7b0f494396113d6498d7631524aeafd.png

其他属性构建:我们收集了地点的气温、降水量、太阳辐射量、多边形范围、洋流、气候、统计信息等数据。

  • 对气温、降水量、太阳辐射量,我们使用了网格数据源,数据源中地表按经纬度划分为了多个网格,每格对应了一个值。我们使用上一步得到的标准经纬度对每个地点的属性进行赋值。

2f1d286e25fbabd67e8cfb3e7be20027.png

  • 对地点多边形范围,我们使用了 GIS 多边形数据源。将地点的多边形范围赋值后,我们根据此范围推算出了地点的包含关系。

c8871d2d2c52f4003808abadc24e2c80.png

  • 对地点的洋流、气候等数据,我们使用了 GIS 工具将书本中的气候图和 Wikipedia 中的洋流图分别标注为多边形和折线段,后根据地点与其关系得到地点的气候类型和影响地点的洋流。

afd2f2640104fab3b295a64af21544a4.png

  • 对地点的统计信息数据,我们目前对国内的地点进行了处理。我们收集了国家统计局网站上的分省统计数据,并使用自动化与人工结合的方法与本体进行了对齐。此外,我们还收集了国家统计局的行政区划数据,与 CKGG 中的地点进行对齐,以得到行政区的区划代码,使用该代码将统计数据与地点进行关联。

8b5e471e998f250d58894fbc6086f253.png

实体重要性属性构建:我们使用实体对应的 Wikipedia 文章的入链接量表示实体的重要性,该数据可以有效在无上下文的情况下对实体消歧。例如包含“北京”的重要性最高的实体是中国的首都,而非其他同名的地点。

4cfcc74f872491ca540690d060dd1921.png

5、CKGG 量化分析

CKGG 共包含 121.9 万个实体与 15 亿条三元组。对 CKGG 的质量,我们通过人工抽样的方式评估了地点实体的覆盖率、地点合并的准确率、实体包含关系的准确率。其中,地点合并的准确率超过 93%,实体包含关系的准确率达到 100%。CKGG 实体对高中地理教材的覆盖约为 79%,我们发现主要原因为复杂抽象实体(某河流流域、某河流河谷)较少被来源数据源描述。

6、结论

我们通过对高质量的地理数据源进行格式转换,得到了 CKGG 知识图谱,这项工作被语义网领域国际顶会ISWC 2021授予最佳资源论文提名奖。虽然其构建目的主要为针对高中地理教育的应用,我们的图谱也能用于其他地理应用。下一步工作我们将向 CKGG 中填充更多数据,并研究 CKGG 在问答系统中的应用。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5eaacb516286768768b8a4cb0d32d50b.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 892. 三维形体的表面积(数学)

1. 题目 在 N * N 的网格上,我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1: 输入:[[2]] 输出:10示例 2: 输入&#x…

细说ReactiveCocoa的冷信号与热信号(一)

背景 ReactiveCocoa(简称RAC)是最初由GitHub团队开发的一套基于Cocoa的FRP框架。FRP即Functional Reactive Programming(函数式响应式编程),其优点是用随时间改变的函数表示用户输入,这样就不需要可变状态了…

淘宝数据,数据处理,时间序列分析,获客分析,购买路径分析

-- 创建数据库 create database taobao; use taobao; desc use_behaviour;-- 创建表格 create table use_behaviour( user_id int(9), item_id int(9), category_id int(9), behaviour_type varchar(5), timestamps int(14));-- 查询已导入多少条 select count(*) from use_…

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

文 | jxyxiangyu前言“小夕,小夕,你关注的任务sota又被刷新了!”“什么?!”还在跑实验的小夕默默流下了辛酸泪不得不说nlp领域的发展真的太快了,炼丹师们不光要时刻关注前沿热点,还要快速做出实…

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理:谭亦鸣,东南大学博士生来源:EACL‘21链接:https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型(LM)视作一个知识库,然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品,(按账单 bills 支付的顺序)一次购买一杯。 每位顾客只买一杯柠檬水,然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…

召回粗排精排-级联漏斗(下)

文 | 水哥源 | 知乎saying召回区分主路和旁路,主路的作用是个性化向上管理,而旁路的作用是查缺补漏。推荐系统的前几个操作可能就决定了整个系统的走向,在初期一定要三思而后行。做自媒体,打广告,漏斗的入口有多大很重…

深入理解 Objective-C:方法缓存

摘要 只要用到Objective-C,我们每天都会跟方法调用打交道。我们都知道Objective-C的方法决议是动态的,但是在底层一个方法究竟是怎么找到的,方法缓存又是怎么运作的却鲜为人知。本文主要从源码角度探究了Objective-C在Runtime层的方法决议&am…

学术联赛 | 运用知识图谱技术,赋能多领域应用 ——“未来杯”AI学术联赛总决赛暨颁奖典礼圆满落幕...

本文转载自公众号:AI学习社。由北京大学软件工程国家工程研究中心主办,华为终端有限公司及中软国际教育科技集团全程战略支持,STEER TECH科技平台、北京乐智元素科技有限公司、艾肯文化传媒(北京)有限公司、AI TIME承办…

LeetCode 1013. 将数组分成和相等的三个部分

1. 题目 给定一个整数数组 A&#xff0c;只有我们可以将其划分为三个和相等的非空部分时才返回 true&#xff0c;否则返回 false。 形式上&#xff0c;如果我们可以找出索引 i1 < j 且满足 (A[0] A[1] … A[i] A[i1] A[i2] … A[j-1] A[j] A[j-1] … A[A.lengt…

异常值检测

#设定异常值比例 outliers_fraction 0.01# 初始化 LSCP 探测集 detector_list [LOF(n_neighbors5), LOF(n_neighbors10), LOF(n_neighbors15),LOF(n_neighbors20), LOF(n_neighbors25), LOF(n_neighbors30),LOF(n_neighbors35), LOF(n_neighbors40), LOF(n_neighbors45),LOF(…

谷歌 | 多任务学习,如何挑选有效的辅助任务?只需一个公式!

文 | 小伟编 | 小轶前言说到多任务学习&#xff0c;大家都不陌生&#xff0c;不管是在学术界还是工业界都已经有了很多成熟的探索与应用。在理想的多任务学习中&#xff0c;各个任务对彼此应当是有益的&#xff0c;所有任务相互促进&#xff0c;从而达到超过单任务学习的效果。…

LeetCode 888. 公平的糖果交换(哈希set)

文章目录1. 题目2. 解题2.1 暴力查找2.2 哈希set1. 题目 爱丽丝和鲍勃有不同大小的糖果棒&#xff1a;A[i] 是爱丽丝拥有的第 i 块糖的大小&#xff0c;B[j] 是鲍勃拥有的第 j 块糖的大小。 因为他们是朋友&#xff0c;所以他们想交换一个糖果棒&#xff0c;这样交换后&#…

剑指offer-python代码解释-习题解答-空白请点击阅读更多

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u012505432/article/details/52071537 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_v…

OpenKG开源系列 | 面向知识的推理问答编程语言KoPL(清华大学)

OpenKG地址&#xff1a;http://openkg.cn/tool/koplGitHub地址&#xff1a;https://github.com/THU-KEG/KoPL网站地址&#xff1a;https://kopl.xlore.cn开放许可协议&#xff1a;MIT License贡献者&#xff1a;清华大学&#xff08;曹书林、史佳欣、姚子俊、吕鑫、聂麟骁、逄凡…

前端组件化开发实践

前言 一位计算机前辈曾说过&#xff1a; Controlling complexity is the essence of computer programming.随着前端开发复杂度的日益提升&#xff0c;组件化开发应运而生&#xff0c;并随着 FIS、React 等优秀框架的出现遍地开花。这一过程同样发生在美团&#xff0c;面临业务…

LeetCode 937. 重新排列日志文件(自定义排序)

1. 题目 你有一个日志数组 logs。每条日志都是以空格分隔的字串。 对于每条日志&#xff0c;其第一个字为字母数字标识符。然后&#xff0c;要么&#xff1a; 标识符后面的每个字将仅由小写字母组成&#xff0c;或&#xff1b;标识符后面的每个字将仅由数字组成。 我们将这…

预训练时代微调新范式,高性能加速2800%,NLPer赶紧看过来!

一、导读PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包&#xff0c;提供中文领域丰富的预训练模型和部署工具&#xff0c;被高校、企业开发者广泛应用。近日&#xff0c;PaddleNLP v2.1正式发布&#xff0c;为开发者带来三项重要更新&#xff1a;开箱即用的工业…

论文浅尝 | GaussianPath: 用于知识图谱推理的贝叶斯多跳推理框架

笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;AAAI’21链接&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/16565多跳推理由于对下游任务例如问答和图谱补全的可解释性受到关注。多跳推理是一个典型的顺序决策过程&#xff0c;可表述…

老子【道德经】全文翻译(全81章)

老子道德经全文翻译&#xff08;全81章&#xff09;阅读 &#xff1a; 【老子第一章】 道可道&#xff0c;非常道。名可名&#xff0c;非常名[1]。 无名天地之始&#xff1b;有名万物之母。 故常无&#xff0c;欲以观其妙&#xff1b;常有&#xff0c;欲以观其徼。 此两者&…