OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

c2ec226e464bd057cf1f1c8316802b81.png

OpenKG地址:http://openkg.cn/tool/openue

GitHub地址:https://github.com/openkg-org/openue

Gitee地址:https://gitee.com/openkg/openue

OpenUE网站:http://openue.openkg.cn

论文地址:https://aclanthology.org/2020.emnlp-demos.1.pdf

开放许可协议:GPL 3.0

贡献者:浙江大学(张宁豫、谢辛、毕帧、王泽元、陈想、叶宏彬、余海阳、田玺、邓淑敏、郑国轴、陈华钧),阿里巴巴集团(陈漠沙、谭传奇、黄非)

a9a677d4041b8299e3be98450cc13c95.gif

知识图谱以结构化的形式描述真实世界中实体间的复杂关系,是人工智能的底层支撑。依托于行业数据和深度学习技术,知识图谱已被广泛应用于诸多产业核心的场景,因此催生了知识图谱构建需求。知识抽取可以从海量的文本或网页的原始数据中提取有价值的信息,最终以结构化的形式进行描述,是支撑知识图谱构建的主要任务之一。然而,由于知识的复杂性和异构性,不同的抽取任务需要设计不同的模型,在一定程度上影响了知识抽取的效率。本文开源了OpenUE工具,其提出了一个简单的思想,即大多数任务可以用一种通用的抽取范式来表示,实现了一个轻量级通用知识抽取工具。本工具的前一个版本已被自然语言处理顶级会议EMNLP2020录用为Demo论文。

本工具更新的内容如下:

1. 重新封装了全新的Pytorh训练测试接口,便于用户调用。

2. 基于通用抽取范式支持多种抽取任务,实现轻量级知识抽取。

3. 新增一键TorchServing功能,实现敏捷知识抽取服务部署。

OpenUE使开发人员可以训练自定义任务,并从文本中提取信息,支持研究人员快速进行模型验证。此外还提供了在线Demo演示,无需进行训练和部署,支持实时知识抽取,包括三元组知识抽取,槽填充和意图检测,事件抽取等。

4f9e150480f842e133c713e118e693b9.png

OpenUE架构图

1、应用场景

1.1 实体三元组知识抽取

事实三元组抽取目的是为了从非结构化文本抽取实体以及实体间蕴含的关系。比如对于句子“巴黎被称为法国的浪漫之都”,三元组抽取应获得三元组<法国, 首都, 巴黎>,其中首都是巴黎和法国两个实体的关系。本工具使用了一种简单的思路,即首先对与句子的关系进行分类,然后进行序列标记以提取实体。

关系优先方法在真实场景中是很大帮助,因为大多数句子都包含NA关系(也就是没有关系)。因此OpenUE可以预先过滤掉没有关系的文本,提高计算效率。

1.2 事件知识抽取

从自然语言文本中抽取事件非常具有挑战性。当给定文档时,事件抽取系统需要识别具有特定类型的事件触发词以及包含的元素和角色。在真实场景中,OpenUE先对文档进行基于事件类型分类,进而并基于序列标注进行角色抽取。OpenUE集成了无需触发词检测的事件抽取功能。

69c2adaaa6e3f085b11b70b496594e4b.png

OpenUE应用举例

1.3 槽填充和意图知识抽取

自然语言理解(NLU)对于对话系统至关重要,它通常包括意图检测和槽填充两个任务,为用户话语形成语义解析。例如给定用户的话语,槽填充在单词级别上理解该文本,为指示特定单词分配相应的槽位类型,如下图所示。而意图检测在句子级别上进行,为整个句子打上意图标签。槽填充和意图检测依赖于token级别和句子级别的理解, OpenUE也集成了该任务。

10e4b5ba13d915c36162a15473687501.png

演示系统

2、模块设计

OpenUE新版本主要分为三个模块,models、lit_models和data模块。

models 模块

其存放了主要的三个模型代码实现,针对整句的分类(关系)模型,针对已知句子类别的序列标注模型,还有将前两者整合起来的推理验证模型。其主要基于transformers库中的已定义好的预训练模型。

lit_models 模块

其中的代码主要继承自pytorch_lightning.Trainer。其可以自动构建单卡,多卡,GPU,TPU等不同硬件下的模型训练。我们在其中定义了training_steps和validation_step即可自动构建训练逻辑进行训练。OpenUe硬件不敏感,用户可以使用多种不同环境下调用OpenUE训练模块。

data 模块

data中存放了针对不同数据集进行不同预处理的代码。使用了transformers库中的tokenizer先对数据进行分词处理再根据不同需要将数据变成用户需要的feature。

3、支持数据

中文关系抽取:ske数据集是基于schema的中文信息抽取数据集,其包含超过19万中文句子及50个已定义好的schema。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集,1万验证集和1万测试集。

英文关系抽取:webnlg数据集由大量的来自网络的自然语言文本和其包含的事实的三元组(实体和实体之间的关系)组成。数据集有246个关系,并包含了12,863个三元组。

事件抽取:句子级事件抽取DuEE1.0。该任务的目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定了抽取的范围,例如 (event_type:胜负,role:时间,胜者,败者,赛事名称)、(event_type:夺冠,role:夺冠事件,夺冠赛事,冠军)。其中训练集11908条,测试集3488条。OpenUE先对句子进行事件类型判断,然后根据抽取的类型和句子进行角色识别。

自然语言理解:SMP-2017 数据集。OpenUE处理自然语言理解任务时候分为两个步骤:先意图识别,之后将意图相关的槽位识别出来。其可以识别多种意图如app,电影,音乐等。

医疗三元组关系抽取:中文医疗信息处理基准CBLUE中CMeIE:给定Schema和文本,例如(“subject_type”:“疾病”,“谓词”:“药物治疗”,“object_type”:“药物”),该任务要求系统自动抽取句子中的所有三元组 = [(S1, P1, O1), (S2, P2, O2) ...]。该数据集预定义了 53 个 关系,包括 10 种属关系,43 种其他子关系。OpenUE采用和通用领域相同的方式处理医疗三元组。

4、基本用法

在使用openue工具训练需要先载入我们预先设定好的config文件,存放在github仓库中config目录下。

67127206fcb813e87902875715da1062.png

快速上手

配置Anaconda环境

ac86e3373ba6a3a6634e42b7b9567bf4.png

开发者模式使用openue

b7076b46fae7704b5366087e79665def.png

使用方式

数据格式为json文件,具体例子如下。

35d688414017c548bb7b3fbb6c9e7fe7.png

输入输出

样例输入和模型输出,模型输出N个(s,p,o)三元组。

cdb30931f5b366bafd7c96b1045b6755.png

将数据存放在./dataset/目录下之后进行训练。如目录为空,运行以下脚本,将自动下载ske数据集和预训练模型并开始训练,过程中请保持网络畅通以免模型和数据下载失败。

Notebook快速开始

ske 数据集训练notebook使用中文数据集作为例子具体介绍了如何使用openue中的lit_models、models和data。方便用户构建自己的训练逻辑。

若想直接使用shell命令进行模型训练,请依次运行以下命令,将自动下载数据集并训练命名实体识别模型和关系分类模型。

4ffb684639ef037666fd2371854ad742.png

训练过程

1.在配置完成后,用户输入./scripts/run_seq.sh ,该脚本将进行加入特殊label token,以及对数据集的处理。

2.之后进行训练验证和测试,OpenUE会输出在测试集上的分数,这里我们只使用了一个batch作为演示,所以test分数较为随机。

模型部署

1.下载torchserve-docker

首先根据以下步骤下载配置好torchserve-docker。

https://github.com/pytorch/serve/blob/master/docker/README.md

2.创建模型对应的handler类

我们已经在deploy文件夹下放置了对应的部署类handler_seq.py和handler_ner.py。

c284f14583dbb8768bec1d7c92b6ce59.png

之后将打包好的.mar文件加入到model-store文件夹下,并使用curl命令将打包的文件部署到docker中。

3.模型推理代码示例

7f109c2b56e62cd2a7254f037ada949a.png

5、小结和展望

OpenUE提供了一种简单的思路,可以用一种格式表示许多NLP抽取任务,提供了通用抽取的原型模型实现,并开源了一个可扩展的工具包。我们将持续维护该工具并不断开发和支持新的数据集和功能。

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

dd7049b354e3184d28b7fcfa357eaa71.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通俗理解kaggle比赛大杀器xgboost

原文链接 通俗理解kaggle比赛大杀器xgboost 说明&#xff1a;若出现部分图片无法正常显示而影响阅读&#xff0c;请以此处的文章为准&#xff1a;xgboost 题库版。 时间&#xff1a;二零一九年三月二十五日。 0 前言 xgboost一直在竞赛江湖里被传为神器&#xff0c;比如时不时某…

LeetCode 690. 员工的重要性(图的DFSBFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 给定一个保存员工信息的数据结构&#xff0c;它包含了员工唯一的id&#xff0c;重要度 和 直系下属的id。 比如&#xff0c;员工1是员工2的领导&#xff0c;员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结…

论文浅尝 | LGESQL: 结合线性有向图以及普通有向图的自然语言转换SQL语句模型...

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations笔记整理&#xff1a;郭心南来源&#xff1a;ACL2021链接&#xff1a;https://arxiv.org/abs/2106.01093Github地址&#xff1a;https://github.com/rhythmcao/text2sql-lgesql概述本文…

召回粗排精排-级联漏斗(上)

文 | 水哥源 | 知乎saying1. 把点击多的item曝光提升是推荐模型的基本能力&#xff0c;也是基本要求。后验不好的曝光提高也可能是好模型&#xff0c;后验好的曝光不提高&#xff0c;可以开除推荐模型了2. 在起量阶段&#xff0c;各路item需要争宠&#xff0c;谁能最快博取精排…

美团Android资源混淆保护实践

前言 Android应用中的APK安全性一直遭人诟病&#xff0c;市面上充斥着各种被破解或者汉化的应用&#xff0c;破解者可以非常简单的通过破解工具就能对一个APK进行反编译、破解、汉化等等&#xff0c;这样就可以修改原有代码的逻辑、添加新代码、添加或修改资源、或者更有甚者植…

细说ReactiveCocoa的冷信号与热信号(二):为什么要区分冷热信号

前一篇文章我们介绍了冷信号与热信号的概念&#xff0c;可能有同学会问了&#xff0c;为什么RAC要搞得如此复杂呢&#xff0c;只用一种信号不就行了么&#xff1f;要解释这个问题&#xff0c;需要绕一些圈子。 前面可能比较难懂&#xff0c;如果不能很好理解&#xff0c;请仔细…

jupyter 扩展工具添加自动补全代码功能+pep8+字体大小+代码行号+拼写检查+目录索引+代码自动补全

自动补全代码功能pep8字体大小代码行号拼写检查目录索引代码自动补全 我知道你会用Jupyter Notebook&#xff0c;但这些插件你都会了吗&#xff1f;

搞不懂,为啥现在什么公司都在考算法???

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力&#xff1f;其中一个最热门的回答是&#xff1a;“其实&#xff0c;无论你是前端还是后端、想进大厂还是拿高薪&#xff0c;算法都一定很重要。”为什么&#xff0c;算法会如此重要&#xff1f;不…

OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)

OpenKG地址&#xff1a;http://openkg.cn/dataset/ckggGitHub地址&#xff1a;https://github.com/nju-websoft/CKGG数据地址&#xff1a;https://doi.org/10.5281/zenodo.4668711论文地址&#xff1a;https://doi.org/10.1007/978-3-030-88361-4_25开放许可协议&#xff1a;CC…

LeetCode 892. 三维形体的表面积(数学)

1. 题目 在 N * N 的网格上&#xff0c;我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1&#xff1a; 输入&#xff1a;[[2]] 输出&#xff1a;10示例 2&#xff1a; 输入&#x…

细说ReactiveCocoa的冷信号与热信号(一)

背景 ReactiveCocoa&#xff08;简称RAC&#xff09;是最初由GitHub团队开发的一套基于Cocoa的FRP框架。FRP即Functional Reactive Programming&#xff08;函数式响应式编程&#xff09;&#xff0c;其优点是用随时间改变的函数表示用户输入&#xff0c;这样就不需要可变状态了…

淘宝数据,数据处理,时间序列分析,获客分析,购买路径分析

-- 创建数据库 create database taobao; use taobao; desc use_behaviour;-- 创建表格 create table use_behaviour( user_id int(9), item_id int(9), category_id int(9), behaviour_type varchar(5), timestamps int(14));-- 查询已导入多少条 select count(*) from use_…

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

文 | jxyxiangyu前言“小夕&#xff0c;小夕&#xff0c;你关注的任务sota又被刷新了&#xff01;”“什么&#xff1f;&#xff01;”还在跑实验的小夕默默流下了辛酸泪不得不说nlp领域的发展真的太快了&#xff0c;炼丹师们不光要时刻关注前沿热点&#xff0c;还要快速做出实…

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;EACL‘21链接&#xff1a;https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型&#xff08;LM&#xff09;视作一个知识库&#xff0c;然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上&#xff0c;每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品&#xff0c;&#xff08;按账单 bills 支付的顺序&#xff09;一次购买一杯。 每位顾客只买一杯柠檬水&#xff0c;然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…

召回粗排精排-级联漏斗(下)

文 | 水哥源 | 知乎saying召回区分主路和旁路&#xff0c;主路的作用是个性化向上管理&#xff0c;而旁路的作用是查缺补漏。推荐系统的前几个操作可能就决定了整个系统的走向&#xff0c;在初期一定要三思而后行。做自媒体&#xff0c;打广告&#xff0c;漏斗的入口有多大很重…

深入理解 Objective-C:方法缓存

摘要 只要用到Objective-C&#xff0c;我们每天都会跟方法调用打交道。我们都知道Objective-C的方法决议是动态的&#xff0c;但是在底层一个方法究竟是怎么找到的&#xff0c;方法缓存又是怎么运作的却鲜为人知。本文主要从源码角度探究了Objective-C在Runtime层的方法决议&am…

学术联赛 | 运用知识图谱技术,赋能多领域应用 ——“未来杯”AI学术联赛总决赛暨颁奖典礼圆满落幕...

本文转载自公众号&#xff1a;AI学习社。由北京大学软件工程国家工程研究中心主办&#xff0c;华为终端有限公司及中软国际教育科技集团全程战略支持&#xff0c;STEER TECH科技平台、北京乐智元素科技有限公司、艾肯文化传媒&#xff08;北京&#xff09;有限公司、AI TIME承办…

LeetCode 1013. 将数组分成和相等的三个部分

1. 题目 给定一个整数数组 A&#xff0c;只有我们可以将其划分为三个和相等的非空部分时才返回 true&#xff0c;否则返回 false。 形式上&#xff0c;如果我们可以找出索引 i1 < j 且满足 (A[0] A[1] … A[i] A[i1] A[i2] … A[j-1] A[j] A[j-1] … A[A.lengt…

异常值检测

#设定异常值比例 outliers_fraction 0.01# 初始化 LSCP 探测集 detector_list [LOF(n_neighbors5), LOF(n_neighbors10), LOF(n_neighbors15),LOF(n_neighbors20), LOF(n_neighbors25), LOF(n_neighbors30),LOF(n_neighbors35), LOF(n_neighbors40), LOF(n_neighbors45),LOF(…