知识图谱入门知识(一)知识图谱应用以及常用方法概述

学习内容

搜集各种博客,理解实体识别、关系分类、关系抽取、实体链指、知识推理等,并且总结各种分类中最常用的方法、思路。
由于自己刚刚接触知识图谱,对该领域的概念和方法的描述还不是很清楚,所以只是简单的列出框架和添加链接,之后会进行补充。

1. 实体识别

原文地址:链接
介绍相关概念的: 链接

1.1 方法概述

在这里插入图片描述
早期的命名实体识别方法大都是基于规则的,系统的实现代价较高;
但是进入21世纪后,基于大规模语料库的统计方法逐渐成为自然语言处理的主流,一大批机器学习方法被成功地应用于自然语言处理的各个方面。根据使用的机器学习方法的不同,我们可以粗略地将基于机器学习的命名实体识别方法划分为如下四种:有监督的学习方法、半监督的学习方法、无监督的学习方法、混合方法。

1.2 命名实体识别方法

1.2.1 基于CRF的命名实体识别方法

CRF:条件随机场; 也是最成功的命名实体识别方法,受到工业界的广泛使用。
基于CRF的命名实体识别与前面介绍的基于字的汉语分词原理一样,就是把命名实体识别过程看作一个序列标注问题。 基本思路是:将给定的文本首先进行分词处理,然后对人名、简单地名和简单的组织机构名进行识别,最后识别复合地名和复合组织机构名。

1.2.2 基于多特征的命名实体识别方法

在命名实体识别中,无论采用哪一种方法,都是试图充分发现和利用实体所在的上下文特征和实体的内部特征,只不过特征的颗粒度有大(词性和角色级特征)有小(词形特征)的问题。考虑到大颗粒度特征和小颗粒度特征有互相补充的作用,应该兼顾使用的问题,提出了基于多特征相融合的汉语命名实体识别方法,该方法是在分词和词性标注的基础上进一步进行命名实体的识别,由词形上下文模型、词性上下文模型、词形实体模型和词性实体模型4个子模型组成的。其中,词形上下文模型估计在给定词形上下文语境中产生实体的概率;词性上下文模型估计在给定词性上下文语境中产生实体的概率;词形实体模型估计在给定实体类型的情况下词形串作为实体的概率;词性实体模型估计在给定实体类型的情况下词性串作为实体的概率。

2.关系分类

原文地址: 链接

2.1 简介

给定一段自然语言文本以及该文本中出现的若干实体(e1...ene_{1}...e_{n}e1...en),关系分类(relation classification)任务的目的是识别这些实体(e1...ene_{1}...e_{n}e1...en)之间满足的语义关系关系分类也叫做关系抽取、关系识别等)。由于全部可能的关系集合通常是预先指定好的(例如知识图谱中的全部谓词(边上的标注/关系)),因此该任务可以采用分类方法完成。最基本的关系分类任务是判断文本中同时出现的两个实体(e1,ene_{1},e_{n}e1,en)之间的关系。
2012年,Google对外发布了基于知识图谱(free base)的语义搜索和智能问答服务,并开放了该知识图谱供工业界和学术界使用。大规模知识图谱的出现极大地推动了智能问答研究的发展。基于此类知识图谱,斯坦福、Facebook 和微软等研究机构分别构建并开放了基于知识图谱的智能问答评测数据集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,这些数据集涉及的问答任务需要问答系统能够针对输人问题进行准确的关系分类。由于知识图谱中包含的关系(即谓词)数目远超上述关系分类任务涉及的关系数目,因此近年来出现了很多新型的关系分类方法。主要包括模板匹配方法、监督学习方法和半监督学习方法。

2.2 方法

2.2.1 模板匹配方法

模板匹配方法是关系分类任务中最常见的方法。该类方法使用一个模板库对输入文本中两个给定实体进行上下文匹配,如果该上下文片段与模板库中某个模板匹配成功,那么可以将该匹配模板对应的关系作为这两个实体之间满足的关系。
两种常用的模板匹配方法: 第一种方法是基于人工模板完成关系分类任务,第二种方法是基于统计模板完成关系分类任务
基于人工模板的关系分类主要用于判断实体间是否存在上下位关系(Hyponymy).
基于人工模板的关系分类在给定关系列表的基础上,从大规模数据中自动抽取和总结模板,并将抽取出来的高质量模板用于关系分类任务。该过程无需过多人工干预

2.2.2 监督学习方法

监督学习(supervised learning)方法使用带有关系标注的数据训练分析分类模型。本节把该类方法分为三类进行介绍:基于特征的方法、基于核函数的方法和基于深度学习的方法

2.2.3 半监督学习方法

基于自举的方法和基于远监督的方法。

3.实体链指

原文地址:链接

3.1简介

实体链接,就是把文本中的mention链接到KG里的entity的任务。如下图所示[1]:
在这里插入图片描述

  • Knowledge Graph (知识图谱):一种语义网络,旨在描述客观世界的概念实体及其之间的关系,有时也称为Knowledge Base (知识库)。
  • 图谱由三元组构成:<实体1,关系,实体2> 或者 <实体,属性,属性值>;
    例如:<姚明,plays-in,NBA>、<姚明,身高,2.29m>;
    常见的KB有:Wikidata、DBpedia、YAGO。
  • Entity (实体):实体是知识图谱的基本单元,也是文本中承载信息的重要语言单位。
  • Mention (提及):自然文本中表达实体的语言片段。
    回过头再看,上面的这个图中,“乔丹”、“美国”、“NBA”这些蓝色的片段都是mention,其箭头所指的“块块”就是它们在图谱里对应的entity。

3.2 方法

  • End-to-End:先从文本中提取到实体mention (即NER),对应到候选实体,然后将提取到的entities消除歧义,映射到给定的KB中。
  • Linking-Only:与第一种方法对比,跳过了第一步。该方法直接将text和mention作为输入,找到候选实体并消除歧义,映射到给定的KB中。
    由于端到端的工作比较少,且NER也没太多可讲的。Linking-Only的相关技术方向和工作现在比较火。

3.3 难点以及对应的解决方法

EL的工作非常有挑战性,主要有两个原因:

  • Mention Variations:同一实体有不同的mention。(<科比>:小飞侠、黑曼巴、科铁、蜗壳、老科。)
  • Entity Ambiguity:同一mention对应不同的实体。(“苹果”:中关村苹果不错;山西苹果不错。)

针对上述两个问题,一般会用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 两个模块[2]来分别解决:

  • Candidate Entity Generation:从mention出发,找到KB中所有可能的实体,组成候选实体集 (candidate entities);
  • Entity Disambiguation:从candidate entities中,选择最可能的实体作为预测实体。

其中,CEG的方法都比较朴素,没什么可讲的,笔者会把重点放在ED上。
详细请看原文

4. 关系抽取

原文地址:链接

4.1 简介

信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。比如:

International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.

我们可以从上面这段文本中抽取出如下三元组(triples)关系:

  • Founding-year (IBM, 1911)
  • Founding-location (IBM, New York)

为什么要进行关系抽取?
创建新的结构化知识库(knowledge base)并且增强现有知识库
构建垂直领域知识图谱:医疗,化工,农业,教育等
支持上层应用:问答,搜索,推理等。比如,对于这样一个提问:

The granddaughter of which actor starred in the movie “E.T.”?

可以用如下的关系推理表示:

(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)

4.2 方法

基于规则的模式匹配(Using Hand-built Patterns)
基于监督学习的方法(Supervised Method)
我们可以把关系抽取当成一个多分类问题,每一种关系都是一个类别,通过对标签数据的学习训练出一个分类器(classifier)即可。主要难点有两个:特征的构建和标签数据的获取
半监督和无监督学习方法(Semi-supervised && unsupervised)
基于种子的启发式算法(Seed-­based or bootstrapping approach)

远程监督学习(Distant Supervision)

5. 知识推理

原文地址:链接

5.1 简介

OWL本体语言是知识图谱中最规范(W3C制定)、最严谨(采用描述逻辑)。表达能力最强的语言(是一阶谓词逻辑的子集),它基于RDF语法,使表示出来的文档具有语义理解的结构基础。促进了统一词汇表的使用,定义了丰富的语义词汇。同时允许逻辑推理

所谓推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。其具体任务可分为可满足性(satisfiability)、分类(classification)、实例化(materialization)

可满足性可体现在本体上或概念上,在本体上即本体可满足性是检查一个本体是否可满足,即检查该本体是否有模型。如果本体不满足,说明存在不一致。概念可满足性即检查某一概念的可满足性,即检查是否具有模型,使得针对该概念的解释不是空集。
分类,针对Tbox的推理,计算新的概念包含关系
实例化即计算属于某个概念或关系的所有实例的集合

5.2 方法

基于Tableaux运算
基于一阶查询重写的方法
基于产生式规则的方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openMP学习笔记(一)

声明&#xff1a;欢迎任何人和组织转载本blog中文章&#xff0c;但必须标记文章原始链接和作者信息。 本文链接&#xff1a;http://blog.csdn.net/li_007/archive/2009/04/30/4139211.aspx 开拓进取的小乌龟------->CSDN点滴点点滴滴Blog 之前大概看了一下openMP&#xff0c…

LeetCode 532. 数组中的K-diff数对

1. 题目 给定一个整数数组和一个整数 k, 你需要在数组里找到不同的 k-diff 数对。 这里将 k-diff 数对定义为一个整数对 (i, j), 其中 i 和 j 都是数组中的数字&#xff0c;且两数之差的绝对值是 k. 示例 1: 输入: [3, 1, 4, 1, 5], k 2 输出: 2 解释: 数组中有两个 2-diff …

python随机生成六位数密码_python生成6位包含数字和字母的密码

初学python&#xff0c;简单敲了几行生成6位包含数字和字母密码的代码(我是在python 3上敲的)首先理清思路&#xff1a;1、包含数字和字母的六位口令共有36^6个2、将0-9和a-z合成一个字符串pwd,用pwd[0-35]表示所有数字和小写字母&#xff0c;即pwd[0]0,pwd[1]1…pwd[34]y,pwd[…

知识图谱入门视频(三)

学习内容 小象学院 b站 第三章 【其实后面的方法学习只是一个框架式的学习&#xff0c;并不明白具体的操作】 链接 问题&#xff1a; 知识图谱究竟是什么&#xff1f; 可以看看开放知识图谱 其实就是将我们的语言拆分转换为符号表达&#xff0c;之后经过机器学习来将离散式的…

博客新皮肤上市

原创&#xff1a;冰极峰 有朋友说原来的博客不好看&#xff0c;趁着五一节放假&#xff0c;花了点时间重新制作了一套样式&#xff0c;图片借用一个外国博客的图片。 样式全部基于自定义皮肤样式改写的。 说实话&#xff0c;改写博客园样式是一件比较痛苦的事情&#xff0c;你不…

python调用接口测试_Python接口测试实战2 - 使用Python发送请求

本节内容requests安装requests使用JSON类型解析requests库详解带安全认证的请求序言上节课我们学习了接口测试的理论&#xff0c;抓包工具及使用Postman手工测试各种接口&#xff0c;这节课我们主要讲解使用Python语言来发送接口请求&#xff0c;实现接口测试自动化。发送请求,…

LeetCode 551. 学生出勤记录 I

1. 题目 给定一个字符串来代表一个学生的出勤记录&#xff0c;这个记录仅包含以下三个字符&#xff1a; A : Absent&#xff0c;缺勤 L : Late&#xff0c;迟到 P : Present&#xff0c;到场如果一个学生的出勤记录中 不超过一个’A’(缺勤) 并且 不超过两个连续的’L’(迟到…

论文阅读笔记(一)【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch(未完)

学习内容 题目&#xff1a; 自然语言从零开始 Natural Language Processing (Almost) from Scratch 2021年7月28日 1-5页 这将是一个长期的过程&#xff0c;因为本文长45页&#xff1b; 每天给自己定为5页的任务量&#xff01; 由于刚开始接触知识图谱&#xff0c;尚未学习N…

python找出录取率最高的年份_Python分析42年高考数据,告诉你高考为什么这么难?...

不同省份的985和211录取率有着比较明显的差距&#xff0c;12个省份的985录取率低于1.5%&#xff0c;安徽&#xff0c;河南&#xff0c;江苏和贵州更是低于1.2%大数据文摘授权转载自数据森麟作者&#xff1a;徐麟对于已经工作的“上班族”来说&#xff0c;6月7号到9号三天无疑是…

知识图谱入门视频(四)

学习内容 小象学院 b站 问题 本体和实体的区别&#xff1f; 苹果公司是一个科技公司&#xff0c;那么苹果公司就是一个实体&#xff0c;它所对应的科技公司就是本体概念。分布式表示和分布式存储 前者是将语义连续化&#xff0c;后者则是一个存不下&#xff1b; 第四部分 应…

FMS3系列(三):创建基于FMS的流媒体播放程序

本文主要介绍怎么去创建基于FMS的流媒体播放程序&#xff0c;Flash客户端通过网络加载FMS服务器上的视频流文件(.flv,.mp4等)&#xff0c;实现视频流的播放。 要实现媒体流文件的播放是非常简单的&#xff0c;只要在FMS服务器上提供好流媒体文件&#xff0c;Flash客户端通过Net…

kakfa怎么看消息是否堆积_纯种哈士奇多少钱一只,怎么看是否是纯种哈士奇

纯种哈士奇多少钱一只&#xff0c;怎么看是否是纯种哈士奇哈士奇之前是一种生存在高寒地带的工作犬&#xff0c;近些年迅速占领了家庭宠物的市场&#xff0c;成为最受欢迎的宠物犬之一&#xff0c;由于它精力过于旺盛而且服从性极地因此也让很多人头痛。但是这并不能让人们减少…

论文阅读笔记(二)【ACL2021】知识抽取NER

学习内容 由于刚刚进入知识图谱领域&#xff0c;对该领域的研究热点不是很了解&#xff0c;所以本文直接翻译ACL2021中关于知识抽取NER中各个论文的摘要和共享&#xff1b;并且适时在最后写出自己的理解&#xff1b;同时自己也会在了解完全部后给出各个论文的研究分类。 1. 题…

SQL Server 2000中的数据转换服务 (DTS)

SQL Server 2000中的数据转换服务 (DTS) 更新日期&#xff1a; 2004年06月15日发布者 Diane LarsenEuan Garden, 投稿人 Microsoft Corporation 2000 年 9 月 摘要&#xff1a; 为了完成数据合并、存档和分析等任务&#xff1b;为了进行应用程序开发&#xff1b;为了进行数据库…

LeetCode 599. 两个列表的最小索引总和(哈希map)

1. 题目 假设Andy和Doris想在晚餐时选择一家餐厅&#xff0c;并且他们都有一个表示最喜爱餐厅的列表&#xff0c;每个餐厅的名字用字符串表示。 你需要帮助他们用最少的索引和找出他们共同喜爱的餐厅。 如果答案不止一个&#xff0c;则输出所有答案并且不考虑顺序。 你可以假…

python odoo_odoo python 使用缓存

from tools.com_cache import cache, ctime, timeblock# 使用SQL来取得指定商品在指定仓库的库存数量def get_warehouse_stock_qty(self,warehouse_id):self.ensure_one()# 从缓存中查询&#xff0c;如有cache_data cache.warehouse_stock_qty.get([self.id,warehouse_id])if …

项目经理(project manager)刘小备的一天

背景介绍说明:人物:部门经理:汉小帝刘正系统实施部经理:陶小谦项目经理(project manager):刘小备软件Software工程师:关小羽张小飞赵小云马小超黄小忠任务:为江东通信公司开发套管理平台软件Software江东通信公司接口人:鲁小肃时间:2007年某某月某某天当前状态:项目在编码阶段进…

李宏毅机器学习(一)基本概念介绍

学习内容 这是第二次看机器学习的内容&#xff0c;所以这里主要记录的是让我印象深刻的知识点&#xff1b; 但是有两个问题&#xff1a; deep&#xff1f; 为什么不是越深越好&#xff1f;fat&#xff1f; 为什么要套娃&#xff0c;我们只需要将多个sigmoid并排不就好了吗&am…

灰色关联分析_灰色关联分析模型研究综述

灰色关联分析模型研究小结1 引言灰色关联分析是灰色系统理论中十分活跃的一个分支, 其基本思想是根据序列曲线几何形状来判断不同序列之间的联系是否紧密. 基本思路是通过线性插值的方法将系统因素的离散行为观测值转化为分段连续的折线, 进而根据折线的几何特征构造测度关联程…

LeetCode 622. 设计循环队列

1. 题目 设计你的循环队列实现。 循环队列是一种线性数据结构&#xff0c;其操作表现基于 FIFO&#xff08;先进先出&#xff09;原则并且队尾被连接在队首之后以形成一个循环。 它也被称为“环形缓冲器”。 循环队列的一个好处是我们可以利用这个队列之前用过的空间。 在一个…