知识图谱入门知识(二)事件抽取(EE)详细介绍

学习内容

本文主要详细介绍事件抽取EE的概念;
装载自:李景鹏 啥是事件抽取(Event Extraction)?
同时这里关于事件抽取的介绍也可以作为补充: 分层网络用于事件参数抽取

事件抽取 = 事件提取(Event Extraction EE)= 事件识别(Event Detection ED)

很多事件抽取的方法将事件抽取分为两个阶段:EAE(event argument extraction) 和 ED(event detection)后者会根据触发词来确定事件的发生,发生了啥。
结构化数据和非结构化数据: 指的是一句话是不是已经给他归类了!

事件描述

schema:

事件抽取任务的起点,是需求的出现。关心金融领域的朋友,比如我(持有市值约370元人民币的基金),希望了解所有可以影响市场情绪的事件。因此,海量新闻数据中识别特定类型的事件就是我们的需求。

需求确定了,接下来的任务就是把需求转换为人和机器都可以理解的一种形式,即制定事件的schema。“schema”即纲要,是我们对事物一般的、抽象的描述,体现人类对事物的认知水平,决定了机器抽取事件的能力,因此非常重要。一个完整的事件schema,应当包括:

(1)事件类型体系,比如“企业成立”、“企业并购”等等组成的,就是我关心的事件的类型体系;

(2)各类事件的重要角色,比如表2-1所示的各个字段,就是一个事件得以发展所依赖的重要角色。有时候,我们会设置一种特殊的角色,即“事件触发词”,用来辅助判断事件的发生。

确定了schema,一方面方便大家在相同的概念基础上展开协作,另一方面也让机器有了相对确定的学习和预测目标。

事件抽取分类

事件抽取包括事件触发词检测(识别事件触发词,并明确所触发事件的类型)和属性抽取(识别触发事件的属性,并标注各属性对应角色)两个子任务。例如,“He died in hospital”中“died”作为一个Die类型事件的触发词,该事件中,属性“He”的角色为Person, “hospital”的角色为Place. 本文主要探讨事件触发词检测任务中的跨句触发词联合抽取问题。

事件抽取难点

当下,事件触发词检测任务面临的挑战主要包括:(1)句子上下文表示及篇章级信息整合[1],[2]。候选触发词类型的判定一般需要结合上下文信息,包括关联实体信息(类型等)、其他候选触发词等。例如,图1中句子3中的“firing”可能是开枪(触发Attack事件)或离职(触发End_Position事件),Attack事件的确立需要融合句子2,4等的信息。(2)句内和句间事件关联性建模[1],[3]。句4包含事件触发词fight和death,ACE05数据集中超过40%触发词如此共现;类似句2、句3和句4中的连续关联事件同样普遍。因此,建模事件之间依赖对于同时抽取句子、跨句多事件尤为重要。

现有方法主要专注于句子级事件抽取,忽略了存在于其他句子中的信息。通过对事件抽取benchmark数据集ACE05的分析,我们得出如下结论。(1)可将事件触发词检测任务视为一个Seq2Seq任务,其中,source序列为文本篇章或句子,target序列是事件标签序列。对应基于RNN的encoder-decoder框架能有效处理该类问题,其中encoder建模丰富的上下文语义信息,decoder在解码过程中捕捉标签的依赖性。(2)对于当前句子,与之关联最密切的信息主要存在于邻近句子,相距较远的文本影响较小。

事件抽取和命名实体识别的区别

命名实体抽取,指的是抽取某一类客观实例的词语,比如手机、张三、李四等
事件抽取只得是抽取某一类动作,比如爆炸、开会、开车等
命名实体抽取是事件抽取的基础,因为事件中都必须有至少一个主体,比如手机爆炸、张三开会、李四开车。

NER

链接
NER技术简要介绍
1.命名实体识别的主要任务:
要识别出文本中出现的专有名称和有意义的数量短语并加以归类。

2.命名实体识别的主要研究内容:

就整个的命名实体识别的研究结果而言,时间表达式和数字表达式的识别相对简单,其规则的设计、数据的统计训练等也比较容易。而对于实体中的组织名、人名、地名,因为其具有开放性和发展性的特点,而且构成规律有很大的随意性,所以其识别就可能会有较多的错选或漏选。现在大多数的命名实体识别的研究都集中于对这三种实体的识别技术的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

post和get传值

//post传值send.aspx: if (e.CommandName "ChaXun") { LinkButton Lik(LinkButton)e.Item.FindControl("LinkButton1"); Context.Items["username"] Lik.CommandArgument.ToString(); Server.Transfer…

交通流元胞自动机模拟仿真 matlab源码_元胞自动机中的时间反演

1.引言——生命游戏1970年,英国数学家约翰何顿康威提出了生命游戏(Life Game)。生命游戏本质是一个元胞自动机模型,每个元胞可以看作是一个细胞,细胞的产生、繁衍和死亡拥有3条演化规则。1. 如果一个细胞周…

李宏毅机器学习(二)自注意力机制

学习内容 本文以NLP为基础来介绍自注意力机制,而没有用图像为基础,但是其实两者都是相同的。 在图像中我们可以将图像切块(块的划分是自定义的),然后计算块与块之间的关系; 这里介绍了self-attention 的由…

LeetCode 643. 子数组最大平均数 I

1. 题目 给定 n 个整数&#xff0c;找出平均数最大且长度为 k 的连续子数组&#xff0c;并输出该最大平均数。 示例 1: 输入: [1,12,-5,-6,50,3], k 4 输出: 12.75 解释: 最大平均数 (12-5-650)/4 51/4 12.75注意: 1 < k < n < 30,000。 所给数据范围 [-10,000&a…

技术交流论坛_研发部第四次技术交流论坛

炎热的七月&#xff0c;由研发部举办的第四次技术交流论坛顺利召开&#xff0c;这是知识的激烈碰撞&#xff0c;也是一次头脑风暴。出席本次交流活动的有柯明宏副总、郑正部长、权大有副部长、向民龙副部长等公司管理层领导和公司骨干成员。首先由柯明宏副总、郑正部长给这一次…

LeetCode 661. 图片平滑器

1. 题目 包含整数的二维矩阵 M 表示一个图片的灰度。 你需要设计一个平滑器来让每一个单元的灰度成为平均灰度 (向下舍入) &#xff0c; 平均灰度的计算是周围的8个单元和它本身的值求平均&#xff0c;如果周围的单元格不足八个&#xff0c;则尽可能多的利用它们。 示例 1: 输…

论文阅读笔记(三)【ACL 2021】Locate and Label: A Two-stage Identifier for Nested Named Entity

论文标题&#xff1a; Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition 论文链接&#xff1a; https://arxiv.org/abs/2105.06804 代码链接&#xff1a; https://github.com/tricktreat/locate-and-label 摘要 &#xff08;1&#xff09;过…

WDK中出现的特殊代码

WDK中出现的特殊代码 我们用本章的最后一个小节来介绍一些在WDK示例代码中见到的特殊形式编码。这些代码在Win32应用程序的编程中很少见到&#xff0c;读者需要首先熟悉一下。 首先是参数说明宏。参数说明宏一般都是空宏&#xff0c;最常见的是IN和OUT。其实定义很简单&…

局域网lan设置_4G工业路由器的WAN、LAN组网方式

4G工业路由器组网通常是通过WAN口、LAN口来实现&#xff0c;计讯带大家详细了解关于4G工业路由器WAN、LAN组网方式。1、WAN口加4G组网方式该组网方式同时拥有两个可以连接到广域网的接口(以太网口的WAN口和M2M网络的4G口)&#xff0c;两路通道形成互补及备份&#xff0c;同时接…

LeetCode 894. 所有可能的满二叉树(递归)

1. 题目 满二叉树是一类二叉树&#xff0c;其中每个结点恰好有 0 或 2 个子结点。 返回包含 N &#xff08;1 < N < 20&#xff09;个结点的所有可能满二叉树的列表。 答案的每个元素都是一个可能树的根结点。 答案中每个树的每个结点都必须有 node.val0。 你可以按任…

论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset

摘要 过去的难点&#xff1a; 过去的都是粗粒度的&#xff1b; Few-NERD&#xff1a; 一个大规模的人类注释的小样本NERD数据集&#xff0c;它具有8种粗粒度和66种细粒度实体类型的层次结构。Few-NERD由来自维基百科的188238个句子组成&#xff0c;包含4601160个单词&#xff…

Exchange2003启用web页面登陆(表单型身份验证)

一、 owa中启用表单验证 在Exchange server 2003中配置OWA启用基于表单的身份验证(忽略SSL): o 在服务器&#xff0d;协议&#xff0d;HTTP&#xff0d;HTTP虚拟服务器右键&#xff0d;勾选"启用基于表单的身份验证"&#xff0c;出现提示要求SSL&a…

LeetCode 241. 为运算表达式设计优先级(动态规划)

1. 解题 给定一个含有数字和运算符的字符串&#xff0c;为表达式添加括号&#xff0c;改变其运算优先级以求出不同的结果。 你需要给出所有可能的组合的结果。有效的运算符号包含 , - 以及 * 。 示例 1: 输入: "2-1-1" 输出: [0, 2] 解释: ((2-1)-1) 0 (2-(1-1)…

python具体应用过程_python公开课|Python for循环的具体应用就是python流程控制的核心,想学会就来看看...

【摘要】在这个科学技术高速发展的时代&#xff0c;越来越多的人都开始选择学习编程软件&#xff0c;那么首先被大家选择的编程软件就是python&#xff0c;也用在各行各业之中&#xff0c;并被大家所熟知&#xff0c;所以也有越来越多的python学习者关注python问题&#xff0c;…

知识图谱入门知识(三)词性标注

学习内容 基本大多数的问题都可以转为词性标注问题&#xff01; 这里只做记录&#xff0c;都是别人的回答&#xff01; 常用的概念 什么是token tokenization就是通常所说的分词&#xff0c;分出的每一个词语我们把它称为token。 链接 词性标注参考一 自然语言处理之序列标…

sql 查讯本日 本周 本月

sql 查询本周本月问题---求相差天数 select datediff(day,2004-01-01,getdate()) --1.一个月第一天的 SELECT DATEADD(mm, DATEDIFF(mm,0,getdate()), 0) --2.本周的星期一 SELECT DATEADD(wk, DATEDIFF(wk,0,getdate()), 0) sel…

python爬虫入门必备正则_python 爬虫入门之正则表达式 一

python 正则表达式知识点正则 常用符号. : 匹配任意字符&#xff0c;换行符除外* &#xff1a; 匹配前一个字符 0 次或者无限次&#xff1f; &#xff1a; 匹配前一个字符 0次或者1次.* &#xff1a; 贪心算法.*&#xff1f; &#xff1a;非贪心算法()&#xff1a; 括号内的数…

李宏毅机器学习(三)Word Embedding

学习内容 前情提要 使用一个vector来表示一个word&#xff0c;怎么做&#xff1f; 1-of-N Encoding 维度就是所有单词的量 缺点&#xff1a; dog 和 cat是不能归为一类的&#xff0c;只能单独的表示&#xff1b; Word CLass 将同类别的归为一类&#xff1b; 但是更高层的tok…

IBM T61 键盘没有反映。

出现这个问题不是一次两次了&#xff0c;就是启动后&#xff0c;键盘所有按键&#xff0c;小红帽都不能用&#xff0c;必须重启好几次才能用。 有时候键盘能用&#xff0c;但是打开 dw ,复制不能用&#xff0c;真是懊恼。 今天又出现这个情况&#xff0c;我偶然想到是不是和昨天…

LeetCode 680. 验证回文字符串 Ⅱ

1. 题目 给定一个非空字符串 s&#xff0c;最多删除一个字符。判断是否能成为回文字符串。 示例 1: 输入: "aba" 输出: True示例 2: 输入: "abca" 输出: True 解释: 你可以删除c字符。 注意: 字符串只包含从 a-z 的小写字母。字符串的最大长度是50000。来…