论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset

摘要

过去的难点:
过去的都是粗粒度的;
Few-NERD:
一个大规模的人类注释的小样本NERD数据集,它具有8种粗粒度和66种细粒度实体类型的层次结构。Few-NERD由来自维基百科的188238个句子组成,包含4601160个单词,每个单词都被标注为上下文或两级实体类型的一部分。

Introduction

Few-NERD粗细粒度在下图中展示,其中内圈表示的是粗粒度,外圈是细粒度:

就与NERD数据集的划分类型是需要专业的人士的。而命名实体的少镜头学习研究工作主要面临两个挑战:第一,用于少样本学习的大多数数据集只有418种粗粒度实体类型,使得构建足够多的“N-way”元任务和学习相关特征变得困难。事实上,我们观察到大多数看不见的实体都是细粒度的。其次,由于缺乏基准数据集,不同作品的设置不一致,导致不清楚的比较。
该数据由188.2k个从维基百科文章中提取的句子组成,491.7k个实体;对于基准设置,我们设计了三个基于少量NERD的任务,包括一个标准监督任务(少量NERD(SUP))和两个少量快照任务(少量NERD-INTRA)和FEWNRTD(INTER));

问题定义

NER

输入: 一个句子x=x1,x2,...,xtx = {x_1, x_2,...,x_t}x=x1,x2,...,xt
输出:对于每个xix_ixi分配yi∈Yy_i\in{Y}yiY来指明标记是命名实体的一部分或者不属于任何实体(用O来表示) YYY是预定义的实体类别

Few-shot NER

Few-shot learning
在少样本的场景下,样本被按照批次(episode)组织成N-way-K-shot形式的数据。每个批次的数据又被组织成两个集合,support set 支持集Strain={x(i),y(i)}i=1N∗KS_{train} = \{x^{(i)}, y^{(i)}\}_{i=1}^{N*K}Strain={x(i),y(i)}i=1NK 和 query set 查询集Qtrain={x(j),y(j)}j=1N∗KQ_{train} = \{x^{(j)}, y^{(j)}\}_{j=1}^{N*K}Qtrain={x(j),y(j)}j=1NK,并且S∩Q=∅S\cap{Q} = \emptysetSQ=。其中support set用于学习,query set用于预测。其含义是,在每一批(episode)的support set中含有N种类型的实体,每种类型有K个实体,query set含有与support set同类型的实体。在测试过程中,所有类在训练阶段都是不可见的,并且通过使用支持集StestS_{test}Stest的少数标记示例,few-shot学习系统需要预测未标记的查询集Qtest(S∩Q=∅)Q_{test}(S\cap{Q}=∅)QtestSQ=)。模型通过对support set的学习,来预测query set的标签。

采样策略
由于NER是一个跟语境强相关的任务,采样通常在句子层面进行。又由于一句话中可能含有多个类型的多个实体,一般很难通过句子级别的采样严格满足N-way-K-shot的场景设定。因此,我们设计了基于贪心策略的更为宽松的采样方法。该采样方法能够将每个实体类型的数量限制在K~2K之间,即每次随机抽样一句话加入集合,计算当前集合中的实体类型数量和每个实体类型的实例数量,若它们超过N或2K,则舍弃这句话;否则,将这句话加入集合中,直到满足N个实体类型,每个类型至少K个实体为止。

数据分析

数据集大小和分布

Few-NERD是第一个为Few-shot场景设计的数据集,同时也是最大的人工标注的NER数据集之一,相关的统计如表2所示。可以看出,Few-NERD包含了18万余条句子,49万余个标注的实体,460余万个字符,并且有66个类别,显著超越了之前的基准数据集。因此,Few-NERD不光可以做Few-shot NER任务,在标准的监督学习NER任务上同样具有挑战性(见实验章节)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476289.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Exchange2003启用web页面登陆(表单型身份验证)

一、 owa中启用表单验证 在Exchange server 2003中配置OWA启用基于表单的身份验证(忽略SSL): o 在服务器-协议-HTTP-HTTP虚拟服务器右键-勾选"启用基于表单的身份验证",出现提示要求SSL&a…

LeetCode 241. 为运算表达式设计优先级(动态规划)

1. 解题 给定一个含有数字和运算符的字符串,为表达式添加括号,改变其运算优先级以求出不同的结果。 你需要给出所有可能的组合的结果。有效的运算符号包含 , - 以及 * 。 示例 1: 输入: "2-1-1" 输出: [0, 2] 解释: ((2-1)-1) 0 (2-(1-1)…

python具体应用过程_python公开课|Python for循环的具体应用就是python流程控制的核心,想学会就来看看...

【摘要】在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注python问题,…

知识图谱入门知识(三)词性标注

学习内容 基本大多数的问题都可以转为词性标注问题! 这里只做记录,都是别人的回答! 常用的概念 什么是token tokenization就是通常所说的分词,分出的每一个词语我们把它称为token。 链接 词性标注参考一 自然语言处理之序列标…

sql 查讯本日 本周 本月

sql 查询本周本月问题---求相差天数 select datediff(day,2004-01-01,getdate()) --1.一个月第一天的 SELECT DATEADD(mm, DATEDIFF(mm,0,getdate()), 0) --2.本周的星期一 SELECT DATEADD(wk, DATEDIFF(wk,0,getdate()), 0) sel…

python爬虫入门必备正则_python 爬虫入门之正则表达式 一

python 正则表达式知识点正则 常用符号. : 匹配任意字符,换行符除外* : 匹配前一个字符 0 次或者无限次? : 匹配前一个字符 0次或者1次.* : 贪心算法.*? :非贪心算法(): 括号内的数…

李宏毅机器学习(三)Word Embedding

学习内容 前情提要 使用一个vector来表示一个word,怎么做? 1-of-N Encoding 维度就是所有单词的量 缺点: dog 和 cat是不能归为一类的,只能单独的表示; Word CLass 将同类别的归为一类; 但是更高层的tok…

IBM T61 键盘没有反映。

出现这个问题不是一次两次了,就是启动后,键盘所有按键,小红帽都不能用,必须重启好几次才能用。 有时候键盘能用,但是打开 dw ,复制不能用,真是懊恼。 今天又出现这个情况,我偶然想到是不是和昨天…

LeetCode 680. 验证回文字符串 Ⅱ

1. 题目 给定一个非空字符串 s,最多删除一个字符。判断是否能成为回文字符串。 示例 1: 输入: "aba" 输出: True示例 2: 输入: "abca" 输出: True 解释: 你可以删除c字符。 注意: 字符串只包含从 a-z 的小写字母。字符串的最大长度是50000。来…

python的序列类型及其特点_Fluent Python 笔记——序列类型及其丰富的操作

序列的分类Python 标准库用 C 语言实现了丰富的序列类型的数据结构,如:容器序列(能存放不同类型的数据):list、tuple、collections.deque 等扁平序列(只容纳同一类型的数据):str、bytes、bytearray、memoryview、array.array>&…

论文阅读翻译(全)【一直更新】

学习内容 这里面包含了阅读中翻译的概述! CNN is not invariant to scaling and rotation; invariant: 不变的; not invariant: 不是不变的 CNN是变化的! 不和不消除! 1. 词语 1.1 词形 泛…

精选15个国外CSS框架

下面一起来了解一下各种不同的CSS框架吧: 1.960 Grid System 960网格系统是一个通过提供通常使用的尺寸简化网站开发流程的努力的结果,基于960像素的页面宽度。它有两种类型,12和16列,他们可以独立使用或是协同使用。 2.WYMstyle CSS Framewo…

LeetCode 682. 棒球比赛

1. 题目 你现在是棒球比赛记录员。 给定一个字符串列表,每个字符串可以是以下四种类型之一: 1.整数(一轮的得分):直接表示您在本轮中获得的积分数。 2. ""(一轮的得分):…

Lighttpd 的安装配置(web服务器软件)

Lighttpd 的安装配置2006-07-16 01:06lighttpd(http://lighttpd.net/)和apache一样是开源的,与apache相比,虽然功能不及apache完善,稳定性也不如apache,但是,不管是服务静态页面,还是服务动态内容(CGI&…

苹果企业证书_IOS福利9月15日苹果企业证书已更新!重新下载即可!

(视频素材来源于网上)支持系统:苹果上一期你可能错过的:全网短视频免费去水印,还支持解析VIP影视!最近众号修改推送的机制,请大家一定要把公众号:玩转网络科技,设置成“星标⭐”,再点…

LeetCode 697. 数组的度

1. 题目 给定一个非空且只包含非负数的整数数组 nums 数组的度的定义是指数组里任一元素出现频数的最大值 你的任务是找到与 nums 拥有相同大小的度的最短连续子数组,返回其长度。 示例 1: 输入: [1, 2, 2, 3, 1] 输出: 2 解释: 输入数组的度是2,因为…

李宏毅机器学习(四)Spatial Transformer Layer

学习内容 架构; 目的就是克服CNN的旋转和缩放不变性的缺点的! 前情提要 CNN is not invariant to scaling and rotation; CNN对缩放和旋转不是不变的;也就是说CNN是变化的,不具有旋转和缩放不变性; 因为…

我的大理行

离开北京的时候是周五,天气很诡异:潮湿而又充满尘燥,阴霾而又阳光明亮, 真不知道这样的天气怎么能够共存?! 我发神经的做上了飞往云南的航班,这是休息,是治疗。 飞机正位&#xff0c…

LeetCode 703. 数据流中的第K大元素(优先队列)

1. 题目 设计一个找到数据流中第K大元素的类(class)。 注意是排序后的第K大元素,不是第K个不同的元素。 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中的初始元素。 每次调用 KthLargest.a…

李宏毅机器学习(五)Transformer

学习内容 前情提要 Sequence-to-sequence(Seq2Seq) 输入是一个句子,输出长度不定; 下面的第一个是语音辨识,第二个是机器翻译,第三个是语音翻译。这三个都是独立的任务。 第三个是语音翻译,就…