conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:


bc/cnn/00/cnn_0000   0    0           而且    AD         (TOP(IP(ADVP*)  -    -   -    Paula_Zahn_#1E         *    (ARGM-DIS*)            *      -
bc/cnn/00/cnn_0000   0    1         国防部长    NN               (NP(NP*)  -    -   -    Paula_Zahn_#1E         *        (ARG0*             *   (195
bc/cnn/00/cnn_0000   0    2    唐纳德·拉姆斯菲尔    NR                 (NP*))  -    -   -    Paula_Zahn_#1E   (PERSON)            *)            *    195)
bc/cnn/00/cnn_0000   0    3            说    VV                  (VP*   -   01   7    Paula_Zahn_#1E         *           (V*)            *      -
bc/cnn/00/cnn_0000   0    4            更    AD   (IP(NP(DNP(QP(ADVP*)  -    -   -    Paula_Zahn_#1E         *        (ARG1*        (ARG0*   (247
bc/cnn/00/cnn_0000   0    5            多    CD                 (QP*))  -    -   3    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    6            的   DEG                     *)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    7           美国    NR                  (NP*)  -    -   -    Paula_Zahn_#1E     (NORP)            *             *      -
bc/cnn/00/cnn_0000   0    8           士兵    NN                 (NP*))  -    -   -    Paula_Zahn_#1E         *             *             *)   247)
bc/cnn/00/cnn_0000   0    9           可能    AD             (VP(ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   10           不久    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-TMP*)     -
bc/cnn/00/cnn_0000   0   11            将    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   12           启程    VV               (VP(VP*)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0   13           前往    VV                  (VP*   -   01   -    Paula_Zahn_#1E         *             *           (V*)     -
bc/cnn/00/cnn_0000   0   14          伊拉克    NR             (NP*))))))  -    -   -    Paula_Zahn_#1E      (LOC)            *)       (ARG1*)     -
bc/cnn/00/cnn_0000   0   15            .    PU                    *))  -    -   -    Paula_Zahn_#1E         *             *             *      -bc/cnn/00/cnn_0000   0    0       他    PN      (TOP(IP(NP*)  -    -   -    Paula_Zahn_#1E       *    (ARG0*)            *         *        *      *      *    (195)
bc/cnn/00/cnn_0000   0    1       说    VV             (VP*   -   01   7    Paula_Zahn_#1E       *       (V*)            *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    2       将    AD     (IP(VP(ADVP*)  -    -   -    Paula_Zahn_#1E       *    (ARG1*    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    3      暂时    AD           (ADVP*)  -    -   -    Paula_Zahn_#1E       *         *    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    4      需要    VV             (VP*   -   02   1    Paula_Zahn_#1E       *         *           (V*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    5      他们    PN          (IP(NP*)  -    -   -    Paula_Zahn_#1E       *         *        (ARG1*    (ARG0*)       *      *      *    (247)
bc/cnn/00/cnn_0000   0    6       来   MSP             (VP*   -    -   7    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    7      防止    VV             (VP*   -   01   -    Paula_Zahn_#1E       *         *             *       (V*)       *      *      *       -
bc/cnn/00/cnn_0000   0    8    十二月份    NT   (NP(LCP(NP(NP*)  -    -   -    Paula_Zahn_#1E   (DATE)        *             *    (ARG1*        *      *      *       -
bc/cnn/00/cnn_0000   0    9     伊拉克    NR             (NP*)  -    -   -    Paula_Zahn_#1E   (ORG*         *             *         *        *      *      *    (206)
bc/cnn/00/cnn_0000   0   10      国会    NN             (NP*   -    -   -    Paula_Zahn_#1E       *)        *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   11      选举    NN               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   12       前    LC                *)  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   13      预料    VV    (CP(CP(IP(VP*   -   01   -    Paula_Zahn_#1E       *         *             *         *      (V*)     *      *       -
bc/cnn/00/cnn_0000   0   14       会    VV          (IP(VP*   -   02   -    Paula_Zahn_#1E       *         *             *         *   (ARG1*    (V*)     *       -
bc/cnn/00/cnn_0000   0   15      增长    VV         (VP*)))))  -   01   1    Paula_Zahn_#1E       *         *             *         *        *)     *    (V*)      -
bc/cnn/00/cnn_0000   0   16       的   DEC               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   17      叛乱    NN             (NP*   -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   18      袭击    NN        *)))))))))  -    -   -    Paula_Zahn_#1E       *         *)            *)        *)       *      *      *       -
bc/cnn/00/cnn_0000   0   19       .    PU               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

/cctv/00/cctv_0000   0    4    熟知    VV         (VP*)))))  -   01   -   Speaker#1       *       (V*)           *         *      -
bc/cctv/00/cctv_0000   0    5     的   DEC               *))  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0    6    卡通    NN             (NP*   -    -   -   Speaker#1       *         *            *         *    (82
bc/cctv/00/cctv_0000   0    7    形象    NN               *))  -    -   -   Speaker#1       *         *            *)        *     82)
bc/cctv/00/cctv_0000   0    8     以     P          (VP(PP*   -    -   -   Speaker#1       *         *   (ARGM-MNR*         *      -
bc/cctv/00/cctv_0000   0    9     其    PN          (NP(NP*)  -    -   -   Speaker#1       *         *            *         *    (82)
bc/cctv/00/cctv_0000   0   10    独有    JJ       (DNP(ADJP*)  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0   11     的   DEG                *)  -    -   -   Speaker#1       *         *            *         *      -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/833780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python:画饼图

我现在因工作需要在写一篇中文文章,领导要我用python处理数据和画图,那我也刚好学习一下python画图。 import matplotlib.pyplot as plt # 饼图数据 labels [A, B, C, D] sizes [15, 30, 45, 10] # 每个部分的大小 # 绘制饼图 plt.figure(figsize(6,…

紧跟生成式AI暴雨发布新时代推理服务器

近日,暴雨发布最新训推一体AI服务器,以大容量内存和灵活的高速互连选项满足各种AI应用场景,最大可能支持扩展插槽,从而大幅提升智能算力性能,以最优的性能和成本为企业的模型训练推理落地应用提供更好的通用算力。 AIG…

软考系列必过资料分享-系统架构师-系统分析师-信息系统项目管理师

建议,写在前面 知识点是公用的,原则上不分新旧。每年会有少部分的题目切合当前时间段(也是通过旧的知识演变的) 信息系统项目管理师证书 系统架构师证书 系统分析师证书 资料分享 关注公众号 回复 信息系统项目管理师资料 即可获取信息系统项目管理师资…

【RAG 论文】Dense X 检索:将“命题”作为检索粒度

论文:Dense X Retrieval: What Retrieval Granularity Should We Use? ⭐⭐⭐⭐ Code: github.com/ct123098/factoid-wiki 文章目录 一、论文速读二、命题(Proposition)三、FactoidWiki四、实验及分析4.1 Passage Retrieval 任务4.2 Open-Do…

VSCode-vue3.0-安装与配置-export default简单例子

文章目录 1.下载VSCode2.修改语言为中文3.辅助插件列表4.vue3模板文件简单例子5.总结 1.下载VSCode 从官网下载VSCode,并按下一步安装成功。 2.修改语言为中文 点击确认修改,如下图所示: 或者打开命令面板:输入Configure Displ…

党建教育vr虚拟现实展厅真正实现了绿色、低碳的展示方式

在数字化浪潮席卷的今天,传统企业门户官网已难以满足企业日益增长的展示需求。面对这一挑战,北京华锐凭借深厚的行业经验和领先的技术实力,为您提供全新的元宇宙虚拟展厅制作服务,助您轻松打破现实与虚拟的界限,开启企…

如何让vim支持python3

首先删除旧的vim。 sudo apt-get remove vim //输入re按下tab直接显示remove sudo apt-get remove vim-runtime sudo apt-get remove vim -tiny sudo apt-get remove vim-common 然后下载vim8源码: git clone https://github.com/vim/vim.git 进行编译安装…

【NodeMCU实时天气时钟温湿度项目 5】获取关于城市天气实况和天气预报的JSON信息(心知天气版)

| 今天是第五专题内容,主要是介绍如何从心知天气官网,获取包含当前天气实况和未来 3 天天气预报的JSON数据信息。 在学习获取及显示天气信息前,我们务必要对JSON数据格式有个深入的了解。 如您需要了解其它专题的内容&#xf…

C语言----杨辉三角

各位看官们好。学习到这里想必大家应该对C语言的了解也是很深刻的了吧。但是我们也不能忘记我们一起学习的知识啊。在我们以前学习C语言的时候我想大家应该都听说过杨辉三角吧。虽然我们把其中的规律找到那么这个代码就简单很多了。那么接下里我们就来讲讲杨辉三角。 首先我们先…

sql 注入 1

当前在email表 security库 查到user表 1、第一步,知道对方goods表有几列(email 2 列 good 三列,查的时候列必须得一样才可以查,所以创建个临时表,select 123 ) 但是你无法知道对方goods表有多少列 用order …

场外期权个股怎么对冲?

今天期权懂带你了解场外期权个股怎么对冲?场外个股期权是一种在非交易所市场进行的期权交易,它允许投资者针对特定的股票获得未来买入或卖出的权利。 场外期权个股怎么对冲? 持有相反方向的期权:这是最直接的对冲方法&#xff0c…

Elasticsearch中的三种分页策略深度解析:原理、使用及对比

码到三十五 : 个人主页 在Elasticsearch中,分页是查询操作中不可或缺的一部分。随着数据量的增长,如何高效地分页查询数据急需需要面对的问题。Elasticsearch提供了三种主要的分页方式:from size、scroll和search_after。下面详细…

STM32系统架构

以下是STM32系统架构中的各个重要组件和功能: 组件描述Cortex-M内核ARM Cortex-M系列内核,如M0、M0、M3、M4、M7等Flash存储器存储程序代码和数据SRAM存储程序运行时数据和堆栈外设接口GPIO、SPI、I2C、UART、TIM、ADC、DAC、USB、CAN、Ethernet等时钟和…

大模型微调实战之强化学习 贝尔曼方程及价值函数(五)

大模型微调实战之强化学习 贝尔曼方程及价值函数(五) 现在, 看一下状态-动作值函数的示意图: 这个图表示假设首先采取一些行动(a)。因此,由于动作(a),代理可能会被环境转换到这些状…

源代码烧录场景防泄密的四种方式

在各行各业中,外设烧录是一项常见的操作,涉及到对硬件设备进行固件更新或配置文件的写入。然而,外设烧录过程中的文件管理和安全审计一直是一个挑战,传统的烧录方法往往无法提供足够的安全保障。本文将介绍如何利用沙盒防泄密软件…

ENVI拓展工具资源去哪里找

ENVI拓展工具资源去哪里找? 文章目录 ENVI拓展工具资源去哪里找?前言网站(链接见文末)ENVI应用商店(App Store)ENVI官方提供第三方制作自己制作 总结参考 前言 ENVI 拓展工具是指 ENVI 软件的扩展功能或插…

Linux系统编程--网络编程

一、OSI网络七层模型 OSI模型将整个网络通信过程分解为七个层次,每个层次都为网络通信提供了特定的功能。以下是OSI模型的七个层次,从上到下依次是: 应用层(Application Layer):为应用软件提供网络服务&am…

Python数据可视化------地图

基础地图使用 # 地图基本演示 # 导包 from pyecharts.charts import Map from pyecharts.options import TitleOpts, VisualMapOpts# 准备地图对象 cmap Map() # 准备数据(列表) data [("北京市", 99), ("上海市", 199), ("…

【大模型】LLaMA-1 模型介绍

文章目录 一、背景介绍二、模型介绍2.1 模型结构2.2 模型超参数2.3 SwiGLU 三、代码分析3.1 模型结构代码3.2 FairScale库介绍 四、LLaMA家族模型4.1 Alpaca4.2 Vicuna4.3 Koala(考拉)4.4 Baize (白泽)4.5 Luotuo (骆驼,Chinese)4.6 其他 参考资料 LLaMA&#xff08…

微信小程序16: 组件通信

父子组件之间的通信 父子组件通信一共有三种方式 属性绑定 用于父组件向子组件的指定属性设置数据,仅能设置JSON兼容的数据 事件绑定 用于子组件向父组件传递数据,可以传递任意数据 获取组件实例 父组件还可以通过this.selectComponent()获取子组件的实…