【阿里近100人+花27.1万造的】中文医学数据集 ChineseBLUE 分析

中文医学数据集 ChineseBLUE 分析

    • 基本介绍
    • 数据集分类
    • 构造成本

 


论文:https://arxiv.org/pdf/2106.08087v5.pdf

链接:https://github.com/alibaba-research/ChineseBLUE

基本介绍

需要注意的是,中文生物医学文本在语言上与英文不同,具有其领域特性,这需要专门为中文设计的评估BioNLP基准测试。

在本研究中,我们专注于中文,旨在填补这一空白并开发第一个中文生物医学语言理解基准测试。

我们收集了真实世界的生物医学数据,并提出了第一个中文生物医学语言理解评估(CBLUE)基准:包括命名实体识别、信息抽取、临床诊断标准化、单句/句对分类等自然语言理解任务的集合,以及一个用于模型评估、比较和分析的在线平台。

为了在这些任务上建立评估标准,我们报告了当前11个预训练中文模型的实验结果,实验结果显示,最先进的神经模型的性能远远低于人类的上限。

使用当前最先进的人工智能(AI)技术开发的神经网络模型的性能,比人类的最佳表现要差很多。

数据集分类

NER(命名实体识别):

  • 命名实体识别旨在识别各种实体,包括疾病,药物,综合症等。
  • 选择从中国电子健康记录中标记的cEHRNER数据集和从中国社区问答中标记的cMedQANER数据集。

PI(释义识别):

  • 复述识别旨在识别两个句子是否表达相同的含义。
  • 我们使用cMedQQ,它由搜索查询对组成。

QNLI(问题自然语言推论):

  • 问题自然语言推论旨在识别答案是否对应于问题答案对中的问题
  • 我们使用cMedQNLI,它由问答对组成。

QA(问题解答):

  • 可以将问题回答近似为根据其相似性对候选答案句子进行排名。
  • 我们为质量检查对分配0,1标签,这将转换为二进制分类问题。
  • 我们使用论文“中医问题答案选择的多尺度注意力交互网络”中发布的

cMedQA,其中包括问题及其答案。

IR(Information Retrieval):

  • 信息检索旨在根据搜索查询来检索大多数相关文档。
  • IR可以视为一项排名任务。
  • 我们使用cMedIR数据集,该数据集由具有多个文档及其相对得分的查询组成。

IC(意图分类):

  • 意图分类旨在为查询分配意图标签,可以将其视为多个标签分类任务。
  • 我们使用cMedIC数据集,该数据集由带有三个意图标签(例如,无意图,弱意图和坚定意图)的查询组成。

TC(文本分类):

  • 文本分类旨在为句子分配多个标签。
  • 我们使用cMedTC数据集,该数据集由带有多个标签的生物医学文本组成。

Symptom Diagnosis症状诊断:

  • 在自然语言处理中,症状诊断是一个具有挑战性但意义深远的问题。
  • 我们使用论文“通过全局注意力和症状图增强对话症状诊断”发布的CMDD数据集。

比如:
在这里插入图片描述
dev.json 是原始数据,dev.txt 是清洗后的数据。

disease(疾病):口腔溃疡、感冒、癫痫、鼻炎、三叉神经痛

symptom(症状):红肿、腰酸、神经痛、疼痛、出血

body(部位):嘴、胃肠道、关节、神经、血管

treatment(治疗方法):手术、中医、平肝泻火、降压药物、活血化瘀、消炎药

drug(药物):感冒灵颗粒、络活喜、洛汀新、阿莫西林

test(检查项):胃镜、超声、CT、抽血化验、血压

crowd(人群):小孩、儿童、女性、中老年、宝宝、婴儿

time(时间):昨天、三个月、上周三、今年5月份、三个月

physiology(生理机能):怀孕、血压、血糖、脂肪、消化

feature(特征):严重、局部、轻度、剧烈、部分

department(科室):消化科、神经外科、儿科、五官科、骨科
 

再比如:

比如 CMDD 意图识别:

  • 病症:定义,病因,临床表现,相关病症,治疗方法,推荐医院,预防,所属科室,禁忌,传染性,治愈率,严重性
  • 药物:作用,适用症,价钱,药物禁忌,用法,副作用,成分
  • 治疗方案:方法,费用,有效时间,临床意义/检查目的,治疗时间,疗效,恢复时间,正常指标,化验/体检方案,恢复
  • 其他:设备用法,多问,养生,整容,两性,对比,无法确定

构造成本

中文医学命名实体识别数据集(CMeEE):

注释人员

  • 32名注释者参与
    • 2名医学专家
    • 4名生物医学信息领域专家
    • 6名医学博士
    • 22名计算机科学硕士生

时间与费用

  • 注释过程持续了大约3个月(2018年10月至12月)
  • 附加1个月时间进行数据整理
  • 总费用约为50,000人民币

中文医学信息提取数据集(CMeIE)

注释人员

  • 20名注释者参与
    • 2名医学专家
    • 2名生物医学信息领域专家
    • 4名医学博士
    • 14名计算机科学硕士生

时间与费用

  • 注释过程持续了大约4个月(2018年10月至12月)
  • 总费用约为40,000人民币

临床诊断标准化数据集(CHIP-CDN)

注释人员

  • 医疗团队由益度云组成
  • 所有成员都有医学背景和临床资格证书

时间与费用

  • 工作持续了大约2个月
  • 由内部员工完成,估计总成本约为100,000人民币

临床试验标准数据集(CHIP-CTC)

注释人员

  • 3名注释者
    • 1名生物医学研究员
    • 2名生物医学信息领域的博士候选人

时间

  • 注释工作开始于2019年7月并持续了大约1个月
  • 该工作与注释者的研究项目相关,无需支付费用

语义文本相似性数据集(CHIP-STS)

  • 5名本科生
  • 2周
  • 2.5万

KUAKE-查询意图分类数据集(KUAKE-QIC)

  • 6名全职员工
  • 2周
  • 6600元

KUAKE-查询标题相关性数据集(KUAKE-QTR)

  • 9名(7名众包大学生和2名阿里巴巴全职医疗背景员工)
  • 2周
  • 2.8万

KUAKE-查询查询相关性数据集(KUAKE-QQR)

  • 注释费用为2.2万
  • 其他信息未详细说明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/778452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Echarts的超市销售可视化分析系统(数据+程序+论文)

本论文旨在研究Python技术和ECharts可视化技术在超市销售数据分析系统中的应用。本系统通过对超市销售数据进行分析和可视化展示,帮助决策层更好地了解销售情况和趋势,进而做出更有针对性的决策。本系统主要包括数据处理、数据可视化和系统测试三个模块。…

ES学习日记(一)-------单节点安装启动

基于ES7.4.1编写,其实一开始用的最新的8.1,但是问题太多了!!!!不稳定,降到7.4 下载好的安装包上传到服务器或虚拟机,创建ES目录,命令mkdir -p /路径xxxx 复制安装包到指定路径并解压: tar zxvf elasticsearch-8.1.0-linux-x86_64.tar.gz -C /usr/local/es/ 进入bin目录安装,命…

工业智能物联网关如何助力工业防震减灾

地震灾害难以预料,一旦发生往往就损失重大。对于工业领域而言,地震灾害的影响不仅仅是对人员安全的威胁,还包括对生产设施的破坏、生产进程的中断以及伴生的持续性经济损失。 随着5G、大数据、物联网技术的发展,面向工业领域构建一…

高效批量管理文件,轻松实现文件批量复制并覆盖相同文件名,轻松管理文件

亲爱的用户们,您是否在批量复制文件时常常被相同文件名困扰,手动一个个改名繁琐又费时?现在,我们为您推出一款智能的文件批量改名工具,帮助您轻松处理复制时的相同文件名,让文件管理更从容! 首…

洗车行业在线预约提前下单小程序源码系统 带完整的安装代码包以及搭建教程

随着人们生活水平的提高,汽车保有量不断增加,洗车服务市场需求也日益旺盛。然而,传统的洗车服务方式往往存在排队等待时间长、服务质量不稳定等问题,给消费者带来了不便。因此,开发一款在线预约提前下单小程序&#xf…

基于java+springboot+vue实现的宠物美容机构CRM系统(文末源码+Lw+ppt)23-364

摘要 随着网络科技的不断发展以及人们经济水平的逐步提高,网络技术如今已成为人们生活中不可缺少的一部分,而信息管理系统是通过计算机技术,针对用户需求开发与设计,该技术尤其在各行业领域发挥了巨大的作用,有效地促…

C语言--编译和链接

1.翻译环境 计算机能够执行二进制指令,我们的电脑不会直接执行C语言代码,编译器把代码转换成二进制的指令; 我们在VS上面写下printf("hello world");这行代码的时候,经过翻译环境,生成可执行的exe文件&…

PetaLinux安装详解(Xilinx , linux, zynq, zynqMP)

1 概述 PetaLinux 工具提供在 Xilinx 处理系统上定制、构建和调配嵌入式 Linux 解决方案所需的所有组件。该解决方案旨在提升设计生产力,可与 Xilinx 硬件设计工具配合使用,以简化针对 Versal、Zynq™ UltraScale™ MPSoC、Zynq™ 7000 SoC、和 MicroBl…

【机器学习】包裹式特征选择之序列后向选择法

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

jvm(虚拟机)运行时数据区域介绍

Java虚拟机(JVM)运行时数据区域是Java程序在运行过程中使用的内存区域,它主要包括以下几个部分: 程序计数器(Program Counter Register): 程序计数器是一块较小的内存区域,是线程私有…

uniapp 中引入第三方组件后,更改组件的样式 -使用/deep/不生效

在我们使用Vue搭建项目的时候,我们经常会用到一些UI框架,如Element,iView,但是有时候我们又想去修改Ul框架的样式,当我们修改样式失败的时候,可以尝试一下/deep/,亲测有效。 那失败的原因是什么…

STM32 串口 DMA 接收不定长数据的一种方法

1. 前言 使用串口接收不定长数据时,可以有多种方法,比如最常见的有额外使能一个定时器,在超过定时范围未收到后续的字节时,认为此帧结束;或者利用 IDLE 中断,当数据空闲时,自动产生中断&#x…

SpringCloud实用篇(一)

1.SpringCloud SpringCloud是目前国内使用最广泛的微服务框架。官网地址:Spring Cloud SpringCloud集成了各种微服务功能组件,并基于SpringBoot实现了这些组件的自动装配,从而提供了良好的开箱即用体验: SpringCloud与SpringBoo…

Win10环境下使用Ollama搭建本地AI

前言: 1、Ollama需要安装0.1.27版本,高于这个版本在执行Ollama run 指令时会频繁触发一些奇奇怪怪的问题。 2、4.3篇章是重点,若你需要使用web访问的话,莫要忘记! 3、本文章适合新手。 4、篇章5中会介绍如何在vscode中…

探索PLC远程监控的未来:节约成本与提高效率的双赢之道

描述:随着工业自动化技术的飞速发展,PLC远程监控及程序上下载功能成为了行业的新宠,为企业节约成本,减少人员出差带来了革命性的改变。本文深入探讨了这一变革给自动化公司、客户和工程师带来的好处,以及谁是最大的受益…

基于TSINGSEE青犀AI视频智能分析技术的山区林区烟火检测方案

随着清明节的临近,山区、林区防火迫在眉睫,TSINGSEE青犀AI智能分析网关V4烟火检测算法利用物联网、人工智能、图像识别技术,有效监测和管理烟火活动,并在火灾发生的同时发出告警,通知护林员与管理人员。 将山区林区的视…

Leetcode 第 126 场双周赛题解

Leetcode 第 126 场双周赛题解 Leetcode 第 126 场双周赛题解题目1:3079. 求出加密整数的和思路代码复杂度分析 题目2:3080. 执行操作标记数组中的元素思路代码复杂度分析 题目3:3081. 替换字符串中的问号使分数最小思路代码复杂度分析 题目4…

[LeetCode]516. 最长回文子序列[记忆化搜索解法详解]

最长回文子序列 LeetCode 原题链接 题目 给你一个字符串 s ,找出其中最长的回文子序列,并返回该序列的长度。 子序列定义为:不改变剩余字符顺序的情况下,删除某些字符或者不删除任何字符形成的一个序列。 示例 1&#xff1a…

Day46:WEB攻防-注入工具SQLMAPTamper编写指纹修改高权限操作目录架构

目录 数据猜解-库表列数据&字典 权限操作-文件&命令&交互式 提交方法-POST&HEAD&JSON 绕过模块-Tamper脚本-使用&开发 分析拓展-代理&调试&指纹&风险&等级 知识点: 1、注入工具-SQLMAP-常规猜解&字典配置 2、注入…

【有芯职说】数字芯片BES工程师

一、 数字芯片BES工程师简介 今天来聊聊数字芯片BES工程师,其中BES是Back End Support的缩写,就是后端支持的意思。其实这个岗位是数字IC前端设计和数字IC后端设计之间的一座桥,完成从寄存器传输级设计到具体工艺的mapping和实现。这个岗位在…