论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集

笔记整理 |  谭亦鸣,东南大学博士生


来源:BioNLP ’21 workshop, ACL ‘21

链接:https://www.aclweb.org/anthology/2021.bionlp-1.7.pdf

论文主要包含两个部分的核心工作:emrKBQA数据集,对应的benchmark。基于MIMIC-III KB,本文提出了一个面向临床医疗问答的KBQA数据集,emrKBQA,规模约为940K,包含389种提问类型,每种类型有约7.5种复述表达。为了验证数据集的质量,作者建立了一个benchmark,其模型流程可以大体描述为:通过语义解析预测问题逻辑结构,而后借助逻辑结构构建SQL查询指向答案。

贡献

论文建立了emrKBQA,第一个面向结构化病历记录的大规模社区共享问答数据集

数据集能够用于建模,解决基于结构化HER的问题解析及问答

作者为基于结构化病历记录的问答数据集建立了benchmark

背景与动机

电子病历EHRs和临床记录Clinics note在医疗过程中常常被作为临床诊断决策的支撑材料,因此,使机器理解和学习这些资料用于临床决策辅助是一个明确的未来趋势。

在以往的研究中,基于临床记录的emrQA问答数据集(2018)被提出,通过一个半自动的问题生成过程,这个数据集涵盖接近1M的问答对以及问题-逻辑结构对。

但是emrQA仅仅是利用到了临床记录这一资源,而没有充分利用EHRs,作者认为,一个完整的临床医疗问答系统应该同时利用好上述这两个资源。

因此,本文作者提出emrKBQA用于补充这一空白。

MIMIC-III KB被用作emrKBQA的知识库资源,如图1所示,左侧列出了该数据集中一些问题(和复述)的例子,右侧则是知识库里的答案形式。

数据集构建

根据论文的描述,emrKBQA的建立过程可以描述为以下步骤(半自动,如图4):

1.从emrQA获取初始问题

2.从初始问题中挖空(使用slot替换原本的实体,slot放置该实体对应的类别标签)形成模板template(提问形式)

3.医疗专家参与实体类别归纳

4.构建提问类型的逻辑形式

5.归并具有相同逻辑形式的提问形式(互为复述)

6.向template中填入合适的实体,得到问题/复述

这里作者根据答案的特点将问题类型分为三种:事实,是非和时间,实际问题中可能同时涵盖这三类中的一个或多个。

图2列出了:各实体大类中问题类型的分布情况

生成的问题如表1所示:

问题-逻辑形式-问题类型-答案类型如表2所示:

任务定义和模型

作者明确给出了本数据集对应的任务定义:

建模,对输入的知识库相关的问题,给出对应的答案

模型分为两个过程:

1.语义解析->逻辑结构

参照Gu et al, 2016的工作建立了一个seq2seq模型

2.逻辑结构->答案

具体为一组连续的映射构建(基于序列相似性得到):

问题->Template->SQL template->logical form

评价方式包含两个:

1.语义解析过程使用EM(Exact Match),即模型输出与标注结果相同算正例

2.答案生成过程使用Denotation Accuracy,即答案和逻辑结构均与标注结果相同算正例

实验结果如表3所示

作者进一步做了一些错误分析,如下表:


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Fine-tune之后的NLP新范式:Prompt越来越火,CMU华人博士后出了篇综述文章

文 | 刘鹏飞源 | 机器之心CMU 博士后研究员刘鹏飞:近代自然语言处理技术发展的第四范式可能是预训练语言模型加持下的 Prompt Learning。近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展。从 BERT 开始&…

python学习网站

1 w3school 2 掘金 3 b站 4 牛客网 5 leetcode 6 慕课网

会议交流 | 世界人工智能大会“大数据关联”论坛举行

转载公众号 | 创邻科技2021年7月8日,由世界人工智能大会组委会与浙江创邻科技有限公司共同筹办的“大数据关联时代下的图数据库技术与应用论坛”在上海世博中心圆满落幕。论坛邀请了清华大学、北京大学、复旦大学、浙江大学、天津大学等多位学术届的思想领袖和工商银…

LeetCode 994. 腐烂的橘子(图的BFS)

1. 题目 在给定的网格中,每个单元格可以有以下三个值之一: 值 0 代表空单元格; 值 1 代表新鲜橘子; 值 2 代表腐烂的橘子。 每分钟,任何与腐烂的橘子(在 4 个正方向上)相邻的新鲜橘子都会腐烂…

美团酒店直连产品数据一致性演进

美团酒店直连项目自2013年末开始,通过业务上的不断完善和技术上的不断改进,至今已经接入200多家供应商,其中在线酒店3万以上,在线SPU30万以上。经过两年的成长,美团酒店直连平台终于在2015年末发展为国内最大的酒店直连…

直击行业痛点!端侧模型部署的成熟解决方案有了!

深度学习经过多年发展,AI已经深入人心,事实上,在图像、文本领域,AI在多个产业已经落地了诸多应用,我们熟知的自动驾驶、语音助手,背后就大量运用了AI技术。当下,飞桨PaddlePaddle、TensorFlow、…

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

OpenKG地址:http://openkg.cn/dataset/openconcept官网:http://openconcepts.openkg.cn(提供Dump)开放许可协议:CC BY-SA 4.0(署名-相同共享)OpenConcepts 介绍OpenConcepts (http://openconcepts.openkg.c…

LeetCode 594. 最长和谐子序列(map)

文章目录1. 题目2. 解题2.1 map两次扫描2.2 map一次扫描1. 题目 和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是1。 现在,给定一个整数数组,你需要在所有可能的子序列中找到最长的和谐子序列的长度。 示例 1: 输入: [1,3,2,2,5,2,3,7] …

MTDDL——美团点评分布式数据访问层中间件

2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库,以下统一称DB)主从延迟、表变更困…

python 23中设计模式 工厂模式与抽象工厂及应用场景

#https://zhuanlan.zhihu.com/p/57869247 #工厂模式 # -*- coding:utf-8 -*-class A:def __init__(self):self.word "运行A"def run(self):print(self.word)class B:def __init__(self):self.word "运行B"def run(self):print(self.word)def Interface(c…

详解预训练模型、信息抽取、文本生成、知识图谱、对话系统技术

我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学习资源。如果一门…

会议交流 | 欢迎注册 CCKS2021 全国知识图谱与语义计算大会!

欢迎注册 CCKS2021 全国知识图谱与语义计算大会知万物过去 谱AI未来2021年8月18日至8月21日 广州http://sigkg.cn/ccks2021主办:中国中文信息学会语言与知识计算专业委员会 承办:广东外语外贸大学注册介绍早期注册 1800元/人2021年7月28日前&…

LeetCode 1171. 从链表中删去总和值为零的连续节点(哈希表)

1. 题目 给你一个链表的头节点 head,请你编写代码,反复删去链表中由 总和 值为 0 的连续节点组成的序列,直到不存在这样的序列为止。 删除完毕后,请你返回最终结果链表的头节点。 你可以返回任何满足题目要求的答案。 &#x…

移动端性能监控方案Hertz

性能问题是造成App用户流失的罪魁祸首之一。App的性能问题包括崩溃、网络请求错误或超时、响应速度慢、列表滚动卡顿、流量大、耗电等等。而导致App性能低下的原因有很多,除去设备硬件和软件的外部因素,其中大部分是开发者错误地使用线程、锁、系统函数、…

pytorch学习教程

pytorch一小时入门教程 from __future__ import print_function import torch#初始化5*3的矩阵 x torch.empty(5, 3) print("x0",x) #创建一个随机初始化矩阵 x torch.rand(5, 3) print("x1",x) #以0填充的矩阵,并定义type x torch.zeros(5…

刷新SOTA!Salesforce提出跨模态对比学习新方法,仅需4M图像数据!

文 | 子龙多模态已经不是一个新鲜的话题,如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光(CV、NLP的会都能投),但是很容易就能想到,来自图片的视觉特征和来自语料的文本特征来自不同的模型,所隐…

论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题

转载公众号 | 浙大KG论文题目:MLBiNet: A Cross-Sentence Collective Event Detection Network本文作者:娄东方、廖智霖、邓淑敏、张宁豫、陈华钧(浙江大学)接收会议:ACL 2021论文链接:https://arxiv.org/p…

LeetCode 343. 整数拆分(DP)

1. 题目 给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 示例 1: 输入: 2 输出: 1 解释: 2 1 1, 1 1 1。示例 2: 输入: 10 输出: 36 解释: 10 3 3 4, 3 3 4 36。 说明: 你可以假设 …

python-dotenv解析env文件

python-dotenv解析env文件 最简单和最常见的用法是在应用程序启动时调用load_dotenv,从当前目录或其父目录中的.env文件或指定的路径加载环境变量,然后调用os.getenv提供的与环境相关的方法 .env 文件内容写法 ADMIN_HOST https://uat-rm-gwaaa.cn A…

HDFS NameNode内存详解

前言 《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上&am…