AfriMed-QA

news/2025/9/22 10:53:14/文章来源:https://www.cnblogs.com/yiixiac/p/19104725

AfriMed-QA

[论文笔记•(数据集)]AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

一、一句话总结

提出第一个大型泛非英语多专业医学问答(QA)数据集,来自16个国家60多所医学院的15,000个问题(开放式和封闭式),涵盖32个医学专业。包含15,275个英语临床多样化问题和答案的数据集,4,000多个带有答案的专家选择题(mcq),超过1,200个带有长篇答案的开放式简短答案(saq),以及10,000个消费者查询(CQ)

二、论文基本信息

image-20250921143128016

单位:佐治亚理工学院

会议:ACL2025 main

阅读时间:2025.9.21

论文地址:AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset - ACL Anthology

代码:https://huggingface.co/datasets/intronhealth/afrimedqa_v2

三、研究的核心问题和背景

现在大模型已经在医学基准上取得了成功,但是作者提到如果把这些模型推广到涉及语言差异的任务中,模型的变现还能不能达到要求。

因此,AfriMed-QA数据集旨在:

(1)整合地理文化多样化的数据集,特别是那些来自非洲中低收入国家的数据集,这些数据集历来依赖纸质记录和当地健康数据,并且在大模型培训和评估中代表性不足;

(2)扩展医疗保健大模型基准数据集,以包括非洲消费者/患者为基础的查询。这使大模型能够对广泛的医疗数据进行培训和评估,为以非洲为中心的应用程序创建更强大、更具包容性和更实用的人工智能解决方案

四、框架及具体实现

image-20250921144113794

如图所示的是数据集的构建流程。

image-20250921144228268

上图比较了AfriMed-QA和其他医学数据集的差异。

五、评估数据集

使用30个大模型,包括开源和专有、通用和医学大模型,模型的规模从3B到540B。

评估指标:对于选择题,评估其正确性;对于开放式问答题,使用BERTScoreQuestEval来评估其和参考答案的语义相似性,然后使用ROUGE-Lsum来评估句子级结构重叠。

下表是模型在数据集上的主要结果:

image-20250921154233809

下表是模型在AfriMedQA和MedQA问题上正确率的比较:

image-20250921154518679

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/909264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于LQR控制器的柔性机械臂抑振

一、系统建模与参数定义 1.1 动力学建模 采用改进的绝对坐标法建立柔性梁动力学模型: % 系统参数定义(单位:kgm, N/m) m = 0.3; % 末端质量 l = 0.2; % 梁长度 E = 7e10; % 弹性模量 I = 5e-6; % 截面惯…

202507_QQ_caidundun

流量分析, Base64Tags:流量分析,Base64 0x00. 题目 菜墩墩在自己本地模拟了黑客攻击网站的流量,并提供了一段流量,你知道他都做了哪些操作呢? 格式:flag{xxxx}。附件路径:https://pan.baidu.com/s/1GyH7kitkMYywG…

DevExpress WinForms v25.1新版亮点:全新升级侧边导航布局

DevExpress WinForms v25.1新版亮点:全新升级侧边导航布局DevExpress WinForms拥有180+组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用程…

outlook大附件发送是什么?

日常工作中,通过Outlook发送高清视频、大型设计文件时,常因普通附件25MB的限制卡壳。此时,“outlook大附件发送”功能便派上用场,它通过云存储将文件转为链接发送,绕过本地限制。实现方式主要有两种:用微软OneDr…

成都恒利泰HT-SCA-4-10+是一款1分4射频功分器

成都恒利泰HT-SCA-4-10+是一款1分4射频功分器成都恒利泰HT-SCA-4-10+是一款1分4射频功分器,主要用于蜂窝通信、测试测量、卫星雷达、RFID、航空航天等射频系统;卖点为插损仅1.5dB、幅度不平衡0.3dB、-40~+85℃宽温、…

研发项目管理能力建设路线图

研发项目管理能力建设路线图什么是研发项目管理能力?所谓研发项目管理能力, 简称RDPM CoE,(R&D Project Management Centre of Excellence),指的是研发项目经理利用已具备的知识、技能、工具和技术用于项目之中…

好用的提示词

你是一个 JSON 生成器。请根据带有markdown输出的结果,然后生成标准 JSON 格式数据。要求: 1. 只输出 JSON 对象或数组,不能包含任何其他文本。 2. 不要使用 ```json 或 ``` 包裹。 3. 不要添加注释、解释、Markdow…

202312_Dest0g3_StrageTraiffic

流量分析, Modbus, pysharkTags:流量分析,Modbus,pyshark 0x00. 题目 Dest0g3迎新赛 附件路径:https://pan.baidu.com/s/1GyH7kitkMYywGC9YJeQLJA?pwd=Zmxh#list/path=/CTF附件 附件名称:202312_Dest0g3_StrageTrai…

使用 AI app 模板扩展来创建基于订制数据进行聊天的 .NET AI 应用

使用 AI app 模板扩展来创建基于订制数据进行聊天的 .NET AI 应用https://learn.microsoft.com/en-us/dotnet/ai/quickstarts/ai-templates?tabs=visual-studio%2Cconfigure-visual-studio&pivots=github-models …

2025年内外网文件传输新范式:十大好用的内外网文件摆渡系统

内外网文件摆渡系统作为支撑企业业务的重要工具,是在保障网络隔离架构环境下,业务正常开展的核心,但是,传统的传输方式存在安全隐患、效率低下和合规风险等问题。 根据权威报告显示,超过60%的企业曾因不安全的文件…

双分布函数热 LBM 模拟二维封闭方腔自然对流

双分布函数热 LBM(D2Q9-D2Q5) 模拟二维封闭方腔自然对流(左壁热、右壁冷、上下绝热)一、物理模型与验证方腔尺寸:1 m 1 m 边界:左壁 T_h = 1,右壁 T_c = 0,上下绝热 Ra = 10⁴ ~ 10⁶(可调) 参考结果:与 D…

【前端高频面试题】- React篇 - 指南

【前端高频面试题】- React篇 - 指南2025-09-22 10:23 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !im…

asp.net中的wwwroot是什么

wwwroot 是 ASP.NET Core 的**“Web根目录”,也叫“静态文件根目录”。它只是一个约定俗成的文件夹名**,你可以改成任何名字,甚至挪到磁盘外面,但默认就叫 wwwroot。 一句话:把浏览器能直接下载到的静态文件(htm…

用光学计算加速AI模型中的卷积和矩阵乘法操作

本文档深入探讨了如何利用光学原理进行高效计算,特别是针对现代AI模型中常见的卷积和矩阵乘法操作。内容涵盖了从加速卷积的深层数学基础,到实现这些计算的各种前沿光学器件,最后对光学加速器与传统GPU进行了系统级…

了解IWebHostEnvironment : IHostEnvironment

IWebHostEnvironment : IHostEnvironment 是 C# 中的接口继承语法,表示:IWebHostEnvironment 接口继承自 IHostEnvironment 接口。✅ 一句话解释: IWebHostEnvironment 是 ASP.NET Core 中专门用于Web应用的环境信息…

PDF24 Creator(完全免费多功能PDF工具箱) 易于使用 多语言支持 - 教程

PDF24 Creator(完全免费多功能PDF工具箱) 易于使用 多语言支持 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &q…

彩笔运维勇闯机器学习--lasso回归

前言 彩笔运维勇闯机器学习,今天我们来讨论一下lasso回归,本期又是一起数学推理过程展示 坐标下降法 目标找到一组参数,使目标函数值最小。比如\(f(x,y)=3x^2+5xy+10y^2\),要找到\(x,y\)使得\(f(x,y)\)取值最小 \[…

IP地址的配置

原IP地址为172.16.69.251

工业检测为啥首选黑白相机?4 个核心优势,彩色相机比不了 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

202504_CHIMA模拟_Shiro流量分析

流量分析, WebShell, ShiroTags:流量分析,WebShell,Shiro 0x00. 题目 题目表述 附件路径:https://pan.baidu.com/s/1GyH7kitkMYywGC9YJeQLJA?pwd=Zmxh#list/path=/CTF附件 附件名称:202504_CHIMA_analyse 0x01. WP …