[论文笔记/评估方法] RELIABLE AND DIVERSE EVALUATION OF LLM MEDICAL KNOWLEDGE MASTERY

news/2025/9/18 20:41:49/文章来源:https://www.cnblogs.com/tiome/p/19099678

RELIABLE AND DIVERSE EVALUATION OF LLM MEDICAL KNOWLEDGE MASTERY

image

该文章于2025年发表在ICLR(CCF A),早在2024年9月发布在arxiv。

文章地址:Reliable and Diverse Evaluation of LLM Medical Knowledge Mastery

arXiv:[2409.14302] Reliable and diverse evaluation of LLM medical knowledge mastery

代码仓库:GitHub - THUMLP/PretexEval: Codes and datasets of the ICLR 2025 paper: Reliable and Diverse Evaluation of LLM Medical Knowledge Mastery

openreview打分: 6 8 8 6

一、概述

本文提出了一个新颖的LLMs医疗知识评估的框架,利用谓词等价转换来给给定的医学知识点生成一系列变体,然后将这些变体转换成文本语言,从而产生一系列可靠和多样化的测试样本,通过统计LLMs对这些样本的正误判断结果,来衡量LLMs对医学知识的掌握能力。

二、研究的核心问题及背景

核心问题: 如何设计一个动态生成测试样本且样本不会过时的大模型评估框架

背景: 近年来,大型语言模型(LLM)发展迅速,在各个领域都显示出巨大的潜力。一些基准如MedQA,长期以来一直是评估LLM医疗能力的有效工具,然而他们可能面临过时或被泄露给LLM的挑战。此外,医学数据库如UMLS定期更新,并包含广泛的医学知识,现在还没有统一框架,充分利用这些知识来评估LLM掌握的医学知识。

通过医学知识库评估LLM需要从结构化知识中生成文本测试样本,如果直接用LLM生成会导致两个缺点:①.真实性不足。②.结构多样性不足。

三、现有方法面临的挑战

大模型医疗评估

1.分类两大类:①.从医疗文献、测试或网络资料收集得到的QA数据集,来评估大模型的全面的医疗能力。②.利用数据集来测试大模型对医疗知识的掌握。

2.他们都面对相同的问题,也就是过时或可能泄露给LLMs等问题,虽然构建新的数据集、基准可以解决这些问题,但随着时间推移,它们也会过时

动态评估范式

1.一些工作利用算法动态生成特定任务的训练样本,例如在数学、SQL执行器。另一些工作通过对现有的基准进行释义来生成测试样本(对已有的数据集里的题目,换一种说法,改写成不同的表述)。现在还没有从定期更新的医学知识库中动态生成测试样本的方法。

四、针对挑战,解决思路

1.针对数据集、基准过时、泄露问题,提出动态生成测试样本

2.针对利用LLM直接生成测试样本真实性不足和结构多样性不足问题,提出谓词等价变换。先将知识点用谓词表达式表示,生成多个谓词表达式变体,然后映射到对应的原型样本(文本变体),最后用LLM进行重述,得到测试样本。

五、模型框架与具体实现

image

评估范式

1.给定一个知识点P,直接使用LLM生成测试样本可能会缺乏多样性和可靠性。相比之下,本文先将知识点P投影成谓词表达式q,然后进行谓词等价变换,得到一系列变体V_1-V_m。谓词等价变换保证了这些变体的可靠性,前提是原始表达式q为真

image

2.随后,将每个变体转换成文本测试样本S_i进行评估,因为这些样本具有不同结构,因此可以在保持可靠性的同时表现出多样性。

image

评估框架

谓词变体生成

1.在三元组知识库中,谓词可以从关系r中导出。

image

2.接下来,该框架采用了在实际医学应用中广泛使用的三类等价变换:逆向表达(Inversion)、实例化(Instantiation)和双重否定(Double Negation)。

3.这三种类型还可以进一步组合,产生基于谓词等价变换的传递性质的附加表达式,一共生成m个变体。

image

image

文本样例生成

1.最后,将谓词变体转换回文本样式以供LLM评估。一种方法是提示LLM直接生成,这种方法可能会引入事实错误(LLM可能不完全理解谓词形式)。本文设计了一种基于原型的样本生成方法,构造一个原型池(映射表),谓词变体从原型池中检索对应原型样本。随后,使用LLM(llama3-70B)对得到的原型样本进行改写,得到最终的一系列测试样本。

评估方法

1.每一条测试样本都有真实标签∈True or False。要求所评估的LLM判断给定的语句是真还是假。

2.对于评价指标有两种,一种是平均准确率,统计LLM在所有样本的所有变体的准确率。一种是联合准确率,在一个知识点的所有变体样本都回答正确,才算LLM掌握该知识。

image

image

六、实验

数据集:MedLAMA、DiseK

基线:LLM直接测试(Direct),用LLM生成的测试样本(LLLEval)测试LLM,用本文的框架(PretexEval)测试LLM。

1.主实验

image

与原始数据集相比,评估的LLM在PretexEval生成的数据集上的性能要低得多。这表明,为每个知识点动态生成多个样本可以显著提高评估的全面性。此外,与LLM直接生成的数据集(LLMEval)相比,几乎所有LLM在PretexEval创建的数据集上的性能都要低,一些模型(例如Llama 2 - 7 B和Llama 2 - 70 B)经历了超过50%的降解。这些发现表明PretexEval能够生成比LLM直接生成的测试样本更多样化的测试样本。

在所有评估的LLM中,GPT-4 o在几乎所有数据集和评估方法上都优于其他LLM,实现了性能提升(相对于随机猜测(50%))的31.7和26.7由PretexEval评估。在开源的LLM,与具有类似参数尺度的LLM相比,Llama 3 - 70 B和Llama 3 -8B在PretexEval生成的数据集上表现最好。这些结果表明,Llama 3模型系列比其他评估的LLM编码了更多的医学知识。此外,尽管一些医学专用LLM(ClinicalCamel,Med 42)的性能与其骨干模型相似(Llama 2 - 70 B)在原始数据集上,他们在PretexEval上的表现明显优于后者约7%,这表明,医学语料库的培训可以显着提高医学知识掌握的深度。

2.生成样例数量的研究

当使用单个样本进行评估时,LLMEval和PretexEval的结果非常接近。然而,随着测试样本数量的增加,两种方法的结果之间的差异明显变大。这种现象表明,与LLM直接生成的样本相比,当前LLM在面对由我们的方法生成的结构多样的测试样本时通常表现出显著较低的一致性。

image

3.消融实验

对于框架组件的消融实验:观察到,删除这两个模块会导致更高的评估性能,特别是当谓词等价转换模块被移除时(在Llama 3 - 70 B上约为7%)。这些结果表明,谓词等价转换对所提出的框架中的评估多样性贡献最大。

谓词转换类型的有效性实验:随着更多谓词转换类型的添加,LLM性能不断下降,表明它们的有效性。此外,包含双重否定(+DN)会导致更显著的性能下降(约5%)这表明,与实例化相比,当前的LLM在理解否定表达式方面表现出相对较低的熟练度。和医学知识的颠倒陈述。

image

4.对可靠性和多样性的人工分析

我们观察到,在改写过程之前,PretexEval生成的原型样本表现出较高的结构多样性和可靠性,但与其他方法相比,词汇多样性较低。尽管LLMEval有较高的词汇多样性,但是可靠性和结构多样化很低。在改写之后,PretexEval框架在词汇多样性也有较大的提高。
image

5.案例研究

image

6.跨评估任务的可伸缩性

为了验证PretexEval对于不同类型评估任务的可伸缩性,还对多项选择题(这是广泛采用的当前基准)使用PretexEval进行评估。实验结果(图7)显示了与声明验证评估中观察到的趋势相似的趋势,证明PretexEval可以与各种任务类型相结合,以准确评估LLM的医学知识掌握程度。

image

7.模型训练适应性研究

主要关注两个研究问题:RQ 1:PretexEval生成的样本训练能否提高LLM对训练集外知识的理解?RQ 2:在几种类型的PretexEval生成的样本上进行训练是否可以提高LLM对其他看不见的表达式的理解?对于RQ 1,选择了200个知识三元组作为训练集,另外200个三元组作为测试集。我们使用所有来自训练集的PretexEval生成的样本对Llama 3 -8B进行微调,图8a中的实验结果表明,在PretexEval生成的样本上进行训练可以显著提高模型在所有类型的表达式上的性能(约20%),这些表达式来自训练集之外的知识。

对于RQ 2,我们从8种PretexEval生成的表达式中随机选择4种进行训练,并将其余4种类型用于评估。图8b表明,在几种PretexEval生成的样本上进行训练可以大大提高LLM在所有未见过的表达式上的性能(约30%)。这些结果表明,使用PretexEval生成的样本进行训练可能会有所帮助

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/907412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地VMware Workstation Pro的rhel-server-7.9-x86_64服务器配置本地源

1. 安装好VMware Workstation Pro以及rhel-server-7.9-x86_64-dvd.iso后 2. 先对VMware Workstation 进行虚拟机关机 3. 对虚拟机的CD/DVD(SATA) 勾选设备状态为启动时连接,以及连接中勾选使用ISO镜像文件,为本地的r…

SCPI 标准命令

SCPI 标准命令*IDN? 是 SCPI 标准命令之一,用来返回仪器的身份信息。 📌 背景SCPI(Standard Commands for Programmable Instruments,标准可编程仪器命令)是 1990 年制定的一套通用指令集,几乎所有可编程仪器(…

前端,真的让我深刻感受到信息闭塞的恐怖 - 指南

前端,真的让我深刻感受到信息闭塞的恐怖 - 指南2025-09-18 20:34 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display…

05-条件查询

05-条件查询$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");介绍 通常在进行查询操作的时候,都是查询符合某些条件的数据,很少将表中所有数据都取出来。怎…

2025年十大AI网站构建工具:专家评测与推荐!

2025年,软件开发领域迎来一个关键转折点。随着 AI 技术的飞速发展,传统的网站或应用构建障碍正逐渐消失。市场上涌现出大量功能强大的工具,每一个都号称是您所需要的最佳 AI网站构建器 或 网站生成器。 然而,对于开…

扫描线乱谈

扫描线乱谈前置知识 离散化,线段树 扫描线 首先假设你有n个矩形。如果直接暴力求解这些矩形的覆盖面积肯定不行,这时就要用扫描线算法。 假设有一根线,从下往上扫描:把每个小矩形分成很多不同的块,高是扫过的距离…

详细介绍:量子计算学习(第十四周周报)

详细介绍:量子计算学习(第十四周周报)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

视频播放时切出页面视频暂停(亲测可用)

视频播放时切出页面视频暂停(亲测可用)谷歌浏览器方法:视频播放网页,右键—检查—Elements—Event Listeners—找到blur,点开小三角,remove掉所有子元素

VulkanAPI细节梳理1

1. PSOPipeline State Object,管线状态对象)? PSO 是 Vulkan 的核心概念之一,它是一个包含了渲染所需几乎所有状态的、不可变的对象。你可以把它想象成一台高度可配置的工业机器(GPU)的完整配置方案。在传统 API…

Win11 安装 MinGW

下载:https://github.com/niXman/mingw-builds-binaries/releases或者: 链接: https://pan.baidu.com/s/18nbkKpwnbrNenan9LLEUCA?pwd=twym 提取码: twym解压出来:添加环境变量:验证:

Base match

Humans CAN NOT learn anything MORE if humans are always hyper-intelligent-er or supercalifragilisticexpialidocious-er than others.The tag is biology so the base is the base. Watson-Crick pairing experi…

Polars return_type类型设置(KIMI)

Polars return_type类型设置(KIMI)本文为和KIMI的对话记录,仅供参考:Polars中map_elements返回类型可以设置哪些? User: polars中map_elements中有哪些return type可以设置? Kimi: 在 polars 中,map_elements 的…

意大利 公证 海牙认证速度 单号 双号

支付宝小程序 领事服务中心 那里(对应北京的领事) 比较慢,审核要一周,邮寄过去再寄回来又要一周。总共两周。可以接受单号 微信 山东外事 小程序 (对应济南的领事,只接受山东内的公证)审核很快,一天就审核通过…

Linux命令学习笔记

cd命令 1.切换上级目录 cd ..2.切换到当前用户主目录 cd ~ 3.切换上两级目录 cd ../..4.进入当前目录 cd . cat命令 1.查看文件 cat test.txt 2.查看文件并展示行号空行展示 cat -n test.txt 3.查看文件并展示行号,…

网络安全需要真正的承诺而非表面功夫

本文探讨企业网络安全的核心问题——真正的组织承诺。作者指出许多企业仅采取半吊子安全措施,强调网络安全需要从企业文化到软件开发方式的全面变革,而非依赖外部工具或培训。文章分析了安全厂商解决方案的局限性,并…

详细介绍:(附源码)基于Web的《药谷奇遇记》网站设计与实现-计算机毕设 72940

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

想成为AI绘画高手?打造独一无二的视觉IP!Seedream 4.0 使用指南详解,创意无界,效率翻倍!

想成为AI绘画高手?打造独一无二的视觉IP!Seedream 4.0 使用指南详解,创意无界,效率翻倍!想成为AI绘画高手?打造独一无二的视觉IP!Seedream 4.0 使用指南详解,创意无界,效率翻倍! AI-Compass 致力于构建最全面…

Python拼接协程的运行结果,平铺成一个序列(KIMI)

Python拼接协程的运行结果,平铺成一个序列(KIMI)本文为和KIMI的对话记录,仅供参考。协程结果平铺成序列 User: Python中想要把异步函数返回的列表拼接起来可以这么写吗? flags = await itertools.chain.from_iter…

Polars coalesce操作(取第一个非null值)(KIMI)

Polars coalesce操作(取第一个非null值)(KIMI)本文为和KIMI的对话记录,仅供参考:Polars join结合coalesce填充内容 User: 我有两个polars的dataframe,分别是df和df_task,两者都有id、text和labels字段,df的id…

完整教程:液氮低温恒温器的应用领域

完整教程:液氮低温恒温器的应用领域pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…