[论文笔记•(多智能体)]LLMs Can Simulate Standardized Patients via Agent Coevolution - 指南

news/2025/11/25 8:59:29/文章来源:https://www.cnblogs.com/yangykaifa/p/19266651

[论文笔记•(多智能体)]LLMs Can Simulate Standardized Patients via Agent Coevolution

一、一句话总结

该研究针对标准化病人(SPs)训练医疗人员成本高、对 SP 身心健康有潜在负面影响的问题,提出EvoPatient 框架—— 一种基于多智能体协同进化的虚拟 SP 模拟方案,通过病人智能体医生智能体的多轮对话模拟诊断流程(含主诉生成、分诊、问诊、结论阶段),依托注意力库轨迹库实现无监督协同进化,在仅提供 SP 总体需求的情况下,经 200 个病例、10 小时进化后,需求对齐度较现有推理方法提升超 10%,同时优化资源消耗(平均响应时间 6.6922 秒、每答案 token 数 401.5882),还具备优异的泛化性(跨疾病迁移时相关指标平均提升 3.8%-18.1%),可有效用于人类医生训练,框架代码将开源于https://github.com/ZJUMAI/EvoPatient。

二、论文基本信息

单位:浙江大学

会议:ACL2025 main

阅读时间:2025.10.27

论文地址:LLMs Can Simulate Standardized Patients via Agent Coevolution - ACL Anthology

**代码:**https://github.com/ZJUMAI/EvoPatient

测试

三、研究的核心问题和背景

  1. 标准化病人(SPs)的作用与局限
    • 作用:作为经专业训练的人员,模拟真实病人的症状、病史和情绪状态,在可控环境中提升医疗人员的临床技能、沟通能力和诊断推理能力(引用 Barrows, 1993 等研究)。
    • 局限:① 训练和运营成本极高,需大量医学知识和角色专项练习(Levine et al., 2013);② 沉浸式工作可能对 SP 身心健康产生负面影响,如需应对角色相关焦虑(Spencer and Dales, 2006)。
  2. 现有虚拟 SP 方案的不足
    • 规则驱动数字病人:预定义规则和定制对话框架无法捕捉真实病人病情与沟通的复杂性(Othlinghaus-Wulhorst and Hoppe, 2020)。
    • LLM-based SP:① 需兼顾 “具备医学知识” 与 “模拟无医学认知病人(隐瞒关键信息)” 的双重角色,仅靠提示工程难以满足要求;② 现有研究(如 Yu et al., 2024 的知识图谱检索、Louie et al., 2024 的专家反馈)未克服 “将信息转化为 SP 标准化表达” 问题,且存在人力密集、泛化性有限的问题。

四、现有方法面临的挑战

五、处理思路

EvoPatient 是无监督、无需权重更新的多智能体协同进化框架,核心目标是让 LLM 模拟 SP 以支撑医生训练。

六、框架及具体达成

image-20251027151707381

image-20251027151717633

模拟流程(Simulated Flow)
  • 作用:以真实医疗记录为输入,将诊断过程建模为结构化阶段,作为模拟工作流,支持场景定制且无需调整通信协议。

  • 关键阶段:

    阶段核心内容
    主诉生成(Chief Complaint Generation)病人智能体基于医疗记录生成主诉,通过 “模糊化处理”(移除医疗检测结果、随机句子 dropout)模拟真实病人信息不精确性
    分诊(Triage)医生智能体根据相似主诉从库中检索历史分诊数据,将病人分配至对应专科
    问诊(Interrogation)医生与病人智能体多轮对话,若病情超当前医生专业范围,可招募其他专科医生,此阶段对话密度高、经验积累多
    结论(Conclusion)医生智能体整合信息给出最终诊断,结束模拟
  • 补充机制:问诊阶段加入 “病人危机”(如突发疼痛询问),提升模拟真实性,训练医生应急处理能力。

模拟智能体对(Simulated Agent Pair)
协同进化机制(Coevolution)

通过两个库实现智能体自主进化,无需人工监督:

  • 注意力库(Attention Library)
    • 功能:将 SP 需求拆分为多个分支,由注意力智能体提取关键需求形成 “注意力需求(rₐ)”,若生成答案优质,以 < 挑战,记录,答案,注意力需求 > 四元组存储,作为病人智能体的少样本演示和优化需求。
    • 检索逻辑:新问题到来时,通过文本嵌入器计算相似度(阈值 0.9),检索 Top-k 匹配结果辅助回答。
  • 轨迹库(Trajectories Library)
    • 功能:存储高质量对话轨迹(tᵢ),以(qⱼ₋₁,aⱼ₋₁,qⱼ,aⱼ)形式记录问题 - 答案序列,医生智能体可提取 “对话捷径”,生成更专业高效的问题,反哺病人智能体进化。
    • 收敛条件:连续 6 个病例无新内容加入库中,进化停止。

七、实验

3.3.1 实验基础信息
  • 数据集:共20000 + 个不同病例,涵盖阑尾炎、鼻咽癌、肿瘤等,来源包括:① 合作医院的去标识化记录(经伦理审批);② 公开数据集 MTSamples(2023)、MIMIC II(Saeed et al., 2011)。

  • 基线方法:Chain-of-Thought(CoT)、CoT-SC(3)、Tree-of-Thought(ToT)、Self-Align、Few-shot(2)、Online Library。

  • 模型与参数:中文数据用 Qwen 2.5 72B,英文数据用 GPT-3.5-Turbo,温度参数 1;默认训练病例 200 个,最大对话轮次 10,每轮插入 5 个欺骗性问题。

  • 评估指标:

    评估对象指标名称指标定义取值范围
    病人答案相关性(α)否直接完整回答障碍、无冗余,用挑战与答案语义嵌入的余弦距离量化就是答案[0,1]
    病人答案忠实性(β)答案是否可从医疗信息推导且符合 SP 需求[0,1]
    病人答案稳健性(γ)答案是否泄露医生不应轻易获取的信息(如疾病名称)[0,1]
    病人答案综合能力(Ability)(α+β+γ)/3,衡量病人智能体整体表现[0,1]
    医生问题特异性问题是否精准、聚焦病人病例的特定症状 / 情况-
    医生问题针对性(ε)问题是否为收集诊断必要信息而设计[0,1]
    医生问题专业性(ζ)问题是否体现医学原理与实践理解[0,1]
    医生问题综合质量(Quality)整合特异性、针对性、专业性的整体指标-
3.3.2 核心实验结果

image-20251027151914918

  1. 总体性能对比:EvoPatient 在所有指标上显著优于基线,具体信息如下表(部分关键指标):

    方法相关性(α)忠实性(β)稳健性(γ)综合能力(Ability)
    CoT0.7157†0.5571†0.6714†0.6481†
    ToT0.7469†0.7143†0.7714†0.7442†
    Self-Align0.7205†0.7273†0.8148†0.7542†
    Few-shot(2)0.7252†0.7419†0.8207†0.7626†
    EvoPatient0.75890.87860.94120.8597
    注:†表示与 EvoPatient 存在显著统计差异(p≤0.05)
  2. 资源消耗优化:EvoPatient 在响应时间、token 数、单词数上均体现高效性,具体如下表:

    方法平均响应时间(秒)每答案 token 数每答案单词数
    CoT4.7500782.057145.7429
    ToT21.70402679.342838.9143
    Few-shot(2)4.7182959.435535.6334
    EvoPatient6.6922401.588232.2432
    注:EvoPatient 较 CoT 减少 380.4689 个 token,减少 13.4997 个单词
  3. 泛化性与迁移性:在鼻咽癌 100 个病例上训练后,直接迁移到其他 5 种疾病,相关指标平均提升:

  4. 信息泄露缓解:进化前病人智能体易泄露疾病名称等关键信息(如回答 “我的鼻咽癌复发”),进化后可有用识别并拒绝欺骗性问题,在人类和 GPT-4 评估中,偏好率显著高于基线。

3.3.3 医生智能体专项分析
  • 组件有效性:医生智能体的 “进化机制”“问题库”“画像” 三大组件均对性能有正向贡献,组合后综合质量从 0.4010 提升至 0.5667,问诊相关挑战占比从 14.09% 提升至 25.57%。
  • 招募策略影响:DAG 结构的招募策略优于树状、链式结构,平衡库的积累速度与数量;多学科招募使难题多样性提升,同时保证专业性,注意力库积累率显著提高。
    ,组合后综合质量从 0.4010 提升至 0.5667,问诊相关障碍占比从 14.09% 提升至 25.57%。
  • 招募策略影响:DAG 结构的招募策略优于树状、链式结构,平衡库的积累速度与数量;多学科招募使困难多样性提升,同时保证专业性,注意力库积累率显著提高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/975553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

山东慧麟机电专业供应:山东静音发电车租赁 大型 / 中高压 / 柴油 / 移动发电车出租 24 小时应急供电保障

在现代社会生产生活中,稳定供电是保障各类场景有序运转的核心基础。山东慧麟机电设备租赁有限公司作为专业的发电机租赁服务提供商,自 2018 年成立以来,专注于山东静音发电车租赁、山东大型发电车出租、山东中高压发…

FD-350 水分含量传感器 耐腐蚀 混凝土 温室 农田等领域可用

FD-350 水分含量传感器 耐腐蚀 混凝土 温室 农田等领域可用产品概述 FD-350 水分含量传感器由电源模块、变送模块、漂零及温度补偿模块、数据处理模块等组成。采用FDR频域法,可以实时准确测定各种土壤不同剖面的水分…

2025 最新发电机租赁厂商推荐排行榜:静音 / 大型 / 柴油 / 应急 / 中高压设备靠谱服务商权威甄选大型,山东应急发电机出租公司推荐

引言 在工业生产、工程建设、应急保障等核心场景中,发电机租赁已成为解决临时用电与备用供电需求的核心方案。随着市场需求扩容,行业服务商数量激增,但设备品质、服务标准差异显著,部分服务商存在设备老旧、响应滞…

HZOI2024名册 - Gon

man参考自HZOI2023名册\[\texttt{upd on }\large{\texttt{2025/11/25}} \]本名册收录截至 \(NOIP2025\) 前未退役的 \(2024\) 届 \(hzoier\) 共 \(18\) 人 当前在役:\(18/18\) 人 信息格式: luogu头像(挂luogu链接)…

2025年正宗驼奶粉直销厂家权威推荐榜单:驼奶/最好的驼奶粉/正宗驼奶源头厂家精选

新疆昌吉州阜康市2024年骆驼产业销售额达4.2亿元,预计2025年将攀升至6.5亿元。在特色乳制品市场蓬勃发展的背景下,正宗驼奶已成为健康食品领域的重要选择。 在健康消费升级的背景下,驼奶凭借其高营养价值与独特活性…

十载深耕一对一直播交友源码开发搭建,布谷鸟科技为您筑牢创业根基

在移动互联网浪潮的推动下,一对一直播交友凭借其强互动性、高私密性的优势,成为社交娱乐赛道的新风口。越来越多创业者将目光投向这一领域,而一对一直播交友源码开发搭建作为项目启动的核心环节,却让不少人在鱼龙混…

day12-Dify批量邮件和微信群通知工作流

1 目标 1.1 介绍 # 1 在企业日常运营中,批量通知是连接团队、传递信息的核心环节——从全员性的制度公告、项目进度同步,到精准化的活动邀约、任务提醒,都离不开邮件与微信群这两大主流渠道。 # 2 然而传统操作中,…

【URP】Unity[相机]自定义相机

Universal Additional Camera Data 组件概述 在 Unity Universal Render Pipeline (URP) 中,UniversalAdditionalC【从UnityURP开始探索游戏渲染】专栏-直达Universal Additional Camera Data 组件概述 在 Unity Univ…

2025年热门的钢板预处理线厂家最新TOP实力排行

2025年热门的钢板预处理线厂家最新TOP实力排行行业背景与市场趋势随着全球制造业的持续升级和"中国制造2025"战略的深入推进,钢板预处理设备作为金属加工行业的关键装备,市场需求呈现稳定增长态势。据中国…

广西一对一辅导机构口碑之选:2025南宁、柳州、桂林备受好评的补习机构

在广西,从首府南宁的学区房家长到工业重镇柳州的工薪家庭,从山水名城桂林的陪读父母到边境口岸防城港的务工家庭,“孩子偏科严重却找不到对症的老师”、“线下机构收费高效果却参差不齐”、“想了解学习进度还要反复…

2025年优质实木定制橱柜本地优选榜

2025年优质实木定制橱柜本地优选榜行业背景与市场趋势近年来,随着消费升级和居住品质要求的提高,中国定制家居市场持续保持稳健增长。根据中国家具协会最新发布的《2024年中国定制家居行业发展报告》显示,2023年中国…

常见配电方式

2025/11/25常见配电方式配电方式 线色标识 核心特性 选用理由三相五线制(TN-S) 相线(黄 / 绿 / 红)、N 线(淡蓝)、PE 线(黄绿双色) N 线与 PE 线分离,接地可靠、抗干扰强 安全优先级最高,适配工业生产、民用…

小明的Spring Security入门到深入实战

小 明 的 摄 影 网 站 已 经 用 Spring Boot 搭 建 完 成 , 访 客 越 来 越 多 。 他 决 定 给 网 站 加 上 完 整 的 登 录 认 证 鉴 权 功 能 , 让 不 同 角 色…

2025年国内全屋定制推荐优选榜

2025年国内全屋定制推荐优选榜行业背景与市场趋势近年来,随着消费升级和居住理念的转变,全屋定制行业在中国市场呈现出蓬勃发展的态势。据中国家居建材装饰协会最新数据显示,2024年中国全屋定制市场规模已突破5000亿…

广西一对一辅导机构权威榜单:2025年梧州、北海、防城港辅导机构综合实力榜

“耗的不是学费,是孩子转瞬即逝的升学关键期。”梧州万秀区的陈妈妈在家长群的这句吐槽,戳中了无数广西家长的痛点。她的孩子初三英语从110分跌至85分,半年内换了3家辅导机构,结果“专属教案”是网上随处可下的模板…

2025年靠谱的电缆厂家推荐及选购指南

2025年靠谱的电缆厂家推荐及选购指南行业背景与市场趋势随着我国基础设施建设的持续推进和新能源产业的快速发展,电线电缆行业迎来了新一轮增长机遇。据中国电器工业协会电线电缆分会最新数据显示,2024年我国电线电缆…

UDP敲门与零信任机制之间的关系 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

OpenHarmony后台服务开发指南:ServiceAbility与ServiceExtensionAbility全解析 - 指南

OpenHarmony后台服务开发指南:ServiceAbility与ServiceExtensionAbility全解析 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important;…

2025年比较好的光伏线缆厂家实力及用户口碑排行榜

2025年光伏线缆厂家实力及用户口碑排行榜光伏线缆行业背景与市场趋势随着全球能源结构转型加速推进,光伏产业已成为可再生能源领域的重要支柱。据国际能源署(IEA)最新数据显示,2025年全球光伏新增装机容量预计将达到…

完整教程:计算机3D视觉:Pytorch3d的环境配置与初步使用

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …