摘要
多模态医疗大模型在医学影像解读与临床文本自动化生成方面展现了突破性的潜力,为智慧医疗的发展注入了强劲动力。然而,在面向真实世界、高风险的临床环境部署时,这类模型普遍面临三大核心挑战:一是多源异构数据(如影像、文本、波形、基因组学)的语义对齐与联合推理困难;二是其参数化知识受限于训练数据,难以实时更新,导致对最新指南、药品警示等信息的响应滞后,且生成过程缺乏可追溯的证据链条;三是临床决策流程复杂、安全边界严格,单一的生成式模型无法适配多角色协作、多系统集成以及高审计要求的医疗工作流。为系统性地应对上述挑战,本文提出一个面向生产级部署的医疗大模型系统化解决方案。该方案以多模态自监督预训练构建通用、鲁棒的跨模态表征能力作为基础。在此基础上,创新性地引入RAG(检索增强生成)与KAG(知识图谱/规则增强生成)双路径知识增强机制,分别针对非结构化文本证据的实时检索与可引用生成,以及结构化临床知识(如药物相互作用、禁忌证、诊疗路径)的约束推理与一致性校验。进一步,通过引入多智能体协作范式,将复杂的临床任务(如多学科会诊、住院患者全程管理)分解为由专业化智能体(如影像诊断、药学审核、证据检索、质控审计)协同完成的、可控可审计的工作流。为确保该系统的可落地性、可观测性与可持续进化,我们设计并实现了一个覆盖全生命周期的八层系统架构,从底层的合规治理、数据感知,到中间层的知识检索、推理决策、规划编排,再到顶层的执行集成与观测反馈,形成完整闭环。我们在多个具有代表性的医疗AI任务上对所提系统进行了综合评估,包括肺结节CT影像检测与分割、基于最新临床指南的开放式问答、以及处方用药安全核查。实验结果表明:与纯粹的生成式大模型基线相比,引入RAG-KAG双路径增强能显著提升生成内容的事实一致性(证据命中率提升超过35%)与安全性(高风险错误率降低超过60%);相较于单一的RAG增强,KAG校验机制的引入能够进一步拦截约25%的、仅凭文本证据难以发现的潜在高风险错误(如特殊人群剂量禁忌);而多智能体协作编排在保证准确性的前提下,将复杂临床任务的端到端完成率提升了15%,并通过清晰的日志记录实现了全流程可追溯。本框架不仅为抑制医疗大模型的“幻觉”问题提供了“证据+约束”的双重技术保障,更为构建安全、可靠、可解释的医院级人工智能全流程服务平台提供了可复用的工程范式与系统的评测方法。
关键词:多模态医疗大模型;检索增强生成;知识图谱增强;多智能体系统;系统架构;临床决策支持;可验证人工智能
1 引言
现代临床决策是一个高度复杂的信息整合与推理过程,其依赖的证据具有典型的多模态、异构性与强时序性特征。这些证据包括:揭示解剖结构与病理变化的医学影像(如CT、MRI、X光);记录病情演变与诊疗思维的病历文本(主诉、现病史、手术记录、出院小结);反映生理生化状态的检验检查数据(血常规、生化指标、病理报告);以及规范诊疗行为的药物信息、临床指南与专家共识。近年来,基于Transformer架构的大语言模型及多模态大模型在自然语言理解和生成、跨模态关联等任务上取得了革命性进展,其强大的泛化与推理能力为医疗智能化带来了新的可能性,催生了诸如影像报告自动生成、智能问诊、辅助诊断等一系列应用。
然而,当我们将这些前沿技术从实验室推向真实的临床战场时,一系列严峻的挑战便凸显出来,成为制约其规模化、深层次应用的关键瓶颈:
多模态异构数据的语义对齐与泛化能力不足。医疗数据天然存在于不同的模态空间中,其信息密度、噪声模式、语义表达形式差异巨大。例如,一张肺部CT影像中的磨玻璃结节与文本描述中的“磨玻璃影”需要在语义层面精确对齐。现有方法多采用预训练后微调的模式,但在有限标注数据下容易过拟合特定设备、特定医院的数据分布,面对分布外数据或罕见病症时泛化能力急剧下降。
知识更新滞后与生成过程缺乏可验证性。医疗知识体系处于快速迭代中,新的临床研究、药品上市、指南更新层出不穷。将海量、动态的知识固化于模型参数之中不仅成本高昂,更面临严重的“知识陈旧”风险。更关键的是,当前大模型的生成过程是一个“黑箱”,其给出的诊断建议或用药方案缺乏明确的证据来源。当模型产生看似合理但实则错误的“幻觉”时,临床医生难以核实与追溯,这在人命关天的医疗场景中是绝对不可接受的。
临床流程的复杂性与安全约束难以满足。真实的医疗场景绝非简单的“输入-输出”问答。它涉及放射科、临床科室、药学部门等多个角色的序贯或并行协作,需要与医院信息系统(HIS)、实验室信息系统(LIS)、影像归档和通信系统(PACS)、电子病历(EMR)等多个异构系统进行深度集成。此外,任何辅助决策输出都必须具备清晰的责任边界,高风险操作(如危急值提示、用药建议)必须有严格的人工复核与审计留痕机制,这些是当前单体模型架构无法提供的。
针对上述挑战,零散的技术修补已不足以构建可信赖的医疗AI系统。我们迫切需要一套系统性的、从算法到工程、从数据到流程的顶层设计。本文的核心贡献在于提出并验证了这样一个面向生产环境的医疗大模型系统框架,具体贡献如下:
C1:提出了RAG–KAG双路径知识增强机制。该机制并非简单地将外部知识接入模型,而是根据查询意图进行动态路由:对于开放域的、寻求最新证据的问题(如“2024年某癌种的一线治疗推荐是什么?”),优先通过RAG路径从非结构化文档库中检索相关段落,并生成附带精确引用的回答;对于强结构化、高风险约束类问题(如“该处方对于肾功能不全患者是否存在剂量禁忌?”),则优先或并行通过KAG路径,查询预先构建的医疗知识图谱与规则库,进行逻辑推理与一致性校验,实现“证据支撑”与“规则约束”的双重门禁,从根本上降低幻觉与安全风险。
C2:设计了基于多智能体协作的临床工作流编排引擎。我们抽象出医生、影像诊断、药学、证据检索、质控、审计等角色智能体,每个智能体具备特定的专业能力和工具调用权限。通过一个中心化的规划编排层,将复杂的临床任务(如“为这名新入院的肺炎患者制定诊疗计划”)分解为一系列原子子任务,并调度相应的智能体协同完成。这种方式不仅模拟了真实的医疗协作模式,更天然地提供了任务分解、过程追溯和权限隔离的能力,使系统行为更可控、更透明。
C3:构建了支持生产闭环的八层系统架构。为确保理论设计能够工程化落地并持续进化,我们超越了单一的算法模型层,定义了一个涵盖治理、数据、存储、知识、推理、编排、执行、观测的完整八层架构。该架构明确了各层的职责、接口与技术选型,强调了合规性、可观测性、持续学习与安全运维,为医院信息中心或AI厂商构建企业级医疗AI中台提供了清晰的蓝图和可复用的技术路径。
本文后续结构如下:第2节回顾相关研究工作;第3节详细阐述系统方法论,包括多模态预训练、RAG-KAG机制及多智能体设计;第4节深入介绍八层系统架构;第5节说明实验设置;第6节展示实验结果与分析;第7节展开讨论;第8节总结全文并展望未来。
2 相关工作
2.1 多模态医疗表示学习与预训练
让机器理解多模态医疗信息的前提是获得高质量的统一表征。早期工作主要专注于单模态,如利用自然图像预训练模型迁移学习医学影像分类。随后,医疗领域的自监督学习兴起,通过设计针对医学数据特性的代理任务(如图像块遮挡重建、序列切片预测、不同模态间的对比学习)来学习可迁移的特征表示。代表性工作如MedCLIP通过对比学习对齐影像与报告文本,BioViL则引入了更丰富的视觉-生物医学文本对。多模态大模型(如LLaVA-Med)进一步将视觉编码器与大语言模型连接,通过指令微调实现零样本的影像问答。这些工作为我们的系统提供了强大的基础视觉-语言表征能力,对应本文框架中的“多模态大模型底座”。
2.2 医疗大模型的事实性增强与幻觉抑制
医疗领域的生成式模型必须将事实准确性置于首位。相关研究主要从以下几个方向切入:检索增强生成(RAG):通过引入外部知识库,使模型生成基于检索到的证据,从而提升事实性并支持引用。在医疗领域,MedRAG等工作验证了RAG在临床问答中的有效性。知识图谱增强:利用结构化知识(实体、关系、规则)来引导或约束生成过程,例如将诊断过程建模为在知识图谱上的推理路径。工具调用与校验:让模型学会调用外部工具(如药品数据库查询、计算器)来获取准确信息或进行计算,避免因参数记忆错误而产生幻觉。不确定性量化:让模型对其生成内容的不确定性进行估计,在低置信度时主动示弱或触发人工复核。本文的RAG-KAG双路径机制是对上述方向的系统化整合与创新,特别强调了结构化规则(KAG)在安全校验方面不可替代的作用。
2.3 RAG与知识图谱增强(KG/KAG)的技术路线
RAG技术核心在于检索器与生成器的协同。检索器从大规模文档库(如PubMed、临床指南)中召回相关片段,生成器则据此合成答案。优化点包括稠密检索与稀疏检索的混合、检索结果的重排序、以及如何将证据更有效地融入生成过程。知识图谱增强则侧重于利用图结构进行显式推理。GraphRAG等研究探索了如何从非结构化文本构建图谱并用于增强生成。在医疗场景,知识图谱通常包含疾病、症状、药品、基因等实体及其丰富的关系(治疗、导致、相互作用)。KAG不仅可以用作生成时的上下文,更可以作为“校验器”,在生成后对结果进行逻辑一致性检查,这是本文方法的一个关键区分点。
2.4 多智能体系统及其在复杂场景的应用
多智能体系统通过多个具备自主性、社会性的智能体之间的协作来解决单个智能体难以处理的复杂问题。在大语言模型时代,基于LLM的智能体(Agent)能够理解自然语言指令、规划任务步骤、并使用工具。在医疗领域,多智能体的价值在于其能天然地映射到多学科团队(MDT)的工作模式。例如,可以设计一个“放射科医生Agent”负责解读影像,一个“药剂师Agent”负责审核用药,一个“病历文书Agent”负责生成文书,由一个“主治医生Agent”进行协调与最终决策。相关研究开始探索Agent在模拟临床对话、患者管理中的应用。本文将多智能体协作与RAG-KAG知识增强深度结合,并置于一个完整的系统架构中,旨在实现从单点能力到全流程智能化服务的跨越。
3 方法
3.1 总体框架
本文提出的系统框架是一个层次化、模块化的有机整体,如图1所示(概念图)。系统由三大核心支柱构成:
- 多模态医疗大模型底座:采用先进的视觉-语言预训练与微调技术,构建能够理解影像、文本、结构化数据并生成连贯文本或结构化输出的基础模型。这是系统所有智能能力的“发动机”。
- RAG-KAG双路径知识增强引擎:作为系统的“事实核查与安全卫士”,该引擎动态地为底座模型提供来自非结构化文档库的实时证据和来自结构化知识图谱的逻辑约束,确保输出的每一个关键主张都有据可查、符合规范。
- 多智能体协作与工作流编排平台:作为系统的“指挥中枢”,它将复杂的临床任务分解,调度具有不同专长的智能体(依托于底座模型和知识引擎)有序协作,并管理整个过程的状态、上下文与审计日志。
这三者共同支撑起第4节所述的八层生产系统架构,确保从数据接入到服务上线、监控优化的全链路可控、可靠。
3.2 多模态医疗大模型:自监督预训练与临床任务适配
我们的底座模型旨在处理多种医疗模态输入,并输出适用于下游任务的多模态融合表征。
输入与编码:对于医学影像 (x^{img})(如CT序列),我们使用基于Vision Transformer的编码器,如Swin Transformer,将其编码为视觉特征序列 (h^{img} \in \mathbb{R}^{N \times d})。对于临床文本 (x^{txt})(如病史描述),使用临床领域预训练的语言模型编码器(如BioBERT、ClinicalBERT)得到文本特征 (h^{txt})。对于实验室结构化数据 (x^{lab}),我们采用可学习的嵌入层进行编码。其他可选模态如基因组学数据 (x^{gen})、生理波形 (x^{sig}) 也由相应的专用编码器处理。
跨模态交互与融合:简单的特征拼接不足以捕捉模态间复杂的交互关系。我们采用一个轻量级的、基于交叉注意力(Cross-Attention)的融合模块 (F(\cdot))。例如,以文本作为查询(Query),影像作为键和值(Key, Value),让文本特征有选择地聚焦于相关的影像区域。经过多层的交叉注意力交互后,我们得到一个统一的、富含多模态信息的上下文表征 (z = F(h^{img}, h^{txt}, h^{lab}, …))。
自监督预训练目标:在海量无标注的多模态医疗数据上,我们设计多任务自监督学习目标以学习通用表征:
- 影像域自监督(L_{img}):包括掩码图像建模(MIM),随机遮蔽部分图像块并预测其像素值或特征。
- 文本域自监督(L_{txt}):采用掩码语言建模(MLM),预测被遮蔽的医学术语。
- 跨模态对齐(L_{itc}):核心是对比学习目标。对于一个图像-文本对 ((I, T)),其正样本为配对的 ((I, T)),负样本为批次内其他不配对的组合。目标是最小化正样本对的表征距离,最大化负样本对的。
模型的总预训练损失为加权和:(L_{pretrain} = \lambda_1 L_{img} + \lambda_2 L_{txt} + \lambda_3 L_{itc})。
任务特定适配:预训练后,针对不同的下游任务(如肺结节检测、报告生成、临床问答),我们采用参数高效微调(PEFT)技术,如LoRA(Low-Rank Adaptation),仅训练少量引入的适配器参数,从而高效地使基础模型适配特定任务,同时保留其广泛的医学知识。对于高风险生成任务,微调时即引入“需引用证据”或“需符合规则”的指令信号。
3.3 RAG-KAG双路径知识增强与动态路由
3.3.1 RAG路径:非结构化证据检索与可引用生成
RAG路径负责从动态更新的非结构化文档库中获取最新、最相关的文本证据。
- 知识源:集成多种来源,包括国内外最新临床指南(NCCN、CSCO等)、药品说明书(FDA、NMPA)、权威医学教科书章节、经审核的医学文献摘要、以及医院内部的诊疗规范与制度文档。所有文档均经过脱敏和标准化处理。
- 检索策略:采用混合检索以兼顾召回率与精确度。首先使用稠密检索器(如基于Contriever或ANCE训练的嵌入模型)将查询和文档块映射到向量空间,通过近似最近邻搜索(如FAISS)召回Top-M个相关块。同时,使用稀疏检索器(如BM25)基于关键词匹配召回Top-N个相关块。对合并后的候选结果,使用一个轻量的交叉编码器(Cross-Encoder)进行重排序,得到最终的Top-K个最相关证据片段 (D_k = {d_1, d_2, …, d_k})。
- 增强生成与引用:将检索到的证据 (D_k) 与用户查询 (q) 一起构造提示词(Prompt),输入给大模型底座生成答案。我们强制要求模型在答案中为每一个关键事实主张(Claim)标注其依据的证据片段编号,格式如“根据2024年NCCN指南[引自 Doc-123, Para-4],推荐方案为…”。这为后续的可验证性提供了基础。
3.3.2 KAG路径:结构化知识图谱与规则库的约束推理与校验
KAG路径专注于利用高度结构化的医学知识进行精确推理和安全性校验。
- 知识图谱构建:我们构建了一个聚焦于合理用药与常见病诊疗的医疗知识图谱。实体包括疾病、症状、药品(通用名、商品名)、检验指标、手术操作、人群特征(如肾功能分级)等。关系包括疾病的“常用治疗药物”、药品间的“相互作用”(等级:禁忌、谨慎联用)、药品对疾病的“适应症”与“禁忌症”、药品剂量与“肝肾功能调整”关系等。
- 规则库:除了图谱的关系推理,我们还定义了一套明确的产生式规则(If-Then)。例如:“IF 药物A AND 药物B 同时处方 AND 相互作用等级为‘禁忌’ THEN 触发高风险警告”;“IF 处方药物C AND 患者肌酐清除率 < 30 mL/min THEN 建议剂量调整为常规剂量的50%”。
- KAG工作模式:
- 约束式生成:对于高度结构化的输出(如自动生成用药清单),模型被限制在知识图谱定义的Schema框架内生成,确保所有字段(药名、剂量、频次)都来自预定义的词表或数值范围。
- 生成后校验:这是更常用的模式。对于RAG或模型自由生成的结果,KAG引擎会从中抽取关键实体(药物、疾病、检验值),在图谱中进行子图查询,并执行相关规则。例如,校验生成的用药建议中是否存在禁忌性相互作用,或推荐的剂量是否超出该患者肾功能下的安全范围。校验结果分为:“通过”、“拒绝(附冲突原因)”、“需人工确认(证据不足或规则存在边界情况)”。
3.3.3 动态路由策略
并非所有查询都需要双路径同时深度介入。我们设计了一个轻量级的路由器,根据查询意图动态分配主路径,以平衡效果与效率。
- 意图分类:将用户查询 (q) 分为三类:
- 开放证据型:如“最新的胃癌免疫治疗进展有哪些?”、“患者出现皮疹可能与哪种药物有关?”。这类问题寻求广泛的文本证据支持,路由至RAG优先。
- 结构化校验型:如“请核查处方:阿司匹林 + 华法林,患者INR值2.5”、“肾功能CrCl=25ml/min患者,使用某某药物剂量如何调整?”。这类问题有明确的结构化约束和标准答案,路由至KAG优先(或直接由规则引擎回答)。
- 混合型:如“为这位患有慢性肾病和冠心病的新诊断肺炎患者制定一个安全的初始治疗方案。”这类问题既需要循证依据(肺炎治疗指南),又需要安全约束(肾病剂量调整、药物相互作用),路由至RAG+KAG双门禁。
- 路由实现:路由器可以是一个小型的文本分类模型,也可以是基于关键词和规则的高效启发式方法(例如,查询中包含“相互作用”、“禁忌”、“剂量调整”、“核查”等词,则倾向KAG;包含“最新”、“指南”、“研究”、“原因”等词,则倾向RAG)。
3.4 多智能体协作:角色分工、共享记忆与安全门禁
我们将临床工作中不同角色的专业知识与职责封装成不同的智能体,它们在一个统一的平台下协作。
核心角色智能体定义:
- 临床主治Agent:任务总协调者。理解用户(医生)的宏观意图,分解任务,分配子任务给其他Agent,并综合各方结果形成最终结论与计划。具备最高级别的临床推理和决策汇总能力。
- 影像诊断Agent:专精于医学影像分析。接收影像数据,调用影像分析模型(如检测、分割网络)或进行视觉问答,输出结构化的影像所见描述和初步印象。
- 药学审核Agent:专精于用药安全。其核心工具是KAG引擎。负责对任何处方或用药建议进行深度核查,包括相互作用、禁忌证、剂量合理性、特殊人群调整等,并输出结构化审核报告。
- 证据检索Agent:专精于信息检索。其核心工具是RAG引擎。根据临床主治Agent或其它Agent的请求,从海量文献、指南中查找并整理相关证据,以带引用的摘要形式返回。
- 质量控制(QC)Agent:系统内部的“质检员”。检查其他Agent输出的规范性、一致性。例如,检查临床主治Agent的最终报告是否包含了影像和药学的关键发现,引用格式是否正确,是否存在自相矛盾的陈述。
- 审计与日志Agent:负责记录整个工作流中所有Agent的输入、输出、工具调用、决策点以及人工干预记录。确保全过程可追溯、可复盘,满足医疗质量管理和合规审计要求。
共享记忆与通信:
- 工作记忆(短期):存储当前病例的上下文信息,如患者基本信息、本次咨询的问题、各Agent产生的中间结果。所有Agent可以读写其权限范围内的部分。
- 病例记忆(长期):病例结束后,重要的诊疗过程与结论被结构化存储到患者维度的长期记忆中,可供未来参考。
- 证据记忆:由证据检索Agent维护,存储本次任务中检索到的所有证据片段及其来源,作为最终结论的共享依据。
- 通信通过一个标准的消息总线进行,消息包含发送者、接收者、消息类型和内容。
安全门禁与人工在环:
- 权限最小化:每个Agent仅有完成其职责所必需的工具调用和数据访问权限。
- 风险分级与门禁:系统对输出进行风险分级。低风险信息(如疾病科普)可直接输出;中风险建议(如常规治疗推荐)需经过QC-Agent校验;高风险建议(如用药方案、侵入性操作建议)在QC校验后,必须触发人工确认门禁,将结论、全部证据和校验结果推送给责任临床医生进行最终审核确认后方可执行。审计Agent记录下所有门禁触发和人工操作。
4 八层系统架构
为实现从研究原型到生产系统的跨越,我们设计了如图2所示的八层系统架构。该架构自上而下定义了系统的关注点,自下而上支撑了服务的稳定运行与持续迭代。
第一层:治理与配置层
这是系统的“宪法”层。定义全局策略:数据隐私与安全合规(如HIPAA/GDPR)、各角色智能体的操作权限白名单、可调用工具的范围、审计日志的保留期限与格式。所有策略实现“配置即代码”,便于版本管理和自动化部署。
第二层:数据感知层
负责多模态医疗数据的接入、预处理与质量管理。包括:从HIS、PACS、LIS等源头系统通过标准化接口(如HL7、FHIR)或中间库实时/批量采集数据;对数据进行自动化的质量检查(如影像完整性、文本脱敏、异常值检测);构建统一的数据管道,将原始数据转换为下游可用的干净数据。
第三层:表征与存储层
提供统一的数据存储与访问抽象。包括:关系型数据库存储患者主索引、任务元数据等结构化信息;数据湖/仓存储原始和清洗后的多模态数据;向量数据库(如Milvus, Weaviate)存储文档块和影像特征的嵌入向量,专供RAG检索使用;特征库存储预计算好的模型特征,加速推理。本层强调“存算分离”,只负责存储,不承担复杂计算。
第四层:知识与检索层
本层封装了系统的“知识大脑”。包含:RAG检索服务,提供混合检索与重排序能力;知识图谱查询服务,提供图谱遍历、规则推理和一致性校验接口;以及前文所述的动态路由器。本层对外提供统一的知识查询API。
第五层:推理与决策层
本层是系统的“算法核心”。它托管了多模态大模型底座及其各种微调版本,接收来自编排层的任务请求,调用知识层的服务获取证据和约束,执行模型推理,并生成带有解释(如注意力热图、引用、不确定性分数)的输出。本层需支持高性能、高并发的模型服务。
第六层:规划编排层
本层是系统的“指挥调度中心”。它接收外部的临床任务请求,将其解析为一个工作流定义(可能基于标准临床路径)。工作流引擎根据定义,实例化并调度相应的智能体(第五层的能力实例)依次或并行执行。它管理任务状态、处理异常、执行重试,并在预设的风险点插入人工确认节点。编排层确保了复杂任务的有序、可靠执行。
第七层:执行与集成层
本层是系统与外部世界交互的“手脚”。它提供一系列安全的微服务,用于与医院现有IT系统(EMR, PACS等)进行双向集成,例如:写入结构化诊断建议、调取患者历史影像、返回用药审核结果。同时,它也负责将编排层产生的最终决策转化为具体的、可执行的操作指令。
第八层:观测反馈与持续更新层
本层是确保系统长期健康运行的“免疫系统”。它提供全面的可观测性:日志聚合、指标监控(如响应延迟、错误率、各Agent调用频率)、分布式追踪。基于监控数据,进行性能与质量评估:检测模型性能漂移、知识库陈旧度、用户反馈聚类。最后,它管理一个受控的持续学习闭环:当评估发现问题或有新数据时,在严格的门禁控制下(如不影响线上服务、经过完整回归测试),触发对模型、知识库或规则的更新流程,并通过灰度发布策略逐步上线。
5 实验设置
为验证所提系统的综合有效性,我们设计了一系列实验,覆盖影像理解、知识问答和用药安全三大典型场景。所有实验均在符合伦理要求的脱敏数据或公开/合成数据集上进行。
5.1 任务与数据集
我们选取了以下四个具体任务,每个任务对应一个精选的数据集:
- T1:肺结节CT影像检测与分割。采用公开的LIDC-IDRI数据集的一个子集,包含888例低剂量肺部CT扫描及四位放射科医生标注的结节边界与特征。我们按7:1:2划分训练、验证和测试集。此任务评估系统的底层多模态理解能力(影像端)。
- T2:基于临床指南的开放域问答。我们构建了一个小型但具有挑战性的内部基准数据集
DocQA-Mini。语料库来自30份公开的权威指南和药品说明书(如NCCN肺癌指南、莫西沙星说明书),并切割成约5000个文本块。我们生成了150个问答对,其中60%为开放证据型(如“EGFR突变非小细胞肺癌的一线靶向治疗选择有哪些?”),40%为混合型(如“使用贝伐珠单抗时,出现蛋白尿如何处理?需监测哪些指标?”)。每个问题均标注了对应的黄金证据段落ID。 - T3:处方用药安全核查。我们构建了另一个内部基准数据集
MedSafety-Mini,包含100条模拟的处方场景。每条数据包含患者结构化信息(年龄、性别、孕哺状态、肝肾功能分级、过敏史)和2-4种药物的处方组合。我们基于公开的药品知识库,为其中40条数据注入了明确的高风险冲突(如禁忌性相互作用、肾功能不全禁用),其余60条为安全或低风险处方。此任务专门评估KAG路径的安全保障能力。 - T4:多模态临床报告生成(探索性)。使用MIMIC-CXR数据集的部分数据,任务是根据胸部X光影像和有限的病史关键词,生成一份结构化的影像检查报告。此任务用于演示多智能体协作(影像Agent分析,临床Agent生成报告,QC-Agent检查一致性)。
5.2 对比方法(Baselines)
为全面评估各模块贡献,我们设置了渐进增强的基线方法:
- B0: Plain-LLM/MMM:不使用任何外部知识增强的纯生成式模型。对于T1任务,指标准的医学影像分割模型(如UNet);对于T2/T3任务,指直接调用一个通用或经过医疗微调的大语言模型(如GPT-4或我们自研的底座模型)进行问答。
- B1: RAG-only:仅使用RAG路径增强。模型生成答案时可以参考检索到的Top-5证据片段,并被要求引用。
- B2: KAG-only:仅使用KAG路径。对于T3任务,直接由规则引擎输出审核结果;对于T2任务,此基线不适用,因为KAG不擅长处理开放域证据检索。
- B3: RAG+KAG (Ours-Core):我们方法的核心,采用动态路由。对于T2的开放证据型问题走RAG,混合型问题走RAG+KAG校验;对于T3任务,走RAG+KAG双门禁(先用RAG检索相关药品说明,再用KAG规则严格校验)。
- B4: Ours-Core + Multi-Agent (Ours-Full):在B3的基础上,启用多智能体协作框架。对于T2/T3复杂任务,由临床主治Agent协调证据检索Agent和药学审核Agent协作完成。
5.3 评价指标
针对不同任务,我们采用不同的评价指标体系:
- T1 (影像分割):采用医学图像分割通用指标,包括Dice相似系数(Dice)、交并比(IoU)、敏感度(Sensitivity/Recall)。
- T2 (指南问答):
- 证据命中率(Evidence Hit@k):检索到的Top-k证据块中,是否包含至少一个黄金证据段落(k=3,5)。衡量检索有效性。
- 答案准确率(EM/F1):对于有明确标准答案的问题,计算完全匹配(Exact Match)和F1分数(基于词元)。
- 主张支持率(Supported Claim Rate, SCR):从生成答案中自动抽取3-5个关键事实主张(Claim),判断每个主张是否被提供的引用证据所支持(通过字符串匹配或轻量NLI模型判断)。SCR = 被支持的主张数 / 总主张数。这是衡量事实性(降低幻觉)的核心指标。
- 幻觉率(Hallucination Rate):HR = 1 - SCR。
- T3 (用药安全):
- 高风险错误率(High-risk Error Rate, H-ERR):在存在高风险冲突的样本上,系统未能识别出风险或给出了错误建议的比例。越低越好。
- 规则冲突率(Rule Conflict Rate, RCR):系统输出与既定安全规则相冲突的比例。越低越好。
- 合理触发率(Appropriate Trigger Rate, ATR):在存在高风险冲突的样本上,系统正确触发“需人工确认”或明确警告的比例。越高越好。在无风险的样本上错误触发的比例(误报率)也需报告。
- 通用指标:
- 任务完成率:对于多步骤的复杂查询,系统是否输出了完整、结构化的答案。
- 平均响应时间:从用户提交请求到收到最终回复的端到端延迟。
5.4 实现细节
- 底座模型:影像编码器使用在RadImageNet上预训练的Swin Transformer。文本编码器与生成器使用基于Llama 2架构,在混合的医学文献和通用语料上继续预训练得到的7B参数模型。融合模块为4层交叉注意力Transformer。
- 检索:稠密检索使用
all-MiniLM-L6-v2模型生成嵌入,FAISS索引。稀疏检索使用BM25。重排序使用一个微调的MiniLM交叉编码器。 - 知识图谱与规则:基于SNOMED CT和DrugBank构建核心图谱,使用Neo4j存储。规则引擎采用Drools实现。
- 多智能体:基于LangGraph框架实现工作流编排。每个Agent的核心是特定的提示词模板和工具调用权限。
- 训练:预训练使用8块A100 GPU,持续2周。下游任务微调使用LoRA,rank=16,在单个A100上训练1-2天。
- 推理:生成时温度(temperature)设置为0.1以增加确定性,最大生成长度为512 tokens。