多模态大语言模型arxiv论文略读（六十五）

请添加图片描述

VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons

➡️ 论文标题：VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons
➡️ 论文作者：Zhen Chen, Xingjian Luo, Jinlin Wu, Danny T. M. Chan, Zhen Lei, Jinqiao Wang, Sebastien Ourselin, Hongbin Liu
➡️ 研究机构: Centre for Artificial Intelligence and Robotics (CAIR), HKISI-CAS; Dept. of Surgery, The Chinese University of Hong Kong; King’s College London
➡️ 问题背景：当前的计算机辅助手术技术在提高手术干预的患者安全和治疗效果方面发挥了重要作用。然而，现有的手术算法大多针对单一任务和场景设计，需要手动组合不同功能，这限制了其在实际应用中的灵活性和适用性。因此，需要一个能够准确理解外科医生意图并根据需求执行特定任务的智能手术助手。
➡️ 研究动机：现有的大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在理解、推理和规划方面表现出色，但它们在手术室环境中存在三个主要不足：缺乏手术专业知识、视觉理解能力不足以及无法根据外科医生的意图调用不同的手术算法。为了解决这些问题，研究团队提出了一种多功能手术助手（VS-Assistant），旨在通过多模态理解和功能调用来提高手术过程的支持能力。
➡️ 方法简介：VS-Assistant 通过利用多模态大型语言模型（MLLMs）的能力，能够准确理解外科医生的意图并完成一系列手术理解任务，如手术场景分析、手术器械检测和分割。具体来说，研究团队设计了手术 LLM 调整策略，以生成具有手术专业知识的定制 LLM。为了实现卓越的手术多模态理解，研究团队提出了混合投影器（MOP）模块，通过动态路由策略将手术 MLLM 与自然和手术知识对齐。此外，研究团队还设计了手术功能调用调整策略，使 VS-Assistant 能够理解手术意图，并通过思考、调用和回复三个步骤，按需调用一系列手术功能。
➡️ 实验设计：研究团队在神经外科数据集上进行了广泛的实验，评估了 VS-Assistant 在文本分析和视觉任务中的表现。实验设计包括了不同类型的手术功能调用，以及对模型在处理多模态输入时的准确性和响应性的评估。实验结果表明，VS-Assistant 在理解外科医生意图方面比现有的 MLLM 表现更优，特别是在文本分析和视觉任务中表现出色。

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

➡️ 论文标题：A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
➡️ 论文作者：Hanguang Xiao, Feizhong Zhou, Xingyue Liu, Tianqi Liu, Zhipeng Li, Xin Liu, Xiaoxuan Huang
➡️ 研究机构: 重庆理工大学人工智能学院
➡️ 问题背景：自ChatGPT和GPT-4发布以来，大型语言模型（LLMs）和多模态大型语言模型（MLLMs）因其在理解、推理和生成方面的卓越能力而受到广泛关注，为将人工智能整合到医学领域引入了变革性的范式。本文综述了LLMs和MLLMs在医学中的发展、原理、应用场景、挑战及未来方向，旨在促进人工智能与医疗的深度融合。
➡️ 研究动机：尽管LLMs和MLLMs在医学领域取得了显著的学术突破，但医院在训练自己的医疗LLMs和MLLMs以及将其部署到实际临床应用中仍面临诸多挑战。本文旨在通过回顾LLMs和MLLMs的发展背景、结构特点、训练和评估方法，以及总结其在临床实践中的应用、挑战和潜在解决方案，为医疗领域的研究人员和从业人员提供全面的指导。
➡️ 方法简介：本文首先回顾了LLMs和MLLMs的发展历程，包括从监督学习到无监督预训练与微调、无监督预训练与提示、单模态到多模态的范式转变。接着，文章详细介绍了现有医疗LLMs和MLLMs的结构特点，包括编码器-解码器框架、视觉编码器和模态对齐模块。此外，文章还探讨了高质量数据在模型训练中的重要性，并提出了数据工程作为未来研究的重点方向。
➡️ 实验设计：本文并未进行具体的实验设计，而是通过文献综述和案例分析，系统地总结了医疗LLMs和MLLMs的构建和评估方法，包括数据集的选择、微调方法和评估策略。文章还详细讨论了这些模型在医疗诊断、临床报告生成、医学教育、心理健康服务和手术辅助等领域的应用，并分析了当前面临的挑战和潜在的解决方案。

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

➡️ 论文标题：Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring
➡️ 论文作者：Tiantian Zhang, Manxi Lin, Hongda Guo, Xiaofan Zhang, Ka Fung Peter Chiu, Aasa Feragen, Qi Dou
➡️ 研究机构: The Chinese University of Hong Kong, Technical University of Denmark, The Chinese University of Hong Kong (Department of Surgery), Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景：前列腺癌的诊断中，前列腺影像报告和数据系统（PI-RADS）通过MRI成像在临床显著前列腺癌的诊断中起着关键作用。然而，现有的基于深度学习的PI-RADS评分方法往往未能充分整合放射科医生常用的PI-RADS临床指南（PICG），这可能影响评分的准确性。
➡️ 研究动机：为了提高PI-RADS评分模型的准确性，研究团队提出了一种新的方法，通过适应多模态大型语言模型（MLLM）来整合PICG，无需额外的注释和网络参数。该方法旨在通过特征蒸馏技术，将PICG信息有效地融入评分网络中，从而提高模型的性能。
➡️ 方法简介：研究团队设计了一个两阶段的微调过程，首先通过开发一个领域适配层来处理3D MRI输入，并指导MLLM区分MRI序列。在第二阶段，通过将PICG转化为指导指令，引导模型生成PICG指导的图像特征。通过特征蒸馏，将评分网络的特征与PICG指导的图像特征对齐，从而实现PICG信息的有效整合。
➡️ 实验设计：研究在公共数据集上进行了模型开发，并在内部数据集上进行了测试。实验选择了三种最先进的评分方法作为评分网络，实验结果表明，整合PICG后，这些方法的准确性分别提高了4.8%、5.3%和6.4%。此外，实验还分析了不同损失函数权重α的影响以及两阶段微调的效果，进一步验证了方法的有效性。

AMSNet: Netlist Dataset for AMS Circuits

➡️ 论文标题：AMSNet: Netlist Dataset for AMS Circuits
➡️ 论文作者：Zhuofu Tao, Yichen Shi, Yiru Huo, Rui Ye, Zonghang Li, Li Huang, Chen Wu, Na Bai, Zhiping Yu, Ting-Jung Lin, Lei He
➡️ 研究机构: Ningbo Institute of Digital Twin, Eastern Institute of Technology, Ningbo, China; University of California, Los Angeles, USA; Anhui University, Hefei, China; Tsinghua University, Beijing, China
➡️ 问题背景：当前的模拟/混合信号（AMS）集成电路（IC）设计需要大量的手动干预。尽管多模态大语言模型（MLLMs）在多个领域展现了巨大的潜力，但在AMS电路设计中的应用仍面临挑战，主要原因是缺乏一个全面的描述电路图与网表关系的数据集。这限制了MLLMs在自动AMS电路设计中的应用。
➡️ 研究动机：为了克服上述挑战，研究团队设计了一种自动技术，用于将电路图转换为网表，并创建了AMSNet数据集，该数据集包含了晶体管级别的电路图及其对应的SPICE格式网表。AMSNet的建立旨在为MLLMs在AMS电路设计中的应用提供数据支持，从而实现AMS电路设计的自动化。
➡️ 方法简介：研究团队提出了一种系统的方法来构建AMSNet，包括电路图的收集、组件检测、网络检测和网表生成。首先，从教科书中收集组件，然后通过对象检测模型自动识别和标记这些组件。接着，通过搜索算法将组件组装成电路图，并通过网络检测算法识别电路中的网络连接。最后，生成符合SPICE格式的网表。
➡️ 实验设计：研究团队在初步版本的AMSNet-1.0上进行了实验，验证了GPT-4在AMS电路设计中的潜力，尤其是在提供设计风格建议方面。尽管GPT-4在理解电路拓扑方面的能力有限，但AMSNet通过建立电路图、网表和电路功能之间的对应关系，为MLLMs提供了必要的知识支持。此外，研究团队还探讨了AMSNet的未来扩展方向，包括增加晶体管尺寸和性能规格、功能宏识别、自动AMS前端设计以及构建MLLM4EDA基准测试。