【论文阅读】A Survey on Multimodal Large Language Models

目录

  • 前言
  • 一、 背景与核心概念
    • 1-1、多模态大语言模型(MLLMs)的定义
  • 二、MLLMs的架构设计
    • 2-1、三大核心模块
    • 2-2、架构优化趋势
  • 三、训练策略与数据
    • 3-1、 三阶段训练流程
  • 四、 评估方法
    • 4-1、 闭集评估(Closed-set)
    • 4-2、开集评估(Open-set)
    • 4-3、多模态幻觉评估
    • 4-4、 多模态综合能力评估
  • 五、扩展方向与技术
    • 5-1、模态支持扩展
    • 5-2、 交互粒度扩展
    • 5-3、语言与文化扩展
    • 5-4、 垂直领域扩展
    • 5-5、效率优化扩展
    • 5-6、 新兴技术融合
  • 总结


前言

这篇综述系统梳理了多模态模型的技术栈,从基础架构到前沿应用,并指出当前瓶颈(如幻觉、长上下文)和解决思路。其核心价值在于(1)方法论:三阶段训练(预训练→指令微调→对齐)成为主流范式。(2)开源生态:LLaVA、MiniGPT-4等开源模型推动社区发展。(3)跨学科应用:在医疗、机器人等领域的渗透展示通用潜力。

一、 背景与核心概念

1-1、多模态大语言模型(MLLMs)的定义

核心思想:以强大的大语言模型(如GPT-4、LLaMA)为“大脑”,通过模态接口(如视觉编码器)将图像、音频、视频等非文本模态与文本模态对齐,实现跨模态理解和生成。

与传统多模态模型的区别:

  • 规模:MLLMs基于百亿参数规模的LLMs,而传统模型(如CLIP、OFA)参数更小。
  • 能力:MLLMs展现涌现能力(如复杂推理、指令跟随),传统模型多为单任务专用。

多模态模型发展线如下所示:
在这里插入图片描述

二、MLLMs的架构设计

2-1、三大核心模块

1、模态编码器(Modality Encoder)(眼睛/耳朵)

功能:将原始数据(如图像、音频、视屏等)转换为特征表示,使其能够与文本模态对其。(例如图像、音视频编码器)

常用模型:

  • 图像:CLIP-ViT、EVA-CLIP(更高分辨率支持)、ConvNeXt(卷积架构)。

  • 音频:CLAP、ImageBind(支持多模态统一编码)。

关键发现:输入分辨率对性能影响显著(如448x448比224x224更优)。即更高的分辨率可以获得更加显著的性能。

如图所示为常用的图像编码器:
在这里插入图片描述

2、大语言模型(LLM)(大脑)

功能: 作为MLLM的“大脑”,负责整合多模态信息,执行推理,生成文本输出。

  • 选择:开源模型(LLaMA-2、Vicuna)或双语模型(Qwen)。

  • 参数规模的影响:从13B→34B参数提升,中文零样本能力涌现(即使训练数据仅为英文)。

  • 知识注入:领域适配,例如数据微调,或者工具调用,即通过指令微调教会LLM调用外部API。

如图所示为常用公开的大语言模型:
在这里插入图片描述

3、模态接口(Modality Interface):用于对齐不同的模态

可学习接口:

  • Token级融合:如BLIP-2的Q-Former,将视觉特征压缩为少量Token。

  • 特征级融合:如CogVLM在LLM每层插入视觉专家模块。

**专家模型:**调用现成模型(如OCR工具)将图像转为文本,再输入LLM(灵活性差但无需训练)。

如图所示为典型多模态模型架构示意图:
在这里插入图片描述
4、模块协同工作示例(以LLaVA为例)

  • 图像编码:CLIP-ViT将图像编码为视觉特征。
  • 特征对齐:通过两层MLP将视觉特征投影到LLaMA的文本嵌入空间。
  • 指令微调:联合训练视觉-文本特征,使LLaMA能理解“描述图像中第三只猫的颜色”。
  • 推理生成:LLaMA基于对齐特征生成自然语言响应。

2-2、架构优化趋势

高分辨率支持:通过分块(Monkey)、双编码器(CogAgent)处理高分辨率图像。

稀疏化:混合专家(MoE)架构(如MoE-LLaVA)在保持计算成本的同时增加参数量。

三、训练策略与数据

3-1、 三阶段训练流程

1、预训练(Pretraining)

目标:将不同模态(如图像、音频)的特征映射到统一的语义空间,通过大规模数据吸收通用知识(如物体识别、基本推理)。
数据:大规模粗粒度图文对(如LAION-5B)或高质量细粒度数据(如GPT-4V生成的ShareGPT4V)。计算图文相似度,移除相似度太低的样本。
关键技巧:冻结编码器和LLM,仅训练接口(防止灾难性遗忘)。

如图所示为预训练所用的通用数据集:
在这里插入图片描述

2、指令微调(Instruction Tuning)

目标:使模型能够理解和执行多样化的用户指令(如“描述图像中的情感”),指令调优学习如何泛化到不可见的任务。

数据构建方法:

  • 任务适配:将VQA数据集转为指令格式(如“Question: <问题> Answer: <答案>”)。
  • 自指令生成:用GPT-4生成多轮对话数据(如LLaVA-Instruct)。

发现

  • 指令多样性(设计不同句式(疑问句、命令句)和任务类型(描述、推理、创作))比数据量更重要。
  • 数据质量比数量更重要。
  • 包含推理步骤的指令,可以显著提升模型的性能。

如图所示描述任务的指令(相关范例):
在这里插入图片描述

3、对齐微调(Alignment Tuning)

目标:减少幻觉(确保生成内容与输入模态一致(如不虚构图中未出现的物体)),使输出更符合人类偏好。(简介、安全,符合伦理)

方法

  • RLHF:通过人类偏好数据训练奖励模型,再用PPO优化策略(如LLaVA-RLHF)。
  • DPO:直接优化偏好对(无需显式奖励模型)。

如图所示为三种典型学习范式的比较:
在这里插入图片描述

四、 评估方法

4-1、 闭集评估(Closed-set)

定义:在预定义任务和答案范围内测试模型性能,适用于标准化任务(如分类、问答)。
核心指标:

  • 准确率(Accuracy):直接匹配模型输出与标准答案(如ScienceQA数据集)。
  • CIDEr(Consensus-based Image Description Evaluation):衡量生成文本与参考描述的语义相似性(常用于图像描述任务)。
  • BLEU-4:基于词重叠的机器翻译指标,适用于短文本生成(如VQA简短回答)。

4-2、开集评估(Open-set)

定义:评估模型在开放场景下的生成能力(如自由对话、创造性任务),答案不固定。
核心方法:

人工评分(Human Rating):

  • 评分维度:相关性、事实性、连贯性、多样性、安全性。
  • 流程:标注员按1-5分对模型输出打分(如LLaVA的对话能力评估)。

GPT-4评分(GPT-as-a-Judge):

  • 方法:用GPT-4对模型输出评分(示例提示):
Instruction: 请根据相关性(1-5分)和准确性(1-5分)评价以下回答:  
问题:<问题>  
模型回答:<回答>  
  • 优点:低成本、可扩展;缺点:依赖GPT-4的偏见和文本理解能力。

4-3、多模态幻觉评估

定义:检测模型生成内容与输入模态不一致的问题(如虚构图中未出现的对象)。
评估方法:

POPE(Polling-based Object Probing Evaluation):

  • 流程:生成多项选择题(如“图中是否有狗?”),统计模型回答的准确率。
  • 指标:准确率、假阳性率(FP)。

CHAIR(Caption Hallucination Assessment with Image Relevance):

步骤:

  • 提取生成描述中的所有名词(如“猫、桌子”)。
  • 检测这些名词是否在图像中存在(通过目标检测模型)。

指标:幻觉率(错误名词占比)。

FaithScore:

方法:将生成文本拆分为原子事实(如“猫是黑色的”),用视觉模型验证每个事实是否成立。
指标:原子事实准确率。

4-4、 多模态综合能力评估

(1) 多维度基准测试

1、MME(Multimodal Evaluation Benchmark):

涵盖能力:感知(物体计数、颜色识别)、认知(推理、常识)。
任务示例:

  • 感知任务:“图中红色物体的数量?”
  • 认知任务:“如果移除支撑杆,积木会倒塌吗?为什么?”

指标:综合得分(感知分 + 认知分)。

2、MMBench:

特点:覆盖20+任务类型(如OCR、时序推理),使用ChatGPT将开放答案匹配到预定义选项。
指标:准确率(标准化为0-100分)。

五、扩展方向与技术

多模态大语言模型的扩展方向主要集中在提升功能多样性、支持更复杂场景、优化技术效率以及拓展垂直领域应用。以下是具体分类与技术细节

5-1、模态支持扩展

一、 输入模态扩展

1、3D点云(Point Cloud)

技术:将3D数据(如LiDAR扫描)编码为稀疏或密集特征。
案例

  • PointLLM:通过投影网络将点云特征对齐到LLM的文本空间,支持问答(如“房间中有多少把椅子?”)。
  • 3D-LLM:结合视觉和3D编码器,实现跨模态推理(如分析物体空间关系)。
    挑战:3D数据的高维稀疏性、计算开销大。

2、传感器融合(Sensor Fusion)

技术:整合多种传感器数据(如热成像、IMU惯性测量)。
案例

  • ImageBind-LLM:支持图像、音频、深度、热成像等多模态输入,通过统一编码器对齐特征。
    应用:自动驾驶(融合摄像头、雷达、激光雷达数据)。

二、输出模态扩展

1、多模态生成

技术:结合扩散模型(如Stable Diffusion)生成图像、音频或视频。
案例

  • NExT-GPT:输入文本生成图像+音频,或输入视频生成文本描述+配乐。
  • Emu:通过视觉解码器生成高分辨率图像,支持多轮编辑(如“将图中的猫换成狗”)。
    指标:生成质量(FID、CLIP Score)、跨模态一致性。

5-2、 交互粒度扩展

一、细粒度输入控制
1、区域指定(Region-specific):
技术:支持用户通过框选(Bounding Box)、点击(Point)指定图像区域。
案例:

  • Ferret:接受点、框或草图输入,回答与指定区域相关的问题(如“这个红框内的物体是什么?”)。
  • Shikra:输出回答时自动关联图像坐标(如“左侧的狗(坐标[20,50,100,200]在奔跑”)。

2、像素级理解(Pixel-level):

技术:结合分割模型(如Segment Anything)实现掩码级交互。
案例

  • LISA:通过文本指令生成物体掩码(如“分割出所有玻璃杯”)。

二、多轮动态交互

历史记忆增强:

技术:在对话中维护跨模态上下文缓存(如缓存前几轮的图像特征)。
案例

  • Video-ChatGPT:支持多轮视频问答(如“第三秒出现的车辆是什么品牌?”)。

5-3、语言与文化扩展

一、多语言支持
低资源语言适配:

技术:通过翻译增强(Translate-Train)或跨语言迁移学习。
案例

  • VisCPM:基于中英双语LLM,用英文多模态数据训练,通过少量中文数据微调实现中文支持。

挑战:缺乏非拉丁语系的图文对齐数据(如阿拉伯语、印地语)。

二、文化适应性
本地化内容生成:
技术:在指令数据中注入文化特定元素(如节日、习俗)。
案例

  • Qwen-VL:支持生成符合中文文化背景的描述(如“端午节龙舟赛”)。

5-4、 垂直领域扩展

一、医疗领域
技术:领域知识注入(如医学文献微调)、数据增强(合成病理图像)。
案例:

  • LLaVA-Med:支持胸部X光诊断问答(如“是否存在肺炎迹象?”),准确率超放射科住院医师平均水平。
    挑战:数据隐私、伦理审查。

二、自动驾驶
技术:多传感器融合、实时性优化(如模型轻量化)。
案例

  • DriveLLM:结合高精地图和摄像头数据,回答复杂驾驶场景问题(如“能否在此路口变道?”)。

三、工业检测
技术:高分辨率缺陷检测、小样本学习。
案例

  • Industrial-VLM:通过文字提示定位产品缺陷(如“检测电路板上的虚焊点”)。

5-5、效率优化扩展

一、轻量化部署
技术:

  • 模型压缩:量化(INT8)、知识蒸馏(如TinyLLaVA)。
  • 硬件适配:针对移动端(如NPU)优化计算图。

案例:

  • MobileVLM:1.4B参数模型可在手机端实时运行,支持图像描述和简单问答。

二、混合专家(MoE)架构

技术:稀疏激活,仅调用部分专家模块处理输入。
案例

  • MoE-LLaVA:在视觉问答任务中,MoE架构比同参数规模模型准确率提升5%-10%。

5-6、 新兴技术融合

一、具身智能(Embodied AI)

技术:将MLLMs与机器人控制结合,实现“感知-推理-行动”闭环。
案例

  • PALM-E:通过视觉-语言模型控制机械臂完成复杂操作(如“把红色积木放在蓝色盒子旁边”)。

二、增强现实(AR)

技术:实时多模态交互(如语音+手势+视觉)。
案例

  • AR-LLM:在AR眼镜中叠加MLLM生成的实时导航提示(如“前方路口右转”)。

参考文章:
多模态模型综述文章
Github地址

注意: 原文内容较多,本文仅限部分内容笔记,建议直接阅读原文。

总结

好困,真的好困。🐑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81250.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[已解决] LaTeX “Unicode character“ 报错 (中文字符处理)

问题&#xff1a; 写 LaTeX 文档&#xff0c;特别是包含中文时&#xff0c;经常遇到类似下图的 “Unicode character XXXXXX” 报错 (X) Unicode character 本 (U672C) LaTeX [行 xx, 列 x] (X) Unicode character 报 (U62A5) LaTeX [行 xx, 列 x] ...这通常意味着我们的 LaTe…

现货黄金跌破 3160 美元,市场行情剧烈波动​

在 5 月 16 日的交易时段中&#xff0c;现货黄金市场出现戏剧性变化&#xff0c;价格短时间内大幅跳水。截至当日 20:04&#xff0c;现货黄金短线下挫 20 美元&#xff0c;一举跌破 3160 美元 / 盎司&#xff0c;日内跌幅达 2.56%&#xff1b;纽约期金日内也大跌 2%&#xff0c…

智慧校园(含实验室)智能化专项汇报方案

该方案聚焦智慧校园(含实验室)智能化建设,针对传统实验室在运营监管、环境监测、安全管控、排课考勤等方面的问题,依据《智慧校园总体框架》等标准,设计数字孪生平台、实验室综合管理平台、消安电一体化平台三大核心平台,涵盖通信、安防、建筑设备管理等设施,涉及 395 个…

【Python爬虫 !!!!!!政府招投标数据爬虫项目--医疗实例项目文档(提供源码!!!)!!!学会Python爬虫轻松赚外快】

政府招投标数据爬虫项目--医疗实例项目文档 1. 项目概述1.1 项目目标1.2 技术栈2. 系统架构2.1 模块划分2.2 流程示意图3. 核心模块设计3.1 反爬处理模块(`utils/anti_crawler.py`)3.1.1 功能特性3.1.2 关键代码3.2 爬虫模块(`crawler/spiders/`)3.2.1 基类设计(`base_spi…

RabbitMQ是什么?应用场景有哪些?

RabbitMQ 是一款开源的消息代理中间件,基于 AMQP(高级消息队列协议)实现,用于在分布式系统中进行异步通信和消息传递。它通过将消息的发送者和接收者解耦,提高了系统的可扩展性、可靠性和灵活性。 核心特点 多协议支持:不仅支持 AMQP,还兼容 STOMP、MQTT 等多种消息协议…

RT Thread FinSH(msh)调度逻辑

文章目录 概要FinSH功能FinSH调度逻辑细节小结 概要 RT-Thread&#xff08;Real-Time Thread&#xff09;作为一款开源的嵌入式实时操作系统&#xff0c;在嵌入式设备领域得到了广泛应用。 该系统不仅具备强大的任务调度功能&#xff0c;还集成了 FinSH命令行系统&#xff0c…

我司助力高校打造「智慧创新AI学习中心」

为推动AI教育融合跨领域应用&#xff0c;东吴大学于2025年4月举行「智慧创新AI学习中心」揭牌仪式&#xff0c;并宣布正式启动AI特色课程与教学空间建置计画。此次建置由我司协助整体教室空间与设备规划&#xff0c;导入最新NVIDIA GeForce RTX 50系列桌上型电脑&#xff0c;并…

给你的matplotlib images添加scale Bar

​Scale Bar&#xff08;比例尺&#xff09;用于直观表示图像与实际物理尺寸&#xff08;如微米、毫米等&#xff09;的对应关系。例如&#xff0c;在显微镜图像中&#xff0c;比例尺可以标注“75μm”表示图中某线段对应的实际长度。 这里分享使用matplotlib中的imshow结合ma…

基于React的高德地图api教程004:线标记绘制、修改、删除功能实现

文章目录 4、线绘制4.1 绘制线标记4.1.1 开启线标记绘制模式4.1.2 绘制线标记4.1.3 关闭线标记模式4.2 可视化线标记数据面板4.3 修改线标记4.3.1 修改线标记路径4.3.2 修改线标记名称和颜色4.4 删除线标记4.5 定位线标记4.6 代码下载4.04、线绘制 4.1 绘制线标记 4.1.1 开启…

lc42接雨水

1.原题 42. 接雨水 - 力扣&#xff08;LeetCode&#xff09; 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 2.题目解析 这一题是经常被考到的一道算法题&#xff0c;其中最简单最好用的方法就是双指…

【读代码】端到端多模态语言模型Ultravox深度解析

一、项目基本介绍 Ultravox是由Fixie AI团队开发的开源多模态大语言模型,专注于实现音频-文本的端到端实时交互。项目基于Llama 3、Mistral等开源模型,通过创新的跨模态投影架构,绕过了传统语音识别(ASR)的中间步骤,可直接将音频特征映射到语言模型的高维空间。 核心优…

力扣HOT100之二叉树:98. 验证二叉搜索树

这道题之前也刷过&#xff0c;自己做了一遍&#xff0c;发现卡在了第70多个样例&#xff0c;才发现自己没有利用二叉搜索树的性质&#xff0c;但凡涉及到二叉搜索树&#xff0c;应该首先考虑中序遍历&#xff01;&#xff01;&#xff01; 被卡住的测试样例是这样的&#xff1a…

Centos7.9同步外网yum源至内网

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo yum makecache yum repolist安装软件 yum install -y yum-utils createrepo # yum-utils包含re…

HMDB51数据集划分

生成训练集、验证集和测试集 每个split文件应该包含&#xff1a; 训练集(id1): 70个视频测试集(id2): 30个视频未使用(id0): 剩余视频 这是一个70/30的训练/测试分割比例。标记为0的视频被排除在当前实验之外。实际上训练集&#xff08;id1&#xff09;&#xff0c;验证集&am…

Spring Boot 项目的计算机专业论文参考文献

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

【Linux】Linux安装并配置MongoDB

目录 1.添加仓库 2.安装 MongoDB 包 3.启动 MongoDB 服务 4. 验证安装 5.配置 5.1.进入无认证模式 5.2.1创建用户 5.2.2.开启认证 5.2.3重启 5.2.4.登录 6.端口变更 7.卸载 7.1.停止 MongoDB 服务 7.2.禁用 MongoDB 开机自启动 7.3.卸载 MongoDB 包 7.4.删除数…

2025/517学习

对离群值怎么操作。这个就是拟合操作的。用更弯曲的曲线去拟合&#xff0c;如常见函数log 多元回归和单元回归 如题&#xff0c;如果我有多个自变量&#xff0c;来对一个因变量进行OLS回归&#xff0c;有没有operator可以做到&#xff1f;(ts_regression似乎只支持一个…

RKNN开发环境搭建(ubuntu22.04)

以下情况在RV1106G3的平台上验证正常。 1、conda安装 1&#xff09;conda --version//确认是否安装 2&#xff09;创建一个安装目录&#xff0c;进行下一步 3&#xff09;wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.6.14-Linux-x…

Flutter到HarmonyOS Next 的跨越:memory_info库的鸿蒙适配之旅

Flutter到鸿蒙的跨越&#xff1a;memory_info库的鸿蒙适配之旅 本项目作者&#xff1a;kirk/坚果 您可以使用这个Flutter插件来更改应用程序图标上的角标 作者仓库&#xff1a;https://github.com/MrOlolo/memory_info/tree/master/memory_info 在数字化浪潮的推动下&#…

VLAN扩展技术

端口隔离 &#x1f310; 一、原理总结&#xff1a; 端口隔离功能&#xff1a;实现同一VLAN内端口之间的二层隔离。 用户只需将端口加入同一个隔离组&#xff08;Port-isolate group&#xff09;&#xff0c;即可实现这些端口之间不能互通。 实现效果&#xff1a;更安全、更加…