大模型 | VLM 初识及在自动驾驶场景中的应用

在了解 VLM 之前,先复习下 LLM。

一、LLM(Large Language Model)

大语言模型(LLM,Large Language Model)名字虽然带有语言二字,但其实并不局限于语言类场景。LLM 更多是一种统计建模的通用技术,它们主要通过自回归 Transformer 来模拟 token 流,这些 token 可以代表文本、图片、音频、动作选择、甚至是任何东西(多模态信号)。 因此,只要能将问题转化为模拟一系列离散 token 的流程,理论上都可以应用 LLM 来解决。 之所以出现「多模态」这个概念,仅仅是因为人类在不同感知层面上对这些信号的分类需求。 然而,对于机器来说,无论信号来自何种「模态」,最终它们都只是以一串二进制的「单模态」数字序列来呈现。 机器并不会区分这些信号的模态来源,而只是处理和分析这些序列背后所承载的信息内容。

随着大型语言模型技术栈的日益成熟,问题范式一直是:使用 LLM 进行『下一个 token 的预测』,只是每个领域中 token 的用途和含义有所不同。

二、VLM (Vision Language Models)

定义:视觉语言模型是一种能够处理图像和自然语言文本的机器学习模型。它可以将一张或多张图片作为输入,并生成一系列标记来表示自然语言。

VLM 模型根据现有 token 预测输出下一个 下下一个 下下下一个 token …,直到模型输出结束符,此处的"token"并不需要一定是文本!

  • 如果需要理解"图片",只要把"图片"作为一种特殊的"语言",通过"Encoder 词典"翻译后即可作为 LLM 的输入
  • 同理,如果需要理解"音频",只要把"音频"作为一种特殊的"语言",通过"Encoder 词典"翻译后即可作为特殊的语言输入 LLM

三、LLM 与 VLM 关联

以 MiniMind-V 模型为例,介绍 VLM 与 LLM 的关联:

  1. 借助擅长翻译图片的 “图片 encoder 结构” (Visual Encoder 模型),把图片从 “外语” 翻译为模型便于理解的 “LLM 语言”。
  2. 与 LLM 的结合在获取图像 encoder 特征后,一方面需要把 visual token 对齐到 LLM 的文本 token, 另一方面,要将图像特征映射到与文本 embedding 相同的空间,即文本 token 和原生的视觉 token 需要“处理”一下,并不能直接地一视同仁, 这可以称之为跨模态的特征对齐。 LlaVA-1(Large Language and Vision Assistant,大型语言与视觉助手,由微软研究院、哥伦比亚等大学研究者共同发布的多模态大模型)使用简单的无偏线性变换完成了这一操作,效果很不错。

Description

  1. 训练微调 LLM,使其和新增的 “图片 encoder 结构” 度过磨合期,从而更好的理解图片。

输入的 prompt 与 image 怎么结合到一块去的?其实就是上面介绍的部分。下面以 minimind-V 为例,仅增加 Visual Encoder 和特征投影两个子模块(模态混合分支),从而支持多种模态信息的输入:

Description

Description

四、常见 LLM/VLM/VLA 模型

Description

  • Qwen-VL2.5(千问 2.5)
    • 地址:https://github.com/QwenLM/Qwen-VL
    • 简介:是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源 LVLM 使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
  • InternVL2.5(书生·浦语 2.5)
    • 地址:https://github.com/OpenGVLab/InternVL
    • 简介:上海 AI 实验室与商汤科技推出的开源多模态大模型,也是国内首个在 MMMU(多学科问答)上突破 60 的模型。数学基准 MathVista 的测试中、书生·万象的得分为 66.3%,显著高于其他闭源商业模型和开源模型。在通用图表基准 ChartQA、文档类基准 DocVQA、信息图表类基准 InfographicVQA 中以及通用视觉问答基准 MMBench (v1.1)中,书生万象也取得了最先进(SOTA)的表现。

五、VLM 在自动驾驶中的应用

5.1 VLM 解决哪些问题

  1. 复杂环境理解:在现实的交通场景中,存在着各种各样的元素和情况。单纯依靠视觉模型,往往难以精确地解读路牌、标志所蕴含的信息,对于施工区域、临时交通管制等特殊情况的理解也容易出现偏差。这些高层语义信息对于自动驾驶系统做出准确和安全的决策至关重要。
  2. 可解释性不足:深度学习模型在处理大量数据时表现出色,但却像一个黑箱,难以清晰地解释车辆的决策逻辑。使得在出现问题或需要进行调整时,难以准确追溯和理解系统的决策过程,给调试和优化带来巨大挑战。
  3. 人机交互受限:现有的自动驾驶系统在与人的交互方面存在明显的不足。难以直接接收语音或文本指令,比如驾驶员想要更改目的地或者询问当前的路况信息。对于驾驶相关的问题,系统无法给出及时准确的回答,无法满足人们对于个性化和智能化交互的需求。

VLM 通过多模态融合【视觉(图像、雷达)和语言(地图信息、交通标志、驾驶指令)】,更全面地获取环境信息,增强系统的环境理解能力。例如,结合文本描述可以更好地解读复杂的交通标识和场景。同时,多模态融合也有助于提升交互能力,使系统能够与驾驶员和乘客进行更流畅的交流。例如:

  1. 识别交通标志、行人手势,结合视觉和文本信息理解含义(如“限速 60km/h”、理解“前方施工,请绕行”)。
  2. BEV-LLaVA(Bird’s Eye View + VLM):将鸟瞰视角(BEV)数据和 VLM 结合,提高 3D 目标检测能力。
  3. 用于车载系统的视觉问答,帮助系统或驾驶员决策。例如:“车道是否可以变道?”、“距离下一个红绿灯还有多远?”
  4. 理解驾驶员语音指令(如“沿着这条路开 2 公里,然后在红绿灯处右转”),结合语音指令 + 视觉环境信息,提供更智能体验。

5.2 典型智驾快慢系统

理想汽车的快慢系统:端到端(快系统)+VLM 方案(慢系统)

Description

快系统:部署端到端模型系统在一颗 ORIN X 上,输入传感器数据,端到端模型直接输出轨迹信息。

慢系统:部署 VLM 大模型在另一颗 ORIN X 上,VLM 具有 22 亿参数量,实现多模态数据理解和逻辑推理,并将结果反馈给智驾决策。

Description

DriveVLM 输出(慢系统):

  1. Scene Description(场景描述):驾驶环境,天气、白天/黑夜、道路信息等
  2. Scene Analysis(场景分析):有车停在路边,可能发生碰撞影响
  3. Hierarchical Planning(层级规划):给出减速、转向等规划建议,提供轨迹点信息

DriveVLM-Dual (快系统)将 DriveVLM 生成的结果作为指导,与 E2E 经典 pipeline(感知识别目标、预测其他目标轨迹、规划自身运行轨迹)融合,提升精度与实时性。

5.3 VLM 在智驾场景中的问题

视觉语言模型(VLM)虽然擅长理解复杂场景,但存在以下问题:

  1. 空间精度不高:输出轨迹点是基于语言生成的,易产生偏差。 传统端到端模块虽然推理快,但缺乏全局语义理解能力。可以通过一种“慢 → 快”的协同机制来连接两者,Trajectory Refinement(轨迹优化) 就是这个桥梁。Trajectory Refinement 用于提升路径规划的精度与实时性,其本质是使用 DriveVLM(慢系统)输出的粗略轨迹作为参考,引导传统自动驾驶模块(快系统)进行高频率、实时的精细轨迹生成。
  2. 端到端快系统 的输入端是以视觉为主的传感器信息,输出端是行驶轨迹。VLM 慢系统 的输入端是 2D 视觉信息、导航信息,输出端是文本而非轨迹(VLM 并非端到端神经网络)。
  3. 端到端模型和 VLM 是两个独立的模型,且运行频率不同,做联合训练与优化非常困难。
  4. VLM 在语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。
  5. VLM 通过叠加多帧的图像信息完成时序建模,会受到 VLM 的 Token 长度限制,会增加额外的计算开销。

六、参考链接

https://developer.horizon.auto/blog/12957 https://developer.horizon.auto/blog/13039 https://github.com/HqWu-HITCS/Awesome-Chinese-LLM https://zhuanlan.zhihu.com/p/624928279 https://github.com/jingyaogong/minimind-v?tab=readme-ov-file https://www.jiqizhixin.com/articles/2024-09-15-3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CF1977 Codeforces Round 948 (Div. 2) 游记(VP)

仅做出两题,结果凭借手速拿到表现分 $1740$。省流 仅做出两题,结果凭借手速拿到表现分 \(1740\)。10.17 内含剧透,请vp后再来。 不是题解!!!!!!! 赛前 早上花了很多时间试图把 \(stars569\) 搞的数据库装好,…

别被波形“骗” 了!差分探头与无源探头测量不一致的 5 大关键因素

在电子测量领域,精确地获取电路中电信号的波形对于分析电路的工作状态、验证设计思路以及排查故障至关重要。示波器是波形测量中最常用的仪器,通常会搭配不同类型的探头使用。其中,差分探头和无源探头是比较常见的两…

2025 年展览会服务商最新推荐榜权威发布:22 年经验甄选十强品牌,助力企业参展高效决策

当前会展行业已迈入 “全链路价值创造” 新阶段,企业参展需求从单一搭建升级为 “策划 - 执行 - 转化” 全流程服务,但市场服务商资质参差不齐:传统机构多困于 “设计 + 施工” 模式,新兴品牌虽具创新力却缺乏辨识…

OpenHarmony SELinux全面技术指南:从原理到实践的系统安全防护(全网最全) - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年信息流代运营服务商权威推荐榜单:专业投放策略与效果优化服务口碑之选

2025年信息流代运营服务商权威推荐榜单:专业投放策略与效果优化服务口碑之选在数字营销快速演进的今天,信息流广告已成为企业获取目标用户的重要渠道。随着各大媒体平台算法不断升级,用户行为日趋复杂,信息流投放的…

2025 年焊把线厂家最新推荐榜:国标欧标铜芯软焊把线优质企业排行,优质品牌助力选购欧标/铜芯/软/耐高温焊把线厂家推荐

在工业制造、建筑施工等核心领域,焊把线作为焊接作业的关键连接载体,其质量直接决定作业安全、焊接精度与生产效率。当前市场上,焊把线品牌数量激增,但产品质量差距悬殊,部分产品存在导电效率低、耐候性差、易老化…

【Prompt学习技能树地图】单一思维链优化-自我一致性提示工程原理、实践与代码实现 - 教程

【Prompt学习技能树地图】单一思维链优化-自我一致性提示工程原理、实践与代码实现 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importa…

基于MATLAB的倒立摆控制实现方案

基于MATLAB的倒立摆控制实现方案,包含PID控制与神经网络(DQN)控制的双重实现一、系统建模与基础参数 %% 倒立摆动力学参数 m = 0.1; % 摆杆质量 (kg) M = 1.0; % 小车质量 (kg) l = 0.5; % 摆杆长度 (m) g…

2025 年展会服务商最新推荐排行榜:聚焦一站式服务与高效执行能力的优质企业榜单瓷砖/暖通/照明/门窗/玻璃/厨卫/卫浴/灯饰展会厂家推荐

在全球化商务交流不断深化的当下,展会已成为建材、石材、瓷砖、暖通等建筑装饰领域企业展示品牌、拓展市场、达成合作的核心平台。然而,当前展会服务市场中,部分服务商存在经验匮乏、资源薄弱、服务模式滞后等问题,…

数据迁移mysql--sr

mysql-docker安装docker run -itd \-p 3306:3306 \-v /home/mysql/conf:/etc/mysql/conf.d \-v /home/mysql/data:/var/lib/mysql \-v /home/mysql/log:/var/log/mysql \-e MYSQL_ROOT_PASSWORD=root \-e TZ=Asia/Shan…

iOS 26 App 开发阶段性能优化全流程,从监控到调优的多工具协作实践

本文聚焦iOS 26 App 开发阶段性能优化,构建从监控、剖析到调优的完整闭环。通过 Instruments、KeyMob(克魔)、iMazing、Energy Diagnostics 等多工具协作, 实现 CPU/GPU/内存/能耗多维监控与优化,让开发阶段提前完…

MATLAB实现语音去混响与去噪

一、概念噪声:通常指加性背景噪声,如风扇声、人群嘈杂声、电流声等。其特点是与原始语音信号是相加关系。 混响:由声音在封闭空间内经墙壁、天花板等表面多次反射形成。它使语音听起来有“回音”,导致发音模糊、清…

风险评估的流程和各阶段的工作内容

风险评估的流程和各阶段的工作内容请简述一下风险评估流程及各阶段工作内容 确定风险评估的目标 明确风险评估要达到的目的 确定风险评估的范围 明确评估对象如某信息系统,明确评估边界,明确不在评估范围内的内容 组…

无穷小和无穷大

无穷小量 \(\lim_{x\rightarrow \infty} f(x) = 0\),\(f(x)\) 为当 \(x\rightarrow \infty\) 的无穷小。 \(\lim_{n \rightarrow \infty} x_n = 0\),\({x_n}\) 当 \(n\rightarrow \infty\),\(x_n\)为当 \(n \righta…

Adobe Media Encoder 2025 免费版一键安装包完整安装教程(含下载安装包)

很多做影视后期、自媒体的朋友,在用到 Premiere Pro 2025 剪视频后,都会需要 Adobe Media Encoder 2025 来处理音视频编码、导出不同格式文件,但不少人会卡在下载找不到安全渠道、安装时缺失文件或启动报错的问题上…

2025 年最新推荐船用气囊源头厂家权威排行榜:聚焦专业生产与可靠供应,助力精准选购优质产品橡胶/船舶/防撞/山东/港口用船用气囊厂家推荐

在船舶制造、维修及水上工程领域,船用气囊的质量与性能直接关系到工程安全、效率及成本控制。当前市场上,船用气囊源头厂家数量繁杂,部分厂家存在生产工艺落后、技术实力薄弱、产品质量不稳定等问题,导致气囊耐磨性…

【隐语SecretFlow用户案例】亚信科技构建统一隐私计算框架探索实践

作者:亚信科技高级研发工程师 阳仔 蚂蚁密算技术专家 操顺德 排版整理:社区贡献者 曾辉📖 本文整理自亚信科技高级研发工程师阳仔与隐语社区 Maintainer 操顺德的技术对话。 他们围绕隐语(SecretFlow)在隐私计算…

2025 西安楼盘最新推荐排行榜:聚焦优质教育配套的品质楼盘精选高端/刚需/品牌/现房/优质楼盘推荐

2025 年西安楼市供需两旺,但购房者仍面临多重抉择难题:“伪低密” 项目充斥市场,高容积率导致居住压抑;教育资源分配不均,“名校 +” 概念泛滥,直管与合作校区界限模糊;部分新区配套滞后,交通与生活设施难以同…

稀疏离散分数阶傅里叶变换的MATLAB实现

稀疏离散分数阶傅里叶变换(Sparse Discrete Fractional Fourier Transform, SDFRFT)的MATLAB实现一、核心算法实现 1. 稀疏FRFT矩阵构造 function F = sparse_frft_matrix(N, alpha)% 构造稀疏分数阶傅里叶变换矩阵%…