DriveMM:用于自动驾驶的一体化大型多模态模型——论文阅读

《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》2024年12月发表,来自中山大学深圳分校和美团的论文。

        大型多模态模型(LMM)通过整合大型语言模型,在自动驾驶(AD)中表现出卓越的理解和解释能力。尽管取得了进步,但当前的数据驱动AD方法往往专注于单个数据集和特定任务,忽视了它们的整体能力和泛化能力。为了弥合这些差距,我们提出了DriveMM,这是一种通用的大型多模式模型,旨在处理各种数据输入,如图像和多视图视频,同时执行广泛的AD任务,包括感知、预测和规划。最初,该模型经过课程预训练,以处理各种视觉信号并执行基本的视觉理解和感知任务。随后,我们增强和标准化了各种与AD相关的数据集,以微调模型,从而为自动驾驶提供了一个一体化的LMM。为了评估总体能力和泛化能力,我们对六个公共基准进行了评估,并在一个看不见的数据集上进行了零样本传输,其中DriveMM在所有任务中都实现了最先进的性能。我们希望DriveMM能够成为现实世界中未来端到端自动驾驶应用的有前景的解决方案。

1. 研究背景与问题

自动驾驶(AD)领域的数据驱动方法通常专注于单一数据集和特定任务(如目标检测、路径规划),导致模型泛化能力不足。现有大型多模态模型(LMMs)虽在视觉-语言任务中表现优异,但缺乏对复杂驾驶场景的全面理解和多任务协同能力。本文提出DriveMM,一个全合一的多模态模型,旨在统一处理多种数据输入(图像、视频、多视角数据)并执行感知、预测、规划等多样化任务,同时提升泛化能力。


2. 核心贡献
  • 全合一多模态模型(DriveMM)
    支持多传感器输入(单/多视角图像、视频、LiDAR),通过视角感知提示区分数据来源(如不同摄像头视角),并整合感知、预测、规划任务。

  • 综合基准测试
    首次提出涵盖6个公共数据集、4种输入类型、13项任务的评估框架,覆盖复杂驾驶场景。

  • 课程学习方法
    分阶段训练(语言-图像对齐→单图像预训练→多能力预训练→驾驶微调),逐步提升模型处理复杂数据的能力。

  • 数据增强与标准化
    利用GPT-4o扩展问答对的多样性,统一不同数据集的标注格式(如目标位置标准化为0-100范围),促进多数据集协同训练。


 3. 方法论

  • 模型架构

    • 视觉编码器(SigLIP):处理多模态输入(图像、视频、LiDAR投影的BEV/范围视图)。

    • 投影器(2层MLP):将视觉特征映射到语言模型的词嵌入空间(LLaMA-3.1)。

    • 视角感知提示:通过占位符(<image>/<video>)和视角标签(如CAM.BACK)增强模型对空间关系的理解。

  • 数据策略

    • 多源数据整合:包括通用多模态数据(LCS-558K、COCO)、感知数据(COCO、nuScenes)和自动驾驶数据(CODA-LM、DriveLM等)。

    • 问答增强:利用GPT-4o生成多样化问答对,将开放式问题转为多选题,提升模型泛化能力。

  • 训练流程


    分四阶段逐步提升能力:

    1. 语言-图像对齐:冻结视觉编码器和语言模型,仅训练投影器。

    2. 单图像预训练:优化整体模型参数,增强单图像理解。

    3. 多能力预训练:引入视频、多视角数据,提升时空推理能力。

    4. 驾驶微调:在6个自动驾驶数据集上联合微调,实现多任务协同。


4. 实验结果
  • 性能优势
    DriveMM在6个数据集(CODA-LM、MAPLM、DriveLM等)的13项任务中均达到SOTA,平均性能提升显著(如Nulnstruct任务提升26.17%)。

  • 泛化能力
    在零样本迁移测试(BDD-X数据集)中,DriveMM的GPT-Score(43.10)远超单数据集训练的专家模型(最高39.67)。

  • 消融实验验证

    • 视角感知提示:提升多视角数据任务性能(如DriveLM、Nulnstruct)。

    • 问答增强与标准化:显著改善数据多样性受限的任务(如CODA-LM)。

    • 多数据集联合训练:相比单数据集训练,混合训练平均性能提升1-5%。


5. 创新与局限性
  • 创新点

    • 首次提出全合一自动驾驶LMM,统一多任务、多数据输入。

    • 视角感知提示机制和课程学习方法为多模态模型设计提供新思路。

  • 局限性

    • 实际道路测试尚未验证,需进一步部署验证。

    • 模型参数量大(基于LLaMA-3.1 8B),计算成本较高。


6. 应用前景

DriveMM为端到端自动驾驶系统提供了高效的多任务解决方案,可适配不同传感器配置(摄像头、雷达),适用于城市道路、高速公路等多种场景。未来可结合实时控制模块,进一步探索其在动态决策中的潜力。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++_STL_map与set

1. 关联式容器 在初阶阶段&#xff0c;我们已经接触过STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、 forward_list(C11)等&#xff0c;这些容器统称为序列式容器&#xff0c;因为其底层为线性序列的数据结构&#xff0c;里面 存储的是元素本身。那什么是…

【嵌入式开发-RGB 全彩 LED】

嵌入式开发-RGB 全彩 LED ■ RGB 全彩 LED简介■ 电路设计■ ■ RGB 全彩 LED简介 RGB 全彩 LED 模块显示不同的颜色。 ■ 电路设计 全彩 LED 使用 PA5、 蓝色&#xff08;B&#xff09; TIM2_CHN3 PA1、 绿色&#xff08;G&#xff09;TIM2_CHN2 PA2、 红色&#xff08;R&am…

计算机网络:手机和基站之间的通信原理是什么?

手机与基站之间的通信是无线通信技术的核心应用之一,涉及复杂的物理层传输、协议交互和网络管理机制。以下从技术原理、通信流程和关键技术三个层面深入解析这一过程: 一、蜂窝网络基础架构 1. 蜂窝结构设计 基本原理:将服务区域划分为多个六边形“蜂窝小区”,每个小区由*…

【Docker】Docker安装RabbitMQ

目录 1.拉取镜像 2. 创建挂载目录 3.创建和启动 4.登录管理端 1.拉取镜像 推荐使用带 Web 管理界面的官方镜像&#xff08;management&#xff09; # 拉取docker镜像 docker pull rabbitmq:management响应内容&#xff1a; 2. 创建挂载目录 创建挂载目录和日志目录 #rabb…

交叉编译源码的方式移植ffmpeg-rockchip

获取ffmpeg源码 git submodule add -f https://github.com/FFmpeg/FFmpeg.git thirdparty/FFmpeg 瑞芯微ffmpeg-rk git clone https://github.com/jjm2473/ffmpeg-rk/tree/enc# 参考的一位博主的说法 使用 ffmpeg-rochip 的好处 传统的使用硬件编解码的开发思路是&#xf…

9.0 C# 调用solidworks介绍1

一、C# 与 SolidWorks 联合开发概述 SolidWorks 提供了完整的 API(应用程序接口),允许开发者使用 C# 等编程语言进行二次开发,实现自动化设计、定制功能等。 主要技术要点包括: 1. API 结构:SolidWorks API 是基于 COM 的接口,包含数百个对象和数千个方法…

AD 多层线路及装配图PDF的输出

装配图的输出&#xff1a; 1.点开‘智能PDF’ 2. 设置显示顶层&#xff1a; 设置显示底层&#xff1a; 多层线路的输出 同样使用‘智能PDF’

SpringBoot + Shiro + JWT 实现认证与授权完整方案实现

SpringBoot Shiro JWT 实现认证与授权完整方案 下面博主将详细介绍如何使用 SpringBoot 整合 Shiro 和 JWT 实现安全的认证授权系统&#xff0c;包含核心代码实现和最佳实践。 一、技术栈组成 技术组件- 作用版本要求SpringBoot基础框架2.7.xApache Shiro认证和授权核心1.…

PCIe数据采集系统详解

PCIe数据采集系统详解 在上篇文章中&#xff0c;废了老大劲儿我们写出了PCIe数据采集系统&#xff1b;其中各个模块各司其职&#xff0c;相互配合。完成了从数据采集到高速存储到DDR3的全过程。今天我们呢就来详细讲解他们之间的关系&#xff1f;以及各个模块的关键点&#xff…

2025云智算技术白皮书

1. 云智算的演进背景 传统云计算面临三大挑战&#xff1a; 算力需求激增&#xff1a;AI大模型训练需十万卡级GPU集群&#xff0c;资源调度能力不足。网络性能瓶颈&#xff1a;TB级参数同步对低时延、高吞吐要求远超传统网络架构。服务形态单一&#xff1a;IaaS/PaaS无法覆盖A…

C语言编程中的时间处理

最简单的time 在C语言编程中&#xff0c;处理时间最简单的函数就是time了。它的原型为&#xff1a; #include <time.h> time_t time(time_t *_Nullable tloc);返回自从EPOCH&#xff0c;即1970年1月1日的零点零时零分&#xff0c;到当前的秒数。 输入参数可以是NULL。…

适应性神经树:当深度学习遇上决策树的“生长法则”

1st author: Ryutaro Tanno video: Video from London ML meetup paper: Adaptive Neural Trees ICML 2019 code: rtanno21609/AdaptiveNeuralTrees: Adaptive Neural Trees 背景 在机器学习领域&#xff0c;神经网络&#xff08;NNs&#xff09;凭借其强大的表示学习能力&…

InitVerse节点部署教程

项目介绍: InitVerse 是一个为新兴企业量身定制的自动化 Web3 SaaS 平台,只需单击几下即可快速开发和部署 DApp。在 INIChain 和 INICloud 的支持下,InitVerse 可以根据需求动态调整计算资源,实现高效的任务处理,同时提供更高的安全性、可用性和可扩展性。 系统要求: C…

阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代

0.前言 阿里巴巴于2025年5月14日正式开源了其最新的AI视频生成与编辑模型——通义万相Wan2.1-VACE。这一模型是业界功能最全面的视频生成与编辑工具&#xff0c;能够同时支持多种视频生成和编辑任务&#xff0c;包括文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展…

解决“VMware另一个程序已锁定文件的一部分,进程无法访问“

问题描述 打开VMware里的虚拟机时&#xff0c;弹出"另一个程序已锁定文件的一部分&#xff0c;进程无法访问"如图所示&#xff1a; 这是VM虚拟机的保护机制。虚拟机运行时&#xff0c;为防止数据被篡改&#xff0c;会将所运行的文件保护起来。当虚拟机崩溃或者强制…

基于大数据的租房信息可视化系统的设计与实现【源码+文档+部署】

课题名称 基于大数据的租房信息可视化系统的设计与实现 学 院 专 业 计算机科学与技术 学生姓名 指导教师 一、课题来源及意义 租房市场一直是社会关注的热点问题。随着城市化进程的加速&#xff0c;大量人口涌入城市&#xff0c;导致租房需求激增。传统的租…

Vue3封装公共图片组件

对图片加载做的处理: 图片加载状态响应式管理图片访问错误的处理机制图片懒加载可通过slot支持自定义加载动画其他监听事件的处理及向上传递 …<!-- components/CustomImage.vue --> <template><div class="custom-image-wrapper"><!-- 主图 -…

车道线检测----CLRKDNet

今天的最后一篇 车道线检测系列结束 CLRKDNet&#xff1a;通过知识蒸馏加速车道检测 摘要&#xff1a;道路车道是智能车辆视觉感知系统的重要组成部分&#xff0c;在安全导航中发挥着关键作用。在车道检测任务中&#xff0c;平衡精度与实时性能至关重要&#xff0c;但现有方法…

Python-感知机以及实现感知机

感知机定义 如果有一个算法&#xff0c;具有1个或者多个入参&#xff0c;但是返回值要么是0&#xff0c;要么是1&#xff0c;那么这个算法就叫做感知机&#xff0c;也就是说&#xff0c;感知机是个算法 感知机有什么用 感知机是用来表示可能性的大小的&#xff0c;我们可以认…

STM32 ADC+DMA+TIM触发采样实战:避坑指南与源码解析

知识点1【TRGO的介绍】 1、TRGO的概述 TRGO&#xff1a;Trigger Output&#xff08;触发输出&#xff09;&#xff0c;是定时器的一种功能。 它可以作为外设的启动信号&#xff0c;比如ADC转换&#xff0c;DAC输出&#xff0c;DMA请求等。 对于ADC来说&#xff0c;可以通过…