Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读

《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月发表,来自中科院软件所和中科院大学的论文。

        端到端自动驾驶直接将原始传感器输入映射到低级车辆控制,是Embodied AI的重要组成部分。尽管在将多模态大语言模型(MLLM)应用于高级交通场景语义理解方面取得了成功,但将这些概念语义理解有效地转化为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然具有挑战性。我们介绍了Sce2DriveX,一个类人驱动的思维链(CoT)推理MLLM框架。Sce2DriveX利用来自局部场景视频和全局BEV地图的多模态联合学习,深入了解长距离时空关系和道路拓扑,增强其在3D动态/静态场景中的综合感知和推理能力,实现跨场景的驾驶泛化。在此基础上,它重建了人类驾驶固有的内隐认知链,涵盖场景理解、元动作推理、行为解释分析、运动规划和控制,从而进一步弥合了自动驾驶与人类思维过程之间的差距。为了提高模型性能,我们开发了第一个为3D空间理解和长轴任务推理量身定制的广泛的视觉问答(VQA)驾驶指令数据集。大量实验表明,Sce2DriveX从场景理解到端到端驾驶都达到了最先进的性能,并在CARLA Bench2Drive基准上实现了稳健的泛化。

1. 研究背景与问题

自动驾驶作为具身智能(Embodied AI)的核心应用,面临两大核心挑战:

  • 泛化能力不足:现有模型难以适应动态多变的交通场景(如天气变化、复杂道路拓扑、参与者行为差异等)。

  • 与人类认知脱节:传统方法依赖刚性规则或小型模型,缺乏对驾驶过程的渐进式推理(Chain-of-Thought, CoT),导致决策逻辑不透明,难以与人类驾驶思维对齐。

2. 核心方法:Sec2DriveX框架

2.1 框架设计

Sec2DriveX是一个基于多模态大语言模型(MLLM)的端到端自动驾驶框架,核心目标是通过全局-局部感知人类认知链建模,实现从场景理解到低层控制信号的闭环。其架构包含以下关键组件:

  • 多模态输入

    • 局部场景视频:捕捉动态时空信息(如交通参与者运动)。

    • 全局BEV地图:提供道路拓扑、车道结构等静态信息。

  • 模态对齐:通过视频编码器(OpenCLIP)和图像编码器提取特征,映射至统一视觉特征空间。

  • LLM主干(Vicuna-v1.5-7b):整合多模态特征与文本指令,生成包含场景理解、元动作推理、行为解释、运动规划和控制信号的自然语言响应。

  • 链式推理(CoT):模仿人类驾驶的渐进式逻辑,依次完成“场景→元动作→行为→轨迹→控制”的推理链。

2.2 数据集构建

论文提出首个综合VQA驾驶指令数据集,覆盖以下内容:

  • 层次化场景理解

    • 四类场景元素:天气、道路、设施、交通参与者(含3D静态属性与2D动态行为)。

    • 自动化标注:通过ChatGPT生成多轮QA对,结合人工修正避免幻觉问题。

  • 可解释端到端驾驶

    • 元动作规则:定义64种组合(如横向/纵向速度层级、转向层级),模拟人类驾驶意图。

    • 行为解释文本:基于场景QA与元动作,由ChatGPT生成决策逻辑描述。

    • 控制信号:解析nuScenes原始数据,生成轨迹(位置序列)与低层控制信号(加速度、转向角)。

2.3 三阶段训练流程
  1. 混合对齐预训练:在CC3M(图像-文本)和WebVid-10M(视频-文本)上对齐多模态特征,冻结编码器权重,仅训练共享投影层。

  2. 场景理解微调:使用层次化场景数据集,增强模型对3D空间关系的感知能力。

  3. 端到端驾驶微调:在可解释驾驶数据集上优化长轴任务推理(如轨迹规划与控制生成)。


3. 实验与性能验证
3.1 场景理解任务
  • 指标:BLEU4、ROUGE、CIDEr等文本生成指标,以及分类准确率(Acc)。

  • 结果(表1):

    • 综合准确率85.69%,其中交通设施识别准确率最高(93.71%)。

    • CIDEr分数达671.93,表明生成描述与真实标注高度一致。

3.2 端到端驾驶任务
  • 运动规划(表2):

    • 3秒轨迹的L2误差0.36m,显著优于传统方法(UniAD: 1.03m)和MLLM基线(DriveVLM: 0.40m)。

  • 控制信号生成(表3):

    • 加速度RMSE为0.241 m/s²,转向角误差0.427°,均优于DriveGPT4和RAG-Driver。

  • 可解释性:GPT评分91.11(满分100),表明生成的行为解释更符合人类逻辑。

3.3 消融实验(表4)
  • 多视图输入:移除后轨迹误差增加42%(0.51m→0.36m)。

  • 场景理解微调:省略后元动作准确率下降8.9%(94.29%→86.35%)。

  • CoT模块:移除导致行为解释质量显著下降(GPT评分从91.11→75.56)。


4. 创新点与局限性
4.1 创新贡献
  • 技术框架

    • 首次将MLLM的链式推理(CoT)与自动驾驶的全局-局部感知结合,实现“感知-推理-控制”一体化。

    • 提出基于多视图视频与BEV地图的多模态对齐方法,增强时空关系建模。

  • 数据集

    • 构建首个针对3D空间理解与长轴任务推理的VQA驾驶指令数据集,填补领域空白。

  • 训练策略

    • 三阶段训练流程(预训练→场景微调→驾驶微调)有效平衡通用性与任务适配性。

4.2 局限性
  • 实时性:未明确模型推理速度,可能限制实际部署。

  • 泛化性:实验基于nuScenes和仿真数据(Bench2Drive),真实复杂场景(如极端天气、突发障碍)验证不足。

  • 数据依赖:依赖ChatGPT生成标注,可能存在隐含偏差。


5. 未来方向
  1. 实时性优化:设计轻量级架构或模型压缩技术,提升推理效率。

  2. 多模态扩展:融合激光雷达、毫米波雷达等传感器数据,增强环境感知鲁棒性。

  3. 跨场景验证:在真实路测场景(如城市道路、高速公路)中评估泛化能力。

  4. 人机交互增强:结合人类反馈强化学习(RLHF),进一步对齐决策逻辑与人类偏好。


6. 总结

Sec2DriveX通过多模态大语言模型与链式推理的深度融合,为自动驾驶提供了一种可解释、泛化性强的端到端解决方案。其核心价值在于:

  • 认知对齐:模仿人类驾驶的渐进式推理逻辑,提升决策透明度。

  • 技术突破:在运动规划与控制信号生成任务中实现SOTA性能。

  • 领域推动:构建的数据集与训练框架为后续研究提供了重要基准。

尽管存在实时性与真实场景验证的局限,Sec2DriveX为MLLM在自动驾驶中的应用开辟了新范式,有望推动智能驾驶系统向更安全、更可信的方向发展。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/80957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【题解-Acwing】870. 约数个数

题目:870. 约数个数 题目描述 给定 n 个正整数 ai,请你输出这些数的乘积的约数个数,答案对 109+7 取模。 输入 第一行包含整数 n。 接下来 n 行,每行包含一个整数 ai。 输出 输出一个整数,表示所给正整数的乘积的约数个数,答案需对 109+7 取模。 数据范围 1 ≤ …

创龙全志T536全国产(4核A55 ARM+RISC-V+NPU 17路UART)工业开发板硬件说明书

前 言 本文档主要介绍TLT536-EVM评估板硬件接口资源以及设计注意事项等内容。 T536MX-CXX/T536MX-CEN2处理器的IO电平标准一般为1.8V、3.3V,上拉电源一般不超过3.3V或1.8V,当外接信号电平与IO电平不匹配时,中间需增加电平转换芯片或信号隔离芯片。按键或接口需考虑ESD设计…

Redis 持久化双雄:RDB 与 AOF 深度解析

Redis 是一种内存数据库,为了保证数据在服务器重启或故障时不丢失,提供了两种持久化方式:RDB(Redis Database)和 AOF(Append Only File)。以下是它们的详细介绍: 一、RDB 持久化 工…

数据结构|并查集

Hello !朋友们,这是我在学习过程中梳理的笔记,以作以后复习回顾,有时略有潦草,一些话是我用自己的话描述的,可能不够准确,还是感谢大家的阅读! 目录 一、并查集Quickfind 二、两种算…

【GPU 微架构技术】Pending Request Table(PRT)技术详解

PRT(Pending Request Table)是 GPU 中用于管理 未完成内存请求(outstanding memory requests)的一种硬件结构,旨在高效处理大规模并行线程的内存访问需求。与传统的 MSHR(Miss Status Handling Registers&a…

远程访问你的家庭NAS服务器:OpenMediaVault内网穿透配置教程

文章目录 前言1. OMV安装Cpolar工具2. 配置OMV远程访问地址3. 远程访问OMV管理界面4. 固定远程访问地址 前言 在这个数据爆炸的时代,无论是管理家人的照片和视频,还是企业老板处理财务报表和技术文档,高效的数据管理和便捷的文件共享已经变得…

微服务架构下的熔断与降级:原理、实践与主流框架深度解析

微服务架构下的熔断与降级:原理、实践与主流框架深度解析 在现代分布式系统中,熔断 (Circuit Breaker) 和 降级 (Degrade) 是保障系统弹性与高可用性的核心机制。本文将系统解析两者的原理、区别与协同方式,并结合主流框架 (Resilience4j、S…

docker-vllm运行大模型

vllm镜像下载,国内代理源 vllm/vllm-openai - Docker Image - 毫秒镜像https://1ms.run/r/vllm/vllm-openai 执行下载docker pull docker.1ms.run/vllm/vllm-openai 查看本地镜像 查看镜像 查看镜像 docker images导出镜像 docker save -o E:\docker\ollama.tar …

基于tabula对pdf中多个excel进行识别并转换成word中的优化(四)

对上一节进行优化: 1、识别多个excel 2、将表格中的nan替换成空字符串 一、示例中的pdf内容 二、完整代码参考: import tabula import numpy as np from docx import Document from docx.oxml.ns import qn from docx.oxml import OxmlElementdef get_t…

【10分钟读论文】Power Transmission Line Inspections电力视觉水文

标题Power Transmission Line Inspections: Methods, Challenges, Current Status and Usage of Unmanned Aerial Systems 2024 评分一颗星 论文《Power Transmission Line Inspections: Methods, Challenges, Current Status and Usage of Unmanned Aerial Systems》的核心内…

linux安装ragflow

先安装docker,操作步骤参考文章: Linux安装Docker docker安装完毕,下载ragflow源码: https://github.com/infiniflow/ragflow 下载完成,进入docker文件夹中,修改.env文件,因为默认安装的是sli…

学习记录:DAY20

技术探索之旅:YAML配置,依赖注入、控制反转与Java注解 前言 最近有点懒了,太松懈可不行。为了让自己保持学习的动力,我决定将最近的学习内容整理成博客,目标是让未来的自己也能轻松理解。我会尽量以整体记录的方式呈…

MCP:人工智能时代的HTTP?探索AI通信新标准

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

首版次误区有哪些?与软件测试报告又有什么联系?

在软件开发与测试领域,"首版次"这一概念关乎软件的版本控制与管理,是确保产品质量和发布节奏的重要环节。首版次,通常是指软件产品第一个对外发布或内部验收的版本号,标志着一次完整开发周期的结束和下一阶段工作的开始…

Laravel+API 接口

LaravelAPI 接口 网课连接:BIlibili. 中文文档. 1.RestFul Api编码风格 一、API设计 修改hosts,C:\Windows\System32\drivers\etc\hosts,增加127.0.0.1 api.lv8.com # Laravel 框架 用这个域名来测试(推荐规范) 在…

MIT6.S081-lab7前置

MIT6.S081-lab7前置 这部分包含了设备中断和锁的内容 设备中断 之前系统调用的时候提过 usertrap ,而我们的设备中断,比如计时器中断也会在这里执行,我们可以看看具体的逻辑: void usertrap(void) {int which_dev 0;if((r_sst…

Linux 下编译BusyBox

一、linux下编译 1.拉取busybox源码 git clone https://github.com/mirror/busybox.git 内容如下 2.配置make,建议在linux下单独开一个终端执行 进入busybox源码目录,使用如下命令 make menuconfig 3.报错 解决办法: 安装ncurses sud…

Element:Cheack多选勾选效果逻辑判断

效果展示 取消子级勾选&#xff0c;父级的勾选效果 代码合集 &#xff08;1&#xff09;组件代码 fromlist.cheackType 类型&#xff0c;permissio表示是权限. fromlist:[{id:1,children:[{...}]},...]传递的数据大致结构 <!-- 操作权限 --><template v-if"…

【3DMax脚本MaxScript开发:创建高效模型虚拟体绑定和材质管理系统,从3DMax到Unreal和Unity引擎_系列第一篇】

3ds Max 脚本开发 3ds Max 脚本开发&#xff1a;创建高效模型虚拟体绑定和材质管理系统3ds Max 插件制作背景&#xff1a;设计思路一、场景节点收集与过滤废话不多说&#xff0c;直接上完整代码&#xff1a;界面定义与基础设置界面控件创建状态变量核心逻辑函数过滤选项改变事件…

【Linux学习笔记】进程替换和自定义shell

【Linux学习笔记】进程替换和自定义shell &#x1f525;个人主页&#xff1a;大白的编程日记 &#x1f525;专栏&#xff1a;Linux学习笔记 文章目录 【Linux学习笔记】进程替换和自定义shell前言一.进程程序替换1.1 替换原理1.2 替换函数1.2.1函数解释1.2.2命名理解 二.自主…