NeurIPS 2025 spotlight |FSDrive 自动驾驶最新VLA+世界模型 - 详解

news/2025/9/24 8:17:07/文章来源:https://www.cnblogs.com/wzzkaifa/p/19108500
论文地址:https://arxiv.org/abs/2505.17685
代码地址:https://github.com/MIV-XJTU/FSDrive

自动驾驶还在玩“文字游戏”?当下的VLM模型习惯于将视觉信息压缩成文本再进行推理,丢失了大量关键细节。阿里高德与西安交大联合提出FutureSightDrive,首创“时空思维链”(Spatio-Temporal CoT),让自动驾驶模型学会像人类驾驶员一样,直接在“脑海”中用图像思考和预演未来。这一“视觉思考”范式不仅大幅提升了规划的准确性,更在关键的碰撞率指标上降低了31%,为自动驾驶的视觉推理能力开启了新篇章!


一、老司机 VS 新手AI:你的自动驾驶真的“会看路”吗?

各位开发者、手艺爱好者们,大家好!

在用一种**“视觉想象力”**来预判风险、规划路径。就是回想一下我们人类开车时的决策过程:看到前方路况,我们的大脑会瞬间“脑补”出接下来几秒的画面——那辆车可能会变道,那种行人可能会横穿马路... 我们

一个“新手翻译官”,先把摄像头捕捉到的复杂世界翻译成干巴巴的就是然而,当前的许多自动驾驶大模型(VLM)在“思考”时,走的却是一条截然不同的路。它们更像文本描述(例如,“前方有一辆白色SUV,速度30km/h”),也就是所谓的文本思维链(Text CoT),然后再基于这些文字进行逻辑推理。

这种“先翻译,再思考”的模式存在三大致命缺陷:

  1. 信息丢失:丰富的视觉细节(如车辆的微小姿态变化、路面的水渍反光)在转为文字时被大量过滤。
  2. 时空模糊:文字难以精确描述物体间艰难的时空相对关系。
  3. 模态鸿沟:从图像到文本,再到行动指令,反复的模态转换本身就是一种损耗。

那么,我们能否教会AI跳过“文字狱”,像老司机一样直接用图像思考

二、核心突破:时空思维链 (Spatio-Temporal CoT),让AI“眼见为实”

FutureSightDrive的核心创新,在于提出了一种全新的推理范式——时空思维链 (Spatio-Temporal CoT)

简单来说,当模型需要规划路径时,它不再生成一行行描述文字作为中间步骤,而是直接**生成一幅“未来的图像”**作为它的“思考过程”。这幅未来的图像不仅仅是一张快照,它包含了两个维度的关键信息:

  • 空间维度 (Spatial Thinking):模型会在这幅未来图像上,直接“画”出它预测的未来车道线关键物体的3D检测框。这就像人类驾驶员在脑中勾勒出的“安全驾驶走廊”和“重点关注对象”,为后续的精细化思考提供了物理世界的骨架和约束。
  • 时间维度 (Temporal Thinking):整幅未来图像的内容(背景、动态物体的位置变化)直观地展示了世界随时间的演变规律。这种视觉上的动态演化,比任何文字描述都更加直观和丰富。

通过此种方式,FutureSightDrive将“对未来的感知”和“对未来的思考”统一在了图像这一种模态下,彻底消除了跨模态转换带来的信息损失和语义鸿沟,建立了一条端到端的视觉推理管线

三、FSDrive是如何炼成的?

让一个VLM学会“无中生有”地画出未来,听起来很酷,但工艺上如何建立呢?FSDrive提出了一个巧妙的两阶段训练策略。

阶段一:统一预训练——唤醒VLM的“绘画”天赋

大家没有从零开始训练一个庞大的模型,而是基于现有的VLM(如Qwen2-VL, LLaVA),通过一个统一的预训练范式来“激活”其视觉生成能力,同时保留其强大的理解能力。

  • 激活生成能力:我们扩充了VLM的词汇表,加入了能代表图像像素的“视觉词元”(visual tokens),并通过预测未来帧的任务,教会模型如何像生成文本一样自回归地“画”出图像。
  • 保留理解能力:同时,我们继续进行视觉问答(VQA)任务的训练,确保模型不会“忘了”如何理解世界。

更关键的是,为了让生成的未来符合物理规律,我们引入了**“从易到难”的渐进式生成(Progressive Generation)**:

  1. 第一步:画骨架。先生成未来的车道线,约束静态物理世界。
  2. 第二步:定主体。再生成关键物体的3D框,约束动态物理世界。
  3. 第三步:填细节。在骨架和主体的约束下,生成完整的、细节丰富的未来图像。

天马行空的“幻想”。就是此种方法,让模型学会了有条理、有逻辑地“构思”未来,而不

阶段二:监督微调——从“思考者”到“决策者”

在模型具备了“脑补”未来的能力后,大家再通过监督微调,教会它如何利用这份“预见”来做决策。此时,VLM扮演着双重角色:

  1. 世界模型 (World Model):根据当前输入,生成具备时空思维链的未来图像。
  2. 逆动力学模型 (Inverse Dynamics Model):结合当前观测自己预测的未来,反推出最优的行驶轨迹。

这种“基于预见来规划”的模式,让FSDrive在面对突发情况时更具前瞻性,能够做出更安全、更合理的决策。

四、实验效果:实力碾压,SOTA达成!

空谈不如实证。FSDrive在多个自动驾驶权威基准上都取得了卓越的成绩。

  • 轨迹规划任务 (nuScenes)
    • 在不使用车辆自身状态(ego-status)这一“简单模式”下,FSDrive在L2误差和碰撞率等核心指标上均优于现有的自回归和非自回归方法。
    • 最令人振奋的是,与不使用任何CoT的基线模型相比,FSDrive的时空思维链将碰撞风险(Collision Rate)平均降低了高达31%!这直接证明了“视觉思考”在提升安全性上的巨大价值。

  • 未来帧生成质量

    • 尽管生成图像只是中间步骤,FSDrive的生成质量依然惊人。其FID分数达到了10.1,甚至优于一些专门的扩散模型(Diffusion Model),证明了其强大的视觉生成能力。
  • 场景理解任务 (DriveLM)

    • FSDrive在场景理解问答上也取得了SOTA成绩,这表明我们的统一预训练范式成功地在“激活生成”和“保留理解”之间取得了完美平衡。

五、总结与展望

FutureSightDrive的核心贡献,是为自动驾驶领域引入了一种全新的、更符合物理世界交互本质的视觉推理范式

它告诉大家:与其让模型在抽象的符号世界里“绕圈子”,不如直接赋予它“看见”和“想象”未来的能力。

核心贡献总结:

  1. 提出时空思维链(Spatio-Temporal CoT):让模型通过生成未来图像进行推理,实现了端到端的视觉因果推断。
  2. 提出统一的预训练范式:高效地激活了现有VLM的视觉生成能力,无需从零开始训练。
  3. 提出渐进式生成方法:依据“骨架-主体-细节”的顺序,确保了生成未来的物理真实性。

当然,目前FSDrive核心生成前视视角的未来,下一步我们将探索生成环视(Surround-view)的未来世界,以实现更全面的安全保障。

这项工作标志着自动驾驶正从依赖人类设计的抽象符号,迈向一个模型能自主与环境进行像素级交互和视觉推理的新纪元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915308.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站制作中山一个网站上面有名优

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼6楼兄弟谢了哈。可以啦!!!!哈哈,开心啊、//1900年1月1日是星期一//所以从1900年1月1日算起#include int fun(int year);int main(){int year,month,day;int i;int ts1[]{31,28,31,30,31,30,31,31,30,31,30,31}; //非…

宁波网站推广规划深圳宝安做网站

MSWORLD 题目大意: 在一个图上有n个点,现在问你最远的两个点的直线距离的平方是多少 输入样例 4 0 0 0 1 1 1 1 0输出样例 2样例解释: 农场1(0,0)和农场3(1,1)的距离为 2的开方。 数据范…

菏泽市建设职工培训中心网站crm客户管理系统官网

前言 默认情况下,我们在PHP里使用echo等函数输出的内容,是不会马上发送给前端的,原因是有 buffer 的存在,buffer又分两处,一处是PHP本身的buffer,另一处是Nginx的buffer。只有当buffer满了之后&#xff0c…

婚纱照网站制作租赁合同模板

交换机: 分类: 根据交换方式划分: 1.存储转发交换:交换机对输入的数据包先进行缓存、验证、碎片过滤,然后进行转发。 时延大,但是可以提供差错校验,并支持不同速度的输入、输出端口间的交换…

昆明门户网站宿州市做网站建设的公司

Docker 入门使用说明 Docker 安装 Docker 官网:Docker Docker 安装说明:Docker 安装说明 这里由于 Docker 在实时更新,所以每次安装 Docker 用来导入 key 的链接可能会有变化,这里就参考官方的安装方法即可 Docker 常用命令说…

最新获取网站访客qq接口建设企业银行app官方下载

回滚整个事务要怎么清除 binlog 日志,InnoDB 又会进行哪些操作? 作者:操盛春,爱可生技术专家,公众号『一树一溪』作者,专注于研究 MySQL 和 OceanBase 源码。 爱可生开源社区出品,原创内容未经授…

网站设计的灵感来源网站建设需要些什么

随着数字化时代的不断深入,数据隐私保护已经成为了人们越来越关注的焦点之一。而在这个数字化时代的新篇章中,Web3技术作为下一代互联网的代表,正在为数据隐私保护带来全新的创新和可能性。本文将深入探讨数据隐私的重要性,Web3时…

网站建设 核算外贸公司推广

本文主要从 单特征分析,多特征筛选,特征监控,外部特征评估的几个方面对特征数据进行阐述。 来源 : 特征筛选_特征覆盖度怎么算_adamyoungjack的博客-CSDN博客 1. 单特征分析 1.1 简介 好特征可以从几个角度衡量:覆…

主要测试的测试用例

1. 内核态性能测试 # 测试要求# 测试用例步骤 0. 检查BIOS配置,确认设置满足场景要求(NUMA开启和关闭两种场景(海光平台覆盖channel/die),其余设置,请严格按照阿里招标参数BIOS出厂设置定制需求) 1.在被测端和辅…

成都h5模板建站动易网站管理系统教程

远程仓库的使用 要参与任何一个 Git 项目的协作,必须要了解该如何管理远程仓库。远程仓库是指托管在网络上的项目仓库,可能会有好多个,其中有些你只能读,另外有些可以写。同他人协作开发某个项目时,需要管理这些远程仓…

详细介绍Seata的AT模式分布式事务

一、在Seata的AT模式中,事务的提交也是分成了2阶段的 一阶段 1、RM 针对本次要执行的本地事务的SQL进行解析,得到SQL的类型、修改的表以及where条件等信息 2、RM 根据 SQL 解析的结果,先进行一次查询,根据查询结果…

网站建设流程图在线制作哪个网站做图文素材多

前言看见头文件中的条件编译就犯怵,不知什么意思,但是,你老师说:”就得那么写“,你照做,但是知其然而不知其所以然。今天分享下是自己的理解~~~纯属个人献丑,新手可阅,老鸟绕道。代码…

自媒体采集网站建设未来最紧缺的十大专业

作为一个打工人 电脑是不是黑屏简直是routine了 我们都知道重启能解决一切问题 但是!! 如果你只有一个鼠标 电脑因为种种原因没法重启 该怎么办呢? 别慌 下面的方法非常灵验 1.按住ctrlShiftEsc 调出任务管理器;此项为必须&#xf…

网站移动端生成器嵌入式软件开发工资

一.sprintf()语法 sprintf() 是一个 C 语言中的函数,用于将格式化的数据写入一个字符串中。它的用法与 printf() 函数相似,printf()函数是将内容输出到屏幕上,而sprintf()函数是将格式化的内容输…

网站并发要求网站程序设计

和之前的ASP.NET MVC中的使用LOG4NET的方法有些不同&#xff0c;这里先记录一下&#xff0c;使用步骤如下 &#xff1a; 1. 建立 ASP.NET CORE项目中&#xff0c;NUGET中搜索log4net后下载安装 2. 根目录建立 log4net.config文件&#xff0c;内容如下&#xff1a; <?xml ve…

dw属于什么网页制作工具seo自助建站平台

各位&#xff0c;vscode的坑&#xff1b; os.getcwd()获取当前文件的位置 例如文件目录级&#xff1a; g:\test\123 vscode 输出的是父目录的位置 实际输出的结果为&#xff1a;g:\test 预期结果:g:\test\123&#xff08;这个才是正确的&#xff09; pycharm os.getcwd() 输出…

高端html5网站建设的思路网站模糊效果

一、概述(Overview) 蓝牙是一种专有的开放式无线技术标准,用于在固定和移动设备之间进行短距离数据交换(使用2400–2480 MHz ISM波段的短波长无线电传输),从而创建具有高度安全性的个人局域网(PANs)。由电信供应商爱立信(telecoms vendor Ericsson)于1994年创建,[1…

知识产权网站建设域名申请哪家好

一.Checkpoints 理论说明有关GG的Checkpoints 在系列一&#xff0c; GG的架构中以说明&#xff1a;OracleGolden Gate 系列一 --GG 架构 说明http://blog.csdn.net/tianlesoftware/article/details/6925907这里在单独拿出来说明一下&#xff0c;因为这是一个较为重要的概念。Ch…

TensorFlow 和 PyTorch两大深度学习框架训练素材,并协作一个电商推荐系统

TensorFlow 和 PyTorch两大深度学习框架训练素材,并协作一个电商推荐系统2025-09-24 08:01 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: …