LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶飞跃——论文阅读

《LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking》2025年1月发表,来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文。

尽管自动驾驶技术取得了显著进步,但由于推理能力有限,数据驱动的方法仍然难以应对复杂的场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足的发展。本文提出了LeapVAD,这是一种基于认知感知和双过程思维的新方法。此方法实现了一种人类注意力机制,以识别和关注影响驾驶决策的关键交通因素。通过包括外观、运动模式和相关风险在内的综合属性来表征这些对象,LeapVAD实现了更有效的环境表示并简化了决策过程。此外,LeapVAD整合了一个创新的双过程决策模块,模拟了人类驾驶学习过程。该系统由一个通过逻辑推理积累驾驶经验的分析过程(系统II)和一个通过微调和少量学习完善这些知识的启发式过程(系统I)组成。LeapVAD还包括反射机制和不断增长的记忆库,使其能够从过去的错误中学习,并在闭环环境中不断提高其性能。为了提高效率,我们开发了一个场景编码器网络,该网络生成紧凑的场景表示,用于快速检索相关的驾驶体验。对CARLA和DriveArena这两款领先的自动驾驶模拟器进行的广泛评估表明,尽管训练数据有限,但LeapVAD的性能优于仅使用摄像头的方法。全面的消融研究进一步强调了其在持续学习和领域适应方面的有效性。

1. 研究背景与动机
  • 问题定义:现有自动驾驶技术中,数据驱动方法依赖大量标注数据且缺乏复杂场景下的推理能力,而知识驱动方法(如基于视觉语言模型VLM)虽具备一定推理能力,但评估方法多为开环测试,无法反映动态交互环境。

  • 核心挑战:如何构建一个能够持续学习、模仿人类认知过程的自动驾驶系统,以应对复杂场景和长尾问题。

  • 创新点:提出LeapVAD框架,融合认知感知(人类注意力机制)与双过程思维(分析过程System-II + 启发式过程System-I),结合记忆库和反射机制,实现闭环环境下的持续优化。


2. 方法论
框架组成

  1. 场景理解模块

    • 视觉语言模型(VLM):通过监督微调(SFT)生成关键交通对象的语义、空间、运动属性及行为推理描述(如车辆类别、位置、速度、风险等级)。

    • 多帧输入:支持多视角和多帧数据,捕捉动态属性(如速度趋势、运动方向)。

    • 数据结构:采用“总结-细化”格式,提升场景描述的全面性。

  2. 场景编码器

    • 目标:生成紧凑的场景标记(Scene Token),用于快速检索相似历史场景。

    • 对比学习框架:在动作空间(ACT,转向控制)和加速度空间(ACC,制动控制)中,通过对比学习优化特征表示。

    • 动量编码器:通过动量更新策略(MoCo风格)维护历史特征字典,支持大规模负样本对比。

  3. 双过程决策模块

    • 分析过程(System-II)

      • 基于LLM的逻辑推理,生成高质量驾驶决策(如变道、减速)。

      • 通过闭环实验积累经验至记忆库,支持知识迁移。

      • 反射机制:事故发生时,分析历史帧数据(描述、决策、推理),识别错误原因并生成修正策略,更新记忆库。

    • 启发式过程(System-I)

      • 基于轻量级LLM(如Qwen-1.8B),利用记忆库中的经验进行快速决策。

      • 少样本提示(Few-shot Prompting):通过检索相似场景的样本,减少幻觉(Hallucination)并提升泛化能力。

  4. 控制器

    • 元动作生成:输出高层指令(如“加速AC”“左变道LCL”)。

    • PID控制:通过轨迹规划和跟踪,将元动作转化为底层控制信号(转向、油门、刹车)。


3. 实验与验证
实验平台
  • CARLA:Town05短途与长途基准测试,评估驾驶分数(DS)、路线完成率(RC)、违规分数(IS)。

  • DriveArena:高保真仿真环境,验证跨域泛化能力。

主要结果
  1. CARLA性能

    • Town05短途:LeapVAD以仅1/73的数据量(41K vs. 3M)达到接近SOTA(94.95 vs. 88.19 DS),较前作LeapAD提升5.3%。

    • Town05长途:DS提升42.6%,显著优于纯视觉方法。

  2. DriveArena性能

    • 记忆库(CARLA训练)跨域迁移有效,ADS(驾驶分数)达45.52%,优于端到端方法(如VAD、UniAD)。

消融实验
  • VLM选择:Qwen-VL-7B在场景理解和推理能力上优于LLaVA和InternVL2。

  • 场景标记设计:“池化+状态”方案(Precision@1达87.52%)优于文本嵌入(OpenAI Embedding)。

  • 记忆库容量:容量越大(如4096),性能提升越显著。

  • 少样本提示:3-shot设置效果最佳,较零样本提升显著。


4. 创新与贡献
  1. 双过程思维:模仿人类驾驶学习过程(新手→专家),结合逻辑推理(System-II)与快速反应(System-I)。

  2. 高效场景表示:通过对比学习生成场景标记,提升检索效率与决策一致性。

  3. 持续学习机制:反射机制与动态记忆库实现闭环优化,支持跨域知识迁移(如CARLA→DriveArena)。

  4. 数据效率:仅需少量标注数据(41K)即可达到SOTA性能,显著降低数据依赖。


5. 局限与未来方向
  • 实时性:分析过程(System-II)依赖大模型推理,可能影响实时性,需进一步优化轻量化。

  • 复杂场景泛化:极端天气、密集交通等场景的泛化能力需验证。

  • 硬件部署:当前实验基于仿真环境,实际车载部署的算力与延迟问题待解决。


6. 结论

LeapVAD通过融合认知感知与双过程思维,构建了一个高效、可解释的自动驾驶框架。其核心创新在于模仿人类驾驶的持续学习机制,结合场景编码与记忆库技术,显著提升了复杂场景下的决策鲁棒性和数据效率。实验证明该方法在仿真环境中具有优越性能,为知识驱动自动驾驶提供了新的研究方向。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79072.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二分系列题

1. 搜索插入位置 /*** 查找插入的位置:返回第一个大于等于 target 的索引;* 如果 target 大于所有元素,则返回数组长度(即插入到末尾)*/ class Solution {public int searchInsert(int[] nums, int target) {int left …

Octave 简介:一款强大的开源科学计算工具

引言 在科学计算、数据分析和数值模拟的领域,选择合适的工具对于提升工作效率和性能至关重要。虽然市面上有许多选择,但 GNU Octave 作为一款功能强大、开源免费的软件,它在科学计算中脱颖而出。如果你是学生、研究人员或开发者,…

TI Code Composer Studio编译时SDK报错问题解决

1. 我们使用TI的CCS(Code Composer Studio)编译环境编译工程时,首次安装很可能会遇到编译器找不到SDK的问题。 2. 当CCS编程工具找不到SDK路径时,会有如下报错: Problems窗口提示: Product com.ti.SIMPL…

MySQL大数据量查询优化

1.在回表数据量不大的情况下考虑增加索引,如果有多个筛选条件的情况下可以考虑添加联合索引,并且满足最佳左前缀的原则。 2.避免全表查询返回不需要的字段,增加磁盘io的压力 3.大表的分页查询,limit越大效率越低,可以先…

【Linux网络#5】(UDP的简单应用)DictServer(中译英字典)| ChatServer(简单聊天室)

1.中译英字典 -- DictServer 我们这里先中途插入一个趣味的翻译显示实验,在 EchoServer 的基础上来实现,大部分代码基本都没变,修改了一少部分代码,大家可以仔细看看 先给定一些等会我们要翻译的单词数据 dict.txt apple: 苹果…

DeepSeek实战--微调

1.为什么是微调 ? 微调LLM(Fine-tuning Large Language Models) 是指基于预训练好的大型语言模型(如GPT、LLaMA、PaLM等),通过特定领域或任务的数据进一步训练,使其适应具体需求的过程。它是将…

FTP/TFTP/SSH/Telnet

目录 一、FTP(文件传输协议) 定义 工作原理 特点 应用场景 二、TFTP(简单文件传输协议) 定义 工作原理 特点 应用场景 三、SSH(安全外壳协议) 定义 工作原理 特点 应用场景 四、Telnet&…

K8S常见问题汇总

一、 驱逐 master 节点上的所有 Pod 这会“清空”一个节点&#xff08;包括 master&#xff09;上的所有可驱逐的 Pod&#xff1a; kubectl drain <master-node-name> --ignore-daemonsets --delete-emptydir-data--ignore-daemonsets&#xff1a;保留 DaemonSet 类型的…

【银河麒麟高级服务器操作系统】服务器外挂存储ioerror分析及处理分享

更多银河麒麟操作系统产品及技术讨论&#xff0c;欢迎加入银河麒麟操作系统官方论坛 forum.kylinos.cn 了解更多银河麒麟操作系统全新产品&#xff0c;请点击访问 麒麟软件产品专区&#xff1a;product.kylinos.cn 开发者专区&#xff1a;developer.kylinos.cn 文档中心&a…

C++命名空间、内联与捕获

命名空间namespace 最常见的命名空间是std,你一定非常熟悉,也就是: using namespace std;命名空间的基本格式 注意,要在头文件里面定义! namespace namespace_name{data_type function_name(data_type parameter){data_type result;//function contentreturn result;}…

软件测试名词科普:驱动模块、桩模块

目录 1. 驱动模块 2. 桩模块​ 3. 驱动模块 vs 桩模块 对比表 4. 示例代码 在软件测试中&#xff0c;​驱动模块&#xff08;Driver Module&#xff09;​和桩模块&#xff08;Stub Module&#xff09;​是两种用于单元测试的关键组件&#xff0c;主要用于模拟测试环境中的…

线程池的核心参数和线程创建方式,线程和进程

Java线程池的核心参数 Java线程池通过ThreadPoolExecutor类进行配置&#xff0c;其核心参数如下&#xff1a; corePoolSize&#xff08;核心线程数&#xff09; 作用&#xff1a;线程池中保持活动的最小线程数&#xff0c;即使这些线程处于空闲状态。 行为&#xff1a;默认情…

【报错】view size is not compatible with input tensor‘s size and stride

完整报错 Traceback (most recent call last): File "D:\360MoveData\Users\HONOR\whu\TwoStageTraining.py", line 590, in <module> criterionseg_criterion, save_dir./models, writerwriter_first_stage) File "D:\360MoveData\Users\HONOR\whu\TwoS…

汽车免拆诊断案例|车辆行驶中急加速车身抖动故障排除 2 例

案例1 2017款丰田卡罗拉车行驶中急加速车身偶尔抖动 故障现象  一辆 2017款丰田卡罗拉车&#xff0c;搭载9NR 发动机&#xff0c;累计行驶里程约为9.6万km。车主进厂反映&#xff0c;该车行驶中急加速时&#xff0c;车身偶尔抖动。 故障诊断  接车后试车&#xff0c;发动机…

vue3 computed方法使用详细讲解

Computed方法用于创建计算属性&#xff0c;它的值由其他响应式数据计算得出&#xff0c;并且会在依赖数据发生改变时自动更新。因为vue3兼容vue2的选项式api,所以习惯用vue2的小伙伴可以直接用vue2的方法写是没有问题的。但我这里介绍的是computed在vue3中的新语法&#xff1a;…

std::iota(C++)

std::iota 1. 概述2. 函数原型3. 使用示例示例 1&#xff1a;填充 vector<int>示例 2&#xff1a;从非零起始值开始 4. 应用场景5. 注意事项6. 与其它算法比较小结 1. 概述 std::iota 定义在头文件 中&#xff0c;C11 起引入。 它用于向前迭代器区间依次填入连续递增的数…

基于Jaccard算法的用户浏览历史推荐商品系统实战+springboot+vue源码实现

大家好&#xff0c;这里是小罗毕设工作室。今天给大家带来了一套完整的推荐系统&#xff1a; “基于Jaccard算法的用户浏览历史推荐商品系统”。 系统源码后端实现是springboot&#xff0c;前端是vue3。 视频演示 基于Jaccard算法的用户浏览历史推荐商品系统实战 图片截图 算法…

正态分布和幂律分布

1. 背景与引入 正态分布 历史来源&#xff1a;18世纪由高斯&#xff08;Gauss&#xff09;在研究测量误差时提出&#xff0c;后被广泛应用于自然现象和社会科学的数据建模。重要性&#xff1a;被称为“钟形曲线”&#xff0c;是统计学中最核心的分布之一&#xff0c;支撑中心极…

免费AI图像编辑平台,最新无损放大技术

软件介绍 腾讯ARC网页在线AI图片处理是一款由腾讯ARC实验室推出的在线图像处理工具。凭借腾讯的科技实力&#xff0c;这款工具在图像处理领域展现了卓越的性能。 功能亮点 这款在线图像处理工具提供多种功能&#xff0c;包括人像修复、人像抠图、动漫增强、万物识别以及…

# 部署深度学习模型:Flask API 服务端与客户端通信实战

部署深度学习模型&#xff1a;Flask API 服务端与客户端通信实战 在这篇文章中&#xff0c;我们将探讨如何使用 Flask 框架部署一个深度学习模型&#xff0c;并通过客户端与服务端进行通信。我们将通过一个实际的例子&#xff0c;展示如何构建服务端和客户端&#xff0c;以及如…