WiseAD:基于视觉-语言模型的知识增强型端到端自动驾驶——论文阅读

《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》2024年12月发表,来自新加坡国立和浙大的论文。

在快速发展的视觉语言模型(VLM)中,一般人类知识和令人印象深刻的逻辑推理能力的出现,促使人们越来越有兴趣将VLM应用于高级自动驾驶任务,如场景理解和决策。然而,对知识水平(尤其是基本驾驶专业知识)与闭环自动驾驶性能之间关系的深入研究需要进一步探索。在这篇论文中,我们研究了基础驾驶知识的深度和广度对闭环轨迹规划的影响,并介绍了WiseAD,这是一种专为端到端自动驾驶量身定制的专用VLM,能够进行驾驶推理、动作论证、对象识别、风险分析、驾驶建议和跨不同场景的轨迹规划。我们对驾驶知识和规划数据集进行联合训练,使模型能够相应地执行知识对齐的轨迹规划。大量实验表明,随着驾驶知识多样性的扩大,严重事故显著减少,在卡拉闭环评估中,驾驶分数和路线完成率分别提高了11.9%和12.4%,达到了最先进的性能。此外,WiseAD在域内和域外数据集的知识评估方面也表现出了显著的性能。

研究背景与动机

自动驾驶技术近年来从传统规则系统转向端到端解决方案,但仍面临场景理解不足和驾驶知识利用不充分的问题。视觉语言模型(VLM)在通用知识和逻辑推理方面表现出色,但直接应用于自动驾驶时存在两大挑战:

  1. 驾驶导向知识不足:通用VLM缺乏对驾驶场景、经验和因果推理的深度理解。

  2. 知识与轨迹规划未对齐:现有方法多模仿预定义驾驶行为,缺乏对知识(如“减速以规避行人突然出现”)的显式嵌入,导致决策透明度低。

核心贡献

提出 WiseAD,一种专为自动驾驶设计的知识增强VLM,具备以下能力:

  • 多任务支持:场景描述、物体识别、风险分析、驾驶建议、轨迹规划等。

  • 联合训练策略:结合驾驶知识(LingoQA、DRAMA等)与轨迹规划(Carla数据集)进行联合学习,避免知识遗忘。

  • 性能提升:在Carla闭环评估中,驾驶分数(DS)提升11.9%,路线完成率(RC)提升12.4%,关键事故(碰撞、闯红灯)显著减少。


方法细节
  1. 模型架构

    • 视觉编码:基于CLIP ViT-L/14提取视频帧特征,投影为与文本对齐的视觉标记。

    • 语言模型:采用轻量级MobileLLaMA(1.7B参数),支持多模态输入(视频+文本)。

    • 输出对齐:轨迹规划结果以文本形式表达(如“下一个五个路径点为(x1, y1), (x2, y2)…”),便于利用VLM的逻辑推理能力。

  2. 数据构建

    • 驾驶知识:整合LingoQA(驾驶推理、物体识别)、DRAMA(风险分析、驾驶建议)、BDDX(动作解释)等数据集,覆盖多样化场景与任务。

    • 轨迹规划:使用Carla模拟器采集轨迹数据,目标点以文本形式输入(如“目标点为(x, y),生成后续五个路径点”)。

  3. 训练策略

    • 联合学习:混合知识问答与轨迹规划数据,避免分阶段训练导致的知识遗忘。

    • 注意力前缀提示:在推理阶段加入提示(如“注意周围环境,遵守交规”),显式引导模型调用驾驶知识。


实验结果
  1. 闭环驾驶性能(Carla评估)

    • SOTA对比:WiseAD在驾驶分数(69.88 vs 65.26)和路线完成率(93.79% vs 88.24%)上超越Roach、VAD等模型。

    • 关键事故减少:碰撞次数从2.35降至1.43,闯红灯次数从2.60降至2.14。

  2. 知识评估(零样本测试)

    • LingoQA:L-Judge评分60.4(对比LLaVA-7B的38.0),显示对驾驶知识的深度掌握。

    • 跨数据集泛化:在BDDX(动作识别)、DriveLM(物体识别)、HAD(驾驶注意力)任务中均表现优异。

  3. 消融实验

    • 注意力前缀提示:移除后路线完成率下降8.4%(93.79→85.35),验证其关键作用。

    • 知识广度影响:引入DRAMA风险分析数据后,驾驶分数提升3.08(66.02→69.88)。


创新点与意义
  1. 知识驱动的端到端框架:首次将VLM与驾驶知识深度融合,提升决策可解释性与安全性。

  2. 轻量化与高效性:基于MobileVLM(1.7B参数),适合实时自动驾驶场景。

  3. 数据与训练范式创新:通过混合训练与注意力提示,实现知识与规划的高效对齐。


未来方向
  • 扩展知识边界:引入更多长尾场景(如极端天气、复杂路口)的知识标注。

  • 多模态融合:结合激光雷达等多传感器数据,增强环境感知鲁棒性。

  • 实际部署验证:在真实道路测试中验证模型泛化能力与实时性。

WiseAD为自动驾驶领域提供了一种知识增强的新范式,通过显式嵌入驾驶逻辑与经验,推动端到端系统向“类人类驾驶”迈进。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NestJS 知识框架

一、核心概念 1. 架构基础 基于 Express/Fastify 的 Node.js 框架 采用模块化设计 使用 TypeScript 构建(也支持 JavaScript) 借鉴 Angular 的设计理念 2. 主要组件 模块 (Module): 应用的基本组织单元 控制器 (Controller): 处理 HTTP 请求 服务…

深入理解 Istio v1.25.2

要深入理解 Istio 的最新版本(截至 2025 年 5 月,最新版本为 1.25.2,发布Iweb:1⁊)源码,我们可以通过分析其核心组件和代码结构来加深对 Istio 的理解。以下是对 Istio 源码的解读,结合其架构和功能&#x…

星际篮球争霸赛/MVP争夺战 - 华为OD机试真题(A卷、Java题解)

华为OD机试题库《C》限时优惠 9.9 华为OD机试题库《Python》限时优惠 9.9 华为OD机试题库《JavaScript》限时优惠 9.9 针对刷题难,效率慢,我们提供一对一算法辅导, 针对个人情况定制化的提高计划(全称1V1效率更高)。 看…

Kubernetes etcd 故障恢复(1)

1.查看集群状态 获取主节点和故障节点id ETCDCTL_API3 ./etcdctl --cacert/etc/kubernetes/ssl/new-ca.pem --cert/etc/kubernetes/ssl/etcd.pem --key/etc/kubernetes/ssl/etcd-key.pem --endpoints"https://192.168.7.132:2379,https://192.168.7.134:2379,https://19…

在UI原型设计中,低、高保真原型图有什么区别?

在数字产品开发中,原型(Prototype) 是连接创意与落地的桥梁。它通过可视化的方式验证功能、交互与用户体验,避免开发资源浪费。而低保真(Lo-Fi)与高保真(Hi-Fi)原型,则是…

使用FastAPI和React以及MongoDB构建全栈Web应用02 前言

Who this book is for 本书适合哪些人阅读 This book is designed for web developers who aspire to build robust, scalable, and efficient web applications. It caters to a broad spectrum of developers, from those with foundational knowledge to experienced prof…

linux下minio的进程管理脚本

准备工作: 参考链接: Deploy MinIO: Single-Node Single-Drive — MinIO Object Storage for Linux 下载: wget https://dl.min.io/server/minio/release/linux-amd64/minio kill-app.sh #!/bin/bash # 文件名: kill-app.sh…

【Linux】编译安装 opencv 并链接到 VSCode

一、背景 最近打算把现有的一个 python 程序用 c 重写,进一步提升性能。编辑器使用 VSCode,三方库需要用到 opencv,要进行编译安装。 二、编译安装 opencv 1. 更新源 sudo apt update && sudo apt upgrade 2. 安装依赖库 安装编…

Ubuntu 安装 HAProxy

HAProxy 是什么 HAProxy(High Availability Proxy) 是一个 高性能、高可用的 TCP 和 HTTP 负载均衡器与代理服务器。 HAProxy 的特点 特性说明支持协议HTTP、HTTPS、TCP高性能使用 C 语言编写,性能极高高可用与 Keepalived 配合可实现主备健…

Mysql--基础知识点--91.2--processlist

在 MySQL 中,SHOW PROCESSLIST 是一个常用命令,用于查看当前数据库服务器上所有正在运行的线程(进程)信息。以下是关键点说明: 1. 命令用法 SHOW FULL PROCESSLIST;输出字段: 列名含义Id线程唯一标识符&am…

Git标签删除脚本解析与实践:轻松管理本地与远程标签

Git 标签删除脚本解析与实践:轻松管理本地与远程标签 在 Git 版本控制系统中,标签常用于标记重要的版本节点,方便追溯和管理项目的不同阶段。随着项目的推进,一些旧标签可能不再需要,此时就需要对它们进行清理。本文将通过一个完整的脚本,详细介绍如何删除本地和远程的 …

K8S - Harbor 镜像仓库部署与 GitLab CI 集成实战

引言 在 Kubernetes 环境中,容器镜像的存储与管理至关重要。企业级镜像仓库(如 Harbor)为团队提供了安全、稳定、可扩展的镜像管理解决方案。 一、Harbor 安装与配置 Harbor 是由 VMware 开源的企业级云原生镜像仓库,它不仅支持…

2025年best好用的3dsmax插件和脚本

copitor 可以从一个3dsmax场景里将物体直接复制到另一个场景中 Move to surface 这个插件可以将一些物体放到一个平面上 instancer 实体器,举例:场景中有若干独立的光源,不是实体对象,我们可以使用instancer将他变成实体。 paste …

Python爬虫实战:研究nodejs aes加密

1. 引言 1.1 研究背景与意义 在当今数字化时代,Web 数据的价值日益凸显。通过爬虫技术获取公开数据并进行分析,能够为企业决策、学术研究等提供有力支持。然而,为了保护数据安全和隐私,许多网站采用了加密技术对数据进行保护,其中 AES 加密是一种常见且安全的加密算法。…

LGDRL:基于大型语言模型的深度强化学习在自动驾驶决策中的应用

《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》2024年12月发表,来自北理工的论文。 深度强化学习(DRL)在自动驾驶决策方面显示出巨大的潜力。然而,由于DRL的学习效率低…

TDEngine 与 Grafana

目录 实践目录 Grafana 参考文档 实践目录 10.60.100.194:/home/dualven/tdengine Grafana systemctl status grafana-server http://10.60.100.194:3000/ 这个端口与mydoor的new server服务冲突 (同时只开一个) 参考文档 运行监…

Edge浏览器打开PDF文件显示空白(每次需要等上一会)

概述 部分pdf文件用edge浏览器打开显示空白,需要等一会才能显示出来,这很让人难以接受,用其他浏览器和pdf阅读器打开是正常的,该怎么操作解决,卸载重装,修复,重置浏览器等都无效。 解决办法 可…

uniapp小程序轮播图高度自适应优化详解

在微信小程序开发过程中,轮播图组件(swiper)是常用的UI元素,但在实际应用中经常遇到高度不匹配导致的空白问题。本文详细记录了一次轮播图高度优化的完整过程,特别是针对固定宽高比图片的精确适配方案。 问题背景 在开发"零工市场&quo…

Android第三次面试总结之网络篇补充

一、网络模型:OSI 七层 vs TCP/IP 四层(必考点) 1. 分层模型对比 OSI 七层模型TCP/IP 四层模型核心功能Android 相关场景应用层(7 层)应用层定义数据格式(HTTP/HTTPS/FTP/API)OkHttp/Retrofit…

postgresql主从集群一键搭建脚本分享

脚本1: cat pg_ms_install.sh #!/bin/bash # 基础环境配置(保持不变) setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/n…