【论文阅读】VAD: Vectorized Scene Representation for Efficient Autonomous Driving

一、介绍

VAD是华科团队设计的一个端到端无人驾驶框架,针对传统的无人驾驶框架的模块化设计的问题,该算法使用向量化的策略进行了端到端的实现。传统的模块化设计使得感知模块完全依赖于感知模块的计算结果,这一解耦实际上从规划模块的角度损失了很多的信息,诸如语义信息。VAD采用向量化的策略进行了重新设计,从实验结果上来看超过了上海实验室提出的UniAD。

二、方法

VAD的模型以多视角的图像作为输入,编码后提取BEV特征,该特征会被送到Transformer中提取两类特征,这两类特征后续应用到轨控模块中。
在这里插入图片描述

3.1 Vectorized Scene Learning

这一节主要是介绍特征提取的部分。首先论文并没有介绍从多视角图像到BEV图像这个过程是如何实现的,应该是直接使用了现成的转换模型。论文直接是从得到BEV视角后开始介绍的。这一部分实际上包括了两种查询:Ageng query和Map query。这里的query实际上就是Transformer里面的那个query,我们主要就是训练这个query。

Map query

先给出结论, 这一个查询输入是BEV视角下的特征,输出是场景中的向量化的实例特征,可以理解为“当前场景中的物体以及哪些点归属于这些物体”。这个实例特征作者起名叫做map vector,它是一个Nm×Np×2大小的矩阵,其中Nm表示场景中物体的数目、Np为一个物体占据的点的数目,最后的2则是说它在BEV视角下的位置。这一个模块中算法主要关注三个内容:车道分割线、道路边界以及人行横道。简单来说就是通过Transformer处理之后,最后转换为一个三分类任务。

Agent query

与Map query类似,这一部分其实也是提取一类特征,主要是对场景中的物体的行进轨迹进行预测,这一预测会被用到后续的规划中。这一部分的输入依然是BEV视角下的特征,输出的是一个大小为Na×Nk×Tf×2的矩阵,其中Na表示场景中物体的数量,Nk表示行驶状态,Tf表示未来的时间戳,最后的2则是BEV视角下的坐标。我的理解是,这个矩阵表示了未来Tf时间内,Na个车辆的行驶状态及位置。相当于在这个模块内进行了所有交通参与者的状态预测,利用这一预测结果来约束后面轨控模块的行驶策略。

在这个模块中,稍微补习了一下Transformer的内容,在Transformer的编码器中,关键的三个值是query、key和value,其中query是我们训练的结果,key和value则是输入的变种。对于VAD中的查询模块,key和value都来源于BEV视角下的特征输入。这里的过程如下图:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
查询的数量并不等于类别数量,查询相当于多个卷积核,只负责特征的提取,而真正影响类别数量的是最后softmax层的结构。计算Key和Value的时候,映射矩阵Wk和Wv相当于一个降维的作用,负责对齐Key、Value以及Query的维度,这两个映射矩阵也是模型需要学习的参数。计算注意力的时候,所涉及的维度变化为:
在这里插入图片描述
在计算注意力之前,其实就已经存在一个展平的过程,原本BEV应该是H×W×C大小的,每张图是H×W,一共有C张,在计算键值的时候就已经展平了,这样子才可以与Wk和Wv进行计算,计算之后的键值变为D个长度为H×W的向量,拼成一个二维矩阵,key首先与query进行计算,得到相关性,这一相关性与value加权求和,得到大小为Nm×D的二维矩阵,表示D个长度为Nm的向量,可以解释为Nm个关键信息,每个信息都是一个长度为D的向量。这些信息会通过MLP解码进行后处理,将D维度调整为Np×2的维度,这样子就可以恢复出地图元素的位置以及包括的点。最终变成Vm:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索Java多线程的核心概念与实践技巧,带你从入门到精通!

各位看官早安午安晚安呀 如果您觉得这篇文章对您有帮助的话 欢迎您一键三连,小编尽全力做到更好 欢迎您分享给更多人哦 今天我们来学习多线程编程-"掌握线程创建、管理与安全": 上一节课程我们铺垫了一系列的东西,引出来了我们的多…

互动多媒体项目 自行车互动

该项目为UE4 +自行车骑行速度 互动项目 结果预览 : 1. 获取自行车速度 这里使用的是Arduino单片机 + 霍尔传感器 霍尔传感器: 单片机完整代码: #define HALL_PIN 2 // 霍尔传感器连接到D2(中断引脚) volatile unsigned long lastTime = 0; // …

STM32——GPIO介绍

GPIO(General-Purpose IO ports,通用输入/输出接口)模块是STM32的外设接口的核心部分,用于感知外界信号(输入模式)和控制外部设备(输出模式),支持多种工作模式和配置选项。 1、GPIO 基本结构 STM32F407 的每个 GPIO 引脚均可独立配置,主要特性包括: 9 组 GPIO 端口…

学习笔记:Python网络编程初探之基本概念(一)

一、网络目的 让你设备上的数据和其他设备上进行共享,使用网络能够把多方链接在一起,然后可以进行数据传递。 网络编程就是,让在不同的电脑上的软件能够进行数据传递,即进程之间的通信。 二、IP地址的作用 用来标记唯一一台电脑…

DeepSeek 医疗大模型微调实战讨论版(第一部分)

DeepSeek医疗大模型微调实战指南第一部分 DeepSeek 作为一款具有独特优势的大模型,在医疗领域展现出了巨大的应用潜力。它采用了先进的混合专家架构(MoE),能够根据输入数据的特性选择性激活部分专家,避免了不必要的计算,极大地提高了计算效率和模型精度 。这种架构使得 …

JetBrains学生申请

目录 JetBrains学生免费授权申请 IDEA安装与使用 第一个JAVA代码 1.利用txt文件和cmd命令运行 2.使用IDEA新建项目 JetBrains学生免费授权申请 本教程采用学生校园邮箱申请,所以要先去自己的学校申请校园邮箱。 进入JetBrains官网 点击立即申请,然…

LINUX网络基础 [五] - HTTP协议

目录 HTTP协议 预备知识 认识 URL 认识 urlencode 和 urldecode HTTP协议格式 HTTP请求协议格式 HTTP响应协议格式 HTTP的方法 HTTP的状态码 ​编辑HTTP常见Header HTTP实现代码 HttpServer.hpp HttpServer.cpp Socket.hpp log.hpp Makefile Web根目录 H…

六十天前端强化训练之第八天到第十四天——综合案例:用户管理系统

欢迎来到编程星辰海的博客讲解 看完可以给一个免费的三连吗,谢谢大佬! 目录 一、知识体系详解 1. 变量与作用域 2. 箭头函数特性 3. 数组高阶函数 4. DOM操作原理 5. 事件传播机制 6. 闭包核心原理 7. 原型继承体系 8. Promise工作流程 二、综…

技术周总结 03.03 - 03.09 周日(Java监控 SpringAI)

文章目录 一、03.05 周三二、03.08 周六openAI 的Spring开发 一、03.05 周三 jvisualvm java自带的监控和故障排除工具 命令行执行后,会出现 JConsole 二、03.08 周六 openAI 的Spring开发 引入 spring-ai-openai-spirng-boot-starter 依赖 Spring AI http…

DeepSeek:中国AGI破局者的技术革命与生态重构

在AI领域被"算力霸权"与"技术垄断"笼罩的今天,一家来自杭州的初创公司正以颠覆性创新撕开行业铁幕。DeepSeek(深度求索)不仅重新定义了AGI技术研发范式,更通过开源生态构建引发全球AI产业格局的深度重构。 一…

manus本地部署使用体验

manus部署 https://github.com/mannaandpoem/OpenManus git clone https://github.com/mannaandpoem/OpenManus.git 或者手工下载zip包解压,包很小,只有几百K。 cd OpenManus-main #创建python环境,有python3的可以用python3 python -m ven…

【统计至简】【入门测试1】给定数据矩阵X,如何求其质心、中心化数据、标准化数据、格拉姆矩阵、协方差矩阵、相关系数矩阵

给定数据矩阵X,如何求其质心、中心化数据、标准化数据、格拉姆矩阵、协方差矩阵、相关系数矩阵。   设数据矩阵 X X X是一个 n p n\times p np的矩阵,其中 n n n是样本数量, p p p是变量数量, X ( x i j ) X (x_{ij}) X(xij​…

CI/CD—Jenkins、Maven安装

Jenkins简介 Jenkins 是一款广泛使用的开源持续集成和持续交付(CI/CD)工具,以下是对它的详细介绍: 基本信息 起源与发展:Jenkins 最早起源于 Hudson 项目,后来从 Hudson 项目中分离出来独立发展。自 2011 …

抽奖系统测试报告

项目链接: 管理员登录页面 项目功能: 管理员登录: 登录方式分为两种: 手机号密码登录: 正确输入密码和手机号登录 短信验证码登录: 输入手机号,等待验证码,输入验证码登录 管理员注册: 登录页面点击注册按钮即可注册管理员身份 人员管理模块: 人员管理模块分为注册…

【高级篇】大疆Pocket 3加ENC编码器实现无线RTMP转HDMI进导播台

【高级篇】大疆Pocket 3加ENC编码器实现无线RTMP转HDMI进导播台 文章目录 准备工作连接设备RTMP概念ENCSHV2推流地址设置大疆Pocket 3直播设置总结 老铁们好! 很久没写软文了,今天给大家带了一个干货,如上图,大疆Pocket 3加ENC编…

【 <一> 炼丹初探:JavaWeb 的起源与基础】之 Servlet 与 JSP 的协作:MVC 模式的雏形

<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、Servl…

【不是广告】华为昇腾的一小步,Pytorch的一大步

华为昇腾的一小步&#xff0c;Pytorch的一大步 关键词 首个、中国首个、全球第十、最高级别&#xff01;看看这些字眼&#xff0c;就知道事情不简单&#xff01; 书接上文《Pytorch的一小步&#xff0c;昇腾芯片的一大步》 在2023年10月4日PyTorch 2.1版本的发布博客上&…

python从入门到精通(二十六):python文件操作之Word全攻略(基于python-docx)

python文件操作之word技巧大全 word技巧基础到高级操作大全A.准备工作1. 安装python-docx库2. 导入库 B.基础操作1. 创建Word文档1.1 创建文档对象1.2 添加word标题1.3 添加word段落1.4 设置段落样式1.5 创建有序列表1.6 创建无序列表1.7添加word分页1.8 添加word图片1.9 添加w…

Debian二次开发一体化工作站:提升科研效率的智能工具

在科研领域&#xff0c;数据处理是实验成功的关键环节之一。随着实验数据的复杂性和规模不断增加&#xff0c;传统的数据处理方法已经难以满足科研人员的需求。这时&#xff0c;一体化工作站应运而生&#xff0c;成为科研实验数据处理的 “智能大脑”。 一体化工作站&#xff…

linux学习(五)(服务器审查,正常运行时间负载,身份验证日志,正在运行的服务,评估可用内存)

服务器审查 在 Linux 中审查服务器的过程包括评估服务器的性能、安全性和配置&#xff0c;以确定需要改进的领域或任何潜在问题。审查的范围可以包括检查安全增强功能、检查日志文件、审查用户帐户、分析服务器的网络配置以及检查其软件版本。 Linux 以其稳定性和安全性而闻名…