有哪些做网站的专门做离异相亲的网站

diannao/2026/1/20 11:43:39/文章来源:
有哪些做网站的,专门做离异相亲的网站,wordpress支持pdo,个人社保网上服务平台今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD#xff0c;其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日#xff0c;性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planni…今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving主要作者来自Udeer.ai、西湖大学和和菜鸟网络。 Abstract 构建多模态、多任务神经网络以实现准确和稳健的性能是自动驾驶感知任务的事实标准。然而利用来自多个传感器的这些数据来联合优化预测和规划任务在很大程度上仍未得到探索。为此我们提出了 FusionAD这是第一个融合来自两个最关键传感器相机和 LiDAR 信息的统一框架超越了感知任务。具体来说我们首先构建了一个基于transformer的多模态网络以有效地产生基于融合的特征。与基于相机的端到端方法UniAD相比我们建立了一个旨在融合模态感知预测和状态感知规划的模块。它利用了多模态特征在这里称为 FMSPnP。我们在常用的基准nuScenes数据集进行了广泛的实验FusionAD在检测和跟踪等感知任务上有最先进的性能。它平均超过基线15%占用预测精度提高10%ADE评分的预测误差从0.708降低到0.389并将碰撞率从0.31%降低到仅0.12%。 Introduction 在过去的几年里深度学习一直在加速自动驾驶 (Autonomous DrivingAD) 的发展。对于自动驾驶AD算法通常将相机和激光雷达信号作为感知输入然后直接输出控制命令。AD任务通常分为感知、预测和规划。在传统的范式中AD中的每个学习模块分别使用自己的主干并独立执行学习任务。此外预测和规划等下游任务通常依赖于感知结果的向量化表示而高级语义信息通常是不可用的如图所示。 以前基于端到端学习的方法通常基于透视视图相机和激光雷达信息直接输出控制命令或轨迹。最近的端到端学习方法开始将端到端学习表述为一个多任务学习问题同时输出中间信息以及计划的轨迹。这些方法仅采用单一输入模式。另一方面特别是通过融合激光雷达和相机信息进行感知任务可以显著提高感知结果。最近人们对BEV (Bird’s Eye View)感知的兴趣激增特别是对于以视觉为中心的感知。这一发展显著提高了自动驾驶汽车的能力并使视觉和激光雷达模式的融合更加自然。对于感知任务已经证明了使用基于BEV融合的方法是非常有效的。然而以端到端的方式使用来自多模态传感器的特征在预测和规划任务中仍未得到探索。 为此我们提出了 FusionAD。据我们所知这是第一个基于专注于自动驾驶预测和规划任务的BEV多模态、多任务端到端学习框架。我们从最近流行的以视觉为中心的方法开始来制定我们的pipeline。首先我们设计了一个简单而有效的transformer架构融合多模态信息在BEV transformer 空间中产生统一特征。由于我们的主要重点是探索融合特征以增强预测和规划任务为此制定了融合模态感知预测和状态感知规划的模块称为FMSPnP。它结合了渐进式交互和细化制定了基于融合的碰撞损失建模。与其他方法不同的是FMSPnP 模块利用了如图所示的分层金字塔架构以确保所有任务都可以从中间感知特征中受益。该方法更好地传播高级语义信息并有效地共享不同任务之间的特征。 我们在流行的自动驾驶基准nuScenes数据集上进行了广泛的实验实验表明FusionAD显著优于目前最先进的方法。主要贡献总结如下 我们提出了一种基于BEV融合的自动驾驶多感知、多任务、端到端的学习方法。与基于相机的BEV方法相比基于融合的方法大大提高了性能。 我们提出了 FMSPnP 模块该模块结合了模态自注意力和预测任务以及宽泛的碰撞损失和与矢量化的自我信息融合以进行规划任务。实验研究表明FMSPnP提高了预测和规划结果。 我们对多个任务进行了广泛的研究以验证所提方法的有效性实验结果表明FusionAD在预测和规划任务中取得了SOTA结果同时在中间感知任务中也保持具有竞争力的结果。 Related work BEV Perception BEV感知方法在自动驾驶中用于感知周围环境引起了人们广泛的关注。基于相机的BEV方法将多视角摄像机图像特征转换为BEV空间无需后处理重叠区域即可实现端到端感知。LSS 和BEVDet 使用基于图像的深度预测来构建视锥并提取图像BEV特征进行地图分割和3D对象检测。在此基础上BEVdet4D和SoloFusion通过将当前帧BEV特征与对齐的历史帧BEV特性相结合来实现时间融合。BEVFormer使用带有transformer的时空注意力来获得时间融合的图像BEV特征。这些方法提高了对动态环境的理解增强了感知效果。但是基于相机的感知方法距离感知精度不足LiDAR可以提供准确的位置信息然其点云又是稀疏的。为了解决这个问题之前的一些方法探索了融合多模态数据以进行感知。BEV是基于Lidar的感知算法的一个共同视角将多模态特征转换为BEV空间有助于融合特征的融合。BEVFusion将LSS方法得到的图像BEV特征与Voxelnet得到的LiDAR BEV特征连接起来得到融合的BEV特征提高了感知性能。SuperFusion进一步提出了基于多模态地图感知的多阶段融合。 Motion Forecasting 由于VectorNet方法取得的成功现在主流运动预测(或轨迹预测)方法通常利用高清地图和基于矢量的障碍物表示来预测agent的未来轨迹。在此基础上LaneGCN和PAGA通过改进的地图特征(如车道连接属性)来增强轨迹-地图匹配。此外某些基于锚点的方法对地图附近的目标点进行采样从而能够基于这些点进行轨迹预测。然而这些方法严重依赖于预先收集的高清地图这使得它们不适合地图不可用的区域。 矢量化预测方法往往缺乏高级语义信息需要高清地图辅助因而最近的工作开始使用原始感知信息进行轨迹预测。PnPNet提出了一种新的跟踪模块该模块从检测任务中在线生成目标轨迹并利用轨迹级特征进行运动预测但其总体框架基于CNN运动预测模块相对简单只有单模输出。由于transformer应用于检测和跟踪VIP3D成功地借鉴了以前的工作提出了第一个基于transformer的联合感知预测框架。UniAD进一步合并了更多的下游任务并提出了一个面向规划的端到端自动驾驶模型。在前辈的基础上我们对运动预测任务进行了更精细的优化并引入了细化机制和模型注意力大大提高了预测指标。 Learning for Planning 模仿学习(IL)和强化学习(RL)已被用于规划。IL 和 RL 用于端到端方法 使用图像和/或激光雷达作为输入或矢量化方法使用矢量化感知结果作为输入。虽然使用中间感知结果进行规划可以提高泛化和透明度但矢量化方法存在后处理噪声和感知结果的变化。早期的端到端方法如ALVINN和PilotNet通常直接输出控制命令或轨迹而缺乏中间结果/任务。相反P3、MP3、UniAD学习了一个端到端的可学习网络该网络执行联合感知、预测和规划可以产生可解释的中间表示提高了最终的规划性能。然而它们要么只使用激光雷达输入要么利用相机输入这限制了它们的性能。Transfuser方法同时使用激光雷达和相机输入但不在BEV空间中只执行很少的AD学习任务作为辅助任务。为了解决这个问题我们提出了一种基于BEV融合的、统一的多模态、多任务框架该框架同时融合激光雷达和相机输入。 Method 我们提出的FusionAD的整体网络架构如图所示。最初使用基于BEVFormer的图像编码器将相机图像映射到BEV空间。然后这些再与BEV空间中的激光雷达特征相结合。再经过时间融合之后融合的 BEV 特征将用于通过基于查询的方法进行检测、跟踪和映射任务。随后token被转发到运动和占用预测任务和规划任务。我们把辅助模态感知预测和状态感知规划模块简称为FMSPnP。 BEV Encoder and Perception 我们从FusionFormer中获得灵感提出了一种新的多模态时间融合框架用基于transformer的架构进行三维目标检测。为了提高效率我们采用类似于BEVFormer的循环时间融合技术。与FusionFormer不同我们使用BEV格式的特征作为LiDAR分支的输入而不是体素特征。多模态时间融合模块包括6个编码层首先利用一组可学习的BEV查询器分别使用points cross-attention和image cross-attention融合LiDAR特征和图像特征然后我们通过时间自注意力将生成的特征与前一帧的历史BEV特征融合。查询由前馈网络更新然后作为下一层的输入。经过6层融合编码后这将为后续任务生成最终的多模态时间融合BEV特征。 LiDAR 首先对原始LiDAR点云数据进行体素化然后根据SECOND网络生成LiDAR BEV特征。 Camera 多视角相机图像首先通过骨干网进行特征提取然后利用FPN网络生成多尺度图像特征。我们进一步开发了以下技术来有效地提高融合模块的性能。 Points Cross-Attention 在points cross-attention过程中每个BEV查询只与其对应的参考点周围的LiDAR BEV特征交互。这种交互是使用可变形注意力实现的 其中 Qp 表示点 p (x, y) 处的BEV查询BLiDAR表示LiDAR分支输出的BEV特征。P是BEV空间中坐标p(xy)在LiDAR BEV空间中的投影。 Image Cross-Attention 为了实现image cross-attention我们参照了BEVFormer类似的方法。每个BEV查询都以类似于pillar表示。在每个pillar沿 Z 轴采样固定数量的 Nref 3D 参考点。image cross-attention过程如下所示: 其中 Vhit 表示可以投影参考点的相机视图的数量i 是相机视图的索引Fi 表示第 i 个相机的图像特征P (p, i, j) 表示 BEV 查询 Qp 到第 i 个相机的图像坐标系中的 3D 参考点 (x, y, zi) 的投影。 Temporal Self-Attention 我们还参考了BEVFormer来实现时间自我注意。具体来说我们的方法涉及基于车辆在帧之间的运动的历史帧 BEV 特征的时间对齐。然后我们使用时间自注意力来融合历史帧 BEV 特征如下所示 其中B t−1表示时间对齐后时间戳t−1处的BEV特征。由于我们对预测和规划增强感兴趣对于感知中的检测、跟踪和映射任务我们主要遵循UniAD论文中的设置。 Prediction 得益于信息量更大的BEV特征预测模块能接收到更稳定、更细粒度的信息。在此基础上为了进一步捕获多模态分布并提高预测精度我们引入了模态自注意力和细化网络。设计细节可以在下图中找到Design of the prediction module in FMSPnP。 Context-Informed Mode attention 在UniAD中使用数据集级的统计锚点来辅助多模态轨迹学习并应用锚点间自注意力来提高锚点的质量。然而由于这些锚点没有考虑历史状态和地图信息它们对多模态学习的贡献是有限的。因此我们稍后考虑添加此操作。在运动查询检索所有场景上下文以捕获代理-代理、代理-地图和代理-目标点信息后我们引入 mode self-attention来实现各种mode之间的相互可见性从而获得更好的质量和多样性。 其中MHSA表示多头自注意。Qu 表示获取上下文信息的查询。 Refinement Network 可变形注意力使用统计锚作为参考轨迹与 Bev 特征交互。如前所述由于需要特定的场景信息该参考轨迹增加了后续学习的难度。我们引入了一个Refinement Network使用Motionformer生成的轨迹作为更精确的空间先验查询场景上下文并在这个阶段预测地面真实轨迹和先验轨迹之间的偏移量。如下所示 Anchorp 表示空间先验一个简单的MLP将用于对Motionformer输出的轨迹进行编码在时间维度上执行maxpool得到它。Xm表示Motionformer输出轨迹的端点。 Planning 在评估过程中我们无法访问高清 (HD) 地图或预定义的路线。因此我们依靠可学习的命令嵌入来表示导航信号包括左转、右转和保持前进来指导方向。为了获得周围的嵌入我们将由自我查询和命令嵌入组成的计划查询输入到BEV特征中。然后我们将其与由 MLP 网络处理的自我车辆嵌入进行融合以获得状态嵌入。然后将此状态嵌入解码为未来的航路点 ^τ。 为了确保安全在训练过程中除了简单的imitation L2 loss外我们还将碰撞损失的可微分collision loss纳入如下设计。 其中 λimi 1, λcol 2.5, ^τ 是原始规划结果~τ 表示规划标签b 表示场景中预测的代理。碰撞损失由下式计算 Trainning 我们利用三阶段训练进行多传感器、多任务学习。在第一阶段我们只训练BEV编码器和感知任务;在第二阶段我们固定BEV编码器并训练感知、预测和规划任务;而对于可选的第三阶段我们进一步训练占用和规划任务固定所有其他组件。 Experiments Experiment Setup 我们使用 32 个 A100 GPU 进行实验训练使用 nuScenes 数据集包括在波士顿和新加坡捕获的 1000 个驾驶场景。每个场景跨越大约 20 秒nuScenes 提供了 140 万个 3D 边界框其中包含 23 个不同的类别以 2Hz 采样。我们遵循业界常用评估方法来评估端到端自动驾驶任务的性能。具体来说使用 mAP 和 NDS 来评估检测任务AMOTA 和 AMOTP 来评估跟踪任务IoU 来评估映射任务而且使用端预测精度 (EPA)、平均位移误差 (ADE)、最终位移误差 (FDE) 和错误率 (MR) 来评估运动预测的性能。对于未来的占用率预测我们使用FIERY中采用的近(30 × 30m)和远(100 × 100m)范围的度量未来视频全景质量(VPQ)和IoU。我们采用位移误差(DE)和碰撞率(CR)来评价规划性能其中碰撞率被认为是主要指标。 Experiment Results The results of motion forecasting FusionAD remarkably outperforms The results of occupancy prediction FusionAD remarkably outperforms Planning Results: FusionAD achieves the stateof-the-art performance Ablation Studies 消融实验相对来说做得少些。 FMSPnP模块相关的消融研究如表五和表六所示。很明显细化网络和self-attention模块对提高预测结果有显著贡献。同时对规划结果而言当过去轨迹矢量化表示和自我状态相融合时观察到显著的改进。 Qualitative Results Discussion 虽然所提出的方法表现出很强的定量和定性性能但它仍然依赖于基于规则的系统对输出进行后处理以实现可靠的现实世界性能。此外目前的研究工作主要使用规划任务的开环结果来评估学习的规划器这可能无法有效地衡量其性能。用真实世界的感知数据以闭环方式评估规划器带来了挑战。尽管如此端到端框架下的预测结果仍然很有希望并且有可能在此框架内进一步改进规划模块。  Conclusions 我们提出了FusionAD这是一种利用BEV融合来促进多感知、多任务、端到端的学习新方法从而显着增强自动驾驶领域的预测和规划任务。该方法强调了将统一的端到端框架有效地扩展到基于融合方法的潜力。与仅依赖于基于相机的BEV的端到端学习方法相比在预测和规划任务上都有显着的性能改进同时也提高了感知性能。 https://arxiv.org/abs/2308.01006

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/89987.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

漫画网站开发源码社交模板wordpress

MySQL 御用的 ODBC 驱动程序发布了 5.2.4 版本,下载地址: http://dev.mysql.com/downloads/connector/odbc/5.2.html 没有改进说明! 转载于:https://www.cnblogs.com/shihao/archive/2013/02/06/2901851.html

北京朝阳网站制作仿网站建设教程视频教程

光端机,就是光信号传输的终端设备。光端机现在能传输的业务很多,如:视频,音频,数据,开关量,电话,以太网等。那么,你对光端机的几种物理接口了解吗,是否懂得光…

惠州市 网站开发公司重庆建站免费模板

文章目录一、专题页1. 效果图2. 专题api2.Topic.vue 组件3. 专题源码二、分类页2.1. 效果图2.2. 分类api2.3. Category.vue 组件三、购物车页3.1. 效果图3.2. 购物车api3.3. 购物车页面四、我的页4.1. 效果图4.2. 定义api4.3. User.vue五、路由守卫和异常处理5.1. 编写路由守卫…

成都网站外包公司北京南站地铁线路图

越狱 第一季 Prison Break Season 1 (2005) 本季看点:迈克尔斯科菲尔德是一头陷于绝境欲拼死一搏的怒狮——他的哥哥林肯巴罗斯被认定犯有谋杀罪被投入了福克斯河监狱的死囚牢。虽然所有的证据都指出林肯就是凶手,迈克尔坚信兄长是无辜的。林肯的死刑执行…

推广型网站建设软件建一个素材网站多少钱

第三讲 stl六大部件:算法是函数模板,其他的是类模板 算法形式:传入两个迭代器(第三个参数可能有:一个比较的准则 算法需要的所有信息从迭代器获取 迭代器分类 基于红黑树的结构是双向迭代器; 基于hash的取…

自建团队网站开发要多少钱网站开发详细流程图

每次狂按快门的结果就是得到海量的数码照片,想传上网的话,最起码也要做一些尺寸方面的处理,这么多照片,真的要一张一张处理吗?Photoshop自有好用的Action工具帮我们做批处理。 一、前期准备 在图片所在文件夹里添加一个…

wordpress网站500错误网络架构模拟设计报告

一、硬链接 1.inode和block 文件包含两部分数据:文件属性和实际内容,属性放在inode中,实际内容放在data block中。还有个超级区块(superblock)记录整个文件系统的整体信息,包括inode和block的总量&#x…

海外营销网站设计自做建材配送网站

语法: INSERT INTO 表名([字段名1,字段名2,字段名3])VALUES(值1),(值2),(值3), 注意事项: 字段和字段之间,使用英文逗号隔开 字段是可以省略的,但是后面的值必须一一对应&…

南昌网站建设工作传奇新开服网站

例子:查询1000到1020区间的数据 BETWEEN AND

怎样给网站做 站内搜索网站服务器租用协议

目录 一.安装jdk 二.安装tomcat 三.安装MySQL 四.部署项目 好啦今天就到这了,希望帮到你了哦 前言:具体步骤: 1.安装JDK: 2.安装tomcat: 3.安装MySQL: 4.部署项目: 一.安装jdk 将所需文件放…

那些网站需要备案网页制作软件下载

3月21日,由文化和旅游部产业发展司主办,中国信息通信研究院、北京市石景山区文化和旅游局、中国动漫集团有限公司承办的“数字赋能文旅场景建设行动——文化和旅游虚拟现实应用推广交流活动”在北京首钢一高炉SoReal科幻乐园成功举办。 思腾合力CMO徐莉受…

做类似交易猫的网站有一个箭头的做网站的软件

假期结束,看点题目。 第一题 问题 设顺序表用数组A[]表示,表中元素存储在数组下标1~mn的范围内,前m个元素递增有序,后n个元素递增有序,设计一个算法,使得整个顺序表有序。 (1)给出算…

网站 建设 网站设计公司网站一键生成手机网站

最新越发觉得AI的发展,对未来是一场革命,LangChain已经在工程设计上有了最佳实践,类似于AI时代的编程模型或编程框架,有点Spring框架的意思。之前在LangChain上也有些最佳实践,所以在这里分享记录下。 LangChain解决什…

优秀设计作品的网站抖音推广费用标准

如何把握带教中的“度”,才能在把事情做好的基础上,又能使员工获得成长呢? 需要做到 合理授权 & 适当辅导 如何做到? 通过使用 意愿-技能矩阵(Will-Skill Matrix) 辨别不同带教方法的适用情形,"盘"…

石家庄网站设计公司手机app制作下载

嗨嗨嗨!兄弟姐妹大家好哇!今天我们来学习ajax的get和post请求 一、了解ajax Ajax(Asynchronous JavaScript and XML)是一种在 Web 开发中用于创建交互式网页应用程序的技术。通过 Ajax,网页可以在不重新加载整个页面…

花木网站源码开封网站建设培训学校

从今天开始记录一下平常开发工作中的报错记录,后续有错误动态补充! 报错信息:【MSB8041】此项目需要 MFC 库。从 Visual Studio 安装程序(单个组件选项卡)为正在使用的任何工具集和体系结构安装它们。 解决: 背景:换…

东方网络律师团队广州seo优化公司排名

这段Lua脚本定义了一个名为 ai_autofight_find_way 的类,继承自 ai_base 类。 lua 游戏架构 之 游戏 AI (一)ai_base-CSDN博客文章浏览阅读238次。定义了一套接口和属性,可以基于这个基础类派生出具有特定行为的AI组件。例如&…

asp个人网站论文策划公司收费

前言: Hello大家好,我是Dream。 今天来学习一下机器学习实战中的案例:创建客户细分,在此过程中也会补充很多重要的知识点,欢迎大家一起前来探讨学习~ 一、导入数据 在此项目中,我们使用 UCI 机器学习代码库…

宠物网站设计首页模板郑州建站多少钱

项目启动端口被占用 Identify and stop the process that’s listening on port XXXX or configure this application to listen on another port. 1、查询占用端口的pid netstat -aon|findstr "端口号"2、终止进程 taskkill /pid 进程号 /f3、重启项目

义乌外发联合加工网汕头最好的seo外包

大家好,如果您正在准备编程工作面试或正在寻找新工作,那么您知道这不是一个容易的过程。 在您职业的任何阶段,您都必须幸运地接到电话并进行第一轮面试,但是在初学者方面,当您寻找第一份工作时就更加困难。 这就是为什…