修改网站备案信息永州网站制作
web/
2025/9/30 3:36:18/
文章来源:
修改网站备案信息,永州网站制作,白河网站制作,做任务反佣金的网站前言
本文介绍激光雷达与相机进行多层次融合#xff0c;包括数据级融合、特征级融合和BEV级融合。
融合后的BEV特征可以支持不同的任务头#xff0c;包括语义分割、实例编码和方向预测#xff0c;最后进行后处理生成高清地图预测#xff0c;它是来自ICRA 2024的。
会讲解…前言
本文介绍激光雷达与相机进行多层次融合包括数据级融合、特征级融合和BEV级融合。
融合后的BEV特征可以支持不同的任务头包括语义分割、实例编码和方向预测最后进行后处理生成高清地图预测它是来自ICRA 2024的。
会讲解论文整体思路、模型框架、论文核心点、损失函数、实验与测试效果等。
论文地址SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation
代码地址https://github.com/haomo-ai/SuperFusion 一、模型框架
SuperFusion不仅支持30米内的短距离高清地图预测同时还支持长达90米的长距离高清地图预测供给下游路径规划和控制任务提高自动驾驶的平稳性和安全性。
SuperFusion的模型框架如下图所示 图像分支输入图像数据、稀疏点云图。提取图像特征点云特征。图像分支通过图像数据和点云特征进行深度估计。然后通过深度特征和图像特征生成视锥特征经过池化处理生成图像BEV特征。激光雷达点云分支输入点云数据经过主干网络提取特征。激光雷达点云分支通过融合图像特征图像引导远距离激光雷达BEV特征预测。BEV对齐与特征融合将相机和激光雷达的BEV特征结合起来。BEV特征后面接各种任务头比如BEV语义分割、实例检测、方向预测等。 二、多层次数据融合
原始的激光雷达和相机数据具有不同的特点
激光雷达数据提供准确的3D结构信息但存在无序和稀疏的问题。摄像头数据则紧凑能够捕捉环境的更多上下文信息但缺少深度信息。
将相机和激光雷达数据融合为三个层次以补偿这两种模态的不足并利用它们的优点
数据级融合图像深度估计中加入LiDAR的稀疏深度信息提高图像深度估计的准确性特征级融合使用图像特征通过交叉注意力机制来指导激光雷达特征实现长距离激光雷达BEV特征的预测BEV级融合将相机和激光雷达BEV特征对齐生成融合BEV特征 三、论文主要贡献 多层次激光雷达-摄像头融合网络的创新设计该设计充分利用了激光雷达和摄像头两种模态的信息生成高质量的融合BEV特征为不同的任务提供支持。这种多层次融合策略的核心优势在于其能够综合各种传感器提供的数据从而在细节和准确性方面提供了质的提升。 首次实现长距离HD地图生成据作者所知他们的工作是首次实现长达90米的长距离HD地图生成。这一创新对于自动驾驶的下游规划任务具有重大意义因为它极大地扩展了自动驾驶系统的感知和预测范围从而有助于提高自动驾驶车辆的安全性和效率。 在短距离和长距离HD地图生成方面超越现有最先进方法SuperFusion在生成高清晰度HD地图的短距离和长距离范围内都显著优于现有的融合方法。这一点特别重要因为它不仅显示了该方法在技术上的进步还证明了它在实际应用中的可行性和效用尤其是在需要精确长距离感知的自动驾驶场景中。 发布代码和新数据集作者不仅提出了一种创新的技术方法还公开了代码和一个新的用于评估长距离HD地图生成任务的数据集。
下面是SuperFusion自采集的数据集示例但目前还没看到公开 四、数据级融合——图像深度估计融合点云数据
原始的图像转为BEV视图遵循常规LSS思想需要对每个像素进行深度估计。
相比现有深度估计方法LSS和CaDDN存在显著差异。
LSS方法虽然也使用了激光雷达的深度信息但其深度预测仅由语义分割损失隐式监督精度不足。而CaDDN虽然利用了激光雷达深度进行监督但没有将激光雷达作为输入限制了深度估计的鲁棒性。
SuperFusion的深度估计方法
不仅使用了密集激光雷达深度图像进行监督还将稀疏深度图作为附加通道并入RGB图像。这种设计使得网络能够更有效地利用激光雷达和摄像头数据的互补信息提高了深度估计和HD高清地图生成的准确性和可靠性。 下面是SuperFusion进行图像深度估计的要点 原始数据融合首先在原始数据层面通过将激光雷达数据的深度信息融合到摄像头特征中来协助特征的BEV空间映射。这一步骤通过投影3D激光雷达点云到图像平面上生成与RGB图像对应的稀疏深度图像解决了摄像头数据缺乏深度信息的问题。 图像双分支网络摄像头端采用双分支网络设计。第一分支提取2D图像特征第二分支则连接一个深度预测网络估算出每个元素的深度分布。通过这种结构能够更好地估计深度信息为生成密集深度图提供基础。 生成密集深度图作为标签在稀疏深度图上插值生成密集深度图此方法通过将每个像素的深度值离散化到深度分箱中然后使用one-hot编码向量对深度预测网络进行监督从而改善深度估计的准确性。 特征网格生成最终通过密集深度图和2D特征的外积生成最终的视锥frustum特征网格。这个特征网格能够支持不同的任务头如语义分割、实例嵌入和方向预测为生成HD高清地图预测提供数据支持。
公式版理解图像特征与深度特征融合 其中M是指最终的视锥特征网格、(u,v)是指像素位置、D是指深度分布特征、F是指图像特征。⊗表示外积操作它用于结合两个向量D和F生成最终的视锥特征网格M。外积操作允许这两个向量的信息在每个像素位置相互补充从而产生一个包含深度和视觉特征的综合表示。
各个特征的维度
图像特征深度分布特征视锥特征BEV特征 五、特征级融合——远距离激光雷达BEV特征预测融合图像特征
如下图所示激光雷达通常在地面平面上具有较短的有效范围而摄像头可以看到更远的距离。 这种差异是因为激光雷达通过发射激光束并测量反射回来的时间来确定对象的距离和形状而摄像头通过捕捉光线形成图像能够覆盖更大范围的视野。
通过融合图像特征使得图像引导激光雷达远距离BEV特征预测使用交叉注意力机制实现的。
激光雷达分支用PointPillars和动态体素化作为点云编码器生成每个点云的激光雷达BEV特征。由于激光雷达数据只包含一定范围内通常约30米的地面平面信息这导致许多激光雷达BEV特征编码了大量的空白空间。图像辅助预测与激光雷达相比摄像头能够覆盖更远的地面区域。因此提出了一个预测模块利用图像特征来预测激光雷达分支中未见区域的地面。这一预测模块是一个编解码器网络通过卷积层将原始BEV特征L压缩到瓶颈特征B然后使用交叉注意力机制来动态捕获B和前视图像特征F之间的关联。
融合的思路框架如下图所示 交叉注意力机制用三个全连接层分别将压缩后的LiDAR BEV特征B转换为查询Q图像特征F转换为键K和值V。然后计算Q和K的内积表示激光雷达BEV中每个体素与其对应摄像头特征之间的相关性。通过softmax操作归一化这个矩阵然后与V相乘得到聚合特征A。特征融合最后将通过交叉注意力得到的聚合特征A通过卷积层处理以减少通道数与压缩后的LiDAR BEV特征B进行拼接再应用另一个卷积层最终生成激光雷达BEV特征L′。
交叉注意力用公式表示为 公式解析如下 六、BEV级融合——多模态BEV对齐与特征融合
BEV对齐与特征融合的思路流程如下图所示将摄像头和激光雷达的BEV特征有效地结合起来以改善长距离LiDAR BEV特征的预测。 输入特征模块接收两种类型的BEV特征摄像头BEV特征C和预测的LiDAR BEV特征L′。摄像头BEV特征来自图像特征和深度估计特征而预测的LiDAR BEV特征则是通过之前描述的图像引导的LiDAR BEV预测方法得到的。 对齐的需求由于深度估计误差和外部参数的不准确从摄像头和激光雷达分支得到的BEV特征通常存在错位。直接连接这两种BEV特征会导致性能下降。为了解决这一问题设计了一个BEV对齐和融合模块来改善特征的对齐并提高整体预测性能。 特征对齐使用流场Flow Field Δ来对摄像头BEV特征C进行空间变换以对齐到LiDAR BEV特征的参考框架生成对齐后的摄像头BEV特征C′。这一步骤是关键因为它确保了两种类型的特征在空间上的一致性从而使得融合更加有效。 特征融合对齐后的摄像头BEV特征C′和预测的LiDAR BEV特征L′通过拼接Concat操作结合在一起然后通过卷积层Conv、批标准化BN和ReLU激活函数处理以融合这些特征并提取有用的信息生成融合后的BEV特征。 输出最终的融合BEV特征可以被用作下游任务例如语义分割、方向预测和物体检测的输入进一步处理以生成更准确的BEV地图。
通过流场Δ对齐摄像头的BEV特征C到激光雷达的BEV特征L′用公式表示 通过对每个像素位置进行变形操作来完成的采用双线性插值的方式。
以下是公式各部分的解释 七、损失函数
SuperFusion损失函数由四部分组成考虑深度估计、语义分割、实例嵌入和方向预测损失。总体损失函数如下所示 语义分割使用交叉熵损失来指导语义分割的学习。
方向预测将方向分为36个等分的类别覆盖360度使用交叉熵损失进行优化。这种离散化处理允许模型以分类问题的形式来预测车道方向。
深度预测采用焦点损失Focal Loss进行优化其中γ2.0。焦点损失用于解决深度预测中的不平衡问题增强模型对难以预测或少数类样本的关注。
实例嵌入实例嵌入预测的损失定义为方差损失和距离损失的组合通过参数α和β加权。
其中实例嵌入的损失公式如下所示 八、模型细节信息
模型架构设计 摄像头分支主干网络采用ResNet-101作为摄像头分支的主干网络。ResNet-101是一个深度残差网络广泛用于图像识别和处理任务中提供了强大的特征提取能力。 激光雷达LiDAR分支骨干网络选择PointPillars作为LiDAR分支的骨干网络。PointPillars是专门为点云数据设计的网络能有效处理三维空间信息。 深度估计对DeepLabV3进行了修改使其能够生成像素级别的深度箱概率分布用于深度估计。DeepLabV3是一个语义分割网络这里的修改让它能够适应深度预测任务。
训练细节 预训练与初始化摄像头分支的DeepLabV3骨干网络使用在MS-COCO数据集上预训练的模型进行初始化其余部分随机初始化。这有助于加速训练过程并提高模型性能。 图像尺寸和点云体素化图像尺寸设置为256×704点云数据以0.15m的分辨率体素化。这样的设置平衡了处理速度和精度。 BEV HD地图范围设置BEV HD地图的范围为0,900,90m × −15,15−15,15m对应的深度箱间隔设为2.0–90.0m间隔为1.0m。这个范围和深度分辨率适应了车辆周围环境的观测需求。 九、实验测试与效果
在nuScenes数据集测试下面是不同方法的高精地图预测结果。 红色汽车代表汽车的当前位置。每张地图相对于汽车的垂直长度为 90 m。不同的颜色表示不同的高精地图元素实例。对于地面真实高清地图绿色是车道边界红色是车道分隔线蓝色是人行横道。
nuScenes 数据集上高精地图语义分割的 IoU 分数% IoU交并比越高越好C相机L激光雷达
nuScenes 数据集上转动场景的高清地图生成的 IoU 分数 (%) 将 HDMapNet 和我们的结果进行比较并显示SuperFusion的性能改进 粗体数字是最好的性能红色数字表示更大的改进。 nuScenes 数据集上的实例检测结果。 倒角距离的预定义阈值是 1.0 mIoU 阈值是 0.1例如当且仅当 CD 低于且 IoU 高于定义的阈值时预测才被视为真阳性AP越高越好 生成的高清地图上的路径规划结果 在自采集数据集远距离高清地图生成效果 本文先介绍到这里后面会分享“多模态融合”的其它数据集、算法、代码、具体应用示例。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/84235.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!