Simple-BEV的bilinear_sample 作为view_transformer的解析,核心是3D-2D关联点生成

文件路径models/view_transformers

父类 是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。

函数解析

  • 函数bev_coord_to_feature_coord的功能

鸟瞰图3D坐标通过多相机(针孔/鱼眼)内外参投影图像特征平面,生成归一化采样坐标与有效掩码,实现多视角特征的空间对齐与融合筛选。
代码

def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):...

首先:函数接收多个参数,包括特征、块索引、外参、内参、畸变参数等。
然后:处理不同相机类型(针孔和鱼眼)的索引
然后:生成3D点(通过gridcloud3d()函数实现,非均匀空间采样),将记忆坐标系中的点转换到自我车辆坐标系(get_bevgrid()matrix_mem_egocar)。并通过外参矩阵转换到相机坐标系。对于针孔相机,计算投影点,并进行畸变校正,然后将坐标转换到特征图的比例。对于鱼眼相机,处理类似,但使用了不同的畸变模型。
最后:合并两种相机的结果,并根据块索引屏蔽某些相机的特征。

这里面核心的是“对于针孔/鱼眼相机,计算投影点”。
首先,生成相机索引

pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole+ num_cams_fisheye) + self.num_cams * i for i in range(B)])

操作演示,num_cams_pinhole有1个,num_cams_fisheye有4个,num_cams 是5个。
在这里插入图片描述
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()生成的3D点。
然后用内外参数将3D点转换到图像2D点

        # 投影3D点到2D图谱 (原始图像尺寸是 2160x3840)外参逆矩阵 = 外参矩阵.inverse()2D图像的点 = (内参矩阵 @ 外参逆矩阵)@ 3D点  # 尺寸是(BN,4,K)2D图像的点 = 2D图像的点.transpose(2, 1)  #  尺寸是(BN, k, 4)2D深度检测Mark = (2D图像的点[:, :, 2] > 0.0).bool() # 投影点的深度(z坐标)是否为正值,排除位于相机后方的点(不可见)# (X, Y, Z, 1)-> (X/Z, Y/Z, 1, 1)2D图像的点 = 2D图像的点[0:2]/2D图像的点[2]# 增加一个维度2D图像的点 = torch.cat(2D图像的点,ones)# 通过 ida_pinhole(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。2D图像的点 = 图像坐标系转移矩阵 @ 2D图像的点# 缩放2D图像的点 = 2D图像的点/下采样系数# 滤除无效区域的Mark2D的X轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()2D的Y轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)

对于鱼眼相机

3D相机的点 = 外参逆矩阵 @ 3D点  # 
内参矩阵的仿射部分 = 内参[:2,:2]  # (焦距和轴间缩放),用于将归一化坐标映射到图像平面
内参矩阵中的主点坐标 = 内参[0:2, 2](图像中心偏移),用于投影时的平移校正。
计算径向距离 =+ Y² 的平方根
入射角  = torch.atan2(3D相机的点, 计算径向距离)
径向畸变系数 = self.polyval(畸变系数, 入射角, Kannala-Brandt模型) # 根据入射角 theta 计算径向畸变系数 rho
归一化的3D点 = 3D相机的点 × rho ÷ 计算径向距离
2D鱼眼点 = (内参矩阵的仿射部分 @ 归一化的3D点) + 内参矩阵中的主点坐标# 通过 ida_fisheye(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。
2D鱼眼点 = ida_fisheye @ 2D鱼眼点 # 从相机坐标系到图像平面的投影
2D鱼眼点 = 鱼眼点/下采样系数# 和针孔相机一样
有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)

最后返回的是:有效性Mark

补充:Kannala-Brandt模型介绍–点击这里
在这里插入图片描述在这里插入图片描述

  • 函数gridcloud3d()功能是:

函数通过非均匀采样生成三维网格点云,每个网格位置对应一个点,但不同区域的点密度可能不同。具体来说:

  • 函数forward_kestrel(),功能是:

该函数通过多相机特征采样与体素聚合,将鸟瞰图特征映射到3D空间并压缩生成统一表征。

    def forward_kestrel(self, input):# 获得Neck传过来的特征features = input["bev_neck_features"]# features 复制Z次并在通道维度拼接features = torch.cat([features] * Z, 1)# 特征尺寸调整features = features.reshape(self.num_cams * Z, -1, 60, 128)# 得到 unproject_image_to_mem() 计算的xyz_pix 和 有效性Markxyz_pix , valid_mask= ...# 将2D特征映,通过xyz_pix ,利用GridSampleFuction映射函数,映射到3D特征trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear","zeros", None)# 有效性Mark 删除values = trans_feats* valid_mask# 特征被重塑values = values.reshape(B, self.num_cams, -1, X, Y)# 通道相加feat_mem = torch.sum(values, dim=1)# 通过 conv_norm 压缩成鸟瞰图特征feat_bev = self.bev_z_compressor(feat_mem)return feat_bev

首先是:输入的features被复制Z次并在通道维度拼接,使用reshape将特征调整为(num_cams * Z, -1, 60, 128),这里num_cams可能代表相机数量,Z是体素深度层数。
然后:GridSampleFuction应用双线性采样,将特征映射到新的坐标,生成trans_feats。
然后:特征被重塑为(B, num_cams, -1, X, Y)。feat_mem 是将多个相机视角的3D特征沿相机数量维度(dim=1)求和后的融合特征,目的是整合不同视角的信息,得到feat_mem。
最后: 最后通过bev_z_compressor压缩成鸟瞰图特征feat_bev。

  • 函数unproject_image_to_mem(),功能是:得到xyz_pix, valid_mask,用于后续的GridSampleFuction采用。
    def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):BN, C, H, W = features.shape# get proj point on the feature map and then normalize to [-1, 1]xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]x_norm, y_norm = self.normalize_grid2d(x, y, W, H)xyz_pix = torch.stack([x_norm, y_norm], axis=1)#import pdb; pdb.set_trace()xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)return xyz_pix, valid_mask

首先通过 bev_coord_to_feature_coord()得到 2D点和有效性Mark
按照前述分析 2D 尺寸应该是类似(bn, k, 2),这里bn是批处理大小,k是栅格的数量(通过gridcloud3d()获得),2是xy坐标。
对2D点的x和y进行归一化到[-1,1],分别除以宽和高,组成新的 2D点。
最后,将三维空间中的点按高度(Z轴)分层,每层对应一个二维网格(X-Y平面)

问文心一言的问题:LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别

回答:

LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别:

LSS的3D点

  • 全体视锥体栅格:LSS将图像特征提升到整个相机视锥体对应的3D体素网格中,覆盖所有可能的深度层(如0-100米,按固定间隔分层)。
  • 概率分布:每个像素的特征会被分配到多个深度层,形成概率分布(通过深度预测或几何计算),而非单一深度值。
  • 目的:构建全局3D场景表示,适用于复杂场景理解(如多物体遮挡、非地面目标检测)。

BEVDepth的栅格

  • BEV平面聚焦:BEVDepth通常将特征投影到鸟瞰图(BEV)平面的栅格中(如地面区域),每个栅格对应一个位置,深度预测用于确定该位置是否存在有效特征。
  • 单一深度假设:每个栅格可能仅保留最可能的深度值(如通过深度网络预测),或基于几何投影选择有效层。
  • 目的:高效生成BEV空间特征,尤其适合自动驾驶中地面目标检测(如车辆、行人),减少计算冗余。

栅格点数量减少

  • LSS:在全体视锥体空间生成三维体素网格(如 100 层深度 × X×Y),覆盖整个相机视野的 3D 空间。
  • BEVDepth:将特征投影到二维 BEV 平面栅格(如地面区域),仅保留与地面感知相关的位置,深度维度被压缩为单层(通过深度预测或几何投影筛选)。
  • 结论:BEVDepth 的栅格点数量显著减少(从三维到二维),降低了显存占用和计算复杂度。

总结:

  • LSS的3D点是全体视锥体的分层栅格,强调3D空间的完整建模。
  • BEVDepth的栅格是BEV平面的深度预测结果,侧重地面区域的紧凑表示。
  • 两者均可结合使用(如BEVDepth可能用LSS作为 backbone),但核心差异在于对3D空间的覆盖范围和深度建模方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

A/B测试入门指南

目录 一、什么是A/B测试1.1 A/A测试1.2 多变量测试 二、A/B测试应用场景三、A/B测试基本流程四、A/B测试面试真题4.1 【是什么】4.2 【为什么】4.3 【怎么做】 五、应用实战 一、什么是A/B测试 A/B 测试是一种常见的实验方法&#xff0c;用于比较两个或多个方案的效果&#xff…

自己构建的交叉编译器找不到PATH_MAX

接上篇centos6.10 编译gcc11.5 x64到aarch64交叉工具链 -CSDN博客 PATH_MAX找不到&#xff0c;不仅在编译gcc的过程中遇到&#xff0c;而且临时改gcc源码添加#define PATH_MAX 4096 宏定义后勉强通过gcc全量编译。这个新的gcc编译使用了PATH_MAX宏的代码还是会找不到。这个问题…

vscode查看文件历史git commit记录

方案一&#xff1a;GitLens 在vscode扩展商店下载GitLens 选中要查看的文件&#xff0c;vscode界面右上角点击GitLens的图标&#xff0c;选择Toggle File Blame 界面显示当前打开文件的所有修改历史记录 鼠标放到某条记录上&#xff0c;可以看到记录详情&#xff0c;选中O…

ngx_http_conf_ctx_t

定义在 src/http/ngx_http_config.h typedef struct {void **main_conf;void **srv_conf;void **loc_conf; } ngx_http_conf_ctx_t; ngx_http_conf_ctx_t 是 Nginx 中用于管理 HTTP 配置上下文的核心结构体&#xff0c;其设计体现了 Nginx 多级配置&…

IREE AI编译器编译测试流程指南

iree onnx demo 计划协议系列博客,记录学习iree编译器的过程. 今天第一篇博客,记录安装和测试iree 文章目录 iree onnx demo下载安装ireepython环境安装编译测试1. [前端] onnx模型转MLIR文件2. [后端] MLIR文件转可执行文件3. [执行] 执行测试编译后的文件 关于后端设备的介…

【产品小白】如何运营一个新的产品

运营一个新产品既充满机遇&#xff0c;也伴随着挑战。新产品运营的核心在于快速获取用户、验证市场假设、持续迭代与优化&#xff0c;并通过有效的推广和用户反馈机制不断完善产品。 1. 市场调研与定位 用户调研&#xff1a;在产品初期&#xff0c;通过访谈、问卷、竞品分析等…

破解验证码新利器:基于百度OCR与captcha-killer-modified插件的免费调用教程

破解验证码新利器&#xff1a;基于百度OCR与captcha-killer-modified插件的免费调用教程 引言 免责声明&#xff1a; 本文提供的信息仅供参考&#xff0c;不承担因操作产生的任何损失。读者需自行判断内容适用性&#xff0c;并遵守法律法规。作者不鼓励非法行为&#xff0c;保…

JSON 解析中需要清理的危险字符

在代码中 replace(chr(0), "") 的作用是删除 JSON 响应中可能存在的空字符&#xff08;Null character&#xff09;。以下是详细解释&#xff1a; 1. chr(0) 是什么&#xff1f; chr(0) 表示 ASCII 码为 0 的字符&#xff0c;即空字符&#xff08;Null Character&am…

指令系统2(Load/Store 指令)

一. Load/Store 指令 1. 前变址 前变址指令是在读取或存储数据时&#xff0c;先根据基址寄存器&#xff08;Rn&#xff09;与偏移量&#xff08;offset&#xff09;计算出有效地址&#xff0c;再进行数据操作。相关指令及示例如下&#xff1a; LDR R0, [R1, #4]&#xff1a;从…

ubuntu部署运行xinference全精度对话deepseek本地部署图文教程

前置环境搭建劳请移步往期 source activate 自己环境名启动python3.12环境安装xinference&#xff0c; 按教程敲命令&#xff0c;wheel包与wsl的通用&#xff0c;pip install 包名。 vllm引擎&#xff0c;transform引擎也会顺带自动装上了。 后续操作请参照往期教程。本地部署模…

技术分享 | MySQL内存使用率高问题排查

本文为墨天轮数据库管理服务团队第51期技术分享&#xff0c;内容原创&#xff0c;如需转载请联系小墨&#xff08;VX&#xff1a;modb666&#xff09;并注明来源。 一、问题现象 问题实例mysql进程实际内存使用率过高 二、问题排查 2.1 参数检查 mysql版本 &#xff1a;8.0.…

[AI速读]混合语言IP集成:挑战与高效解决方案

在现代SoC(系统级芯片)设计中,IP(知识产权模块)复用是提升开发效率的关键。然而,当设计涉及多种硬件描述语言(如SystemVerilog、VHDL、SystemC)时,如何高效集成不同语言的IP模块成为一大难题。本文将从实际设计场景出发,探讨混合语言IP集成的核心挑战,并介绍一套方法…

【vulhub/wordpress靶场】------获取webshell

1.进入靶场环境&#xff1a; 输入&#xff1a;cd / vulhub / wordpress / pwnscriptum 修改版本号&#xff1a; vim docker-compose.yml version: 3 保存退出 开启靶场环境&#xff1a; docker - compose up - d 开启成功&#xff0c;docker ps查看端口 靶场环境80…

微信小程序:用户拒绝小程序获取当前位置后的处理办法

【1】问题描述&#xff1a; 小程序在调用 wx.getLocation() 获取用地理位置时&#xff0c;如果用户选择拒绝授权&#xff0c;代码会直接抛出错误。如果再次调用 wx.getLocation() 时&#xff0c;就不会在弹窗询问用户是否允许授权。导致用户想要重新允许获取地理位置时&#x…

NLP 与常见的nlp应用

自然语言处理&#xff08;NLP&#xff09;是一个广泛的领域&#xff0c;它不仅包括自然语言理解&#xff08;NLU&#xff09;&#xff0c;还涉及一系列其他任务和子领域。以下是NLP领域中的主要组成部分及其相关任务&#xff1a; 1. 自然语言理解&#xff08;NLU&#xff09; …

全网首创/纯Qt/C++实现国标GB28181服务/实时视频/云台控制/预置位/录像回放和下载/事件订阅/语音对讲

一、前言说明 用纯Qt来实现这个GB28181的想法很久了&#xff0c;具体可以追溯到2014年&#xff0c;一晃十年都过去了&#xff0c;总算是整体的框架和逻辑都打通了&#xff0c;总归还是杂七杂八的事情多&#xff0c;无法静下心来研究具体的协议&#xff0c;最开始初步了解协议后…

Django+celery+flower

Djangoceleryflower Django的定时任务及可视化监控Django Django的定时任务及可视化监控 Django的定时任务&#xff0c;以及可视化监控。 Django Django&#xff1b; 首先在python中新建虚拟环境并激活 pip install virtualenv python -m venv venv source venv/bin/activa…

Python 编程题 第十一节:选择排序、插入排序、删除字符、目标移动、尾部的0

选择排序 假定第一个为最小的为已排序序列&#xff0c;与后面的比较&#xff0c;找到未排序序列中最小的后&#xff0c;交换位置&#xff0c;获得最小元素&#xff0c;依次往后 lst[1,14,25,31,21,13,6,8,14,9,7] def selection_sort(lst):for i in range(len(lst)):min_inde…

组态王Kingview配置为OPCUA服务器的一些问题处理

一、问题描述 1、组态王【运行配置】界面没有【服务配置】的选项&#xff0c;无法将组态王Kingview配置为OPCUA服务器&#xff1b; 2、点击组态王【运行配置界面】的【服务配置】选项弹窗警告提示【试图执行的操作不受支持】&#xff0c;如下图所示&#xff1a; 二、问题分析 …

模块二 单元4 安装AD+DC

模块二 单元4 安装ADDC 两个任务&#xff1a; 1.安装AD活动目录 2.升级当前服务器为DC域控制器 安装前的准备工作&#xff1a; 确定你要操作的服务器系统&#xff08;Windows server 2022&#xff09;&#xff1b; 之前的服务器系统默认是工作组的模式workgroup模式&#xff08…