2D3DICL-I2PReg论文学习

news/2025/11/30 18:59:44/文章来源:https://www.cnblogs.com/quan9i/p/19289945

公式解读

前情提要：什么是相机

相机是虚拟的，实际上，它是指一个数学模型，它定义了我们如何将三维空间的点映射到二维照片上，它包含外参和内参，其中：

（1）外参是指你所站的位置t，和你的朝向R。这个描述了相机在3D世界坐标系中的位置。

（2）内参是指内参矩阵K，它包含了焦距，主点等。外参调整过的点与K相乘后，即可将相机坐标转换至像素坐标。具体如下（fx，fy是焦距，cx，cy是主点，也就是平面中心点）

在已知相机的参数、朝向和位置后，我们如何把一个3D点云投影到2D图像上呢，使用的公式如下：

首先第一步是将3D世界坐标变为3D相机坐标：

公式(2)内点R*P+t部分，实际上是进行刚体变换，R*P用于将点P旋转到与相机朝向对齐的坐标系，再加上t则是平移到以相机为原点的坐标系中。这部分变换的结果就是p点的坐标变换成了在3D相机下的坐标。K则是将点从三维相机坐标转置二维像素坐标。

第二步是将2维齐次像素坐标转换为最终像素坐标：

刚刚我们得到的二维像素坐标，实际上是齐次坐标，它虽然是二维的，但是他还有(x,y,z)三个参数，这个时候我们需要进行透视投影，也就是生活中的近大远小，公式(3)使用(x/z,y/z)来进行透视投影，最终得到的ui就是像素坐标

第三步是进行封装：

f(p;k;R,t)=u则是封装了整个投影过程，我们输入3D点，内参和外参，就可以得到这个3D点对应的像素坐标。

流程

总体框架图如上，分别对点云和图像进行KPFCNN和ResNet网络处理，提取特征，后续则是三个模块，具体如下：

重叠区域检测模块(GPDM)

图中区域为GPDM的框架，它的流程分为粗粒度概率估计和精粒度几何估计，首先来看粗粒度概率估计

（1）输入
输入原始图像，进行平均池化得到了全局描述符，然后将这个全局描述符复制N次，与点云特征进行拼接，这样做就使得每个3D点都能够感知到全局的2D图像信息。

（2）概率预测

将融合后的特征送入一个MLP，预测每一个点位于相机视椎体内的初始概率Op

接下来是精粒度几何估计：

（1）MLP处理

将上阶段得到的概率Op与3D点云坐标进行拼接，然后使用两个并行的MLP进行处理，得到相机的参数T_f，其中包含了旋转矩阵R和平移向量t

（2）几何投影

输入是T_f和点云P，通过几何投影操作，我们可以将每个3D点云的点投影到2D平面上

（3）点云编码

通过公式判断投影后的点是否落在图像边界内且深度为正，是则编码为1，否则为0。

隐式对应学习模块（ICLM）

这里首先随机初始化一组查询向量F_q，接下来就是进入了第一步

（1）交替注意力精炼

这里有两个，首先我们看第一个Attention-Pixel

这个操作旨在从二维图像中提取信息，我们输入F_2k_q和Fi，这个Fi是

具体地，Q（查询）、K（键）、V（值）通过线性投影产生

通过缩放点积注意力机制更新查询

此时更新后的F2k+1已经融合了图像的信息。

第二个是Attention-Point

这个操作旨在从三D点云中提取信息，并利用点云掩码Mp聚焦于重叠区域

这里与之前类似，唯一的不同点在于他加入了点云掩码，将3D点云中不在图像视椎体内的进行屏蔽。

此时的F2k+2已经融合了点云的信息。

这个F2k+2与F2k+1交替循环L次，得到更新后的查询F2Lq，这个时候它已经对图像和点云都已经有了相当多的信息。

（2）生成关键点

对F2Lq分别进行一次Attention-Point和Attention-Pixel处理，得到在2D图像和3D点云的定位检测器。

接下来生成热力图：

2D热力图H_I生成方式：计算每个2D检测器 D_I 与图像特征 F_I 上每个像素位置的相似度，并通过Softmax得到一个概率分布图。它标示了每个关键点最可能出现在图像上的哪个位置。

3D热力图H_P生成方式：计算每个3D检测器与点云特征上位置相似度，不同的是在计算时会再次使用掩码 M_p，确保关键点只产生于有效的点云区域。

最终进行关键点坐标的获取

2D坐标获取：K_I = H_I · E_I这里 E_I 是所有像素的坐标矩阵。这个操作是加权平均，用热力图作为权重，计算出亚像素级别的精确2D坐标。

3D坐标获取：K_P = H_P · P。这里 P 是点云的3D坐标矩阵。同样通过加权平均，得到精确的3D坐标。

姿态回归模块

在建立2D-3D对应关系后，我们通过一个学习的网络回归相机位姿。GPDM已经估计了截锥体Tf，不过这是一个粗估计，所以我们以这个为开始，对关键点进行变换。我们将Rt、tf与真实的相机位姿Rgt、tgt的差异估计为：

这里首先用多层感知机来提升对应特征并进行配对，融合特征Ff公式如下

接下来我们对融合过后的Ff进行平均池化，然后再与原来的进行相加，以此实现增强对应关系，其实就是残差网络的实现，最终得到Fs。

最终我们对所有信息进行平均池化，得到位姿fpose

接下来我们通过分别的两个MLP，就可以得到差异的R和t

Loss

损失函数包含五个部分，

分别是分类损失L_CLS ，视锥体姿态损失L_fru ,对应关系损失L_corr，多样性损失L_div，相机姿态损失L_cam 。

（1）分类损失，公式如下

作用于几何先验引导的重叠区域检测模块（GPDM）中第一阶段输出的粗粒度概率 O_P，用于督模型初步判断点云中的哪些点位于相机视锥体内。

真值Ogt的计算：如果一个3D点被投影到图像范围内且深度为正，则其真值为1，否则为0

（2）视椎体损失，公式如下

作用于GPDM模块中第二阶段回归出的粗相机姿态 (R_f, t_f)，它直接监督模型预测的初始相机姿态，使其尽可能接近真实姿态。

（3）对应关系损失，公式如下

作用对象：隐式对应关系学习模块（ICL）预测出的2D和3D关键点 (K_I, K_P)，确保预测的2D-3D关键点对是几何上一致的。

（4）多样性损失，公式如下

作用于所有的2D和3D点，防止模型预测的所有关键点都聚集在同一个狭小区域，鼓励关键点在2D图像和3D空间中都尽可能分散开。

（5）相机姿态损失，公式如下

作用对象：姿态回归模块预测出的姿态残差 (ΔR, Δt)，这是最直接、最终端的监督信号，确保模型预测的精细姿态修正量是正确的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/982123.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Spring使用el表达式

Spring使用el表达式

Spring使用el表达式 0. 背景在项目中需要一个可动态执表达式的功能.项目本身是基于Springboot,可直接使用Spring提供的核心模块Spring Expression Language(SpEL). 在测试前,需要了解一些基本前置条件整体可以按照jav…

阅读更多...

《程序员修建之道：从小工到专家》阅读笔记2

《程序员修建之道：从小工到专家》阅读笔记2

《程序员修建之道：从小工到专家》阅读笔记2当正确的 mindset 确立后，我们需要更高级的方法论来应对软件固有的复杂性。《程序员修炼之道》在软件设计方面提供了许多历久弥新的智慧，这些原则帮助我们在刚性与柔性、当…

阅读更多...

《程序员修建之道：从小工到专家》阅读笔记3

《程序员修建之道：从小工到专家》阅读笔记3

《程序员修建之道：从小工到专家》阅读笔记3在技术快速迭代的今天，程序员最宝贵的资产不是当前掌握的某个框架或语言，而是持续学习与知识管理的能力。《程序员修炼之道》将我们的职业素养视为需要精心管理的"知…

阅读更多...

AipexBase怎么用？AI 原生BaaS平台一句话做后端开发 - 实践

AipexBase怎么用？AI 原生BaaS平台一句话做后端开发 - 实践

AipexBase怎么用？AI 原生BaaS平台一句话做后端开发 - 实践2025-11-30 18:42 tlnshuju 阅读(0) 评论(0) 收藏举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importan…

阅读更多...

CCPC2025 重庆站游记

CCPC2025 重庆站游记

游记开场写了 A，听了一下队友的 BE。然后一个小时的时候会了 F，看还没队过就开始抢一血，但直到封榜前这个题过了三十多个队了还一直过不去。中间会了 J，感觉这个题没道理才过四个队，趁着队友写 M 的间隙写完了。封…

阅读更多...

完整教程：Elasticsearch：分布式搜索引擎数据库

完整教程：Elasticsearch：分布式搜索引擎数据库

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

阅读更多...

wsl基本使用以及使用过程中遇到的问题

wsl基本使用以及使用过程中遇到的问题

使用任务栏搜索框中输入“Ubuntu xx.xx”后，直接进入对应Linux系统问题 1.git clone失败 fatal: unable to access https://github.com/xxx/xxx.git/: GnuTLS recv error (-110): The TLS connection was non-proper…

阅读更多...

人工智能之数据分析 Matplotlib：第五章常见函数

人工智能之数据分析 Matplotlib：第五章常见函数

人工智能之数据分析 Matplotlib：第五章常见函数人工智能之数据分析 Matplotlib 第五章常见函数@目录人工智能之数据分析 Matplotlib前言一、Matplotlib 图像处理三剑客：imread / imshow / imsave1. plt.imread() …

阅读更多...

CTF基础介绍与入门讲解

CTF基础介绍与入门讲解

什么是CTF夺旗赛 CTF（Capture The Flag，夺旗赛）是一种流行的信息安全竞赛形式，起源于1996年的DEFCON大会。CTF竞赛通过解决各种网络安全相关的挑战，帮助参赛者提升技术能力，同时也为网络安全领域培养人才。当然…

阅读更多...

2025/11/29 今天上课所以没有自我学习

2025/11/29 今天上课所以没有自我学习

2025/11/29 今天上课所以没有自我学习今日没有学习新内容，把前两天的内容随笔写了一下

阅读更多...

基于大数据的全国降水可视化分析预测框架

基于大数据的全国降水可视化分析预测框架

基于大数据的全国降水可视化分析预测框架pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

阅读更多...

Day7-20251130

Day7-20251130

Java标识符与数据类型摘要： Java标识符命名规则：必须以字母、$或_开头，后续可包含数字，区分大小写且不能使用关键字。虽然支持中文命名但不推荐。数据类型分为基本类型和引用类型。基本类型包括：数值类型：byte(…

阅读更多...

Java项目中最常用的6个设计模式

Java项目中最常用的6个设计模式

在 Java 项目开发中，以下 6 种设计模式因实用性强、应用场景广泛而被高频使用： 1. 单例模式（Singleton Pattern）用途：确保一个类仅有一个实例，并提供全局访问点。场景：线程池、数据库连接池、配置类、日志工具…

阅读更多...

记录容器云基于debian镜像的自由组合

记录容器云基于debian镜像的自由组合

当然很多镜像都是有着专用的功能，这也是docker的设计目标，但是有时候我们也想把docker当vps使用。所以，就想基于debian的镜像自由发挥。。。第一步：基于 debian:12-slim 开启一个容器关键要设置：挂载一个目录，…

阅读更多...

IDEA中使用http协议

IDEA中使用http协议

IDEA中使用http协议三、如何使用协议 3.1使用http协议项目右键-》Git -》 repository -》 remote -》选择http协议的地址3.2 使用ssh协议首先Git Bash或软件生成SSH秘钥生成秘钥请参考 SSH公钥默认存储在账户的主目…

阅读更多...

详细介绍：Elasticsearch从入门到实践：核心概念到Kibana测试与C++客户端封装

详细介绍：Elasticsearch从入门到实践：核心概念到Kibana测试与C++客户端封装

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

阅读更多...

C语言结构体全面解析与内存优化 - 实践

C语言结构体全面解析与内存优化 - 实践

C语言结构体全面解析与内存优化 - 实践2025-11-30 18:23 tlnshuju 阅读(0) 评论(0) 收藏举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !…

阅读更多...

OpenCSG x Dell联合发布面向AI原生企业的下一代IT解决方案

OpenCSG x Dell联合发布面向AI原生企业的下一代IT解决方案

在全球迈向“智能体时代”的背景下，OpenCSG（开放传神）近日发布与戴尔科技基础设施深度集成的参考架构方案。该方案结合了 OpenCSG 的 CSGHub 企业级平台、Xnet 智能传输协议、Dell PowerScale 智能存储系统和 Dell …

阅读更多...

ESP32C3开发指南(基于IDF):console控制台命令行交互功能 - 教程

ESP32C3开发指南(基于IDF):console控制台命令行交互功能 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

阅读更多...

vue+devtools下载地址

vue+devtools下载地址

https://crxdl.com/search?q=vue+devtools 上传一个包到： https://files.cnblogs.com/files/stubborn-dude/hkddcnbhifppgmfgflgaelippbigjpjo_crxdl.com_v3_5.3.4.0.zip?t=1764497205&download=true

阅读更多...

最新文章