RAP:无需显式匹配,配准任意3D点云数据!

0. 论文信息

标题:Register Any Point: Scaling 3D Point Cloud Registration by Flow Matching

作者:Yue Pan, Tao Sun, Liyuan Zhu, Lucas Nunes, Iro Armeni, Jens Behley, Cyrill Stachniss

机构:University of Bonn、Stanford University

原文链接:https://arxiv.org/abs/2512.01850

代码链接:https://github.com/PRBonn/RAP

1. 导读

点云配准是将多个未进行姿态调整的点云对准到同一个参考框架中,这一过程是实现3D重建与机器人定位的核心步骤。在本文中,我们将点云配准视为一种条件生成过程:通过学习得到的连续的、逐点分布的速度场,可以将含有噪声的点云数据转化为配准后的场景数据,从而确定每个视图的正确姿态。与以往那些先通过对应关系匹配来估计点云对之间的变换关系,再优化这些变换以实现多视图配准的方法不同,我们的模型能够直接生成配准后的点云数据。由于采用了轻量级的局部特征提取机制,并在测试阶段实施了刚性约束机制,我们的方法在多视图配准任务中取得了领先的结果,尤其是在点云重叠程度较低的情况下;此外,该方法还具有很好的泛化能力,能够适应不同的尺度范围和传感器类型。此外,我们的方法还为后续任务提供了有力支持,包括重新定位、多机器人同时定位与地图构建,以及多会话间的地图合并等。

2. 效果展示

我们用于可缩放多视角点云注册的方法。为了对多个未摆姿势的点云进行注册,以往的工作通常首先进行对应匹配,然后优化姿态图(左上)。相比之下,我们引入了一种单阶段模型,它能够通过在欧几里得空间中进行流匹配直接生成已配准的点云(右上),从而省去了进行明确对应匹配和姿态图优化的步骤。我们的模型能够适用于来自对象中心、室内和室外场景等不同点云数据,涵盖扫描、子地图和地图等不同层级(下)。

模型在武汉大学-TLS数据集上的多视角配准结果。请注意,我们的模型从未接受过基于陆地激光扫描点云数据集的训练而是实现了零样本泛化能力并适用于此数据集。左图:古建筑场景;右图:公园场景。不同颜色表示不同的点云。CD指的是已注册点云与真实点云之间的Chamfer 距离。

3. 引言

点云配准是三维视觉、机器人技术和摄影测量领域的基石,具有广泛的应用,包括将多个部分三维扫描数据合并为一个一致的三维模型,以及在现有三维地图中定位传感器以用于后续任务,如同时定位与建图(Simultaneous Localization and Mapping, SLAM)、三维重建和机器人操作。然而,在实际场景中获取可靠的配准结果是一个难题。真实世界的数据稀疏、嘈杂且密度不均匀;传感器在模态和校准方面存在差异;点云之间的重叠区域可能很小,局部匹配可能存在歧义。

目前主流的多视角点云配准方法遵循两阶段流程:首先对齐所有重叠的扫描对,然后求解全局位姿图以强制实现一致性。成对对齐通常依赖于使用鲁棒估计器匹配局部特征对应关系。尽管在概念上具有吸引力,但这种方法存在两个局限性:(i)二次复杂度:由于需要在所有扫描对之间进行穷举对应关系搜索,计算成本随扫描数量的增加呈二次方增长;(ii)全局上下文信息有限:成对阶段限制了对全局上下文信息的捕捉,在重叠区域较小和观测不完整的情况下会降低性能。尽管专用模块可以改善低重叠情况下的成对配准,并且一些研究通过分层配准或边缘选择来避免二次计算成本,但这些方法增加了复杂度,同时仍依赖于对成对对齐误差敏感的迭代位姿图优化。

近期,三维视觉研究通过利用前馈模型和生成模型摆脱了这种两阶段流程。在基于图像的三维重建中,前馈方法将整个运动恢复结构(Structure-from-Motion)过程封装到一个神经网络中,直接从一组图像中生成全局一致的位姿和稠密几何。VGGT表明,大型Transformer模型可以一次性从单个或多个视角推断出所有关键的三维属性,包括相机位姿和深度图。在点云领域,Rectified Point Flow(RPF)开创了一种生成式位姿估计方法,通过学习一个连续的流场,将点从随机噪声移动到其组装后的目标位置,从而在多个以对象为中心的基准测试中实现了位姿估计。这些发现表明,只要具备足够的容量和训练数据,单个前馈模型可以全面地推理多个部分观测结果,并生成一致的三维配准结果。

然而,将这种单阶段模型扩展到大规模、多视角三维配准任务时,会面临另一个关键挑战:采样过程并不总是能产生稳定、完全刚性的预测,特别是在杂乱环境中,其几何特征比以对象为中心的场景更加多样化。即使如RPF[56]那样,通过将最终预测显式投影到SE(3)上,这种事后校正也无法约束整个流轨迹,因此采样得到的流可能会偏离模型训练时所依据的流分布,从而限制性能。

这激发了我们的研究工作,即开发一种可扩展的生成模型,该模型能够在单阶段内对齐多个点云,同时显式地强制实施刚性约束。该模型并非进行穷举的成对位姿估计,而是学习将所有输入点云直接转换到一个规范坐标系中,从而有效地将它们融合为一个连贯的场景。为了使生成过程鲁棒且满足刚性约束,我们提出将刚性既作为流采样的引导信号,又作为选择生成结果的准则。为了进行大规模训练,我们从17个不同的数据集中整理了超过10万个样本,这些数据集涵盖了以对象为中心、室内和室外场景。在这种混合数据上进行欧几里得空间监督,提供了强大的场景先验,使模型能够补全部分视图,并在不同尺度和传感器模态之间实现泛化。我们将在https://github.com/PRBonn/RAP上发布代码和模型。

4. 主要贡献

我们的贡献主要体现在以下四个方面:

  • 我们提出了一种生成式流匹配模型,该模型能够在单阶段内执行多视角点云配准,绕过了迭代位姿图优化。
  • 我们引入了一种强制刚性约束的采样和选择策略,该策略对每个扫描施加刚性约束,提高了配准精度。
  • 我们开发了一种大规模训练方法,该方法从17个异构数据集中聚合了超过10万个样本,能够在各种场景、尺度和传感器模态之间实现强大的泛化能力。
  • 我们在成对和多视角基准测试中展示了鲁棒的性能,在具有挑战性的大规模、低重叠场景中,相较于现有最先进方法取得了显著改进。

5. 方法

从无位姿的点云开始,我们采样具有对应局部特征的点。我们使用具有交替注意力块的扩散Transformer进行条件流匹配,该模型从高斯噪声生成聚合点云。最后,我们使用奇异值分解(Singular Value Decomposition, SVD)从聚合点云中恢复单个变换,并将其应用于原始无位姿点云,以获得配准后的点云。

6. 实验结果

表2表明,与现有最先进的成对配准方法相比,我们的模型(无论是否采用基于刚性的生成选择)在标准基准测试上均达到了相当或更好的性能。

7. 总结 & 未来工作

我们提出了一种生成式多视角点云配准方法,该方法通过前向传播直接生成配准后的点云,绕过了传统的两阶段流程。我们的方法将配准视为条件生成问题,使用校正点流匹配,其中基于Transformer的模型预测一个连续的速度场,将点传输到配准位置。通过交替注意力Transformer进行整体推理,使得在低重叠条件下实现鲁棒配准,并在不同场景、尺度和传感器模态之间实现有效泛化。我们的模型在来自17个不同数据集的超过10万个样本上进行训练,在成对和多视角配准基准测试上达到了现有最先进的性能,特别是在低重叠率情况下表现出色。结合刚性强制采样器和生成选择策略进一步提高了测试时的性能。我们的工作朝着三维点云配准的基础模型迈进了一步,适用于SLAM、三维重建和机器人操作。

局限性与未来工作 我们的方法与其他前馈重建方法一样,假设扫描是在同一场景中记录的。此外,目前的生成时间无法满足汽车激光雷达帧率的实时操作要求。通过在欧几里得空间而非变换群中建模流,我们的方法有可能处理非刚性变换,尽管这尚未得到探索。未来的工作可能会扩展到场景流估计以及合并来自摄影测量和前馈三维重建的点图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125602.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql SQL子查询(史上最详细)

一、什么事子查询 SQL子查询(Subquery)是嵌套在其他SQL查询中的查询。 子查询可以用在SELECT、INSERT、UPDATE、DELETE语句中,以及在WHERE子句、HAVING子句或FROM子句中。 子查询可以返回一个值、一列值或多行多列值,根据这些返回…

技术债务管理:AI时代的代码质量

技术债务管理:AI时代的代码质量 关键词:技术债务管理、AI时代、代码质量、软件开发、债务识别、债务偿还 摘要:本文聚焦于AI时代下的技术债务管理与代码质量问题。在软件开发不断演进的过程中,技术债务的积累对项目的可维护性和可…

什么是品牌全域电商代运营?

当前电商行业已进入全域竞争深水区,流量分散化、渠道多元化、用户需求个性化成为常态,传统单一平台代运营因渠道割裂、资源分散等问题,已难以支撑品牌全链路增长需求。品牌全域电商代运营顺势升级,通过整合多渠道资源、贯通全链路…

mysql in查询大数据量业务无法避免情境下优化

在 MySQL 中,IN 查询操作广泛用于从数据库中检索符合条件的多条记录,但当涉及到大数据量的 IN 查询时,性能可能会显著下降。特别是当 IN 子句中的元素数量非常大时,MySQL 需要对每个元素进行匹配,这会导致查询变得非常…

mybatis plus打印sql日志

1、官方文档 使用配置 | MyBatis-Plus 2、日志实现 MyBatis-Plus 提供了多种日志实现(log-impl),用于记录 SQL 语句和相关操作,帮助开发者进行调试和监控数据库操作。以下是一些可用的日志实现及其说明: StdOutImpl…

专业的TP公司主要是做什么的呢?

TP(Tmall Partner,天猫合作伙伴)公司是经天猫等主流电商平台官方认证的专业代运营机构,凭借对平台规则的深度掌控、成熟的运营方法论与丰富的资源储备,成为品牌布局天猫等核心电商渠道的重要战略伙伴。在品牌线上化竞争…

强烈安利8个AI论文网站,MBA论文写作必备!

强烈安利8个AI论文网站,MBA论文写作必备! 1.「千笔」—— 一站式学术支持“专家”,从初稿到降重一步到位(推荐指数:★★★★★)对于MBA学生而言,论文写作不仅是学术能力的体现,更是时…

材料电性能检测仪器的原理、演进与工程应用

材料电性能检测的核心是通过仪器精确测量介电常数(ε)和介质损耗角正切值(tanδ),这些参数直接反映材料的绝缘性能、能量损耗和高频适应性。其原理基于电桥法、谐振法或阻抗法,通过施加交流电场并测量材料的…

第1-2章 数据分析流程及Numpy科学计算

第一章 数据分析流程 数据分析完整流程 数据收集→数据清洗→数据分析→数据可视化 数据分析核心三件套 Numpy Pandas Matplotlib 第二章 Numpy科学计算 Numpy介绍 Python 中科学计算的基础包,提供多维数组对象、各种派生对象(掩码数组和矩阵等&#xff…

Linux下安装Nginx服务及systemctl方式管理nginx详情

1.安装依赖包 yum一件安装所需的依赖包 yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel 2.下载nginx压缩包 在Nginx官网下载nginx(Index of /download/),更具自己想要的版本下载相应的tar.gz包 3.创建目录 在Linux环境下创建一个安装目录…

【架构设计】Agentic AI提示工程驱动的个性化推荐系统:微服务拆分策略

Agentic AI提示工程驱动的个性化推荐系统:微服务拆分策略与实践 一、引言:为什么传统推荐系统需要"Agent化"重构? 1. 一个真实的痛点:传统推荐系统的"僵化"困境 假设你是某电商平台的用户: 你最近…

Mysql ONLY_FULL_GROUP_BY模式详解、group by非查询字段报错

文章目录 一、问题报错二、ONLY_FULL_GROUP_BY模式 2.1、什么是ONLY_FULL_GROUP_BY?2.2、为什么要使用ONLY_FULL_GROUP_BY?2.3、查看sql_mode 三、解决方法 3.1、关闭only_full_group_by模式 3.1.1、方法一:关闭当前会话中的only_full_group…

Thinkphp和Laravel框架的西安工商学院学生请假管理系统_s4hrg6g5

目录ThinkPHP与Laravel框架的西安工商学院学生请假管理系统项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理ThinkPHP与Laravel框架的西安工商学院学生请假管理系统 该系统基于ThinkPHP或Laravel框架开发,旨在为西安工商学院提供高效的…

小迪安全2023-2024|第13天:信息打点-Web应用源码泄漏开源闭源指纹识别GITSVND_笔记|web安全|渗透测试|网络安全_2023-2024

第13天:信息打点-Web应用&源码泄漏&开源闭源&指纹识别&GIT&SVN&D_笔记 一、信息打点 00:00 1. 业务资产 03:42 1)应用类型分类 开源应用: 定义: 指能够从网上直接下载或已公开的程序源码特点: 通常发布在主流源码平台&#xff0…

Linux下启动redis

一、直接启动redis 使用这种启动方式需要一直打开窗口,不能进行其他操作,按 ctrl c可以关闭窗口。 [rootxxx ~]# cd /usr/local/redis-4.0.6/src [rootxxx src]# ./redis-server二、以后台进程形式启动redis ①设置redis.conf中daemonize为yes&#xff…

从普通产品经理到AI产品经理,你需要掌握的AI思维与核心技能:AI大模型产品经理从零基础到进阶

AI产品经理与普通产品经理的核心区别在于AI思维。人工智能产业链分为基础层、技术层和应用层。AI产品经理可分为突破型、创新型、应用型和普及型四类,需找准定位,避免常见误区。提升能力需专注目标领域,持续学习,扩大交流圈&#…

一文读懂监督、无监督、自监督与半监督学习:小白到大模型必备知识

文章系统介绍机器学习的四大范式:监督学习依赖标注数据训练模型;无监督学习挖掘数据内在特征完成任务;半监督学习结合少量标注和大量无标签数据提升性能;自监督学习通过设计辅助任务从无标签数据中生成监督信号。这些方法各有特点…

10. 同局域网内远程控制另一台电脑

目标: 两台 Windows 家庭版笔记本,在同一 Wi-Fi 下,用 RustDesk 局域网远控 ✅ 不走公网 ✅ 不依赖官方服务器 ✅ 延迟接近本地 ✅ 可扩展到自建服务器一、RustDesk 的“通信模型” 先知道 RustDesk 到底是怎么连的,否则你不知道什…

大模型开发收藏级指南:为什么资深开发者建议先跳过Dify和LangChain?

文章指出,在快速迭代的AI领域,框架往往"约束"大于"赋能"。真正掌握LLM开发应先通过Python调用原生API,以获得更高透明度、更好调试体验和更快适配新特性。建议采用渐进式开发路径:先通过原生API理解基础&…

深度学习毕设选题推荐:基于python-CNN的水果识别基于python的水果识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…