ZeroGrasp:零样本形状重建助力机器人抓取

25年4月来自CMU、TRI 和 丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。

机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果,而没有对场景的几何形状进行建模,导致运动效果不佳甚至发生碰撞。为了解决这些问题,本文引入 ZeroGrasp 框架,可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是,遮挡推理和目标之间空间关系建模,有助于实现精确的重建和抓取。其将该方法与一个大规模合成数据集相结合,该数据集包含来自 Objaverse-LVIS 数据集的 100 万张逼真图像、高分辨率 3D 重建以及 113 亿个物理有效的抓取姿势注释,涵盖 1.2 万个目标。在 GraspNet-1B 基准测试以及真实世界的机器人实验中对 ZeroGrasp 进行评估。ZeroGrasp 实现最佳性能,并利用合成数据将其泛化到真实世界的新目标。

ZeroGrasp 如图所示:

请添加图片描述

安全且鲁棒的机器人抓取需要对目标物体及其周围环境有准确的几何理解。然而,大多数以前的抓取检测方法 [1–6] 并没有明确地对目标物体的几何形状进行建模,这可能导致意外碰撞以及与目标物体的不稳定接触。虽然有几种方法 [3, 7] 利用多视图图像提前重建目标物体,但此过程会带来额外的计算开销,并且需要更复杂的设置。对于放置在狭小空间内(如架子或盒子)的物体,多视图重建通常也不切实际。此外,缺乏具有真实 3D 形状和抓取姿势注释的大规模数据集,这使得从单个 RGB-D 图像进行精确的 3D 重建变得更加复杂。最近,多项研究 [8–10] 表明,稀疏体素表征在运行时间、准确度和分辨率方面优于体表征和类似 NeRF 的隐形状表征,尤其是在基于回归的零样本 3D 重建方面。

基于回归的3D 重建。基于回归的单视图 RGB-D 图像 3D 重建 [8, 20– 47] 一直是 3D 计算机视觉研究的重点。这些方法探索不同的 3D 表征,包括密集体素网格 [23, 31, 39, 48]、稀疏体素网格 [8, 9, 49](例如八叉树 [9]、VDB [49]、哈希表 [8] 等)和隐式表征 [20, 33, 34, 38]。然而,由于昂贵的内存和计算成本,密集体素网格和隐式表示在输出分辨率方面受到限制。另一方面,一些工作 [9, 20, 21, 49] 表明,稀疏体素表征(如八叉树和 VDB [50])由于其高效的分层结构,能够以更快的运行时间实现高分辨率 3D 重建。或者,通过新视图合成进行单视图重建也取得深刻的结果。近期的一些研究,例如 GeNVS [51]、Zero-1-to-3 [52]、3DiM [53] 和 InstantMesh [54],利用扩散模型在给定标准相机姿态的情况下渲染多视图图像。然而,这些方法速度较慢(通常超过 10 秒),并且物体间的遮挡会显著降低性能。此外,集成抓握姿态预测并非易事。

基于回归的抓握姿态预测。传统的抓握姿态预测方法,通常假设人们已经具备 3D 物体的先验知识,并且通常依赖于基于力闭合(force closure)原理的简化分析模型 [55, 56]。近年来,基于学习的方法 [1, 6, 57, 58] 取得了巨大进展,这些方法使得模型能够直接从 RGB(-D) 图像和点云预测 6D 抓取姿势。这使得在高度杂乱的场景中,无需明确建模物体几何形状即可回归抓取姿势。然而,这可能导致抓取不稳定和意外碰撞,因为准确学习防碰撞和精确接触点仍然具有挑战性。尽管一些方法 [42, 59, 60] 探索 3D 重建以改进抓取预测,但它们对形状表征和网络架构的选择往往限制了其全部潜力。

零样本机器人抓取。零样本机器人抓取是指无需先验知识即可抓取未见过目标物体的能力。为实现此目标,主要有两个方向:(1)在测试时使用重建的或真实的 3D 形状基于接触点优化抓握姿势 [3, 61];(2)增强或合成大规模抓握数据以提高泛化能力 [1, 15, 62]。例如,Ma [3] 提出一种基于接触的优化算法,通过使用从多视角 RGB-D 图像重建的 3D 场景来优化初始抓握姿势。现有的大规模抓握姿势数据集,如 ACRONYM [15]、GraspNet-1B [1] 和 EGAD [62] 探索第二种方法。然而,它们受限于物体多样性或缺少注释,例如 RGB-D 图像。

为了将使用稀疏体素表征的重建方法应用于机器人抓取,开发能够在统一框架内对两者进行推理的新方法至关重要。为此,本文提出 ZeroGrasp,一个用于近实时 3D 重建和 6D 抓取姿态预测的框架。主要假设是,提高 3D 重建质量可以增强抓取姿态预测,特别是通过利用基于物理的接触约束和碰撞检测,这对于精确抓取至关重要。由于机器人环境通常涉及多个目标,且存在目标之间遮挡和紧密接触,因此 ZeroGrasp 引入两个关键组件:多目标编码器和 3D 遮挡场。这些组件可以有效地模拟目标之间的关系和遮挡,从而提高重建质量。此外,设计一种简单的细化算法,利用预测的重建结果来改进抓取姿态。由于重建结果高度精确,它能够在夹持器和目标物体之间提供可靠的接触点和碰撞掩码,利用这些信息来细化抓取姿态。

除了提出的模型之外,还创建一个用于评估的真实世界数据集 ReOcS 数据集和一个用于训练的合成数据集 ZeroGrasp-11B 数据集。ReOcS 数据集是一个用于评估 3D 重建的真实世界数据集,其中三个分割代表不同程度的遮挡。使用此数据集来评估遮挡的鲁棒性。ZeroGrasp-11B 数据集是一个大规模合成数据集,旨在训练具有零样本机器人抓取能力的模型,包含来自 Objaverse-LVIS 数据集 [11] 的高质量、多样化的 3D 模型,如表所示。

请添加图片描述

目标是构建一个高效且可泛化的模型,用于基于单个 RGB-D 观测值同时进行 3D 形状重建和抓取姿势预测,并证明预测的重建结果可用于通过基于接触的约束和碰撞检测来优化抓取姿势。

ZeroGrasp 概述如图所示:输入八叉树 x 首先被输入到基于八叉树的 CVAE(橙色框中的组件)。多目标编码器利用其潜特征 l 在潜空间学习多目标推理。此外,3D 遮挡场通过简单的光线投射对目标间和自遮挡信息进行编码。多目标编码器和 3D 遮挡场的输出特征与潜代码 z 连接,解码器预测 3D 形状和抓握姿势。

请添加图片描述
3D 形状表征。采用八叉树作为形状表征,其中图像特征、符号距离函数 (SDF)、法线和抓取姿势等属性定义在八叉树的最深层。例如,将输入八叉树表示为最终深度的体素中心 p 多元组,并与图像特征 f 相关联。与点云不同,八叉树结构支持高效的深度优先搜索和八分圆(octant)的递归细分,使其成为以内存和计算高效的方式进行高分辨率形状重建和密集抓取姿势预测的理想选择。

抓取姿势表征。用通用的两指并联夹持器模型来表示抓握姿势,就像 GraspNet [1] 中所使用的一样。具体来说,抓握姿势由以下部分组成:视图抓握度分 s,表示抓握位置的稳健性 [57];质量 q,使用力闭合算法 [55] 计算;视图方向 v;角度 a;宽度 w;深度 d。每个点都会被分配在半径 5 毫米以内的最近抓握姿势。如果不存在,将其对应的抓握度设置为 0。在 GraspNet-1B 和 ZeroGrasp-11B 数据集中,每个点都标注有一组密集的抓握姿势,涵盖所有视图、角度和深度的组合 (300 × 12 × 4)。

架构

给定输入八叉树 x(由深度图和实例掩码生成的每个实例部分点云组成)及其对应的图像特征,目标是预测以八叉树表示的 3D 重建和抓取姿势 yˆ。ZeroGrasp 基于八叉树的 U-Net [9] 和条件变分自编码器 (CVAE) [63] 构建,用于建模形状重建不确定性和抓取姿势预测,同时保持近乎实时的推理能力。本文提出两项​​关键创新来提高其准确性和泛化能力。具体而言,引入 (1) 多目标编码器,通过潜空间中的 3D transformer 来建模目标之间的空间关系,从而实现无碰撞的 3D 重建和抓取姿势;以及 (2) 3D 遮挡场,这是一种3D 遮挡表征,可以捕捉目标间的遮挡,从而增强遮挡区域的形状重建。

八叉树特征提取。对 RGB 图像 I 进行编码以提取图像特征 W。对 SAM 2 [64] 进行微调以生成二维实例掩码 M,M_i 表示第 i 个目标掩码。然后通过 (q_i, w_i) = π^−1 (W, D, K, M_i) 将图像特征图反投影到三维空间,其中 q_i 和 w_i 分别表示第 i 个目标的三维点云及其对应特征。其中,π 是反投影函数,D 是深度图,K 表示相机本征矩阵。三维点云特征被转换为八叉树 x_i = (p_i, f_i) = G(q_i, w_i),其中 G 是从点云及其特征到八叉树的转换函数。

基于八叉树的 CVAE。为了提高形状重建质量,ZeroGrasp 利用基于八叉树的条件变分自编码器 (CVAE) 的概率建模来解决单视图形状重建中固有的不确定性,这对于提高重建和抓握姿势预测质量都至关重要。受 [63] 的启发,基于八叉树的 CVAE 由编码器 E、先验 P 和解码器 D 组成,用于学习 3D 形状和抓握姿势的潜表示作为对角高斯分布。具体来说,编码器 E(z_i | x_i, y_i) 学习根据预测和真实八叉树 x_i 和 y_i 来预测潜代码 z_i。先验 P(l_i, z_i | x_i) 将八叉树 x_i 作为输入并计算潜特征 l_i 和代码 zi,Ni′ 和 D′ 分别是点的数量和潜特征的维度。在内部,潜编码是通过重新参数化技巧从预测的均值和方差中采样的 [65]。解码器 D (y_i | l_i, z_i, x_i) 预测 3D 重建以及抓取姿势。为了节省计算成本,解码器预测每个深度的占用,丢弃那些概率低于 0.5 的网格单元。只有在最后一层,解码器才会预测 SDF、法向量、抓取姿势以及占用。在训练期间,编码器和先验之间的 KL 散度被最小化,以使它们的分布达到匹配。

多目标编码器。先验 P 计算每个目标的特征,缺乏对无碰撞重建和抓取姿势预测的全局空间排列进行建模的能力。为了解决这个问题,在潜空间中加入 Transformer,它由 K 个带有自注意机制和 RoPE [66] 位置编码的标准 Transformer 块组成,效仿了 [10] 的做法。多目标编码器 M 以体素中心 r_i 及其所有目标的特征 l_i 为中心,更新潜空间中所有目标的特征。

3D 遮挡场。关键见解是,多目标编码器主要学习避免物体之间的碰撞以及在杂乱场景中掌握姿势,因为碰撞建模只需要局部上下文,使其更易于处理。相比之下,遮挡建模需要全面理解全局上下文才能准确捕捉可见性关系,因为遮挡物和被遮挡物可能相距甚远。为了缓解这个问题,设计 3D 遮挡场,通过简化的基于八叉树体渲染将可见性信息定位到体素上。具体而言,将潜空间中的体素细分为 B^3 个较小的块(每个轴 B 个块),然后将它们投影到图像空间中。如图所示,如果某个块位于目标物体对应的实例掩码内,则自遮挡标志 o_self 设置为 1。如果该块位于邻近目标的实例掩码内,则目标间遮挡标志 o_inter 设置为 1。计算完所有块的标志后,通过连接第 i 个目标的两个标志来构建 3D 遮挡场 V_i。最后,使用三层 3D CNN 对其进行编码,每层将分辨率下采样 2 倍,以获得潜空间的遮挡特征 o_i,并通过 l_i ← [l_i o_i] 更新潜特征,以考虑遮挡和碰撞。

请添加图片描述

训练。与标准 VAE [63, 65] 类似,通过最大化证据下界 (ELBO) 来训练模型。此外,选择经济监督 [67] 来有效地学习抓握姿势预测。

抓取姿势的细化

三维重建的一大优势,在于它能够利用重建结果来细化预测的抓取姿势。虽然 Ma [3] 提出一种基于接触的优化算法,但它需要从多视角图像重建精确的截断有符号距离场 (TSDF),而且运行时间相对较慢。相比之下,本文引入一种简单的细化算法,该算法将基于接触的约束和碰撞检测应用于三维重建。具体而言,首先通过在重建中找到距离夹持器左右手指最近的点来检测接触点。然后,调整预测的宽度和深度,使两个指尖都接触。最后,对重建结果进行碰撞检测,以丢弃存在碰撞的抓取姿势。

基于接触的约束。准确的接触对于成功抓取至关重要,因为它们确保操作过程中的稳定性和控制力。虽然网络可以预测夹持器的宽度和深度,但即使是微小的误差也可能导致抓取不稳定。为了解决这个问题,调整夹持器的指尖位置可优化抓取姿势,使其与重建图中左右手指 c_L 和 c_R 最近的接触点对齐。基于这些接触点优化宽度 w,使得接触距离 ∆w 保持在 γ_min 到 γ_max 范围内。注:D© 表示与 c 点的接触距离。之后进一步修正深度 d。这些简单的细化步骤有助于确保稳定的抓取。

如图所示:首先获得接触点 c_L 和 c_R。接下来,计算接触距离 D(c_L | R),并通过 Z(c_L | R) 计算深度。最后更新宽度和深度。

请添加图片描述

碰撞检测。基于 GS-Net [57],使用双指夹持器实现一个简单的无模型碰撞检测器。虽然之前的方法使用从深度图获取的部分点云,但它无法丢弃导致与遮挡区域发生碰撞的预测抓取姿势。为了克服这一限制,利用重建的形状,从而实现更精确的碰撞检测。为了证明这种方法的合理性,在实验中进行广泛的分析,并展示其优势。

另外,创建两个用于评估和训练的数据集:1) ReOcS 数据集用于评估不同遮挡程度下的 3D 重建质量;2) ZeroGrasp-11B 数据集用于训练基准和零样本机器人抓取模型。如图突出显示数据集的几个示例。

请添加图片描述

实现细节。Zero-Grasp 采用 ResNeXt [75] 架构作为图像编码器,在 ImageNet 数据集 [76] 上进行预训练,除最后一层之外的所有参数在训练期间都是固定的。与 EconomicGrasp [67] 使用预测的视图抓取度 s 来确定视图方向。对于训练,使用 AdamW [77],学习率为 0.001,在 NVIDIA A100 上批量大小为 16。将输入图像特征 D、潜特征 D′ 和 3D 遮挡场 V 的尺寸分别设置为 32、192 和 16。对于 3D 遮挡场,用 8 作为块分辨率 B。按照 Ma 的方法,接触距离 γ_min 和 γ√max 的范围分别定义为 0.005m 和 0.02m。为了生成抓取姿势,我们使用 0.005m^2 作为采样密度 ρ。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78665.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大模型从0到1记录学习 linux day21

第 1 章 Linux入门 1.1 概述 1.2 Linux和Windows区别 第 2 章 VMware、Ubuntu、Xshell和Xftp安装 第 3 章 Linux文件与目录结构 3.1 Linux文件 Linux系统中一切皆文件。 3.2 Linux目录结构  /bin 是Binary的缩写, 这个目录存放着最经常使用的命令的可执行文件&#xff0c…

Pytest安装

一、简介 pytest是一个非常成熟的全功能的Python测试框架,主要有以下几个特点:简单灵活,容易上手支持参数化能够支持简单的单元测试和复杂的功能测试,还可以用来做selenium/appnium等自动化测试、接口自动化测试(pytes…

企业网站html源代码 企业网站管理源码模板

在数字化转型加速的今天,企业官网已成为品牌展示与业务拓展的核心阵地。本文将从技术实现角度,解析企业网站HTML基础架构与管理系统的源码设计逻辑,为开发者提供可复用的模板化解决方案。 企业网站源码5000多套:Yunbuluo.Net 一…

特征工程四-1:自定义函数find_similar_docs查找最相似文档案例

find_similar_docs 函数参数详解及实际示例 函数参数说明 def find_similar_docs(query, vectorizer, doc_matrix, top_n3):参数类型说明querystr要查询的文本字符串vectorizerTfidfVectorizer已经训练好的TF-IDF向量化器doc_matrixscipy.sparse.csr_matrix文档集的TF-IDF特征…

连锁美业管理系统「数据分析」的重要作用分析︳博弈美业系统疗愈系统分享

​美业管理系统中的数据分析功能在提升运营效率、优化客户体验、增强决策科学性等方面具有重要作用。 数据分析功能将美业从“经验驱动”升级为“数据驱动”,帮助商家在客户管理、成本控制、服务创新等环节实现精细化运营,最终提升盈利能力与品牌竞争力…

当元数据遇见 AI 运维:智能诊断企业数据资产健康度

在数字化浪潮席卷全球的当下,企业数据资产规模呈指数级增长,然而传统数据监控方式却逐渐暴露出诸多弊端。想象一下,在某头部电商的晨会上,数据工程师小王正经历职业生涯最尴尬的时刻:“昨天促销活动的 UV 数据为什么比…

淘宝tb.cn短链接生成

淘宝短链接简介 1. 一键在线生成淘宝短链接tb.cn,m.tb.cn等 2. 支持淘宝优惠券短链接等淘宝系的所有网址 3. 生成的淘宝短链接是官方的,安全稳定有保证 4.适合多种场景下使用,如:网站推广,短信推广 量大提供api接口&#xff0…

【LLM应用开发101】初探RAG

本文是LLM应用开发101系列的先导篇,旨在帮助读者快速了解LLM应用开发中需要用到的一些基础知识和工具/组件。 本文将包括以下内容:首先会介绍LLM应用最常见的搜索增强生成RAG,然后引出实现RAG的一个关键组件 – 向量数据库,随后我们是我们这…

努比亚Z70S Ultra 摄影师版将于4月28日发布,首发【光影大师990】传感器

4月22日消息,努比亚将在4月28日14:00召开努比亚AI双旗舰新品发布会,预计发布努比亚Z70S Ultra 摄影师版和努比亚首款平板产品。据悉,努比亚Z70S Ultra 摄影师版将搭载第七代真全面无孔屏、第五代原生35mm高定光学、6600mAh电池,可…

DAY7-C++进阶学习

模板 学习链接1&#xff1a;C模板入门学习 学习链接2&#xff1a;C模板进阶学习 STL的重要实现原理&#xff0c;模板的声明和定义建议放到一个文件 xxx.hpp 里面或者 xxx.h&#xff0c;防止编译错误。 函数模板特化 1.基础模板 2.template<> 3.函数名<特化类型>…

redis_Windows中安装redis

①Windows安装包下载地址&#xff1a;https://github.com/tporadowski/redis/releases 当前最新版本截图 ②根据自己系统平台的实际情况选择对应的安装包&#xff0c;如&#xff1a;64位win10系统可选择Redis-x64-5.0.14.msi ③下载完成后运行安装&#xff0c;没有特殊要求的话…

Windows 安装 MongoDB 教程

Windows 安装 MongoDB 教程 MongoDB 是一个开源的 NoSQL 数据库&#xff0c;它使用文档存储模型而不是传统的关系表格。它非常适合需要处理大量数据并且需要高性能、可扩展性的应用场景。下面是如何在 Windows 系统上安装 MongoDB 的详细步骤。 一、准备工作 确保你的 Windo…

Vue Router 核心指南:构建高效单页应用的导航艺术

Vue Router 是 Vue.js 官方路由管理器&#xff0c;为单页应用&#xff08;SPA&#xff09;提供了无缝的页面切换体验。本文将深入解析其核心功能与最佳实践。 一、基础配置 1. 安装与初始化 npm install vue-router // router/index.js import Vue from vue import Router …

基础学习:(9)vit -- vision transformer 和其变体调研

文章目录 前言1 vit 热点统计1.1 目标分类 / 基础与改进1.2 轻量化 ViT / 移动部署优化(移动端)1.3 密集预测&#xff08;语义分割 / 深度估计等&#xff09;1.4 目标/词汇 检测1.5 掩码改进1.6 多模态/ 通用大模型1.7 分布式训练 / 效果提升1.8 任务特化应用&#xff08;图表 …

同样开源的自动化工作流工具n8n和Dify对比

n8n和Dify作为两大主流工具&#xff0c;分别专注于通用自动化和AI应用开发领域&#xff0c;选择哪个更“好用”需结合具体需求、团队能力及业务场景综合判断。以下是核心维度的对比分析&#xff1a; 一、核心定位与适用场景 维度n8nDify核心定位开源全场景自动化工具&#xff…

网页设计规范:从布局到交互的全方位指南

网页设计规范看似繁杂&#xff0c;但其实都是为了给用户提供更好的体验。只有遵循这些规范&#xff0c;才能设计出既美观又实用的网页&#xff0c;让用户在浏览网页时感到舒适、愉悦。 一、用户体验至上 用户体验&#xff08;UX&#xff09;是网页设计的核心原则之一。设计师…

图神经网络(GNN)基本概念与核心原理

图神经网络(GNN)基本概念与核心原理 图神经网络(GNN)是一类专门处理图结构数据的神经网络模型 (GTAT: empowering graph neural networks with cross attention | Scientific Reports)。图结构数据由节点(表示实体)和边(表示实体间关系)构成,每个节点和边都可以带有特…

【双指针】专题:LeetCode 18题解——四数之和

四数之和 一、题目链接二、题目三、题目解析四、算法原理解法一&#xff1a;排序 暴力枚举 利用 set 去重解法二&#xff1a;排序 双指针 五、编写代码六、时间复杂度和空间复杂度 一、题目链接 四数之和 二、题目 三、题目解析 题目要求基本与三数之和一样。 四、算法原…

3.0/Q2,Charls最新文章解读

diseases and depressive symptoms comorbidity on the risk of cognitive impairment in middle-aged and older adults people based on the CHARLS database DOI&#xff1a;10.3389/fpubh.2025.1558430 中文标题&#xff1a;基于CHARLS数据库的慢性病与抑郁症状共病对中老年…

学习笔记—双指针算法—移动零

双指针算法 移动零 283. 移动零 - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 请注意 &#xff0c;必须在不复制数组的情况下原地对数组进…