Locate 3D：Meta出品自监督学习3D定位方法

标题：

Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D

摘要：

我们提出了 Locate 3D，这是一种可根据指代表达（如“沙发和灯之间的小咖啡桌”）在三维场景中定位物体的模型。Locate 3D 在标准的指代定位基准测试中创下了新的最先进水平，并展现出强大的泛化能力。值得注意的是，Locate 3D 可直接处理传感器观测流（带位姿的 RGB-D 帧），从而支持在机器人和增强现实设备上的实际部署。我们方法的关键是 3D-JEPA，这是一种新颖的自监督学习（SSL）算法，适用于传感器点云。它以使用 2D 基础模型（如 CLIP、DINO）提取特征的三维点云作为输入，并在潜在空间中通过掩码预测任务促进点云上下文特征的自监督学习。在训练完成后，3D-JEPA 编码器将与一个语言条件解码器一起进行微调，以联合预测三维掩码和包围框。此外，我们还引入了 Locate 3D 数据集，这是一个用于三维指代定位的新数据集，涵盖多个采集设置，包含超过 13 万条标注。这一数据集支持对模型泛化能力的系统研究，并有助于构建更强大的模型。

框架图：

Locate 3D 的整体架构分为三个阶段运行：

第一阶段：预处理。我们构建一个点云，并通过 2D 基础模型提取“提升”的特征，这些模型提供了局部信息。
第二阶段：上下文化表示。这些提升特征被输入到预训练的 3D-JEPA 编码器中，从而生成整个场景的上下文化表示。
第三阶段：三维定位。一个三维解码头利用文本查询和 3D-JEPA 特征来定位被指代的目标物体。

在这里插入图片描述

引言重要内容节选：

目前，3D-RefExp（3D指代表达定位）任务仍具有相当大的挑战性。在方法的一个极端，有一些研究针对该任务在小型基准数据集上训练专用模型。这类方法通常在推理时需要人工标注，如详细的三维网格或物体实例分割，这使得它们难以在真实世界的设备上部署。在另一个极端，有一些方法尝试利用 2D 多模态语言模型（VLM）来处理 3D 任务。虽然这类方法可以借助大型语言模型（LLM）编码丰富的语言结构，但它们对三维世界的表示方式通常比较简单且人为设定，缺乏灵活性和泛化能力。
Locate 3D 的工作流程分为三个阶段：在第一阶段的预处理阶段，我们利用底层的传感器观测流，将来自 2D 基础模型的特征“提升”到三维点云中。随后，我们使用一个通过我们提出的 3D-JEPA 自监督学习（SSL）算法预训练的 Transformer 编码器，将这些“提升”的基础特征转换为上下文化特征，以提供更好的场景级理解能力。最后，我们使用一个基于语言条件的三维解码器来定位目标物体。值得注意的是，Locate 3D 可直接处理传感器观测流，无需任何人工后处理（例如三维网格优化或真实物体的实例分割标注），这使其可以直接部署在机器人和增强现实设备上。

本文贡献：

3D-JEPA 是一种新颖的自监督学习（SSL）方法，适用于三维点云，可学习三维场景的上下文化表示。它的输入是从 2D 基础模型中“提升”出的特征所构成的三维点云。其自监督的伪任务是对特征化点云中随机掩码区域的潜在嵌入向量进行预测。我们证明了：最终生成的 3D-JEPA 特征能够提供场景层级的上下文理解，而来自 2D 基础模型的“提升”特征则仅能提供局部理解。从概念上来看，这类似于自然语言处理（NLP）中上下文化的 token 嵌入与词向量嵌入之间的差异。通过 3D-JEPA 的预训练，Locate 3D 模型的性能得到了显著提升：在域内评估中由 59.8% 提升至 61.7%，在跨域评估中由 51.5% 提升至 56.7%。
Locate 3D 是一个用于 3D 指代表达（3D RefExp）的模型，在多个基准测试中取得了最先进（SoTA）的结果，并展现出强大的跨域泛化能力。Locate 3D 通过微调我们预训练好的 3D-JEPA 编码器，结合一个语言条件三维解码器来完成 3D RefExp 任务。该解码器在三维特征与文本查询之间执行交替式交叉注意力机制，并采用联合的掩码与包围框预测策略。在标准的 3D RefExp 基准测试集（ScanRefer、SR3D、NR3D）上，Locate 3D 相较于现有方法实现了从 58.5% 提升至 61.7% 的最优性能。更关键的是，与以往模型相比，Locate 3D 在取得显著性能的同时减少了大量假设条件。在推理阶段，它不依赖真实区域提议、网格模型或表面法线，这使其特别适合在真实场景中部署。在与采用类似假设的先前工作对比时，Locate 3D 实现了从 40.7% 到 61.7% 的大幅性能跃升。此外，它还在 ScanNet++ 中的保留场景和标注上展现出强泛化能力，并在一个多房间测试环境中成功完成物体定位任务，从而支持一个端到端的机器人导航与抓取系统流程。
Locate 3D 数据集（L3DD）是一个用于 3D 指代表达（3D RefExp）的新数据集，涵盖了 ScanNet、ScanNet++和 ARKitScenes三大子数据集。L3DD 共包含 1,346 个场景，提供超过 13 万条语言标注，使我们能够研究 Locate 3D 在不同采集设置和多样化室内环境采样下的鲁棒性表现。同时，它也可以作为其他指代表达模型的补充训练数据来源。虽然 Locate 3D 在仅使用标准基准训练数据的情况下已实现 61.7% 的最先进性能，但在引入 L3DD 训练数据后，其在同一基准上的性能进一步提升至 63.7%。我们将使用 L3DD 数据集训练的增强模型称为 Locate 3D+。

方法介绍：

Locate 3D 的整体架构如图 1 所示。该模型旨在处理静态环境下的 RGB-D 传感器观测数据（例如：物体在短时间内保持静止的家庭场景）。
Locate 3D 包含三个主要模块：

预处理模块（Preprocessing）：利用二维基础模型（2D Foundation Models）构建带有特征的三维点云（详见第 2.1 节）；
上下文表示模块（Contextualized Representations）：通过 PointTransformer-v3（PTv3）编码器对点云特征进行处理，生成具有上下文信息的三维表示。该编码器采用我们提出的新型自监督学习算法 3D-JEPA 进行预训练（详见第 2.2 节）；
目标定位模块（Localization）：使用一个语言条件的三维目标定位解码器，联合预测目标的掩码（Mask）和边界框（Bounding Box）（详见第 2.3.1 节）。该解码器从零开始训练，并与使用 3D-JEPA 初始化的 PTv3 编码器一起，针对指代表达定位任务进行联合优化训练（详见第 2.3.2 节）。

预处理：将2D基础模型提升到3D点云中

我们首先对输入（已配准的 RGB-D 图像）进行预处理，通过构建三维点云来编码几何信息，并利用现成的二维基础模型（2D foundation models）对点云进行语义特征提取。我们从 DINOv2（Oquab 等，2023）中提取纯视觉特征（即 patch 级别特征）。我们还从 CLIP（Radford 等，2021）中提取视觉-语言特征。由于 CLIP 特征是全局特征（即每张输入图像提取一个特征，而不是密集提取），我们使用 SAM（Kirillov 等，2023）从输入图像中提取二维实例掩码，并基于掩码提取每个实例的 CLIP 特征。这些特征随后被映射回包含掩码的像素。我们将 CLIP 特征与 DINO 特征拼接，并结合 RGB 像素强度的谐波编码，生成密集的二维特征图。这些特征图被提升到三维空间，方法参考了 Jatavallabhula 等（2023b）的思路。我们首先将 RGB-D 图像反投影以生成点云，并对其进行体素化（在实验中我们使用了 5cm 的体素大小）。然后，我们通过加权平均体素内所有特征的方式，计算每个体素的单一特征。加权方式是基于体素边界距离的三线性插值计算。该过程生成了一个带有“提升”特征的点云： $\mathbf{Pt}_{\text{CLift}} = \{(x_i, y_i, z_i, f_i)\}_{i=1}^N$ 其中， $f_i \in \mathbb{R}^d$ 表示第 i 个点的特征向量。

3D-JEPA：通过自监督学习上下文表示

3D-JEPA 接收前述升维特征 $\mathrm{PtC}_{\text{lift}}$ 作为输入，学习场景的上下文表示。与仅局限于某个物体、掩码或局部块的特征不同，我们希望学习到能够关注场景不同区域的特征，从而获得全面语义信息的表示。这一思路类似于自然语言处理中的上下文词向量（contextualized embeddings）与传统词嵌入（word embeddings）之间的差异。
为了实现这种上下文表示的学习，我们借鉴了 \textit{Joint Embedding Predictive Architectures}（JEPA）框架（Assran et al., 2023；Bardes et al., 2024），提出了 \textbf{3D-JEPA}。该方法基于编码器-预测器架构，在学习到的隐空间中执行掩码预测（masked prediction）。
设输入点云为 $\mathrm{PtC}$ ，包含由 2D 基础模型升维而来的特征。我们使用两个 Transformer 网络：编码器 $E_\theta(\cdot)$ 和预测器 $P_\phi(\cdot)$ ，目标函数如下：

$\min_{\theta, \phi} \left\| P_\phi\left(E_\theta(\tilde{\mathrm{PtC}}), M\right) - \mathrm{sg}\left(\bar{E}_\theta(\mathrm{PtC})\right) \right\|$

其中： $\tilde{\mathrm{PtC}}$ 表示带有随机掩码的点云； $M$ 是描述被掩码区域的变量； $\mathrm{sg}(\cdot)$ 是停止梯度（stop-gradient）操作符； $\bar{E}_\theta(\cdot)$ 是编码器的指数移动平均版本，用于防止特征塌陷（collapse）。损失在所有被掩码区域的点上逐点计算并进行平均。在训练完成后，编码器 $E_\theta(\cdot)$ 即可作为场景的上下文表示提取器使用。

在隐空间（latent space）} 中进行掩码预测相较于在输入空间中进行具有以下两点优势：

与 2D 图像中常规的 MAE 方法不同，我们的输入特征空间维度很高——由于使用了升维后的 2D 基础特征，其维度相当于 ViT 的输出维度。直接重建这类高维度、细粒度特征较为困难。
最近的研究表明，使用教师-学生架构执行掩码预测的方法能获得更好的表现。

为将 JEPA 方法适配至 3D 空间，我们设计了基于有界半径（bounded radius） 的掩码策略，并提出了高效的 3D 原生编码器和预测器架构。

编码器与预测器结构（Encoder and Predictor Architectures）
与包含规则网格结构的图像或体素（voxels）不同，点云具有无序性（order invariant）且是集合形式（set-valued）。U-Net、PointNet、DeepSets以及 PointTransformer等架构都已被证明在处理点云任务中非常有效。

在我们实现的 3D-JEPA 中，编码器采用 Point Transformer v3。在每一层中，它首先基于点的局部邻近性，使用双射的空间填充曲线（bijective space filling curves）对点云进行序列化处理。接着，将点划分为局部分组，并在每组内进行注意力计算，这一过程与卷积操作在概念上相似。

对于预测器，我们使用了类似的序列化步骤，但后续采用的是带稀疏注意力模式（sparse attention pattern）的标准 Transformer。这种设计由于不依赖于显式分组，从一开始就允许信息更快地混合。然而，我们发现稀疏注意力对于提高训练吞吐量与显存效率，以及保证训练稳定性是至关重要的。

掩码策略（Masking Patterns）
我们发现掩码模式的选择对所学习表示的质量具有关键影响，这与已有研究文献中的发现一致。特别地，在我们尝试的多种变体中，下图所示的“序列化百分比掩码模式（serialized percent masking pattern）”表现最佳。该掩码方式包含两个显著特点：

以“区域”为单位进行掩码（即遮盖彼此距离较近的点），而不是随机点，这种方式相比于简单的局部插值更能促进模型对空间结构的理解；
按照场景的百分比进行掩码，而不是固定数量，从而可以适配不同空间尺度的点云数据，有效提升训练的泛化能力。

Object Localization from Referring Expressions

为了解决 3D 指代表达（Referring Expressions）任务，我们设计了一个基于语言条件的 3D 目标定位解码器（见图 3），其输入为由我们提出的 3D-JEPA 编码器（第 2.2 节）生成的上下文表征。
在这里插入图片描述
本节将依次介绍该解码器的架构设计（第 2.3.1 节）以及端到端的训练流程（第 2.3.2 节）。

2.3.1 基于语言条件的 3D 解码器

如图 3 所示，该解码器处理两个输入：3D-JEPA 特征 $E_\theta(\mathrm{PtC}_{\text{lift}})$ 和文本查询 $t$ 。这两个输入通过 transformer 结构进行迭代优化，随后被送入三个并行的预测头，生成所有目标的 3D 掩码和包围盒预测。具体架构如下所述。

解码器输入嵌入：我们首先将 3D-JEPA 表征 $E_\theta(\mathrm{PtC}_{\text{lift}})$ 投影到模型工作维度 $E$ ，并添加可学习的 3D 位置嵌入。同样地，我们将文本查询 $t$ 的每个词的 CLIP（Radford 等, 2021）嵌入投影到相同维度。随后，我们初始化一组可学习的目标查询 $Q$ ，并将其与语言嵌入在序列维度上拼接。在下文中，我们将投影后的 3D-JEPA 特征称为“点特征”，而将拼接后的目标查询与语言 token 统称为“查询”。

解码器模块：我们在点特征和查询之间应用一系列自注意力和交叉注意力操作。具体来说，每个解码器模块包含三个注意力模块：（1）查询间的自注意力模块，用于相互优化其表征；（2）交叉注意力模块，使查询能从点特征中提取相关信息以增强上下文理解；（3）用于更新点特征的交叉注意力模块，使其能够结合优化后的查询信息。这第三个模块受到 Jain 等人（2025）的启发，其在 3D 检测任务中验证了更新视觉特征的重要性。该解码器模块被重复应用，用于点特征与查询的迭代优化。在 Locate 3D 中，解码器模块数量为 $n = 8$ ，模型维度为 $E = 768$ 。我们观察到，模型规模与性能之间呈正相关（见第 4 节）。

解码器预测头：我们的解码器包含三个并行的预测头（见图 7），独立地将优化后的可学习查询 $Q$ 作为候选目标进行处理。具体而言，对于每个查询，我们通过专用预测头联合预测其 3D 包围盒与 3D 掩码。此外，参考 Kamath 等人（2021），我们还预测一个对齐矩阵，用于将每个查询与指代表达中的名词进行匹配。

掩码预测头遵循 Cheng 等人（2021）的方法，通过 MLP 处理查询，并与点特征进行点积运算，生成每点的掩码 logits。文本对齐预测头由一个 MLP 构成，接收查询并直接输出对齐矩阵。对于包围盒预测，我们设计了一种新的架构（见图 7）：首先将线性投影后的 $(x, y, z)$ 坐标拼接到点特征上，然后将其与优化后的查询进行交叉注意力操作，最终为每个查询通过一个 MLP 回归出包围盒。

2.3.2 Locate 3D 的训练过程

Locate 3D 从零开始训练语言条件的 3D 解码器，并对预训练的 3D-JEPA 编码器 PTv3 进行微调。它利用目标掩码与包围盒这两种监督信号显式结合空间约束（包围盒）与密集语义监督（掩码），从而获得更好的目标定位效果（见第 4.3 节实验）。

具体而言，Locate 3D 优化一个复合损失函数，包括：（1）掩码损失，结合 Dice 损失与交叉熵损失；（2）包围盒损失，由 L1 距离与广义 IoU组成；（3）带有 $\alpha$ 平衡因子的文本对齐 Focal 损失。

按照 Carion 等人（2020）的方法，我们定义匹配代价，并使用匈牙利匹配将对象查询预测与真实目标进行配对。在每一层解码器上施加逐层加权的深度监督，并维护模型权重的指数滑动平均（EMA），用于评估与推理。为避免破坏预训练特征，我们使用分阶段的学习率调度器；具体做法为：首先冻结编码器，仅训练解码器；然后以较低的学习率联合微调整个模型。

3 Locate 3D 数据集概述

Locate 3D 数据集（L3DD）是一个新的人工标注的指代表达数据集，涵盖了 ScanNet（Dai et al., 2017）、ScanNet++（v1）（Yeshwanth et al., 2023）和 ARKitScenes（Dehghan et al., 2021）。本节描述了该数据集，第四节讨论了使用 L3DD 训练 3D 指代表达模型的影响。

3.1 数据集统计

总的来说，我们的数据集包含 131,641 个样本。按场景数据集划分，L3DD 包括：

ScanNet：30,135 个新的语言标注，涵盖 550 个场所和 5,527 个物体用于训练；4,470 个新的语言标注，涵盖 130 个场所和 1,038 个物体用于验证。
ScanNet++：91,846 个新的语言标注，涵盖 230 个场所和 13,359 个物体用于训练；3,774 个新的语言标注，涵盖 50 个场所和 1,303 个物体用于验证。
ARKitScenes：991 个新的语言标注，涵盖 293 个场所和 1,862 个物体用于预训练场景；425 个新的语言标注，涵盖 93 个场所和 460 个物体用于验证。

所有验证集的样本都至少由 1 名人工标注员进行验证。超过 80% 的 ARKitScenes 和 ScanNet++ 验证集样本至少经过三次验证，只有当大多数标注员一致认为样本无歧义正确时，样本才会被包括在内。

3.2 与先前数据集的比较

在这里插入图片描述

如上表所示，与先前的数据相比，L3DD 在两个关键维度上大大增加了现有 3D 指代表达数据集的规模——语言标注数量和场景覆盖范围。我们的语言标注大约是现有训练数据的两倍，并且在调整场景大小后，我们大约是现有密集 RefExp 标注场所数量的五倍。这些标注跨越多个场景数据集，允许在固定标注过程的前提下进行场景泛化的有原则的研究。我们在表 10 中展示了，这种额外的场景多样性是 L3DD 作为训练数据价值的关键——在标注数量固定的情况下，同时使用 ScanNet 和 ScanNet++ 进行训练，明显优于仅使用 ScanNet 标注进行训练（在 SR3D/NR3D/ScanRefer 上的 recall@0.25 从 61.8% 提高到 63.2%）。

最后，我们解决了 RefExp 生成、锚点定位，并在某些情况下甚至在单次操作中进行分割。在现有数据集中，这些组件的标注是通过多年的工作积累而来的。L3DD 的数据集视觉效果、收集过程以及进一步的分析可在附录 D 中查阅。

实验与分析

在本节中，我们报告了我们训练模型的结果。Locate 3D 在标准的 3D 基准数据集 SR3D、NR3D和 ScanRefer上进行了训练和评估。Locate 3D+ 额外加入了我们新收集的 L3DD 数据集进行训练。我们在基准数据集的验证集上进行评估，并报告了不假设有 ground-truth 物体提议的 top-1 准确率。值得注意的是，我们在直接从提升的 RGB-D 观察中获得的传感器点云上评估我们的方法，而不是从 ScanNet 提供的网格重建中采样的清理过的后处理点云。这种选择更好地代表了现实世界的部署场景，尽管由于传感器噪声、缺失区域和配准错误（如在 Jain 等，2024 中讨论的那样），通常会导致性能下降。第 4.1 节比较了 Locate 3D 和先前方法在标准基准数据集上的表现。第 4.2 节分析了 3D-JEPA 预训练的影响。第 4.3 节呈现了我们架构中各个组件的消融研究，第 4.4 节评估了我们的方法在新环境和机器人部署中的泛化能力。

Locate 3D 与先前方法在 3D 基准数据集上的比较

首先，我们研究了 Locate 3D 在三个标准基准数据集 SR3D、NR3D 和 ScanRefer（Achlioptas 等，2020；Chen 等，2020）上的表现。我们与先前的工作和两个视觉语言模型（VLM）基线进行比较。VLM 基线通过一个由三个阶段组成的模块化管道处理 RGB-D 观察。在第 1 阶段，VLM——无论是 Llama-3还是 GPT-4o——用于从观察流中选择一个 2D 帧。在第 2 阶段，VLM 通过选择由 GroundingDINO和 SAM 2生成的 2D 物体掩码，从选定的帧中选择一个物体。在第 3 阶段，使用 SAM 2（Ravi 等，2024）对所选物体的 2D 掩码进行时间传播，并通过深度和相机信息提升到 3D，以生成预测的 3D 边界框。Llama-3 和 GPT-4o VLM 基线的更多细节请参见附录 F。

我们在表 2 中展示了总体结果。大多数先前的工作假设在训练和推理时可以访问精细化的网格和网格（物体）区域提议。相反，我们选择在更现实的条件下评估我们的模型，即只使用传感器观察流。在这种更严格的设置下，我们的模型（Locate 3D）即使与那些在精细网格点云下操作的先前方法进行比较，仍然取得了最先进的（SoTA）结果。此外，当使用我们自己的 L3DD 数据集进行训练（Locate 3D+）时，模型在所有度量上表现得更强，尽管保持相同的架构和训练方法。接下来，我们将讨论导致这些性能提升的不同组件。

理解 3D-JEPA 的影响

3D SSL（自监督学习）是必要的吗？提升的 2D 基础特征是否足够？我们进行了一个系统的消融研究，考察了三个关键方面：（1）输入特征的选择，（2）使用编码器架构与仅在提升的特征上训练解码器的作用，以及（3）用 3D-JEPA 预训练初始化编码器的好处。对于每种配置，我们都训练了相同类型的解码器。总体结果展示在表 3 中。

我们首先考察了输入特征的影响，将原始 RGB 点云与提升的 2D 基础特征进行比较。结果清晰地展示了强大的 2D 基础特征的重要性，CF 相对于 RGB 展现了显著的提升（28.9% → 53.9% Acc@25）。在引入编码器架构后，我们观察到了有趣的模式。即使是随机初始化，编码器也为两种输入类型提供了增益，尽管 RGB 特征的提升更为明显（28.9% → 51.4%）与 CF 特征（53.9% → 59.8%）。使用冻结的 3D-JEPA 编码器，相比于基线 CF 特征，在 Acc@25 和 Acc@50 上分别提高了 3% 和 4%，表明 3D-JEPA 学到了适合定位的强表示。最后，我们发现微调 3D-JEPA 编码器达到了最佳性能 61.7%，突显了 SSL 预训练和任务特定微调的重要性。

Locate 3D 的消融研究

来自 2D 基础特征的好处

由于互联网上有大量数据可用，2D 基础模型不断取得进展。这些进展是否也能改善 3D 的结果？如果能，这为利用进展提供了一个强大的机会。为了验证这一点，我们使用不同的 2D 基础特征训练了 Locate 3D 的变体。这个过程通过提升 2D 特征，使用这些特征预训练 3D 主干，并进行 3D-RefExp 的端到端微调，结果展示在表 4 中。我们发现，使用更大的模型（CLIP-L，SAM-H）相对于较小的变体（CLIP-B，MobileSAM）能够改善结果，表明扩展模型规模有益。此外，使用 CLIP-L 和 DINO-v2 相比单独使用 CLIP-L，结果有了显著提升。因此，我们发现 2D 基础模型的改进能够转化为 3D 物体定位的提升。

最优解码器头架构与监督策略

鉴于我们是联合预测任务，我们研究了两个关键设计选择：（1）监督信号的类型（仅掩码、仅边框或两者结合），以及（2）边界框预测头的架构。我们的实验（表 6）表明，仅掩码监督获得了适度的性能（55.4%），但落后于我们采用专门的边框头的做法（61.7%）。虽然使用 DBSCAN 后处理这些掩码有助于解决噪声预测问题（58.4%），但它仍然表现不佳，尤其是在较高 IoU 下（IoU@50 时 41.6% 对比 49.4%），同时将非可微的组件引入了管道。相反，单独的边框监督导致了极差的性能（0.3%），我们推测这是由于缺乏更密集的掩码监督信号。最后，在边框头架构方面，我们发现基于变换器的设计相较于使用 MLP（61.7% 对比 35.6%）显著优越，证明了通过跨注意力正确整合空间信息的重要性。

在新环境中的评估

L3DD 上的表现

我们通过在我们 L3DD 数据集（第 3 节）上对 Locate 3D 的评估，检验其泛化能力。该数据集涵盖了三个场景数据集。我们还在用于机器人测试的持出环境（FRE）上评估了 412 个样本。即使只在 ScanNet 上训练，Locate 3D 在 L3DD 的 ScanNet++ 和 ARKitScenes 上也展示了强大的表现。尽管存在显著的领域差距，Locate 3D 在大多数度量上都超过了基线，展示了我们方法的鲁棒性。

我们的消融研究揭示了促成这种强泛化能力的关键组件。首先，用提升的基础特征（CF）替代原始 RGB 输入显著改善了跨数据集的表现，所有基准测试结果都有提升（SN++：37.5% → 51.5%，ARKitScenes：11.3% → 41.7%，FRE：39.9% → 54.1%）。引入 3D-JEPA 初始化（Locate 3D）进一步增强了泛化能力，使得在 SN++ 上的性能提升至 56.7%，在 ARKitScenes 上提升至 46.2%。最后，在表 8 中，我们展示了将 L3DD 的附加训练数据（Locate 3D+）引入后，在所有基准上的显著改进（SN++：56.7% → 83.9%，ARKitScenes：46.2% → 57.6%，FRE：52.0% → 73.5%）。然而，我们观察到，包含来自 L3DD 域内的训练数据会减少 3D-JEPA 预训练对 L3DD 评估的影响。

在机器人上的部署

如前所述，我们的模型能够处理传感器流，并且在测试时无需人工干预（例如，网格细化或实例分割）。我们在 Spot 机器人上部署了我们的 Locate 3D 模型，在一个持出的公寓场景中进行测试。该场景通过多房间测试公寓的方式属于分布外数据，并且其大小超过了训练数据。任务是导航至家具物体并拾起“毛绒玩具”。成功通过抓取玩具来验证。我们的结果显示，Locate 3D 在 10 次实验中成功率达到了 8/10，超越了基线，后者的最高成功率为 5.66/10（详细信息请参见表 11）。注意，导航和拾取使用了预训练的技能，而定位依赖于我们的模型。更多详细信息请参见补充视频和附录 E.1。

计算分析

运行时间分析

为了提高计算效率，我们为每个视图缓存环境的 2D 特征以及特征化的点云。在 ScanNet 实验中，我们离线计算这个缓存；在机器人实验中，我们在进行初步环境探索阶段时计算它。使用这个特征缓存，模型的前向传播在包含 100k 特征点的场景中需要 1 秒，并在 A100 GPU 上使用 8 GB 的 VRAM。

限制

我们之所以能够使用这种缓存，是因为我们的基准测试是在静态（ScanNet）或准静态（机器人）环境下进行的。将我们的方法扩展到动态场景需要实时计算 2D 特征，并不断更新特征化的环境。我们认为，前者是一个工程问题，而后者是一个活跃的研究领域，像 Lifelong LERF（Rashid 等，2024）等方法正在探索这一问题。

总结

在本研究中，我们提出了 Locate 3D——一个用于从文本指称表达中在三维空间中定位目标物体的模型。我们的方法依赖于 3D-JEPA，这是一种针对点云的全新自监督学习方法。该方法首先将2D基础模型（如 SAM、CLIP、DINO）提取的特征投影到3D点云中，随后在这些提升后的特征上进行自监督学习，预训练任务为潜在空间中的掩码预测——即利用场景中其余部分预测被掩码区域的潜在特征。我们证明，该策略能够学习具有上下文感知能力的表示——即某个点的特征能够结合整个场景的信息。我们还展示了，采用 3D-JEPA 预训练的骨干网络可以通过 mask-and-box 解码器在 RefExp 任务上有效微调，最终形成 Locate 3D 模型。实验证明，Locate 3D 在多个标准 RefExp 基准上达到了最新的最优性能。此外，与以往方法不同，Locate 3D 仅依赖传感器采集的点云，因此更适用于机器人、智能眼镜等实际应用场景。