探索3D空间的视觉基础模型系列 - 指南
在深度学习和计算机视觉的研究中,视觉基础模型(Visual Foundation Models,简称VFM)近年来取得了显著进展。这些模型利用大规模的预训练,展现出了强大的泛化能力,能够处理各种视觉任务,从图像分类到目标检测,再到语义分割等。然而,大多数现有的VFM主要关注二维图像数据,而在三维数据的理解和处理上,仍然存在许多尚未被完全探索的领域。
三维感知(3D Awareness)作为计算机视觉中的一个核心挑战,涉及到如何理解和表示物体及场景的三维结构。尽管当前的视觉模型在二维任务中表现出色,但它们能否管用理解和表示三维结构,依然是一个值得深入探讨的问题。三维感知不仅仅是识别物体的形状,它还涉及从不同视角一致地表示和恢复物体的表面特征。随着三维信息的广泛应用,如虚拟现实、自动驾驶和机器人导航,如何提升VFM的三维感知能力,成为了一个亟待解决的主要课题。
在本系列论文中,我们将聚焦于三篇关于探测视觉基础模型对于三维感知能力的研究。通过不同的方法和实验设计,作者们分别探讨了VFM在三维感知中的局限性及其潜力,并提出了新的评估框架和技术。
第一篇论文Probe3D借助任务特定的探测途径分析VFM的三维感知,揭示了其在三维结构编码方面的不足;
第二篇论文提出了Lexicon3D,对多种视觉编码模型进行了全面评估,重点考察了不同场景中的三维场景理解能力;
第三篇论文通过引入高斯点云渲染技巧(Gaussian Splatting),提供了一种新的探测三维感知的方式Feat2GS,为VFM的三维感知能力提供了更细致的剖析。
接下来,我们将详细介绍这三篇论文,逐一分析它们的研究方法、实验结果和关键结论。
1 Probe3D:从3D感知的角度探索视觉基础模型
1.1 3D感知视觉表征
大家首先讨论一下3D感知视觉表征的含义。当我们观察一个场景时,尽管我们只看到它的 2D 投影,但我们似乎毫不费力地就能理解它的 3D 结构。发展心理学和心理物理学的研究表明,我们的感知会编码深度和方向等表面属性。心理意象的研究表明,我们对物体的内部表征会编码其 3D 形状,并受到 3D 约束的影响。受这项工作的启发,我们假设 3D 感知表征会将表面的根本 3D 属性编码为距离和方向。除了单个图像之外,3D 感知表征在同一物体或场景的不同视图之间是一致的,因为它们是相同底层 3D 几何的投影。
计算机视觉中的表示在如何很好地表示物体的 3D 形状方面存在很大差异。早期的表示,如 2.5D 草图和广义圆柱体,明确描绘了物体的 3D 几何形状及其空间关系。最近的进展偏离了显式建模,而是依赖于将视觉信息表示为密集特征网格或标记集。虽然早期表示的 3D 感知很明显,但学习到的表示编码了什么或它们的 3D 感知程度如何仍不清楚。流行的可解释性机制(如GradCAM)在这里没有帮助,基于它们告诉我们图像的哪些组成部分导致了特定的推理,而不是网络表示了什么信息。
我们建议通过探测两种能力来评估视觉模型的 3D 感知能力:单视图到3D和多视图一致性。我们从人类感知方面的工作中汲取灵感,并根据模型对基本3D属性的编码效果和3D一致性来评估模型。对于单幅图像,我们期望 3D 感知模型能够准确表示可见表面并编码深度和表面方向等属性。当给定同一物体或场景的多张图像时,我们期望 3D 感知表示能够捕捉图像之间的关系并提供准确的对应关系。虽然这两种能力并不详尽,但它们抓住了 3D 理解的两个基本方面。此外,它们可以直接映射到计算机视觉中三个研究透彻的障碍,即估计单目深度、表面法线和对应关系。
1.2 实验设置
评估视觉基础模型的 3D 感知能力:即大规模预训练模型,这些模型被提议作为各种下游任务或应用的通用骨干。具体来说,我们希望回答以下问题:就是我们实验的目的
1. 模型是否学会了表示可见表面?
2. 表示在各个视图之间是否一致?
3. 训练目标如何影响 3D 感知能力?
模型。大家主要将实验重点放在视觉Transformer上,这些转换器被提议作为通用骨干或在任务或领域中表现出强大的泛化性能。此外,我们有兴趣评估使用不同监督信号训练的模型。首先,我们考虑三种通常用作预训练任务的监督形式:分类、语言监督和自我监督。最近的工作还表明,文本条件图像生成允许学习强大的表示并为其他视觉任务提供强大的骨干。我们还考虑了两种最近扩大规模的密集监督形式:深度估计和类别无关分割。虽然这些模型尚未用作通用骨干,但它们表现出令人印象深刻的广泛领域的泛化能力,并提供了一个有趣的比较点。我们在表 1 中概述了所考虑的模型。
“表 1. 评估的视觉模型。大家考虑了一系列涵盖多种监督形式的视觉模型。我们评估公开可用的检查点,并尽可能选择具有可比模型和训练规模的检查点。”
一个挑战是如何公平地比较具有不同数据和计算要求的模型。考虑到实现此类模型所显示的强大性能所使用的规模,这一挑战进一步加剧。此外,用于训练这些模型中的许多模型的内容是私有的,甚至复制数据收集和管理过程也需要大量资源,如 Xu等人所示。除了信息规模和管理之外,模型还有不同的数据要求,范围从类标签、标题、掩码甚至简单的管理。因此,不清楚哪个内容集许可提供公平的比较。我们做出了一个务实的选择,依靠公开可用的检查点并选择具有可比架构和训练规模的检查点来献出一些公平的比较。
其他任务的良好初始化。此外,微调通过牺牲其通用性来专门化模型。相反,我们利用可训练的探针和零样本推理方法来探测冻结的特征,这些办法不会改变模型权重或显着改变模型容量。这使我们能够在假设同一模型可用于广泛的任务的情况下评估模型的预训练表示。就是另一个重要障碍是如何评估这些属性。一种常见的方法是迁移学习,其中使用特定于任务的监督对预训练模型进行微调。这通常是一个很好的实际选择,因为它许可带来强大的下游性能。然而,它不适合我们的分析,源于良好的微调性能可能表明两件不同的事情:模型具有良好的 3D 感知或模型权重
1.3 探测任务详解
1.3.1 单幅图像表面重建
在本节中,我们将分析模型如何很好地表示图像中的可见表面。我们考虑单视图 3D 理解的两个任务:深度估计和表面法线估计。这些任务在计算机视觉中已经很成熟,并且在人类感知和发展中很常见。虽然深度和表面法线是密切相关的量,但它们是不同的预测任务,由于它们依赖于不同的视觉线索,正如 Koenderink 和 Van Doorn以及 Fouhey所讨论的那样。我们在下面简要概述了我们的评估设置,并请读者参阅 App. A 和我们的代码版本以了解更多具体细节。
单目深度估计是预测图像中每个像素的深度的任务。虽然早期的工作将该任务定义为回归,但最近的研究表明,使用分箱预测行获得更好的性能(Bhat 等人)。我们遵循 AdaBins公式并使用其提出的损失来训练密集探测器。 我们报告了深度估计的均方根预测误差以及不同阈值比率下的召回率,类似于 Eigen 等人。
我们发现,以对象为中心的数据集的深度估算尤其受到尺度模糊性的挑战。虽然尺度模糊性会影响对象和场景,但我们发现,经过训练以估算对象度量深度的模型最终会专注于预测对象的平均深度,而不会捕获任何细节。因此,我们对对象使用尺度不变公式,将其深度归一化为 0 到 1 之间。
表面法线估计是预测每个像素处表面方向的任务。我们采用了 Bae 等人的设置,该设置利用了不确定性感知角度损失。与 Fouhey 等人类似,我们报告了不同角度阈值下的均方根角度预测误差以及百分比召回率。
探测。我们使用类似于 DPT 解码器的密集多尺度探测。这与自监督模型基准测试中常用的线性探测 不同。线性探测对于语义任务很有用,因为类的线性可分性是期望和预期的属性。然而,我们为什么要求 3D 属性的编码是线性的还不清楚。此外,模型可以在网络内的不同或多个位置表示此类属性。因此,我们不是在特定的线性上训练线性探测,而是使用多尺度密集探测将来自多个层的特征映射到深度或表面法线。
优化。我们应用 AdamW优化器和线性热和余弦衰减学习率调度程序对探针进行 10 个时期的训练。哪怕更长时间的训练行进一步提高性能,但由于探针的容量相对较小,5 个训练时期后趋势趋于稳定。
“图 2. 深度估计结果。虽然预训练表示在表示深度的能力方面表现出很大的差异,但它们在物体和场景上的表现是一致的。CLIP 和 MAE 特征不编码深度,而是似乎捕捉粗略的先验,例如“地板像素很接近”。大多数模型似乎捕捉到了场景的粗略结构,并且在捕捉细节的程度上有所不同。DINOv2 表现最佳,准确捕捉精细细节;例如,牛耳朵、办公椅和咖啡桌。”
数据集。我们评估场景和对象上的性能。我们使用 NYUv2 数据集来评估场景级性能,因为它是室内场景理解的常用基准。我们使用 NAVI 数据集来评估对象级性能,该数据集包含一系列广泛场景和方向的对象实例。这两个数据集都提供了对齐的深度图。对于表面法线,我们使用 Ladicky 等人生成的注释并为 NAVI 生成表面法线注释。
结果。由于篇幅限制,大家评估了所有模型并在App. B中报告了性能。我们在此重点关注定性结果和性能趋势,并利用一系列疑问对其进行分析:
模型会学习表示深度吗?我们观察到,模型编码深度的能力变化很大。这可以在图 2 中清楚地看到,其中 DINOv2和StableDiffusion预测准确且详细的深度图,捕捉牛耳朵和椅子腿,而 CLIP 和 MAE 生成模糊且不准确的估计。值得注意的是,所比较的模型都是高性能模型,通常用作下游任务的主干。所看到的差异凸显了考虑更广泛的任务对此类模型进行基准测试的重要性,以及3D感知作为此类基准测试领域的实用性。
模型是否学会了表示表面法线?不准确的。然而,表现最好的模型 DINOv2 实现了令人印象深刻的性能,可与最先进的模型相媲美。就是表面法线探测结果显示出与深度估计类似的趋势,一些模型实现了非常高的性能,而其他模型则难以捕捉到粗略先验之外的任何信息,例如“地板像素指向上方”。当比较物体和场景的预测时,对先验的依赖变得更加明显,因为由于姿势变化很大,物体的先验较少。这在分析 CLIP 的定性结果时很有用,它可能看起来很模糊但对于场景来说是正确的,但对于物体来说显然
两个任务之间的性能如何相关?生成模型学习这些信息的能力,但我们发现,对于使用分类或判别自监督训练的此类模型而言,实现可比性能并非独有。就是我们观察到,模型的性能在各个领域和任务之间具有很强的相关性,如图 4 所示。这支持了我们的实验设计选择,因为它表明我们正在使用不同的方法来测量单一能力。此外,室内场景和物体之间的一致性能表明,此类模型正在学习在没有任何特定于任务的监督的情况下表示有关可见表面的一些信息。尽管最近的研究重点
我们注意到,虽然深度和表面法线性能在模型级别上具有很好的相关性,但在考虑图像或像素级别的性能时,相关性要弱得多。我们发现模型性能在图像或补丁级别上并不一致;例如,我们发现 DINOv2 在 NYU 上产生的错误之间的相关性在图像级别聚合时为 0.37,而在考虑像素级别错误时为 0.13。因此,纵然表示表面的底层能力是共享的,但表面法线和深度估计依赖于不同的视觉线索,导致模型误差相关性较弱。
“图 3. 表面法线定性示例。除了 CLIP 之外,模型可以捕捉物体和场景表面的粗略方向;例如地板、墙壁、天花板。主要区别似乎在于它们捕捉更精细细节的能力。与深度结果类似,我们发现 DINOv2 和 StableDiffusion 表现最佳,能够捕捉精细细节,例如玩具车和白色座椅的边缘。 令人惊讶的是,我们发现 SAM 的预测并不那么详细,尽管它能够预测准确的分割边界。”
“图 4.单视图性能相关性。深度和表面法线性能在各个域之间高度相关。”
训练目标的影响是什么?大家观察到,判别性自监督模型在任务和领域中表现最佳。这令人惊讶,因为不清楚为什么用于训练此类模型的自我提炼和实例判别损失会鼓励这种行为。与其他工作一致,我们发现StableDiffusion也能很好地捕捉表面属性。有趣的是,用密集监督甚至深度监督训练的模型表现比自监督和文本条件生成差,而与分类训练模型表现相当。终于,语言监督模型似乎表现不佳,尽管它们作为各种任务的骨干具有共同的效用。这可能与之前的发现有关,即视觉语言模型在空间关系和组合性方面存在困难。
总体而言,我们的实验表明,尽管仅使用图像数据进行训练,但大多数视觉模型最终都会学习对视觉表面属性进行编码的表示。
1.3.2多视图一致性
我们之前评估了模型表示可见表面的能力。尽管这对于 3D 理解很重要,但评估仅限于单个图像。如前所述,3D 感知还意味着跨多个视图的表示一致性。我们使用对应估计来评估这一点,其目标是识别跨视图描绘相同 3D 点的图像块。此功能很重要,因为它将允许模型正确地聚合跨视图的信息,这对于重建和定位流程至关重要。
几何对应估计。给定同一物体或场景的两个视图,识别视图中描绘 3D 空间中同一点的像素。我们不是训练探测器,而是直接计算从每幅图像中提取的密集特征图之间的对应关系,因为这使我们能够直接评估表示的一致性。 此推理过程源自无关键点对应估计管道,类似于最近评估特征质量的手段。
数据集。大家同时考虑场景和物体。对于场景,我们在 Sarlin 等人提出的Paired ScanNet分割上评估我们的模型。对于物体,我们从 NAVI 野生集中采样视图对,这些视图对在不同环境中描绘了相同的物体实例。我们对最大旋转度为 120 度的视图进行采样,以确保存在相互可见的表面。我们还在 SPair 数据集上评估性能,该数据集提供关键点标记图像,使我们能够分析模型在密切相关的任务上的性能:语义对应估计。
“图 5. 对应性估计定性结果。大家观察到,模型允许针对较小的视点变化估计准确的对应性,但对于较大的视点变化则很难估计。即使变化是平面内旋转(如鹰所示),情况也是如此。 此种模式对于物体和场景都是一致的,尽管性能相关性不强:SAM 和 StableDiffusion 对于场景表现更好,而 DeiT 和 DINOv2 对于物体更一致。对应性用颜色编码以确保准确性。”
评估。我们报告对应召回率;即落在某个定义距离内的对应百分比。对应误差通常以像素为单位计算,以解释深度的巨大变化;例如,预测偏差 1 像素在附近表面上可能为几毫米,在室外场景中可能为几米。这种选择不太适合物体,因为它们没有相同的大变化深度。物体还可能受到自遮挡和重复部分的影响,这使得像素级阈值可能出现错误。因此,我们对物体运用度量阈值。由于层选择会极大地影响性能,我们在四个不同的中间点评估了模型性能。最后,我们发现模型性能因视图对之间的视点差异而有很大差异,我们将在下文中讨论。因此,我们根据视图对之间的变换幅度对性能进行分类。有关评估设置的更多详细信息,请参阅附录 A。
我们在三个数据集上评估了所有模型,并在附录 B 中报告了结果。我们在图 5 和图 6 中展示了定性结果和性能趋势。
这些表示在 3D 上是否一致?虽然模型可以针对较小的视点变化估计物体之间的准确对应关系,但对于较大的视点变化,性能会迅速下降,如图 6 所示。就算我们预计较大的视点变化的性能会更低,因为它们更难,但恶化的速度很有趣。具体来说,StableDiffusion和SAM从最小视点变化的顶级模型之一急剧下降到较大视点变化的最差模型。这可以在图 5 中清楚地看到,其中两个模型都预测了顶行恐龙的准确密集对应关系,其中视点变化最小,但对于旋转的鹰视图表现非常差。这种快速恶化并不普遍,正如 DINOv2 和 DeiT 的广泛基线性能所示。
“图 6. 虽然所有模型都会随着视点变化的增大而出现性能下降,但有些模型的性能下降更为明显,表明缺乏 3D 感知。”
通过我们观察到室内场景的类似趋势,当从非常相似的有利位置观看场景时,模型能够预测准确的对应关系,但即使是很小的视点变化也会遇到困难,如图 5 的最终两行所示。就算 DINOv2 的表现优于其他模型,但所有模型的绝对性能对于宽基线对应估计都非常低。总的来说,我们的结果表明,尽管对表面属性进行了编码,但当前模型并不具有 3D 一致性,如第 3.1 节所示。
“图 7. 语义对应。StableDiffusion允许很好地表示语义,但缺乏 3D 一致性。这会导致从相似角度观察的物体准确对应,而从不同视角观察物体时会出现系统误差。”
语义对应与几何对应。最近的研究表明,自监督和生成模型在估计语义对应方面表现出色。语义对应将对应障碍从匹配同一物体不同视图中的相同点推广到匹配同一类不同实例中的相似语义部分;例如,在两只不同狗的图像中匹配一只狗的左耳。乍一看,这似乎与我们的结果相矛盾,因为语义对应似乎可以同时捕捉 3D 结构和语义。
重复的,但由于摄影师的偏见,它们通常会以一致的空间排列出现。就是语义对应性通常使用关键点召回率进行评估。这种评估使模型的性能容易受到数据中的语义偏差和先验的影响。 关键点通常被选为独特且易于识别的;例如喙和尾巴。虽然一些关键点(例如眼睛和膝盖)
在图 7 中,我们通过评估 SPair71k 椅子上的 StableDiffusion 来说明语义和几何对应之间的差异。我们使用关键点混淆而不是召回率来评估性能。我们依据将最近的关键点与预测的对应位置进行匹配并绘制混淆矩阵来实现此目的。这仅针对具有真正匹配的关键点进行计算。虽然 StableDiffusion 可以估计小视点变化的准确对应,但它在大视点变化中表现出有趣的错误模式。 错误似乎仅限于语义相关的类别(例如,座椅角和椅子腿)。此外,定性结果表明,该表示捕获了语义和 2D 位置的组合:即右侧的椅子腿。 我们怀疑这一观察结果与基于扩散的 3D 重建中观察到的 Janus 问题有关,因为同一只耳朵可以重新用于两个不同的面部。
“图 8. 跨任务性能相关性。单视图任务上的性能与其自身以及语义对应性密切相关,但我们发现场景级对应性估计和视点变化较大的对应性估计的相关性性能有所下降。”
1.3.3 分析
了解训练目标和 3D 意识之间的关系。 我们注意到,尽管我们在分析中强调了特定的模型,但我们评估了一组更大的模型变体,并计算了整个集合的跨任务性能相关性。就是一个主要的问题是不同任务之间的相关性如何;即,倘若模型的表示准确地表示了深度,那么它们对对应性也有用的可能性有多大?为了解决这个问题,我们计算了模型在多个任务中的总体表现之间的相关性。我们专门感兴趣的
大家计算所有任务对之间的皮尔逊相关性,如图 8 所示。对于单视图 3D,我们报告了对物体和场景的深度和表面法线估计的回忆。我们还报告了对应性估计的回忆,并通过考虑 NAVI 和 ScanNet 的最小和最大视点箱,根据视点变化量分离性能。最后,我们还报告了语义对应性估计的总体性能。
我们发现,所有单视图任务上的表现与大于 0.82 的相关系数密切相关。另一方面,多视图任务之间的相关性要低得多,如相关矩阵右下角的值所示。有趣的是,尽管语义对应性能与多视图任务的评估程序相似,但与单视图任务相比,语义对应性能与多视图任务的相关性更强。这进一步支撑了我们的观点,即语义对应不是 3D 一致性的良好衡量标准。
2. Lexicon3D: 探索视觉编码器理解3D场景的能力
2.1 研究动机
最近,复杂的 3D 场景理解已成为计算机视觉的一个关键领域,涵盖场景生成、推理和交互等任务。利用大规模视觉基础模型,许多方法在各种下游任务中取得了可喜的成果,从而实现了从自动驾驶、机器人到多模态代理等广泛的现实世界应用。 虽然许多研究为使用视觉基础模型执行基于 2D 图像的任务献出了指导,但 3D 场景的策略仍不清楚。对困难现实世界场景的系统理解不仅涉及语义和深度感知(可以在 2D 域内进行评估),还涉及几何感知以及与多模态信息对齐以进行推理和基础任务的能力。为了弥补这一差距,我们的工作评估了不同类型的视觉基础模型在复杂场景理解中的使用情况,并试图确定每种模型在不同场景中的优势和局限性。最终,这项研究旨在促进开发更有效、更高效的场景理解系统。
2.2 统一的探测框架
Lexicon3D 的目标是在复杂的场景理解任务中评估不同的视觉基础模型。我们首先构建一个统一的架构,能够在一系列下游任务中探测不同的视觉基础模型。然后,我们将 3D 场景理解任务分解为四个子任务,包括 (1) 视觉语言推理、(2) 视觉基础、(3) 语义理解和 (4) 几何理解,以进行更详细的评估。
“图 2:我们用于评估各种任务上的视觉基础模型的统一探测框架。”
我们设计了一个统一的框架,如图 2 所示,从不同的基础模型中提取特征,构建 3D 特征嵌入作为场景嵌入,并在多个下游任务上对其进行评估。对于复杂的室内场景,现有工作通常使用 2D 和 3D 模态的组合来表示它。对于现实场景,通常首先使用手持摄像机拍摄视频,然后从重建算法(如 COLMAP)获取 3D 点。对于数字和合成场景,首先设计和生成 3D 资产,然后在创建的空间内渲染图像和/或视频。给定一个以摆姿势的图像、视频和 3D 点云表示的麻烦场景,我们使用一组视觉基础模型提取它们的特征嵌入。对于基于图像和视频的模型,我们将它们的特征投影到 3D 空间中,以便使用多视图 3D 投影模块进行后续的 3D 场景评估任务。 按照先前工作,对于点云 P,该模块根据图像特征 f 以及姿态和相机信息 K、R,为每个点 p ∈ P 生成特征 fp。我们首先将所有点投影到图像平面上,以获得它们对应的像素特征。具体来说,对于点 p,我们利用以下公式获得其在图像 i 上的投影像素 u:
u˜, p˜分别表示u, p的齐次坐标。
另外,我们用一个指示函数I(p, i)来表示某个点p在第i帧图像中是否可见。在所有图像帧中找到给定点的对应像素后,我们采用均值池化作为聚合函数φ将所有像素特征融合形成点特征fp。 假设总共有M幅图像,则投影和聚合过程表示为:
投影后,我们获得每个 VFM 的以点云特征嵌入表示的 3D 特征场,并将它们用作浅探测头的输入,以评估各种下游任务。 为了最大限度地减少模型微调过程的影响,我们冻结了要评估的编码模型的参数,并且仅调整所有任务的线性或浅探测头。
模型。在这项工作中,我们主要关注评估最近复杂场景理解和多模态推理模型经常利用的视觉基础模型。复杂场景通常可以用摆放的 2D 图像和视频或 3D 点云来表示。图像和视频模态牺牲了明确的几何信息,但它们保留了场景丰富而密集的语义和纹理信息。相反,点云模态提供了相反的权衡。此外,2D 模态受益于在大量材料上训练的强大基础模型,而 3D 点主干仅利用小得多的数据集。
我们将视觉基础模型分为三类,并在表1中供应了已评估模型的概述。对于图像编码器,我们评估了DINOv2、LSeg、CLIP和 StableDiffusion (SD)。对于视频模态,我们评估了V-JEPA,它是继VideoMAE之后的最先进的视频理解模型,可用于广泛的感知和推理任务,以及视频生成模型 StableVideoDiffusion (SVD)。缺乏大规模 3D 场景级数据集阻碍了与 2D 基础模型相比强大的零样本可泛化 3D 基础模型的开发。但是,为了进行比较,我们评估了 Swin3D,这是一个 3D 主干模型,与以前的方法相比,它在多个评估数据集中的零样本感知任务中实现了领先的性能。Swin3D 在 Structured3D 上进行了预训练,该素材集比 ScanNet大 10 倍。此外,我们还评估了 SAM 模型 (一种在 SA-1B 数据集上预训练的开放世界实例分割模型)和 Uni3D 模型(一种以对象为中心的 3D 基础模型,在OpenShape提出的混合材料集上进行了预训练)。补充材料中提供了对这两个模型的详细评估结果。
特征可视化。图 3 可视化了视觉基础模型提取的代表性场景的特征。为了可视化具有 C 通道的高维特征空间,我们应用主成分分析 (PCA) 将特征维度减少到三个,将它们归一化到 [0, 1] 范围,并将它们解释为 RGB 颜色通道。我们展示了几个代表性基础模型的特征可视化,揭示了许多直观的发现。图像模型 DINOv2 和 LSeg 表现出强大的语义理解能力,其中 LSeg 由于其像素级语言语义指导而表现出更清晰的区分能力。基于扩散的模型 SD 和 SVD 除了语义建模外,还擅长保留场景的局部几何和纹理,由于采用了生成引导的预训练。视频模型 SVD 和 V-JEPA 展示了识别相同语义概念的不同实例的独特能力,例如第一个场景中的两棵树和两个场景中的椅子。3D 模型 Swin3D 也表现出强大的语义理解能力。然而,由于训练内容有限和领域转移,尽管在完美的语义注释上进行了预训练,但其质量仍无法与图像基础模型相提并论。
“图 3:从不同视觉基础模型中提取的场景特征的可视化。我们使用主成分分析 (PCA) 将特征嵌入压缩为三维。 颜色和图案之间的明显区别展示了不同模型的行为。”
2.3 探测艰难3D场景理解任务详解
2.3.1 视觉语言推理
视觉语言推理任务要求模型参与对话或回答有关给定复杂 3D 室内场景的全局理解和局部概念的障碍。根据现有方法,我们将其制定为视觉问答 (VQA) 任务,使用大型语言模型 (LLM) 作为骨干-给定来自多视图图像和点云的 3D 场景以及用户提示的问题,要求 LLM 以自回归方式生成问题的答案。此任务涵盖复杂室内场景的通用语言引导推理,从全局布局到局部细节。
数据集和优化。我们在两个具有挑战性的室内 3D VQA 材料集上评估了性能:ScanQA 和 SQA3D。按照主流的评估方法,我们报告了指标 BLEU、ROUGE、METEOR和 CIDEr 。我们对 Q-Former 模块进行了微调,以将来自不同编码器的特征与 LLM 输入空间对齐。补充材料中提供了更多数据集和优化详细信息。
“表 2:在 ScanQA和 SQA3D 素材集上对视觉语言推理的评估。每个指标的前 2 个结果分别以红色和绿色显示。3D-LLM 结果仅供参考,表明我们的评估结果相对于在此任务上训练的领先模型的相对位置。”
评估结果。表 2 和图 4 展示了大家的评估结果。我们观察到图像和视频编码器通常优于 3D 点编码器,其中 DINOv2 的性能最佳,紧随其后的是 V-JEPA 和 SVD。有趣的是,我们发现对于通过语言指导进行预训练的 LSeg 和 CLIP,它们在语言对齐方面的优势并没有转化为 LLM 指导的 VQA 任务的卓越性能。这一发现挑战了启用语言预训练 VFM作为基于 LLM 的视觉语言推理任务的默认编码器的常见做法。相反,它表明考虑使用更广泛的编码器(如 DINOv2 和 V-JEPA)来拥护此类任务的重要性。
“图 4:ScanQA 基准上的评估曲线。x 轴表示针对不同时期训练的模型。DINOv2 表现出明显优越的性能。”
2.3.2 视觉标定
通过视觉定位是根据文本描述在 3D 场景中定位对象的任务。与 3D VQA 任务相比,视觉定位更注重对象级推理和匹配能力。该任务可分为两个子任务:对象检测和目标识别(将文本描述与目标对象匹配)。尽管有些方法侧重于学习模型来克服这两个任务,但其他方法主要侧重于识别问题,假设能够访问真实边界框。为轻松起见并防止任务纠缠,我们在评估中采用后一种设置。更具体地说,给定一个多视图图像和点云形式的 3D 场景、对象的自由形式语言描述以及场景中所有对象的真实 3D 边界框,我们模型的目标是找到与语言描述匹配的场景中的正确对象。我们认为,物体检测任务需要来自视觉编码器的语义信息,其性质与语义分割任务类似,将在 3.4 节中进行分析。
对于目标识别任务,大家最初通过对其真实边界框内的所有点进行平均池化来获取场景中每个物体的特征。遵循 Multi3DRefer,我们使用 CLIP 文本编码器对文本描述进行标记,并采用之前工作中的注意头将前面步骤中的文本和视觉嵌入融合并输出物体得分。
“图 5:ScanNet 上的 3D 语义分割可视化。图像编码器获得了更好的性能。”
数据集。大家在 ScanRefer 数据集上进行评估,该数据集提供了 800 个 ScanNet 场景中 11K 个对象的 51K 文本描述。我们报告了唯一、多个和整体类别的准确性,其中唯一指的是给定场景中具有唯一语义类的实例(更容易)。
优化。利用 AdamW 优化器对模型进行交叉熵损失训练。我们对模型进行了 30 个时期的训练,直到收敛。
“表 3:ScanRefer 上 3D 物体接地评估。视频模型表现出明显的优势。”
评估结果。表 3 展示了大家的结果,结果表明视频编码模型比图像和 3D 编码器具有显著的优势。性能差距主要在于多类别,表明这些模型擅长在同一语义类别的多个对象中区分正确的对象。这种能力很大程度上源于时间连续的输入帧,它们提供了实例感知的多视图一致性指导。相比之下,图像编码器 LSeg 具有与语言语义一致的语言引导预训练特征,也可以在独特类别中实现高精度。然而,其性能在多类别中显著下降。
来自视觉语言任务的见解。我们对视觉语言推理和视觉基础的评估揭示了几个关键发现:(1)DINOv2 无监督图像学习模型在全局和对象级视觉语言任务中表现出很强的通用性和灵活性。(2)视频编码器受益于时间连续的输入帧,并学会区分场景中相同语义的实例,这对于对象级理解任务极其有价值。(3)启用语言指导进行预训练的视觉编码器不一定能在其他与语言相关的评估任务中表现出色。这些发现表明,在未来的视觉语言任务中探索更灵活的编码器选择,以优化性能和泛化。
2.3.3 语义分割
语义分割是预测每个 3D 位置的语义标签的任务,这需要对场景具有细粒度的语义感知。如第 3.1 节所述,所有类型的特征都以点云的形式统一;因此,在我们的设置中,会为点云中的每个点预测语义标签。更具体地说,给定一个以多视图图像和点云形式呈现的 3D 场景,此任务的目标是预测点云中每个点的语义标签。
数据集。大家在 ScanNet 分割素材集上进行实验,该数据集分别有1,201个和312个场景用于训练和验证,总共有 20 个语义类别用于评估。
优化。为了使语义预测性能更好地反映不同特征的细粒度语义理解能力,我们使用单个线性层后跟一个 Sigmoid 函数进行线性探测,以预测基础模型特征 x ∈ R N × d 的所有标签的概率分布 y ∈ R N × C: y = Sigmoid (FC (x) ),其中 N 是每个点云中的点数,d 是特征维度,C 是用于分割的类数。
大家采用标准 Adam 优化器,学习率为 1e-4,并启用交叉熵损失对线性层进行 20 个 epoch 的训练。
评估结果。,像 DINOv2 和 LSeg 这样的图像编码器在训练过程中通过 SSL 或语言驱动的指导,以对比目标获得语义意识。相比之下,视频编码器在多帧集成过程中存在过度平滑多视角信息的风险,这可能会损害细粒度的语义理解能力。至于像 Swin3D 这样的 3D 编码器,与用于训练基础模型的 2D 相比,3D 中的数据稀缺导致语义理解性能较差。就是表 4 和图 5 表明,在 3D 语义分割任务上,图像编码器的性能优于视频和 3D 编码器。 原因
“表 4:在 ScanNet 基准上对语义分割的评估。”
2.3.4 注册:几何对应
为了评估 VFM 特征所包含的几何信息,大家设计了以下新任务:部分场景配准,该任务基于点云配准任务,该任务在两个点云之间执行单应性估计。从代表整个场景的完整点云中,我们在场景内采样两个点云 P1∈ R N1×3和P2∈ R N2×3,对应于两组连续的视点,它们具有一定程度的重叠区域,但通过单应性变换进行了位移。我们的目标是找到单应性矩阵H,该矩阵允许正确地将 P1 中的点转换为与 P2 配准。与第 3.4 节中评估的语义分割任务相比,部分场景配准任务要求基础模型特征具有找到配准的几何对应关系的能力,而这不能方便地通过根据语义理解找到对应关系来实现。例如,在语义对应关系中,我们可能会找到两个语义相似的点,一个在 P1 中的沙发左侧,而另一个在 P2 中的沙发右侧。因此,要是我们仅基于语义对应关系来配准两个部分点云,我们将无法找到正确的单应性来将一个点云与另一个点云对齐。VFM需要具备几何理解能力,才能在我们的部分场景配准任务中取得良好的表现。
数据集。从均匀分布 [−1.0m, 1.0m] 中随机采样的。就是大家基于 ScanNet 素材集构建了部分场景配准基准。对于 ScanNet 中的每个场景,我们分别选择视图 #0 ∼ #31 和视图 #32 ∼ #63 来渲染 P1 和 P2,以便它们具有一定程度的重叠,从而允许配准两个部分点云。 之后,P2 通过由旋转 R ∈ SO(3) 和平移 t ∈ R 3 组成的单应性 H 进行变换。R 由每个场景随机生成的四元数 q ∈ R 4 创建,而 t 的每个分量都
优化。大家遵循 REGTR,采用 Transformer 交叉编码器模块,对来自两个点云的基础模型特征进行交叉推理,然后启用轻量级解码器获取两个点云中所有 N1 + N2 个点在另一个点云中每个点的对应位置,形成总共 N1 + N2 对对应关系,其中 N1 和 N2 分别是 P1 和 P2 中的点数。之后,可以通过加权版本的 Kabsch-Umeyama算法求解闭式解,从而获得旋转 R 和平移 t。我们使用 Adam进行优化,训练模型 30 个 epoch,并遵循 REGTR,采用配准召回率 (RR)、相对旋转误差 (RRE) 和相对平移误差 (RTE) 作为评估指标。
评估结果。视频基础模型从多视图输入帧中更好地理解场景中的对象形状和几何形状。就是表 5 展示了部分场景配准的结果。我们可以观察到,StableDiffusion 和 StableVideoDiffusion 在我们的部分场景配准任务中展示了卓越的几何能力。它表明,生成的预训练目标使基础模型具有在3D场景中查找几何对应的良好能力。 另一个观察结果是,视频编码器通常比图像编码器表现更好。原因
“表 5:ScanNet 上的部分场景配准评估。我们使用各种 RMSE 阈值下的配准召回率 (RR)、相对旋转误差 (RRE) 和相对平移误差 (RTE) 作为评估指标。RR 值越高,表示性能越好,而 RRE 和 RTE 值越低,表示结果越优异。”
2.4 详细分析
本节旨在进一步探索可视化基础模型的最佳使用方式。编码方法的选择需要考虑内存使用量、运行时间和性能之间的权衡。我们将深入研究复杂性分析和各种基础模型和组合模型的设计选择研究。补充材料中介绍了更多的可视化、消融实验以及对局限性、更广泛影响和未来方向的阐述。
“表6:视觉基础模型的复杂性分析。”
2.4.1 复杂度分析
我们在表 6 和图 6 中比较了内存使用情况、计算时间和模型性能(ScanQA 上的视觉语言推理)。我们的研究结果表明,与视频和 3D 编码器相比,图像编码器通常得更少的时间来处理样本。而基于扩散的模型在用于特征提取时,需要比其他判别模型多得多的内存。然而,当尝试通过聚合多视图图像嵌入来获取场景嵌入时,2D 主干(尤其是图像编码器)的运行时间缺陷就变得明显了。为了说明这一点,我们将 300 帧视频视为困难场景(30 FPS 的 10 秒视频)的 2D 姿势信息样本。随着视频长度的增加,需要对每个图像帧进行特征提取的 2D 方法会迅速消耗大量时间来处理单个场景。相比之下,3D 点编码器处理场景所需的时间要少得多。 然而,3D 编码器的模型性能相对较差,这可以归因于训练数据的稀缺。为了充分发挥它们在场景理解任务中的潜力,应该努力提高 3D 基础模型的通用性。所有分析和计算均在 NVIDIA A100 GPU 上进行。
“图 6:不同编码器的内存启用情况。理想的模型应该是一个小圆圈,位于左上角。”
2.4.2 消融研究——对视觉基础模型最佳应用的洞察
视频降采样策略。长视频和高帧率视频需要大量存储空间和处理时间。我们探索了两种简单的时间降采样方法,以实现更高效的处理,而不会牺牲太多性能。如图 7 所示,我们探索了关键帧采样(蓝色)和剪辑采样(橙色)策略。我们可以观察到,在这种情况下,关键帧采样是一种比剪辑采样更好的策略,许可更明智地平衡视频处理开销和任务性能之间的权衡。
“图 7:V-JEPA 在分割任务上对不同视频下采样策略的评估。关键帧采样每 N 帧采样一次以形成新的视频序列,而剪辑采样直接对连续的视频剪辑进行采样。下采样前的性能被视为 100%。在相同级别的下采样下,关键帧采样的性能下降较少。”
“表 7:使用 StableDiffusion 进行特征提取时扩散噪声水平和特征层的评估。我们选择的设置以灰色突出显示。”
多个编码器的组合。我们探索基础模型(专家)的混合是否有潜力增强 3D 场景理解能力。我们使用三个特征源对 3D 语义分割任务进行了实验:LSeg、StableDiffusion 和 Swin3D。在组合不同的特征源时,我们会将点云中每个点的所有特征沿通道维度连接起来。结果如图 8 所示。在组合来自不同来源的特征后,有可能以专家混合的方式增强语义理解能力。然而,组合最好的特征并不一定就能获得最好的性能。例如,LSeg (1) 在语义分割方面的能力比单独的 StableDiffusion (2) 和 Swin3D (3) 更强,但将两个特征组合在一起时,StableDiffusion + Swin3D (2+3) 的性能最佳。
“图 8:运用 (1) LSeg、(2) SD、(3) Swin3D 及其组合对分割任务进行评估。”
2.4.3 扩散噪声水平和特征层
在表 7 中,大家评估了解码器模块中不同噪声水平(噪声步骤)和不同特征层在利用StableDiffusion (SD)进行特征提取方面的影响。结果表明,对于 SD,添加噪声 t < 100 步通常可获得最佳性能。当 t 增加到 100 步以上时,性能开始下降。至于解码器层,UNet 的解码部分由 4 个块组成。我们跳过最接近输出的最后一层,并考虑第 0、1 和 2 层。结果表明,第一层解码器的输出特征可带来最佳性能。这些观察结果与先前的研究一致。
3 Feat2GS:从3DGS解耦读出视觉基础模型的3D感知力
3.1 为什么作者用3DGS来探测?
鉴于视觉基础模型 (VFM) 是在大量数据集上训练的,但通常仅限于 2D 图像,因此自然会出现一个难题:它们对 3D 世界的理解程度如何?由于架构和训练协议(即目标、代理任务)存在差异,迫切需要一个统一的框架来公平全面地探测它们的 3D 感知。现有的 3D 探测研究建议单视图 2.5D 估计(例如深度和法线)或双视图稀疏 2D 对应(例如匹配和跟踪)。不幸的是,这些任务忽略了纹理感知,并且需要 3D 数据作为基本事实,这限制了其评估集的规模和多样性。为了解除这些问题,我们引入了 Feat2GS,它从从未摆姿势的图像中提取的 VFM 特征中读取 3D 高斯属性。这使我们能够通过新颖的视图合成探测几何和纹理的 3D 感知,而无需 3D 资料。此外,3DGS参数( 几何形状 (x, α, Σ) 和纹理 © )的分离使得纹理和几何形状感知的分析成为可能。
“图 2. 主流VFM的纹理+几何探测。六个信息集中新视图合成 (NVS) 的归一化平均指标绘制在轴上,远离中心的值越高,表示性能越好。”
3.2 Feat2GS框架
从各种视觉基础模型 (VFM) 中提取冻结特征图后,我们采取以下步骤确保公平探测:运用主成分分析 (PCA) 统一特征通道维度,通过双线性上采样标准化空间维度,并为不同的 VFM 特征保持一致的网络架构。具体来说,Feat2GS 将每个像素 i ∈ {1, 2, . . . , n} 的紧凑特征 fi 作为输入,并通过读出层 gΘ 输出每像素高斯基元:
其中每个高斯 Gi 由以下参数表示:位置 x ∈ R 3 、不透明度 α ∈ R 、协方差矩阵 Σ ∈ R 3×3 ,以及三阶球谐函数(SH)系数 ci ∈ R 48|i = 1, 2, …, n。
“表 2. 用于评估的 VFM。为了公平比较,我们使用具有可比架构和训练规模的检查点,通过 PCA 统一特征通道维度,并为所有 VFM 保持一致的探测网络架构。”
为了防止读出层表示 3D 高斯,我们使用少量参数来约束读出层,强制从特征中解码出 3D 高斯。具体而言,读出层由 2 层 MLP 构建,每层 256 个单元并带有 ReLU 激活。然后,我们通过可微分光栅化将 3D 高斯投影到图像上。请注意,为了使我们的方法能够评估随意捕获的、稀疏的和未校准的图像,我们在实验中使用无约束立体重建器,即DUSt3R,来初始化相机姿势 T,之后启用渲染 R 和图像 I 之间的简单光度损失与读出层 Θ 进行联合更新:
为了将几何和纹理感知分离,我们提出了三种探测模式:几何从二维图像特征中读出几何参数,并自由优化纹理参数ci:
Texture 读出纹理参数,直接优化几何参数{xi,αi,Σi}:
全部读出所有高斯参数:
3.2.1 热启动
我们发现,由于随机图像的稀疏性,直接从 2D 图像特征解码3D结构很容易陷入局部极小值。为了确保对来自不同基础模型的特征进行稳健评估,我们使用点云回归来热身优化:
其中 Ginit 指的是来自无约束立体重建器的初始化点云。
“表 3. 评估内容集。按场景类型、复杂性、视点变化和采样视图分类。”
3.2.2 评估
我们选择在来自偶然(稀疏和未校准)图像的 NVS 上进行评估,主要有两个原因:(1)多样性。 处理偶然图像的能力有助于通过降低对采集科技和视图设置的要求来使评估内容多样化。(2)差异。与密集视图 NVS 相比,这项任务更具挑战性,因此行更好地区分各种 VFM 特征的性能。为了使我们的评估能够涵盖从 3 到 N 个视图的任意偶然捕获,我们依据无约束立体重建器在所有数据集中统一估计训练和测试视图的相机参数。随后,我们依据光度损失执行测试时姿势优化,以在评估视图合成质量之前进一步细化测试姿势。
“表 4. 定量结果。大家采用几何、纹理和所有探测模式评估 NVS 上 VFM 的几何和纹理感知。结果表明,VFM 性能因数据集而异,凸显了资料集多样性的重要性。VFM 缺乏纹理感知限制了纹理模式和所有模式,尤其是在 LPIPS 中。性能按颜色从最差到最好排序。”
3.3 探测实验设置
特征。我们将实验重点放在 10 个表现出强大可推广 3D 感知潜力的 VFM 上,比较在不同数据类型(2D 与 3D)和监督策略(例如监督与自监督、点与深度)上训练的模型。表 2 中提供了概述,附录中提供了更多详细信息。为了使比较尽可能公平,我们使用公开可用的检查点,并选择具有可比架构和训练规模的检查点。我们还结合了 IUVRGB(包括图像索引 (I)、像素坐标 (UV) 和颜色 (RGB))作为基线。
数据集。为了可靠地评估不同的特征,我们的实验启用了七个多视图数据集,稀疏视图采样范围从 2 到 7,测试视点远离训练视点。如表 3 所示,这些数据集具有丰富的多样性,与具有 3D 真实值的内容集相比,它们为我们提供了更全面的视角。
指标。我们启用标准指标 PSNR、SSIM 和 LPIPS 在七个数据集上评估新视图合成。对于指标计算,我们遵循 Splatt3R,将掩码应用于渲染图像和测试图像。这些掩码将有效像素定义为至少一个视图的视锥体内的像素,并且重新投影的深度与 DUST3R 预测的深度一致。所有指标都是在整个图像上计算的。在 DTU 数据集上,我们测量重建的 3DGS 与点云地面实况之间的距离(表 5),报告平均准确度、完整性和距离,如先前的研究中所述。准确度是从重建点到地面实况的最小欧几里得距离,完整性是从地面实况点到重建的最小欧几里得距离。距离是基于地面实况点匹配的欧几里得距离。
实现细节。用 PyTorch和 gsplat构建的。为了公平探测,图像被调整为 512,用 PCA 缩小到 256 个通道,然后上采样回 512。我们对 gΘ 使用 2 层 ReLU MLP,具有 256 维隐藏单元。Adam 优化器用于优化 MLP、3D 高斯和相机的参数。在热启动阶段,我们优化 MLP 参数进行 1K 次迭代,学习率从 1×10−2 开始并呈指数衰减到 1×10−4。在此阶段之后,优化继续进行另外 7K 次迭代。 我们遵循 vanilla 3DGS的学习率策略。对于 MLP 部分,我们保持原始比例,但将学习率降低一个数量级。为了优化相机,学习率从 1×10−4 开始,并在 1K 次迭代时指数衰减至 1×10−6。所有实验均在单个 NVIDIA GeForce RTX 4090 GPU 上进行。就是Feat2GS
“图 4. 新视图合成作为评估 3D 的代理任务。我们从 DTU 数据集中提供了定性示例,包括 NVS、Pointcloud(读出 3DGS 位置)、准确度(从读出点到地面实况的最小距离)、完整性(从地面实况点到读出点的最小距离)和距离(基于地面实况点匹配)。结果表明,NVS 质量与 3D 指标一致,证明了其作为 3D 评估指标的可靠性。以 IUVRGB 为参考,RADIO 表现最佳,SD 表现最差。 ü 放大或查看我们的视频以查看更多详细信息。”
“表 5. 新颖的视图合成与 3D 指标很好地吻合。 (a)我们报告 NVS 质量以及重建的 3DGS 位置与 DTU 信息集上的点云地面实况之间的欧几里得距离。(b)强大的 2D-3D 指标相关性支持 NVS 作为 3D 评估的基准。”
3.4 动机检验
新视图合成与 3D 指标相关。:新视图合成能否有效地充当 3D 指标的代理?我们假设高质量的 NVS 与准确的 3D 表示密切相关。为了验证这一假设,我们在 DTU 内容集上进行实验,以密集点云作为 3D 地面实况,评估 2D NVS 和 3D 点云回归任务。然后,我们计算了这些结果之间的相关性,如表 5 所示。结果显示 2D 和 3D 指标之间存在很强的相关性,支持将 NVS 作为 3D 评估的指标。我们在图 4 中进一步定性地证明了这种相关性。结果表明 NVS 与 3D 指标之间存在很强的关系,证实了高质量的 NVS 与准确的 3D 表示紧密相关。就是采用 2D 指标代替 3D 指标可能让我们绕过对 3D 地面实况的需求。受此启发,我们提出了 Feat2GS,通过新视图合成 (NVS) 的 2D 指标来评估 VFM 的 3D 感知。关键问题
数据多样性对全面探测很关键。在小规模素材上进行测试可能会导致有偏差的结论。如表 4 所示,评估结果因探测 GTA 模式和不同信息集而异。例如,由于 LLFF 的视图捕获密集且规模较小,因此对于新视图合成来说相对简单。MASt3R、DUSt3R 和 DINO 在 LLFF 上显示出优异的几何结果。然而,在具有更具挑战性的场景的 T&T 数据集上,它们都没有比 RADIO 排名更高。信息集评估偏差是不可避免的。借助消除对 3D 地面实况的需求,我们可以对大规模多样化捕获进行评估,从而确保结果的偏差要小得多。
3.5 发现
总体表现。表 4 使用三种探测模式对 VFM 特征进行基准测试:几何、纹理和全部。图 2 绘制了不同数据集的平均得分。 几何模式下表现最好的三个是 RADIO > MASt3R > DUSt3R。然而,它们在纹理模式下的评级明显不同,MAE > SAM > MASt3R。在全部模式下,MASt3R 和 DUSt3R 得分最高,其次是 DINO。在表 4 中,稳定扩散 (SD) 在大多数指标中表现最差,图 3-A 呈现其显着的色彩漂移和破碎的几何形状,请查看附录以获取更多几何定性结果。这与 Probe3D中关于 SD 的结论一致。较大的视点变化会导致特征空间不一致(见图 9b)。在以下部分中,我们将全面分析上述评级背后的见解。
纹理不友好的训练策略。在弱对齐的图像-文本对上进行训练的,因此它通常包含模糊和粗略的语义,这些语义不足以对颜色、材质和纹理等低级视觉模式进行建模。RADIO 提炼了 DINO 和 CLIP,实现了出色的几何感知,但也继承了它们较差的纹理感知能力(见图 2 和图 7)。就是如表 4 和图 3 所示,VFM 特征在纹理模式下表现不佳,甚至比图 7 所示的简单 IUVRGB 编码更差。这表明当前的 VFM 特征缺乏纹理感知,如之前工作所述。对此的一个可能解释是,VFM 通常用于语义理解或 3D 估计,这应该纹理不变的特征来避免捷径。例如,DUSt3R 被训练为纹理不变,以便在各种野外捕获中具有更好的 3D 鲁棒性。SSL(即 DINO、BYOL、SimCLR)中的大量信息增强,例如颜色抖动、高斯模糊和日晒,促使模型产生一致的输出,尽管外观或闪电发生变化。由于 CLIP
掩蔽图像重建的纹理优势。表 4 显示,纹理模式阻碍了“全部”模式,导致其在 LPIPS 中的性能(平均差 +0.05)比几何模式更差,几何模式不使用 VFM 特征进行 3DGS 颜色回归。糟糕的纹理感知阻碍了 RADIO 的多功能性,如图 2 所示。 从视觉上看,如图 3 所示,在“全部”模式下呈现的新视图往往显得模糊。图 5 还表明,纹理模式(排除了 3DGS 几何回归的 VFM 特征)表现出破碎的结构,而“全部”模式看起来比几何模式下的相同区域更模糊,因为“全部”模式依赖于 VFM 特征进行 3DGS 颜色回归,而几何模式可以自由优化颜色。为了进一步分析 GTA 模式之间的相互关系,我们使用所有信息集的平均指标来计算它们的相关矩阵,如图 6 所示。结果表明,在 PSNR 和 SSIM 中,All 模式与几何模式的相关性更强,这主要反映了结构一致性,但与 LPIPS 中的纹理模式更密切相关,后者是用于评估图像清晰度的指标。这进一步支持了以下观点:在 All 模式下观察到的模糊性源于 VFM 中缺乏纹理意识。纹理对于照片级真实感显然至关重要。如何在 VFM 中保留它?如图 2 所示,经过蒙版图像重建预训练的 VFM(即 MAE、MASt3R、DUSt3R)在 TLPIPS 中名列前茅,图 7 也支持了这一点。MAE 恢复清晰纹理的能力可能归因于仅使用裁剪增强。颜色抖动会降低结果质量,因此不包括在内 [33]。此外,基于去噪的图像重建会导致颜色偏移,如图 8 所示。
3D 资料有利于几何形状。在图 2 中,RADIO、MASt3R、DUSt3R 和 DINO 在几何形状感知指标中位居前 4 名。在图 9a 中,这四个特征有助于重建更完整的挖掘机结构,而其他特征则会导致浮动伪影和失真。 更好的几何形状感知意味着更强的跨视图一致性,图 9b 也支持这一点。实现几何形状感知的关键因素是什么?一个关键因素是 3D 数据。MASt3R 和 DUSt3R 都是用点图训练的。那么 2.5D 资料,比如深度图或法线图呢?情况要糟糕得多,请参见图 9a 中的 DUSt3R 与 MiDaS。请注意,MiDaS 和 DUSt3R 共享相同的 ViT-L/16 编码器架构(见表 2)和可比的训练规模(3M 与 2M)。从不同距离观察时,深度图估计可能会导致同一物体的特征不一致。相比之下,点图回归鼓励网络在各个视图之间生成一致的特征,因为当视图改变时场景坐标保持不变。
模型集成协助。RADIO 将 DINOv2、CLIP 和 SAM 提炼为单个模型,实现了最佳的几何感知,如图 2、3 和 9a 所示。一个自然而然的疑问出现了:简单地连接这些特征能产生可比的结果吗?是的!具体来说,我们连接 DINOv2、CLIP 和SAM 的特征,然后应用 PCA 将特征通道减少到256,保持网络大小不变,以便进行公平比较。图 10a 显示,在几何模式下,特征连接(DINOv2+CLIP+SAM)优于模型提炼(RADIO)。这启发我们进一步探索:如果我们将最佳几何模式特征和最佳纹理模式特征结合起来会怎样?图6表明最佳 All 模式在纹理或几何方面应该没有弱点。如图 10b 所示,运用 RADIO(几何模式最佳)与 MAE 和 IUVRGB(纹理模式最佳)的连接特征的 All 模式优于使用 MASt3R 特征的原始最佳 All 模式。这一探索展示了我们探测方法的潜力。
“图 13. 失败案例。Feat2GS 可以处理嘈杂的初始化点云(底行),但当初始化点云包含显著的异常值(顶行)时,它会遇到困难,例如严重位移的树枝(黄色)、错位的灯(紫色)和缺失的树枝部分(橙色)。即使使用最佳的几何感知 VFM 功能 RADIO,这些也会阻止合理的点云读数。”
随着视觉基础模型(VFM)在各类二维视觉任务中取得突破性进展,如何进一步提升其在三维感知方面的能力,已经成为计算机视觉领域中的一个关键挑战。本文依据分析和讨论三篇关于VFM三维感知能力的研究,展示了这一领域当前的成果与不足,也揭示了许多值得进一步探索的研究方向。
尽管已有的研究为VFM在三维场景理解中的潜力奠定了基础,但仍有许多问题亟待解决。例如,如何在不依赖大规模3D材料集的情况下,进一步提升模型在不同三维视角下的一致性和准确性?如何设计更高效的三维感知探测方式,能够同时考虑几何和纹理信息?以及,如何在麻烦动态场景中,提升VFM对物体形态变化和交互的理解能力?
未来的研究许可从以下几个方向展开:起初,结合跨模态内容(如图像、视频和语言)的多任务学习,探索更加灵活且通用的三维场景理解框架;其次,研究更为高效和可扩展的三维数据生成方法,促进VFM在无标签三维数据上的自我学习能力;最后,随着硬件和计算能力的提升,如何构建可解释性强且具有实际应用潜力的三维感知模型,将是未来的又一大挑战。
大家相信,随着学术界和工业界的共同努力,VFM的三维感知能力将在不久的将来得到进一步提升和突破。希望本系列研究能够激发更多研究者的兴趣,并推动这一方向的发展,为视觉理解手艺的下一次飞跃奠定基础。让我们携手探索,开启计算机视觉的新篇章!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926177.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!