网站数据流程h5 和手机网站
web/
2025/10/3 4:26:16/
文章来源:
网站数据流程,h5 和手机网站,网站导航界面,wordpress 降级开篇#xff1a;探索稀疏多视图图像的3D场景重建与新视角合成的挑战
3D场景重建和新视角合成是计算机视觉领域的一项基础挑战#xff0c;尤其是当输入图像非常稀疏#xff08;例如#xff0c;只有两张#xff09;时。尽管利用神经场景表示#xff0c;例如场景表示网络探索稀疏多视图图像的3D场景重建与新视角合成的挑战
3D场景重建和新视角合成是计算机视觉领域的一项基础挑战尤其是当输入图像非常稀疏例如只有两张时。尽管利用神经场景表示例如场景表示网络SRN、神经辐射场NeRF和光场网络LFN等取得了显著进展但这些方法在实际应用中仍然不尽人意原因包括每个场景的优化成本高昂、内存消耗大以及渲染速度慢。最近3D高斯投影3DGS作为一种高效且表达力强的3D表示方法应运而生它凭借快速的渲染速度和高质量成为了研究的热点。使用基于光栅化的渲染3DGS天然避免了NeRF中昂贵的体积采样过程从而实现了高效且高质量的3D重建和新视角合成。
接下来提出的几种前馈高斯投影方法如Splatter Image和pixelSplat尝试从稀疏视图图像进行3D重建。Splatter Image使用U-Net架构从单一视图回归像素对齐的高斯参数取得了单个对象3D重建的有希望的结果。然而从单个图像进行3D重建本质上是不适定的和模糊的这使得它特别难以应用于更一般和更大的场景级别重建。对于一般场景重建pixelSplat提出从两个输入视图回归高斯参数。尽管pixelSplat学习了具有环视变换器的跨视图感知特征但仅从图像特征预测可靠的概率深度分布仍然具有挑战性导致pixelSplat的几何重建质量相对较低且存在噪声伪影。为了改进几何重建结果需要使用额外的深度正则化损失进行缓慢的深度微调。
为了准确定位3D高斯中心我们提出通过在3D空间中进行平面扫描来构建代价体积表示。具体来说代价体积存储了所有潜在深度候选项的跨视图特征相似性这些相似性可以为3D表面的定位提供有价值的几何线索。通过我们的代价体积表示任务被表述为学习执行特征匹配以识别高斯中心而不是像以前的工作那样从图像特征中进行数据驱动的3D回归。这样的表述降低了任务的学习难度使我们的方法能够以轻量级模型大小和快速速度实现最先进的性能。
我们通过将由我们构建的多视图代价体积估计的多视图一致深度反投影到3D空间中获得3D高斯中心。此外我们还并行预测其他高斯属性协方差、不透明度和球谐系数从而使用预测的3D高斯和可微分的投影操作渲染新视角图像。我们的完整模型MVSplat是端到端训练的仅使用渲染和真实图像之间的光度损失进行监督。
在大规模的RealEstate10K和ACID基准测试中我们基于代价体积的方法MVSplat以最快的前馈推理速度22 fps实现了最先进的性能。与最先进的pixelSplat相比我们的模型使用了更少的参数并且在提供更高的外观和几何质量以及更好的跨数据集泛化能力的同时推理速度提高了2倍以上。广泛的消融研究和分析强调了我们基于特征匹配的代价体积设计在实现高效前馈3D高斯投影模型方面的重要性。
论文标题: MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images
机构:
1. Monash University
2. ETH Zurich
3. University of Tübingen, Tübingen AI Center
4. University of Oxford
5. Microsoft
6. Nanyang Technological University
论文链接:https://arxiv.org/pdf/2403.14627.pdf
项目地址: https://donydchen.github.io/mvsplat
公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!
3D高斯投影3DGS的介绍与优势
3D高斯投影3D Gaussian Splatting简称3DGS是一种高效且表现力强的三维表示方法它因其快速的渲染速度和高质量的重建而受到关注。3DGS使用基于光栅化的渲染方法从而避免了NeRF中昂贵的体积采样过程实现了高效率和高质量的3D重建及新视角合成。
1. 3DGS的工作原理3DGS通过将3D高斯Gaussian primitives映射到图像平面上避免了传统NeRF方法中的体积渲染从而大幅提高了渲染速度。这些高斯原语由中心位置、协方差、不透明度和颜色参数定义可以高效地用于渲染新视角的图像。
2. 3DGS的优势与传统的NeRF方法相比3DGS具有多个显著优势。首先它的渲染速度快因为它避免了昂贵的体积采样过程。其次3DGS在处理稀疏视图输入时表现出色这对于实际应用中捕获大量视图是不切实际的情况尤为重要。此外3DGS能够在轻量级模型和快速速度的同时提供更高的外观和几何质量以及更好的跨数据集泛化能力。
MVSplat模型的核心设计
MVSplat是一个基于3DGS的前馈模型它通过构建成本体积cost volume来利用多视图的对应信息从而更好地学习几何结构。与之前依赖于数据驱动设计的方法不同MVSplat的核心设计在于其有效地利用特征匹配信息来预测3D高斯中心从而实现了高效的深度估计。
1. 成本体积的构建MVSplat通过平面扫描技术在3D空间中构建成本体积存储了所有潜在深度候选项的跨视图特征相似性。这些相似性为3D表面的定位提供了宝贵的几何线索使得模型能够通过特征匹配来识别3D高斯中心。
2. 多视图深度估计MVSplat的深度模型基于2D卷积和注意力机制不使用许多先前MVS和前馈NeRF模型中的3D卷积这使得模型高效。深度模型包括多视图特征提取、成本体积构建、成本体积细化、深度估计和深度细化等步骤。
3. 3D高斯参数的预测在获得多视图深度预测后MVSplat直接将它们投影到3D点云中并将每个视图的点云转换为对齐的世界坐标系直接组合为3D高斯的中心。同时模型还并行预测其他高斯属性协方差、不透明度和颜色参数以便使用可微分的投影操作渲染新视角图像。
4. 训练损失MVSplat使用简单的渲染损失进行端到端训练通过预测的3D高斯参数渲染图像并以真实目标RGB图像作为监督计算训练损失。
MVSplat在大规模RealEstate10K和ACID基准测试中取得了最先进的性能并以最快的前馈推理速度22 fps运行。与最新的pixelSplat模型相比MVSplat使用了更少的参数并且推理速度更快同时提供了更高的外观和几何质量以及更好的跨数据集泛化能力。
实验设置与数据集描述
1. 数据集
本研究使用了两个大型基准数据集RealEstate10K [42] 和 ACID [14]。RealEstate10K 数据集包含从 YouTube 下载的房地产视频分为 67,477 个训练场景和 7,289 个测试场景。ACID 数据集包含由无人机拍摄的自然场景分为 11,075 个训练场景和 1,972 个测试场景。两个数据集都提供了每个帧的估计相机内参和外参。此外为了进一步评估跨数据集的泛化能力还在多视图 DTU [10] 数据集上进行了直接评估该数据集包含带有相机位姿的以物体为中心的场景在 DTU 数据集上我们报告了 16 个验证场景的结果每个场景有 4 个新视角。
2. 评价指标
量化结果使用标准图像质量指标包括像素级的 PSNR、补丁级的 SSIM [31] 和特征级的 LPIPS [40]。同时报告了推理时间和模型参数以便全面比较速度和准确性的权衡。为了公平比较所有实验都在 256×256 分辨率下进行以符合现有模型 [1, 27]。
3. 实现细节
MVSplat 使用 PyTorch 实现并使用 CUDA 中的现成 3DGS 渲染器。多视图 Transformer 包含 6 层堆叠的自注意力和交叉注意力层。构建成本体积时在所有实验中采样了 128 个深度候选项。所有模型在单个 A100 GPU 上训练了 300,000 次迭代使用 Adam [13] 优化器。更多细节在补充材料 Appendix C 中提供。代码和模型可在 https://github.com/donydchen/mvsplat 获取。
主要结果与性能分析
1. 图像质量评估
在 RealEstate10K [42] 和 ACID [14] 基准测试中MVSplat 在所有视觉质量指标上超越了所有先前的最先进模型并且在 LPIPS 指标上有更明显的改进该指标更符合人类感知。MVSplat 在具有挑战性的条件下即使在只有一个输入视图中呈现的区域例如“楼梯扶手”和“灯罩”或从远处视点捕获的大型户外物体例如“桥梁”也能实现最高质量的新视图结果。 2. 模型效率评估
MVSplat 不仅在图像质量上表现优异而且在所有比较模型中具有最快的推理时间并且模型尺寸轻巧展示了其效率和实用性。MVSplat 使用的参数比 pixelSplat [1] 少 10 倍并且推理速度快于 2 倍以上。
3. 几何重建评估
MVSplat 生成的 3D 高斯原语质量显著高于最新的最先进模型 pixelSplat [1]。pixelSplat 需要额外的 50,000 步微调使用额外的深度正则化损失来实现合理的几何重建结果。而 MVSplat 仅通过光度监督训练就能生成高质量的几何结构。 4. 跨数据集泛化评估
MVSplat 在泛化到分布外的新场景方面具有固有的优势主要是因为成本体积捕获了特征之间的相对相似性这与特征的绝对尺度相比保持不变。在两个跨数据集评估中MVSplat 渲染出的新视图具有竞争力尽管目标数据集的场景包含与源数据集显著不同的相机分布和图像外观。相比之下pixelSplat 渲染的视图严重退化这主要是因为 pixelSplat 依赖于与特征值的绝对尺度相关的纯特征聚合这阻碍了其在接收来自其他数据集的不同图像特征时的性能。
5. 更多视图质量评估
MVSplat 设计为对输入视图的数量不敏感因此如果在测试阶段有更多输入视图可用无论在训练中使用了多少输入视图都可以从中受益。在 DTU 上使用 3 个上下文视图进行测试时MVSplat 的结果优于使用 2 个视图的结果这表明 MVSplat 可以利用更多的输入视图来提高性能。
6. 消融研究
通过在 RealEstate10K 上进行详尽的消融研究分析了 MVSplat 的关键组件。结果表明成本体积是 MVSplat 成功的关键它在编码器中发挥着最重要的作用提供了更好的几何质量。此外交叉视图注意力在学习多视图几何结构中也非常重要它通过在输入视图之间融合信息来增强特征表达能力。
跨数据集泛化能力的评估
在计算机视觉领域从稀疏的图像例如仅两张进行3D场景重建和新视角合成一直是一个基本挑战。虽然使用神经场景表示如SRN、NeRF和LFN取得了显著进展但这些方法在实际应用中仍不尽人意原因在于每个场景的昂贵优化成本、高内存消耗和慢渲染速度。最近基于成本体积的方法MVSplat在大规模RealEstate10K和ACID基准测试中实现了最先进的性能具有最快的前馈推理速度22 fps并且在外观和几何质量以及跨数据集泛化方面都优于最新的pixelSplat模型。
1. 跨数据集泛化能力
MVSplat的跨数据集泛化能力得益于其成本体积表示该表示捕获了特征之间的相对相似性这种相似性与特征的绝对尺度相比是不变的。为了评估这种泛化能力研究人员选择了仅在RealEstate10K室内场景上训练的模型并直接在ACID室外场景和DTU以物体为中心的场景上进行了测试。结果显示尽管目标数据集的场景与源数据集在相机分布和图像外观上有显著差异MVSplat仍能渲染出具有竞争力的新视图。相比之下pixelSplat在渲染质量上明显下降主要原因是它依赖于与特征值的绝对尺度相关的纯特征聚合这在接收来自其他数据集的不同图像特征时会影响其性能。 2. 更多视图的质量
MVSplat的设计使其对输入视图的数量不敏感这意味着如果在测试阶段有更多的输入视图可用无论在训练中使用了多少输入视图它都可以从中受益。通过在DTU上使用3个上下文视图进行测试使用在2视图RealEstate10K数据集上训练的模型MVSplat的性能得到了提升。然而pixelSplat在使用更多视图时性能略有下降即使研究人员已经尽力将其发布的仅支持2视图的模型扩展到支持更多视图的测试。这表明更多视图的特征分布可能与用于训练pixelSplat的两视图特征分布不同这种依赖于纯特征聚合的方法缺乏对特征分布变化的鲁棒性。
模型的优化与改进
1. 模型优化
为了提高模型性能MVSplat采用了多种优化策略。首先它基于2D卷积和注意力机制避免了许多以前的MVS和前馈NeRF模型中使用的3D卷积从而提高了模型效率。其次MVSplat通过构建成本体积来存储所有潜在深度候选项的跨视图特征相似性这些相似性为3D表面的定位提供了宝贵的几何线索。此外MVSplat还使用了一个轻量级的2D U-Net来进一步细化成本体积并预测每个视图的深度图。这些深度图被投影到3D空间并与其他高斯属性协方差、不透明度和球面谐波系数一起预测以使用可微分的splatting操作渲染新视图。
2. 模型改进
MVSplat的改进主要体现在以下几个方面
成本体积表示通过平面扫描在3D空间中构建成本体积表示为学习特征匹配以识别高斯中心提供了一个新的公式化方法与以前的数据驱动3D回归方法不同。
多视图深度估计MVSplat的深度模型仅基于2D卷积和注意力不使用其他模型中的3D卷积提高了模型效率。
高斯参数预测通过直接从多视图深度预测中投影得到的3D点云作为高斯中心同时预测不透明度、协方差和颜色参数。
训练损失模型使用简单的渲染损失进行端到端训练无需地面真实几何监督。
通过这些优化和改进MVSplat在两个大规模场景级重建基准测试中树立了新的最先进水平并且在外观和几何质量以及跨数据集泛化方面都优于最新的pixelSplat模型。
讨论与总结
在本文中我们探讨了从稀疏多视图图像进行3D场景重建和新视角合成的挑战并介绍了最近提出的MVSplat模型。MVSplat模型通过构建代价体积cost volume来利用多视图间的对应信息从而更好地学习几何结构。这种方法与现有的数据驱动设计有所不同使得MVSplat在两个大规模场景级重建基准测试中设定了新的最高标准。与最新的先进方法pixelSplat相比MVSplat使用的参数少了10倍推断速度快了2倍以上同时提供了更高的外观和几何质量以及更好的跨数据集泛化能力。
1. 成果总结
MVSplat模型在多个方面展现了其优越性。首先它在RealEstate10K和ACID基准测试中取得了最佳的视觉质量指标并且具有最快的前馈推断速度22 fps这证明了其在实际应用中的高效性和实用性。其次MVSplat在几何重建方面也展现了显著的优势能够在没有额外深度微调的情况下通过光度监督单独训练生成高质量的3D高斯原语。此外MVSplat在跨数据集泛化能力方面表现出色尤其是在源数据集与目标数据集之间存在较大差异时其性能提升更为显著。
2. 技术细节
MVSplat模型的关键在于其代价体积表示该表示存储了所有潜在深度候选项的跨视图特征相似性为3D表面的定位提供了有价值的几何线索。与之前的工作不同MVSplat的任务被构建为学习执行特征匹配以识别3D高斯中心这降低了任务的学习难度并使得模型能够以轻量级的模型大小和快速的速度实现最先进的性能。
3. 实验结果
MVSplat在多个实验中均展现了其优势。在RealEstate10K和ACID数据集上的定量结果表明MVSplat在所有视觉质量指标上均优于先前的最佳模型。在几何重建质量的可视化比较中MVSplat产生的3D高斯原语和平滑深度图表现出更高的质量。在跨数据集泛化测试中MVSplat在未经训练的新数据集上的渲染质量也远超pixelSplat这进一步证明了其代价体积设计的有效性。
4. 未来方向
尽管MVSplat在多个方面取得了显著的成果但它在处理反射表面如玻璃和窗户时可能产生不可靠的结果这是现有方法的一个公开挑战。此外MVSplat目前主要在RealEstate10K数据集上进行训练尽管其规模较大但多样性不足以健壮地泛化到野外真实世界场景。未来的一个有趣方向是探索MVSplat模型扩展到更大和更多样化的训练数据集的可能性例如通过混合现有的几个场景级数据集。
总之MVSplat模型的提出为稀疏多视图图像的3D场景重建和新视角合成提供了一种高效且有效的解决方案其优异的性能和泛化能力预示着在实际应用中具有巨大的潜力。nbsp;
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86010.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!