网站数据流程h5 和手机网站

web/2025/10/3 4:26:16/文章来源:
网站数据流程,h5 和手机网站,网站导航界面,wordpress 降级开篇#xff1a;探索稀疏多视图图像的3D场景重建与新视角合成的挑战 3D场景重建和新视角合成是计算机视觉领域的一项基础挑战#xff0c;尤其是当输入图像非常稀疏#xff08;例如#xff0c;只有两张#xff09;时。尽管利用神经场景表示#xff0c;例如场景表示网络探索稀疏多视图图像的3D场景重建与新视角合成的挑战 3D场景重建和新视角合成是计算机视觉领域的一项基础挑战尤其是当输入图像非常稀疏例如只有两张时。尽管利用神经场景表示例如场景表示网络SRN、神经辐射场NeRF和光场网络LFN等取得了显著进展但这些方法在实际应用中仍然不尽人意原因包括每个场景的优化成本高昂、内存消耗大以及渲染速度慢。最近3D高斯投影3DGS作为一种高效且表达力强的3D表示方法应运而生它凭借快速的渲染速度和高质量成为了研究的热点。使用基于光栅化的渲染3DGS天然避免了NeRF中昂贵的体积采样过程从而实现了高效且高质量的3D重建和新视角合成。 接下来提出的几种前馈高斯投影方法如Splatter Image和pixelSplat尝试从稀疏视图图像进行3D重建。Splatter Image使用U-Net架构从单一视图回归像素对齐的高斯参数取得了单个对象3D重建的有希望的结果。然而从单个图像进行3D重建本质上是不适定的和模糊的这使得它特别难以应用于更一般和更大的场景级别重建。对于一般场景重建pixelSplat提出从两个输入视图回归高斯参数。尽管pixelSplat学习了具有环视变换器的跨视图感知特征但仅从图像特征预测可靠的概率深度分布仍然具有挑战性导致pixelSplat的几何重建质量相对较低且存在噪声伪影。为了改进几何重建结果需要使用额外的深度正则化损失进行缓慢的深度微调。 为了准确定位3D高斯中心我们提出通过在3D空间中进行平面扫描来构建代价体积表示。具体来说代价体积存储了所有潜在深度候选项的跨视图特征相似性这些相似性可以为3D表面的定位提供有价值的几何线索。通过我们的代价体积表示任务被表述为学习执行特征匹配以识别高斯中心而不是像以前的工作那样从图像特征中进行数据驱动的3D回归。这样的表述降低了任务的学习难度使我们的方法能够以轻量级模型大小和快速速度实现最先进的性能。 我们通过将由我们构建的多视图代价体积估计的多视图一致深度反投影到3D空间中获得3D高斯中心。此外我们还并行预测其他高斯属性协方差、不透明度和球谐系数从而使用预测的3D高斯和可微分的投影操作渲染新视角图像。我们的完整模型MVSplat是端到端训练的仅使用渲染和真实图像之间的光度损失进行监督。 在大规模的RealEstate10K和ACID基准测试中我们基于代价体积的方法MVSplat以最快的前馈推理速度22 fps实现了最先进的性能。与最先进的pixelSplat相比我们的模型使用了更少的参数并且在提供更高的外观和几何质量以及更好的跨数据集泛化能力的同时推理速度提高了2倍以上。广泛的消融研究和分析强调了我们基于特征匹配的代价体积设计在实现高效前馈3D高斯投影模型方面的重要性。 论文标题: MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images 机构: 1. Monash University 2. ETH Zurich 3. University of Tübingen, Tübingen AI Center 4. University of Oxford 5. Microsoft 6. Nanyang Technological University 论文链接:https://arxiv.org/pdf/2403.14627.pdf 项目地址: https://donydchen.github.io/mvsplat 公众号【AI论文解读】后台回复“论文解读” 获取论文PDF! 3D高斯投影3DGS的介绍与优势 3D高斯投影3D Gaussian Splatting简称3DGS是一种高效且表现力强的三维表示方法它因其快速的渲染速度和高质量的重建而受到关注。3DGS使用基于光栅化的渲染方法从而避免了NeRF中昂贵的体积采样过程实现了高效率和高质量的3D重建及新视角合成。 1. 3DGS的工作原理3DGS通过将3D高斯Gaussian primitives映射到图像平面上避免了传统NeRF方法中的体积渲染从而大幅提高了渲染速度。这些高斯原语由中心位置、协方差、不透明度和颜色参数定义可以高效地用于渲染新视角的图像。 2. 3DGS的优势与传统的NeRF方法相比3DGS具有多个显著优势。首先它的渲染速度快因为它避免了昂贵的体积采样过程。其次3DGS在处理稀疏视图输入时表现出色这对于实际应用中捕获大量视图是不切实际的情况尤为重要。此外3DGS能够在轻量级模型和快速速度的同时提供更高的外观和几何质量以及更好的跨数据集泛化能力。 MVSplat模型的核心设计 MVSplat是一个基于3DGS的前馈模型它通过构建成本体积cost volume来利用多视图的对应信息从而更好地学习几何结构。与之前依赖于数据驱动设计的方法不同MVSplat的核心设计在于其有效地利用特征匹配信息来预测3D高斯中心从而实现了高效的深度估计。 1. 成本体积的构建MVSplat通过平面扫描技术在3D空间中构建成本体积存储了所有潜在深度候选项的跨视图特征相似性。这些相似性为3D表面的定位提供了宝贵的几何线索使得模型能够通过特征匹配来识别3D高斯中心。 2. 多视图深度估计MVSplat的深度模型基于2D卷积和注意力机制不使用许多先前MVS和前馈NeRF模型中的3D卷积这使得模型高效。深度模型包括多视图特征提取、成本体积构建、成本体积细化、深度估计和深度细化等步骤。 3. 3D高斯参数的预测在获得多视图深度预测后MVSplat直接将它们投影到3D点云中并将每个视图的点云转换为对齐的世界坐标系直接组合为3D高斯的中心。同时模型还并行预测其他高斯属性协方差、不透明度和颜色参数以便使用可微分的投影操作渲染新视角图像。 4. 训练损失MVSplat使用简单的渲染损失进行端到端训练通过预测的3D高斯参数渲染图像并以真实目标RGB图像作为监督计算训练损失。 MVSplat在大规模RealEstate10K和ACID基准测试中取得了最先进的性能并以最快的前馈推理速度22 fps运行。与最新的pixelSplat模型相比MVSplat使用了更少的参数并且推理速度更快同时提供了更高的外观和几何质量以及更好的跨数据集泛化能力。 实验设置与数据集描述 1. 数据集 本研究使用了两个大型基准数据集RealEstate10K [42] 和 ACID [14]。RealEstate10K 数据集包含从 YouTube 下载的房地产视频分为 67,477 个训练场景和 7,289 个测试场景。ACID 数据集包含由无人机拍摄的自然场景分为 11,075 个训练场景和 1,972 个测试场景。两个数据集都提供了每个帧的估计相机内参和外参。此外为了进一步评估跨数据集的泛化能力还在多视图 DTU [10] 数据集上进行了直接评估该数据集包含带有相机位姿的以物体为中心的场景在 DTU 数据集上我们报告了 16 个验证场景的结果每个场景有 4 个新视角。 2. 评价指标 量化结果使用标准图像质量指标包括像素级的 PSNR、补丁级的 SSIM [31] 和特征级的 LPIPS [40]。同时报告了推理时间和模型参数以便全面比较速度和准确性的权衡。为了公平比较所有实验都在 256×256 分辨率下进行以符合现有模型 [1, 27]。 3. 实现细节 MVSplat 使用 PyTorch 实现并使用 CUDA 中的现成 3DGS 渲染器。多视图 Transformer 包含 6 层堆叠的自注意力和交叉注意力层。构建成本体积时在所有实验中采样了 128 个深度候选项。所有模型在单个 A100 GPU 上训练了 300,000 次迭代使用 Adam [13] 优化器。更多细节在补充材料 Appendix C 中提供。代码和模型可在 https://github.com/donydchen/mvsplat 获取。 主要结果与性能分析 1. 图像质量评估 在 RealEstate10K [42] 和 ACID [14] 基准测试中MVSplat 在所有视觉质量指标上超越了所有先前的最先进模型并且在 LPIPS 指标上有更明显的改进该指标更符合人类感知。MVSplat 在具有挑战性的条件下即使在只有一个输入视图中呈现的区域例如“楼梯扶手”和“灯罩”或从远处视点捕获的大型户外物体例如“桥梁”也能实现最高质量的新视图结果。 2. 模型效率评估 MVSplat 不仅在图像质量上表现优异而且在所有比较模型中具有最快的推理时间并且模型尺寸轻巧展示了其效率和实用性。MVSplat 使用的参数比 pixelSplat [1] 少 10 倍并且推理速度快于 2 倍以上。 3. 几何重建评估 MVSplat 生成的 3D 高斯原语质量显著高于最新的最先进模型 pixelSplat [1]。pixelSplat 需要额外的 50,000 步微调使用额外的深度正则化损失来实现合理的几何重建结果。而 MVSplat 仅通过光度监督训练就能生成高质量的几何结构。 4. 跨数据集泛化评估 MVSplat 在泛化到分布外的新场景方面具有固有的优势主要是因为成本体积捕获了特征之间的相对相似性这与特征的绝对尺度相比保持不变。在两个跨数据集评估中MVSplat 渲染出的新视图具有竞争力尽管目标数据集的场景包含与源数据集显著不同的相机分布和图像外观。相比之下pixelSplat 渲染的视图严重退化这主要是因为 pixelSplat 依赖于与特征值的绝对尺度相关的纯特征聚合这阻碍了其在接收来自其他数据集的不同图像特征时的性能。 5. 更多视图质量评估 MVSplat 设计为对输入视图的数量不敏感因此如果在测试阶段有更多输入视图可用无论在训练中使用了多少输入视图都可以从中受益。在 DTU 上使用 3 个上下文视图进行测试时MVSplat 的结果优于使用 2 个视图的结果这表明 MVSplat 可以利用更多的输入视图来提高性能。 6. 消融研究 通过在 RealEstate10K 上进行详尽的消融研究分析了 MVSplat 的关键组件。结果表明成本体积是 MVSplat 成功的关键它在编码器中发挥着最重要的作用提供了更好的几何质量。此外交叉视图注意力在学习多视图几何结构中也非常重要它通过在输入视图之间融合信息来增强特征表达能力。 跨数据集泛化能力的评估 在计算机视觉领域从稀疏的图像例如仅两张进行3D场景重建和新视角合成一直是一个基本挑战。虽然使用神经场景表示如SRN、NeRF和LFN取得了显著进展但这些方法在实际应用中仍不尽人意原因在于每个场景的昂贵优化成本、高内存消耗和慢渲染速度。最近基于成本体积的方法MVSplat在大规模RealEstate10K和ACID基准测试中实现了最先进的性能具有最快的前馈推理速度22 fps并且在外观和几何质量以及跨数据集泛化方面都优于最新的pixelSplat模型。 1. 跨数据集泛化能力 MVSplat的跨数据集泛化能力得益于其成本体积表示该表示捕获了特征之间的相对相似性这种相似性与特征的绝对尺度相比是不变的。为了评估这种泛化能力研究人员选择了仅在RealEstate10K室内场景上训练的模型并直接在ACID室外场景和DTU以物体为中心的场景上进行了测试。结果显示尽管目标数据集的场景与源数据集在相机分布和图像外观上有显著差异MVSplat仍能渲染出具有竞争力的新视图。相比之下pixelSplat在渲染质量上明显下降主要原因是它依赖于与特征值的绝对尺度相关的纯特征聚合这在接收来自其他数据集的不同图像特征时会影响其性能。 2. 更多视图的质量 MVSplat的设计使其对输入视图的数量不敏感这意味着如果在测试阶段有更多的输入视图可用无论在训练中使用了多少输入视图它都可以从中受益。通过在DTU上使用3个上下文视图进行测试使用在2视图RealEstate10K数据集上训练的模型MVSplat的性能得到了提升。然而pixelSplat在使用更多视图时性能略有下降即使研究人员已经尽力将其发布的仅支持2视图的模型扩展到支持更多视图的测试。这表明更多视图的特征分布可能与用于训练pixelSplat的两视图特征分布不同这种依赖于纯特征聚合的方法缺乏对特征分布变化的鲁棒性。 模型的优化与改进 1. 模型优化 为了提高模型性能MVSplat采用了多种优化策略。首先它基于2D卷积和注意力机制避免了许多以前的MVS和前馈NeRF模型中使用的3D卷积从而提高了模型效率。其次MVSplat通过构建成本体积来存储所有潜在深度候选项的跨视图特征相似性这些相似性为3D表面的定位提供了宝贵的几何线索。此外MVSplat还使用了一个轻量级的2D U-Net来进一步细化成本体积并预测每个视图的深度图。这些深度图被投影到3D空间并与其他高斯属性协方差、不透明度和球面谐波系数一起预测以使用可微分的splatting操作渲染新视图。 2. 模型改进 MVSplat的改进主要体现在以下几个方面 成本体积表示通过平面扫描在3D空间中构建成本体积表示为学习特征匹配以识别高斯中心提供了一个新的公式化方法与以前的数据驱动3D回归方法不同。 多视图深度估计MVSplat的深度模型仅基于2D卷积和注意力不使用其他模型中的3D卷积提高了模型效率。 高斯参数预测通过直接从多视图深度预测中投影得到的3D点云作为高斯中心同时预测不透明度、协方差和颜色参数。 训练损失模型使用简单的渲染损失进行端到端训练无需地面真实几何监督。 通过这些优化和改进MVSplat在两个大规模场景级重建基准测试中树立了新的最先进水平并且在外观和几何质量以及跨数据集泛化方面都优于最新的pixelSplat模型。 讨论与总结 在本文中我们探讨了从稀疏多视图图像进行3D场景重建和新视角合成的挑战并介绍了最近提出的MVSplat模型。MVSplat模型通过构建代价体积cost volume来利用多视图间的对应信息从而更好地学习几何结构。这种方法与现有的数据驱动设计有所不同使得MVSplat在两个大规模场景级重建基准测试中设定了新的最高标准。与最新的先进方法pixelSplat相比MVSplat使用的参数少了10倍推断速度快了2倍以上同时提供了更高的外观和几何质量以及更好的跨数据集泛化能力。 1. 成果总结 MVSplat模型在多个方面展现了其优越性。首先它在RealEstate10K和ACID基准测试中取得了最佳的视觉质量指标并且具有最快的前馈推断速度22 fps这证明了其在实际应用中的高效性和实用性。其次MVSplat在几何重建方面也展现了显著的优势能够在没有额外深度微调的情况下通过光度监督单独训练生成高质量的3D高斯原语。此外MVSplat在跨数据集泛化能力方面表现出色尤其是在源数据集与目标数据集之间存在较大差异时其性能提升更为显著。 2. 技术细节 MVSplat模型的关键在于其代价体积表示该表示存储了所有潜在深度候选项的跨视图特征相似性为3D表面的定位提供了有价值的几何线索。与之前的工作不同MVSplat的任务被构建为学习执行特征匹配以识别3D高斯中心这降低了任务的学习难度并使得模型能够以轻量级的模型大小和快速的速度实现最先进的性能。 3. 实验结果 MVSplat在多个实验中均展现了其优势。在RealEstate10K和ACID数据集上的定量结果表明MVSplat在所有视觉质量指标上均优于先前的最佳模型。在几何重建质量的可视化比较中MVSplat产生的3D高斯原语和平滑深度图表现出更高的质量。在跨数据集泛化测试中MVSplat在未经训练的新数据集上的渲染质量也远超pixelSplat这进一步证明了其代价体积设计的有效性。 4. 未来方向 尽管MVSplat在多个方面取得了显著的成果但它在处理反射表面如玻璃和窗户时可能产生不可靠的结果这是现有方法的一个公开挑战。此外MVSplat目前主要在RealEstate10K数据集上进行训练尽管其规模较大但多样性不足以健壮地泛化到野外真实世界场景。未来的一个有趣方向是探索MVSplat模型扩展到更大和更多样化的训练数据集的可能性例如通过混合现有的几个场景级数据集。 总之MVSplat模型的提出为稀疏多视图图像的3D场景重建和新视角合成提供了一种高效且有效的解决方案其优异的性能和泛化能力预示着在实际应用中具有巨大的潜力。nbsp;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做公益网站的原因做电商网站的设计思路有什么意思

Three场景实现多个物体的合并 目的 产品需求是让物体的光柱墙包含一个多边形的区域,二而我的多边形只能使用原型,方向,多边形。那么再研究的时候就需要将这些多边形合并成为一个形状,那么就行实现了。 原先的图形 如上图,是两个mesh组成的。首先寻找mesh合并的方法。 第…

深圳住房网站app北京网络职业学院怎么样

1. 数学研究 1.1. 数学研究变得更为艰难了 1.1.1. 学科分支越发密集,问题越发复杂 1.1.2. 攻读博士学位的3年时间,只够去理解导师所给题目的含义 1.1.3. 随后,再花费数年时间去研究、探索,运气不错的话,会得到一些…

梅州市建设局网站素材中国官网

微信小程序css 华文琥珀Brian Goetz最近的消息欢迎来到琥珀! 介绍Project Amber ( OpenJDK的一部分, 最初于1月提出 )。 Goetz通过介绍“欢迎使用Amber项目,这是我们面向特定生产力的Java语言JEP的孵化场”的介绍打开了…

网站建设 岗位职责 智联wordpress插件转换移动浏览

什么是计算机视觉 近年来,计算机视觉 (Computer Vision,简称CV) 不断普及,已成为人工智能 (AI) 增长最快的领域之一。计算机视觉致力于使计算机能够识别和理解图像和视频中的物体和人。 计算机视觉应用程序使用来自传感设备、人工智能、机器…

三门峡河南网站建设常德论坛尚一网市民留言

目录 数据隔离/权限控制 用户/权限/部门/岗位 ​数据隔离 mybatis的maaper写法 注解和切面 前端路由拦截 已知若依单体的前端采用vue-element-admin,在前端的专栏系列vue-element-admin的动态路由已详细拆解,其最大特点是使用后端返回数据控制前端…

设计教程网站推荐网站建设需要要多少钱

概览 在构建事件驱动应用时,人们面临着两大挑战:1)低延迟处理大量数据;2)实现流数据的实时摄取和转换。 结合 RisingWave 的流处理功能和 ScyllaDB 的高性能 NoSQL 数据库,可为构建事件驱动应用和数据管道…

购物网站分为几个模块wordpress如何采集优酷

前面学习函数时已经知道必须先存在一个函数然后才能使用,且这个函数的位置还要在 main()函数之前,否则的话编译时会报错。但我们写程序时,main() 函数是程序入口,程序的主要部分都在 main() 函数中,且其它函数也都要通…

企业网站案列网站建设 海拉尔

一、先来看一个需求 Spring MVC也可以使用拦截器对请求进行拦截处理,用户可以自定义拦截器来实现特定的功能,比如对临时文件的清除,或者对某些ip地址进行拦截器. 二、springMVC自定义拦截器介绍 (1)需要实现一个接口 HandlerInterceptor. (…

缙云企业网站建设优化设计三年级上册答案

在笔者上一篇文章《内核MDL读写进程内存》简单介绍了如何通过MDL映射的方式实现进程读写操作,本章将通过如上案例实现远程进程反汇编功能,此类功能也是ARK工具中最常见的功能之一,通常此类功能的实现分为两部分,内核部分只负责读写…

厦门建设网站建站做网站费用怎么记分录

一、使用中文字符 在python源码中如果使用了中文字符,运行时会有错误,解决的办法是在源码的开头部分加入字符编码的声明,下面是一个例子:#!/usr/bin/env python# -*- coding: cp936 -*-Python Tutorial中指出,python的…

网站建设 300元网络营销常见术语

前些天发现了十分不错的人工智能学习网站,通俗易懂,风趣幽默,没有广告,分享给大家,大家可以自行看看。(点击跳转人工智能学习资料) 微信公众号:创享日记 发送关键词:前馈…

厦门做网站找谁苏州专业高端网站建设企业

首先进入PE,在PE下找到你的系统ISO镜像,解压缩,然后将镜像里的boot文件夹、sources文件夹和bootmgr文件提取出来,然后复制到你要安装的分区(比如c盘),接下来拔下U盘,重新启动计算机&…

酒店网站建设公司排名wordpress站点链接打不开网址

在mysql中,会有相关的like关键词,并且默认的是忽略大小写的。但是在postgresql和kingbase中,只有ilike关键字,并且默认是大小写敏感的。当我们使用mybatisplus的时候,默认提供的api也只有like()。这里提供一种方式来对…

成都哪个公司做网站英文企业网站建设

推荐: NSDT场景编辑器助你快速搭建可二次开发的3D应用场景 1. 简单的场景设置 步骤 1 打开 3ds Max。 打开 3ds Max 步骤 2 我将向您展示风铃背后的动态 通过简单的场景设置进行模拟。一旦你有了这个想法,你就可以应用这个 技术到复杂的风铃结构。 基…

网站开发常用的技术建设电商网站的总结

$dir"C:/THsoft";//这是一个目录地址 也是根目录if (is_dir($dir)){//判断$dir是否是一个目录if ($dhopendir($dir)){//dh变量用来接收opendir的返回信息 如果为真 则执行whilewhile (($filereaddir($dh))!false){ //readdir()函数会返回一个文件的名称的echo …

网站多少流量够用免费正规大数据查询平台

目录 1.网络爬虫的作用(人话): 2.使用的工具 3.不使用程序进行网页信息的获取的操作步骤 4.如何使用程序来进行上述操作 1.打开浏览器 2.输入网址 3.发送请求 4.获取响应 5.判断响应是否成功 6.获取响应里需要的内容 7.记得最后关…

长春网站推广优化传奇世界页游

strtok函数是字符串函数库中的一个函数,函数原型如下:char *strtok(char s[], const char *delim);作用:分解字符串为一组字符串。s为要分解的字符串,delim为分隔符字符串。例如:"hello,hi:what?is!the.matter;&…

网站建设步骤邯郸网站制作个人

今年6月,文件共享工具MOVEit Transfer曾曝出SQL 注入漏洞,能让远程攻击者访问其数据库并执行任意代码。最近,MOVEit Transfer 母公司Progress Software又披露了三个新漏洞。 这三个漏洞分别是 CVE-2023-36932、CVE-2023-36933 和 CVE-2023-36…

营销型网站建设计划书软件开发过程五个步骤

原题链接:https://leetcode.cn/problems/remove-duplicates-from-sorted-array/ 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 用双指针算法,定义两个变量src和dst,一开始让src和dst指向num[ ]数组的第一个元素&a…

什么是营销型的网站杭州公司查询

目录 前言: 一、软件工程中的软件设计种类:根据宏观到微观分 (1)软件架构设计(层次划分、模块划分、职责分工): (2)软件高层设计、概要设计(功能模块的接…