项目分享|VGGT:秒级完成场景3D重建的视觉几何Transformer

引言

3D场景重建是计算机视觉领域的核心难题,传统方法往往依赖多阶段流程、海量计算资源,且仅能输出局部3D属性。而CVPR 2025最佳论文成果——VGGT(Visual Geometry Grounded Transformer)彻底改变了这一现状:这款由牛津大学VGG组与Meta AI联合研发的模型,能从单张/多张/数百张场景视图中,秒级直接推断相机内外参、深度图、3D点云等全维度3D属性,还支持商用部署与生态集成,成为3D重建领域的突破性成果。

项目核心介绍

VGGT是一款前馈神经网络,核心目标是从任意数量的场景视图中快速完成全维度3D属性推断,涵盖相机外参/内参、点映射、深度图、3D点跟踪等关键信息,且全流程仅需数秒。该项目斩获CVPR 2025最佳论文奖,团队后续持续迭代:7月更新商用许可(VGGT-1B-Commercial checkpoint支持商用,排除军事场景)、开放训练代码(支持自定义数据集微调);6月新增COLMAP格式导出功能(可直接对接NeRF/高斯溅射库);5月上线Co3D数据集相机姿态估计评估代码,全方位降低使用门槛。

创新点与核心优势

核心创新

  1. 架构创新:摒弃传统多阶段重建流程,通过Transformer架构直接端到端推断全量3D场景属性,无需中间步骤;
  2. 零样本能力:未针对单视图重建训练,却能实现比肩SOTA的单视图3D重建效果;
  3. 商用适配:发布商用友好版checkpoint,性能与原版持平(Co3D数据集AUC@30达90.37),审批流程类LLaMA自动审核。

核心优势

  1. 极致高效:H100 GPU上1帧仅需0.04秒,100帧也仅需3.12秒,显存占用可控(1帧仅1.88GB);
  2. 生态兼容:导出的COLMAP格式文件可直接对接gsplat等高斯溅射/NeRF库;
  3. 易用性强:支持自定义掩码排除反光/天空等干扰区域,无需精准分割,简单框选即可。

技术实现与部署实操

环境部署

首先克隆仓库并安装依赖:

gitclone git@github.com:facebookresearch/vggt.gitcdvggt pipinstall-r requirements.txt

核心推理代码

仅需几行代码即可完成3D属性推断:

importtorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_images device="cuda"iftorch.cuda.is_available()else"cpu"dtype=torch.bfloat16iftorch.cuda.get_device_capability()[0]>=8elsetorch.float16# 初始化模型并加载预训练权重model=VGGT.from_pretrained("facebook/VGGT-1B").to(device)# 加载并预处理图像(替换为自定义路径)image_names=["path/to/imageA.png","path/to/imageB.png"]images=load_and_preprocess_images(image_names).to(device)# 推理获取3D属性withtorch.no_grad():withtorch.cuda.amp.autocast(dtype=dtype):predictions=model(images)# 包含相机参数、深度图、点云等

实用功能部署

  1. 导出COLMAP格式(支持光束平差法):
# 基础导出python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/# 带光束平差法(更快版本)python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/ --use_ba --max_query_pts=2048--query_frame_num=5
  1. 交互式3D可视化:
pipinstall-r requirements_demo.txt# Gradio网页可视化python demo_gradio.py# Viser 3D点云可视化python demo_viser.py --image_folder path/to/your/images/folder

该项目及相关内容已 AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源

项目地址:AladdinEdu课题广场

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1148842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零部署Qwen2.5-7B-Instruct大模型|vLLM+Chainlit完整指南

从零部署Qwen2.5-7B-Instruct大模型|vLLMChainlit完整指南 引言:为什么需要高效部署大语言模型? 随着大语言模型(LLM)在自然语言处理任务中的广泛应用,如何快速、稳定、可扩展地部署高性能推理服务成为开…

ResNet18图像分类5分钟上手:没GPU也能用,1小时1块钱

ResNet18图像分类5分钟上手:没GPU也能用,1小时1块钱 引言:AI小白的第一个图像分类项目 作为一名对AI感兴趣的高中生,你可能听说过"图像分类"这个酷炫的技术——它能让计算机自动识别照片里的内容。但当你真正想动手做…

❿⁄₈ ⟦ OSCP ⬖ 研记 ⟧ 密码攻击 ➱ 破解SSH私钥的密码短语

郑重声明:本文所涉安全技术仅限用于合法研究与学习目的,严禁任何形式的非法利用。因不当使用所导致的一切法律与经济责任,本人概不负责。任何形式的转载均须明确标注原文出处,且不得用于商业目的。 🔋 点赞 | 能量注入…

跟我学C++中级篇—C++17中的元编程逻辑操作

一、逻辑操作 在C中,逻辑运算符算是最常见的一种运算符,如&&,||以及!。这三种逻辑运算符对于处理条件判断和循环控制等有着重要的作用。说的更简单一些,就是处理程序的分支路径。这也符合现实世界中的工作处理…

Rembg图像分割实战:发丝级边缘处理教程

Rembg图像分割实战:发丝级边缘处理教程 1. 引言:智能万能抠图 - Rembg 在图像处理领域,精准去背景一直是设计师、电商运营和AI开发者的核心需求。传统手动抠图耗时耗力,而普通自动分割工具往往在复杂边缘(如发丝、毛…

Gitee:本土化技术生态如何重塑中国开发者的创新范式?

Gitee:本土化技术生态如何重塑中国开发者的创新范式? 当全球科技产业面临供应链重构与数字化转型的双重考验时,中国开发者社区正在孕育着令人瞩目的技术变革。作为这场变革的重要推手,Gitee平台已经悄然成长为连接1300万开发者的技…

基于Qwen2.5-7B实现离线推理与工具调用实战

基于Qwen2.5-7B实现离线推理与工具调用实战 一、引言:为何需要本地化大模型 工具协同? 在当前大语言模型(LLM)广泛应用的背景下,将高性能模型部署到本地环境进行离线推理已成为企业级应用的重要需求。一方面&#x…

ResNet18模型可解释性:低成本GPU可视化方案

ResNet18模型可解释性:低成本GPU可视化方案 引言 在医疗AI领域,向医生解释AI模型的决策过程至关重要。ResNet18作为经典的卷积神经网络,虽然结构相对简单,但其内部工作机制对非技术人员来说仍然是个"黑箱"。想象一下&…

WebUI集成+热力图可视化|轻松实现单目深度感知

WebUI集成热力图可视化|轻松实现单目深度感知 🌐 技术背景:从2D图像到3D空间理解的跨越 在计算机视觉领域,单目深度估计(Monocular Depth Estimation)是一项极具挑战性的任务——仅凭一张普通RGB图像&…

电商图片自动化:Rembg结合Python批量处理

电商图片自动化:Rembg结合Python批量处理 1. 引言:电商视觉升级的自动化需求 在电商平台日益激烈的竞争环境下,商品图的质量直接影响转化率。传统的人工抠图耗时耗力,尤其面对海量SKU时效率低下。而AI驱动的图像去背景技术正成为…

提升AI对话质量:Qwen2.5-7B在真实场景中的应用

提升AI对话质量:Qwen2.5-7B在真实场景中的应用 一、引言:为何选择Qwen2.5-7B提升对话体验? 随着大语言模型(LLM)在客服、教育、内容创作等领域的广泛应用,高质量的对话生成能力已成为衡量模型实用性的核心指…

国内企业数字化转型加速,Gitee CI/CD解决方案成合规高效首选

国内企业数字化转型加速,Gitee CI/CD解决方案成合规高效首选 在数字化转型浪潮席卷各行各业的当下,持续集成与持续交付(CI/CD)工具正成为企业提升开发效率的关键引擎。随着《网络安全法》和《数据安全法》的深入实施,数据合规与本…

ResNet18安全测试:隔离环境放心跑,不影响主机

ResNet18安全测试:隔离环境放心跑,不影响主机 1. 为什么需要隔离测试环境? 作为安全研究员,当你测试ResNet18模型的对抗样本时,可能会遇到这些问题: 担心测试代码影响本地开发环境害怕实验过程中误删重要…

ResNet18+Flask构建Web应用:云端GPU加速开发

ResNet18Flask构建Web应用:云端GPU加速开发 引言 作为一名计算机专业的学生,毕业设计总是让人既期待又头疼。我选择了开发一个智能相册网站作为毕业设计项目,核心功能是通过AI自动识别照片中的物体和场景。最初我在本地电脑上训练ResNet18模…

Rembg API调用教程:Python集成步骤详解

Rembg API调用教程:Python集成步骤详解 1. 智能万能抠图 - Rembg 在图像处理领域,自动去背景是一项高频且关键的需求。无论是电商商品图精修、社交媒体内容创作,还是AI生成图像的后处理,都需要一种高精度、自动化、无需人工标注…

Rembg抠图技术详解:Alpha通道生成的科学原理

Rembg抠图技术详解:Alpha通道生成的科学原理 1. 智能万能抠图 - Rembg 在图像处理与视觉内容创作中,精准抠图是实现高质量合成、电商展示、海报设计等任务的关键前提。传统手动抠图耗时费力,而基于深度学习的自动去背景技术正逐步成为主流。…

Ollama + Qwen2.5-7B:开启你的本地大语言模型之旅

Ollama Qwen2.5-7B:开启你的本地大语言模型之旅 在生成式AI迅猛发展的今天,越来越多的开发者和研究者希望能够在本地环境中运行强大的大语言模型(LLM),以实现更安全、可控且低延迟的应用体验。然而,传统部…

Rembg模型评估:用户满意度调研报告

Rembg模型评估:用户满意度调研报告 1. 智能万能抠图 - Rembg 在图像处理与内容创作日益普及的今天,自动去背景技术已成为设计师、电商运营、短视频创作者等群体的核心需求之一。传统手动抠图耗时耗力,而基于深度学习的智能抠图工具则提供了…

导师推荐10个AI论文软件,专科生毕业论文写作必备!

导师推荐10个AI论文软件,专科生毕业论文写作必备! AI工具助力论文写作,专科生也能轻松应对 在当前的学术环境中,越来越多的专科生开始借助AI工具来辅助毕业论文的撰写。这些工具不仅能够帮助学生高效完成初稿、修改和降重等任务&a…

Rembg模型部署:脱离ModelSecope的稳定方案

Rembg模型部署:脱离ModelSecope的稳定方案 1. 智能万能抠图 - Rembg 在图像处理与内容创作领域,自动去背景是一项高频且关键的需求。无论是电商商品图精修、社交媒体素材制作,还是AI艺术创作中的元素提取,传统手动抠图效率低下&…