4D通用世界模型!中科院NeoVerse用百万单目视频直接构建

中国科学院自动化研究所与CreateAI团队,利用海量互联网单目视频构建了一个4D世界模型NeoVerse。

构建即时响应、物理一致的4D世界模型,长期以来面临着数据匮乏与训练低效的双重诅咒。

传统的解决方案要么受困于昂贵稀缺的多视角数据,限制了模型的泛化能力,要么依赖繁重的离线预处理步骤,导致计算与存储成本居高不下。

NeoVerse,通过一种全新的端到端架构打破了这一僵局。

该模型无需相机姿态先验,能够直接从野外单目视频中高效重建4D高斯泼溅(4DGS),并通过模拟真实世界的成像退化来训练生成模型,实现了从重建到生成的全链路闭环。

NeoVerse在100万个视频片段上完成了训练,不仅在标准基准测试中刷新了重建与生成的性能记录,更为视频编辑、稳像及3D目标跟踪等下游任务提供了强大的通用底座。

摆脱离线束缚的实时4D重建架构

4D世界模型的核心愿景是混合重建与生成,即先理解场景的几何与运动结构,再以此引导新视角的视频生成。

现有的主流方法往往在可扩展性上通过了妥协。

一部分工作依赖于多视角静态视频生成的伪数据,无法处理真正的动态4D场景。

另一部分工作虽然利用了灵活的单目视频数据,但必须经历漫长的离线预处理,例如预先运行深度估计或优化高斯场。

这种离线策略不仅带来了巨大的计算负担和存储压力,还使得在线数据增强变得不可能,限制了模型利用海量数据的潜力。

NeoVerse的核心哲学是将整个流程设计为对野外单目视频具有高度可扩展性。

为了实现这一目标,研究团队首先构建了一个基于VGGT架构的无姿态前馈4D高斯重建模型。

这个模型摒弃了传统方法中针对每个场景单独优化的低效路径,转而采用一次前向传播即可预测出场景的几何与外观属性。

为了捕捉视频中的动态变化,模型引入了双向运动建模机制。

VGGT本身虽然能提取帧特征并聚合空间信息,但对时间维度的感知较弱。

NeoVerse通过在帧特征上引入时间维度的切片操作,将特征分为两部分。

一部分作为查询,另一部分作为键和值,分别计算前向(t到t+1)和后向(t到t-1)的运动特征。

这种双向设计至关重要,它使得高斯原语不仅包含位置、旋转和缩放等静态属性,还包含了线速度和角速度的瞬时运动信息。

在训练效率方面,NeoVerse采用了一种稀疏关键帧的在线重建策略。

对于长视频输入,模型只选取少量的关键帧进行网络推理,预测出这些时刻的高斯分布。

对于非关键帧时刻,系统利用预测出的双向速度信息,通过线性插值将关键帧的高斯原语平流传输到目标时刻。

这种设计将繁重的网络推理计算量降到了最低,同时保留了对整个视频时间段的覆盖能力。

通过高斯不透明度的衰减机制,模型能够自然地处理非均匀的关键帧间隔,确保在不同时刻之间实现平滑过渡。

这种设计不仅实现了真正意义上的在线训练,还极大地提升了数据吞吐量。

高效率的重建模块能够即时处理输入的视频流,为后续的生成模型提供实时的几何引导条件。

这种架构上的创新,彻底移除了阻碍4D世界模型利用大规模互联网视频数据的绊脚石。

模拟成像退化以提升生成鲁棒性

在混合重建与生成的范式中,重建得到的几何信息通常作为条件输入到视频生成模型中。

使用多视角或静态数据集时,我们可以轻松获得完美的对应训练对。

但在处理野外单目视频时,生成新视角所依赖的渲染图往往充满了瑕疵。

由于单目深度估计的固有歧义和遮挡问题,从新视角渲染出的图像通常包含空洞、扭曲和边缘伪影。

如果直接使用这些低质量的渲染图进行训练,生成模型可能会学会这些伪影,导致输出视频中出现鬼影或模糊。

为了解决这个问题,NeoVerse提出了一套巧妙的在线单目退化模拟策略。

其核心思想是:既然推理时的条件是退化的,那么训练时就应该主动模拟这种退化,让模型学会如何从烂图中恢复出高质量的视频。

第一种模拟技术是基于可见性的高斯剔除。

在训练过程中,系统会基于稀疏关键帧预测的相机轨迹,随机生成一个新的变换轨迹。

为了模拟遮挡效应,系统利用深度信息判断哪些高斯原语在新视角下是不可见的,并将这些原语直接剔除。

然后再将剩余的高斯投影回原始视角进行渲染。

这样得到的图像就会人为地产生遮挡造成的空洞,迫使生成模型利用上下文信息去脑补被遮挡的区域。

第二种技术针对的是深度不连续边缘处的飞像素现象。

神经网络在预测深度时,倾向于在物体边缘输出平均深度值以最小化回归损失,这会导致渲染时出现连接前景和背景的虚假像素。

NeoVerse引入了一种平均几何滤波器来模拟这种效应。

系统在新视角下的深度图中应用平均滤波,并据此调整高斯中心的位置。

当这些修改后的高斯被渲染回原始视角时,就会重现那种典型的边缘拉丝和扭曲现象。

这三种(包括深度误差导致的变形)基于几何原理的简单模拟技术,极其有效地提升了生成模型的鲁棒性。

通过在训练阶段引入这些经过精心设计的损坏数据,生成模型被训练成了一个强大的修复器。

它不再盲目信任输入的几何条件,而是学会在尊重几何结构的同时,利用视频扩散模型强大的先验知识来抑制伪影,并幻觉出合理的细节。

这种策略使得NeoVerse能够安全地使用海量且含有噪声的野外视频进行训练。

实验表明,经过退化模拟训练的模型,即使在面对剧烈相机运动导致的严重几何失真时,依然能够生成清晰、连贯且符合物理逻辑的视频内容。

这与某些完全依赖生成模型而缺乏几何约束的方法形成了鲜明对比,后者往往无法保证轨迹的可控性。

动态感知的推理与全能应用表现

在推理阶段,NeoVerse展示了超越简单视频生成的强大能力。

为了获得更完整的场景表示,模型支持将多个时间戳的高斯聚合到一个统一的时间戳下。

为了避免动态物体在聚合过程中产生重影,NeoVerse引入了全局运动跟踪机制。

该机制通过计算全局级别的可见性加权最大速度幅值,智能地将场景中的高斯原语划分为静态集和动态集。

对于静态背景,模型会在整个视频序列中进行聚合,从而获得极其稠密和完整的环境描述。

对于动态物体,聚合范围则被限制在邻近的几帧内,以防止运动漂移带来的误差。

这种动静分离的策略,使得模型在处理复杂动态场景时,既能保持背景的稳定性,又能精准捕捉前景的运动细节。

量化实验结果证实了NeoVerse的卓越性能。

在静态场景重建基准测试中,NeoVerse在AnySplat等强力竞争对手面前依然取得了SOTA成绩。

在Scannet++数据集上,其PSNR达到了25.34,显著优于AnySplat的22.79。

在动态场景重建方面,即便面对DyCheck这样的挑战性数据集,NeoVerse也展现出了压倒性的优势,PSNR指标比4DGT高出了1.62dB。

这种高保真的4D表征能力直接转化为丰富多样的下游应用。

NeoVerse不仅能生成遵循精确相机轨迹的新视角视频,还能利用平滑的相机轨迹实现视频稳像。

由于高斯表征本身支持任意分辨率渲染,模型还能在保持外观信息的同时,通过高分辨率生成实现视频超分。

此外,借助3D流预测,模型能够关联连续帧之间的高斯原语,实现无需额外训练的3D目标跟踪。

在视频编辑任务中,通过结合二进制掩码和文本条件,NeoVerse可以精确地修改视频中的特定对象,例如将白车变为红车,或将茶壶变为透明材质。

这种多功能性证明了其作为一个通用4D世界模型的巨大潜力。

与需要特定数据微调的专用模型不同,NeoVerse展示了一种通过扩大数据规模和改进训练策略来实现通用智能的可行路径。

NeoVerse通过精巧的架构设计和逆向思维的训练策略,成功将杂乱无章的互联网视频转化为构建高质量4D世界的燃料,让每个人都能仅凭一部手机拍摄的图片或视频,触碰到数字孪生的未来。

参考资料:

https://arxiv.org/pdf/2601.00393

https://neoverse-4d.github.io/

https://github.com/IamCreateAI/NeoVerse

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124783.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学霸同款!8款AI论文工具测评:开题报告与文献综述必备

学霸同款!8款AI论文工具测评:开题报告与文献综述必备 2026年AI论文工具测评:精准匹配学术需求的实用指南 随着人工智能技术在学术领域的广泛应用,越来越多的研究生开始依赖AI工具提升论文写作效率。然而,面对市场上琳琅…

通用、高效、且能处理复杂关联关系(多对多)的 “不同环境下实现数据“ 解决方案

这是一套非常实用的Django工具函数,用于在两个不同的数据库之间同步数据。让我们一步步来拆解它。一、 业务思想 (The “Why”) 在复杂的Web应用或企业系统中,经常会遇到需要使用多个数据库的场景。例如: 读写分离:一个主数据库&a…

智能合约“可塑”之争:代理模式与钻石标准,谁将主导链上未来?

引言:智能合约的“硬分叉困境”与破局之道 当DeFi协议因代码漏洞遭受攻击时,当NFT项目因功能迭代需求被迫迁移用户资产时,当DAO组织因治理规则升级引发社区分裂时——智能合约的“不可修改性”,这一曾被视为区块链核心优势的特性…

Eclipse:大小写转换的快捷键

在 Eclipse 中,大小写转换的快捷键如下:‌转为大写‌:Ctrl Shift X‌转为小写‌:Ctrl Shift Y这两个快捷键可以用于:‌单行文本‌:选中一行或部分文本后按快捷键即可转换大小写。‌多行文本‌&#xff…

‌ROS-Industrial

听 ROS 2(Robot Operating System 2)是机器人软件框架的第二代版本,专为应对实时系统、安全性和多机器人协作等现代需求而设计。在工业领域,ROS 2正通过ROS-Industrial项目推动技术融合,旨在将ROS的灵活性与工业场景的…

程序员2026年金三银四面试突击之Java权威指南-面试场景题!

Java面试场景题权威指南(2026年面试突击版)在2026年的“金三银四”招聘旺季,Java面试是程序员求职的关键环节。面试场景题通常考察实际问题的解决能力,包括多线程、集合框架、JVM、设计模式和算法等核心领域。本指南将逐步帮助你突…

新手必看:网络安全的定义 + 涵盖范畴,学完能成为黑客吗?

提及网络安全,很多人都是既熟悉又陌生,所谓的熟悉就是知道网络安全可以保障网络服务不中断。那么到底什么是网络安全?网络安全包括哪几个方面?通过下文为大家介绍一下。 一、什么是网络安全? 网络安全是指保护网络系统、硬件、软件以及其中的数据免…

潮玩宇宙:链游与数藏融合的财富密码,开发成本与商业逻辑全揭秘

引言:当潮玩遇见区块链,一场颠覆传统的数字革命正在上演在元宇宙概念席卷全球的当下,潮玩宇宙以“链游数字藏品”的创新模式横空出世,成为数字娱乐领域的现象级产品。用户既能通过NFT盲盒收集限量版虚拟潮玩,又能通过游…

低耗能蓝牙信标:关键技术演变和部署深度选型指南详解

hello~这里是维构lbs智能定位,如果有项目需求和技术交流欢迎来私信我们~点击文章最下方可获取免费获取技术文档和解决方案随着BLE 诞生后信标应用的崛起,直至 5.1 厘米级定位的突破,蓝牙的发展历程始终围绕 “更低功耗、更高性能、更精准定位…

英伟达、英特尔和AMD芯片同台竞技:CES 2026各自都展示了怎样的实力

全球最大消费电子展CES 2026上,英伟达、英特尔和AMD新品发布,体现了全球计算产业的历史性转折,AI算力的芯片竞争已经演变为平台架构的全面战争。英伟达重构计算定义的极端协同黄仁勋在CES 2026上带来的是基于全新计算哲学的Rubin计算平台。游…

【AI黑科技】大模型的“知之为知之“之道!自适应滑动窗口让RAG系统告别幻觉,性能开挂!

📌 一句话总结: 本工作系统性研究了检索增强问答(RAG)中一个被长期忽视却极其关键的问题:当证据不足时,大语言模型是否应该“承认不知道”,并提出一种自适应滑动窗口提示策略,在减少…

汽车焊接工艺自适应控制技术的系统解析与工业实践

随着全球制造业向智能化、柔性化方向演进,焊接作为汽车制造的核心工艺,其技术升级已成为提升整车质量与生产效率的关键抓手。尤其在新能源汽车、轻量化车身等高要求领域,传统焊接工艺因其参数固定、适应性差的局限性,难以满足复杂…

想入门漏洞挖掘?零基础小白必看:所需技能 + 挖掘渠道 + 实操技巧

漏洞挖掘是合法合规的安全实践,核心是 “先学基础、再练靶场、合规实战”,新手不用怕门槛高,按步骤推进就能逐步上手。 一、新手必备:3 大核心能力(从易到难) 1. 基础理论知识(必备&#xff0…

服务器资源监控与容量规划实战

前言 服务器资源监控是运维基本功。CPU飙高、内存吃紧、磁盘快满……这些问题如果没有提前发现,等出故障再处理就被动了。除了实时监控,还需要做容量规划,预判什么时候该扩容。 本文整理服务器资源监控的方法和容量规划的思路,附带…

爆肝实测!RAG技术让大模型在矿山领域拿到4+级认证?小白程序员也能学会的AI黑科技!

随着大模型逐步向深度认知推理领域拓展,以检索增强生成(Retrieval Augmented Generation,RAG)为核心的人工智能技术可显著提升其准确性和稳定性,为企业提供高性价比的行业解决方案。为推动产业健康持续发展&#xff0c…

Linux定时任务与自动化脚本实战

前言 服务器运维离不开定时任务:日志清理、数据备份、监控告警、报表生成……手动执行既繁琐又容易遗漏。crontab是Linux下最常用的定时任务工具,配合shell脚本可以实现各种自动化需求。 本文整理crontab的使用技巧和常见自动化脚本,附带踩坑…

零基础转行Java开发,学习路线推荐!

现在IT整体大环境不好,该怎么提升自己的核心竞争力?需要储备一些什么技术才能在Java立足呢?如果你对此没啥概念,毫无方向,不妨来看看阿里最新出品的P5~P7架构师学习路线,按着路线学习,技术上你能…

身份证二要素验证接口对接中常见问题汇总

在实际业务系统中接入身份证二要素验证接口(姓名 身份证号一致性校验)时,大多数问题并不来源于接口能力本身,而是集中出现在参数传递、签名生成、权限配置以及调用环境等细节上。 新诺韦尔从技术支持视角出发,结合接口文档规范与真实对接经…

AI悖论:技术迷雾中的人类抉择

当人工智能(AI)以前所未有的速度渗透进社会经济的每一个角落,一系列深刻的矛盾也随之浮现。这些悖论并非源于技术本身的缺陷,而是人类在开发、应用AI过程中,自身需求、认知与价值取向的集中投射。从就业格局到生产率变…

展望2026:出版业融合发展的深度观察与未来图景

当数字化浪潮席卷而来,出版业正站在一个前所未有的转折点上。2021至2024年,出版融合发展累计收入达358.62亿元,2024年单年收入97.24亿元,同比增长6.32%。这些数字背后,是一个传统行业在数字时代的艰难转身,也是一场关乎文化传承与创新的深刻变革。当我们将目光投向2026年,出版业…