【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分

基础信息(英文):

  1. 题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
  2. 时间: 2026.1
  3. 机构: NLPR & MAIS, CASIA; CreateAI
  4. 3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocular Videos

1句话通俗总结本文干了什么事情

本文提出了一种名为NeoVerse的4D世界模型,它能直接利用野外单目视频进行可扩展的训练,实现高质量的4D重建和新视角视频生成。

研究痛点:现有研究不足 / 要解决的具体问题

现有4D世界建模方法面临可扩展性差的问题:一是受限于昂贵且难以获取的多视角4D数据;二是依赖繁琐的离线预处理(如重聚焦、深度估计),导致计算负担重且无法进行在线数据增强,难以利用廉价且多样的野外单目视频。

核心方法:关键技术、模型或研究设计(简要)

提出了无需位姿的前馈4D高斯溅射(4DGS)模型,结合在线单目退化模式模拟技术,实现了从单目视频到4D场景的高效端到端重建与生成。

深入了解部分

相比前人创新在哪里

  1. 全流程可扩展性:摒弃了昂贵的多视角数据或沉重的离线预处理,直接利用多样化的野外单目视频进行训练。
  2. 双向运动建模:不同于以往的单向时间建模,引入了双向运动编码分支,区分瞬时速度,支持时间上的高斯插值。
  3. 在线退化模拟:提出了基于几何关系的可见性高斯剔除和平均几何滤波器,模拟新视角下的渲染退化,无需离线计算。

解决方法/算法的通俗解释

NeoVerse的工作原理分为两步:首先,它像一个“快速扫描仪”,通过双向运动分析,仅用稀疏的关键帧就能快速构建出场景的4D高斯表示(无需知道相机具体位置);其次,它像一个“修复大师”,在训练时故意制造模糊、遮挡等视觉瑕疵(退化模拟),然后学习如何生成清晰、连贯的视频来修复这些瑕疵。

解决方法的具体做法

  1. 前馈4D重建:基于VGGT骨干网络,利用双向注意力机制预测前后向运动特征,参数化4D高斯分布。
  2. 稀疏关键帧重建:仅对视频中的稀疏关键帧进行网络推理重建,非关键帧通过双向线性/角度插值得到。
  3. 退化模拟:通过随机变换相机轨迹进行高斯剔除(模拟遮挡)和平均深度滤波(模拟边缘伪影),生成训练用的退化渲染图。

基于前人的哪些方法

主要基于VGGT(Visual Geometry Grounded Transformer)的骨干网络设计,并继承了4D高斯溅射(4DGS)的概念,同时借鉴了NoPoSplat等方法的无需位姿思想。

实验设置、数据、评估方式、结论

  1. 实验设置:在32块A800 GPU上训练,第一阶段重建训练150K迭代,第二阶段生成训练50K迭代。
  2. 数据:使用了18个公开数据集(如Arkitscenes, Waymo等)及自建的超100万条互联网单目视频数据集。
  3. 评估方式:使用PSNR、SSIM、LPIPS进行重建质量评估;使用VBench进行生成视频的质量、一致性及美学评估。
  4. 结论:NeoVerse在重建和生成任务上均达到了SOTA(最先进)性能,且推理速度显著快于同类方法(如TrajectoryCrafter)。

提到的同类工作

ViewCrafter, TrajectoryCrafter, FreeSim, 4DGT, NoPoSplat, AnySplat, StreamSplat, MoVieS, ReCamMaster, CamCloneMaster, SynCamMaster, GEN3C, DaS, See3D, Difix3D+, Voyager, GS-DiT, See4D, PostCam, Light-X.

和本文相关性最高的3个文献

  1. VGGT (基础骨干网络)
  2. TrajectoryCrafter (主要对比的同类生成方法)
  3. 4DGT (主要对比的同类重建方法及改进基础)

我的

实现的效果就是输入一段视频,然后能换视角观看。
方法就是用VGGT搞一个4DGS的重建,然后用Diffusion再修复一下。和trajectory crafter基本一致,只是换成了4DGS来修复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1168941.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将CAD图纸进行黑白打印?

当我们在使用浩辰CAD看图王软件看图纸时,有时候会因为需要,将图纸打印出来,绘图的时候为了便于区分将图层设置为不同的颜色。 那么,在浩辰CAD看图王中如何才可以将图纸设置成黑白打印呢?今天就为大家简单介绍下&#…

导师严选2026自考AI论文网站TOP10:高效写作全维度测评

导师严选2026自考AI论文网站TOP10:高效写作全维度测评 2026年自考AI论文写作工具测评:精准定位高效写作新标杆 随着人工智能技术的不断进步,越来越多的自考生开始依赖AI写作工具来提升论文撰写效率。然而,市面上的平台种类繁多&am…

OctShop源码高效灵活构建小程序多用户商城

随着移动互联网和社交网络的迅猛发展,小程序电商已成为企业数字化转型的重要抓手。在众多电商平台解决方案中,“OctShop小程序多用户商城”凭借其模块化架构、强大的多商户支持能力以及高度可定制性,逐渐成为中小企业、品牌商及创业者构建私域…

历时八年,微软XAML Studio正式开源

https://github.com/dotnet/XAMLStudio XAML 可以理解为 XML 面向UI的特定词汇(对象、属性、事件、绑定) .NET运行时支持。 XAML Studio 是微软 Garage 项目的一员,它能帮助您快速构建 UWP XAML 原型,并轻松复制到 Visual Stu…

基于单片机的智能窗户结构系统设计

二、概述 2.1基本功能介绍 本课题研究方向是基于单片机为控制核心的智能窗户有关其机械结构运作上,作为一款智能型窗户,为了能够完美的融合到现代和未来的智能家居生活当中,我们所研究的智能窗户将会实现以下主要功能: 1)人控机械…

基于单片机的语音识别控制灯

2方案论证 2.1方案论证 本次设计使用STC89C52单片机,它属于MCS-51系列,STC89C52是一个应用范围广泛的8位单片机,成本低是他的一大优势。STC89C52作为控制中心,他的功能是对专门的语音进行处理并接受芯片传输的指令,使用…

MySQL索引精讲:从原理到实战,小白也能秒懂!

视频看了几百小时还迷糊?关注我,几分钟让你秒懂!在日常开发中,我们经常会遇到 SQL 查询慢得像蜗牛的情况。明明数据量不大,却查个几秒钟甚至十几秒——这时候,MySQL 索引就是你最该检查的地方!今…

一种基于STM32的智能门锁系统的设计

第二章 整体方案设计 2.1 需求分析 搭建简单的智能门锁系统作品,需要相应的硬件与软件结合,本设计基于STM32的智能门锁系统主要实现的功能要求有: (1)显示屏显示操作界面; (2)使用者可以通过设置按键进入管理界面,可以…

11个AI论文工具,支持LaTeX排版与多维度内容优化

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

不止是 “姐妹岛”:明月岛的独家浪漫

明月岛,是位于黑龙江省齐齐哈尔市区西北嫩江中游的一座江心岛。其总面积约为7.6平方公里,因形如一弯明月倒映于江水之上而得名。作为一处四面环水的独特地理单元,明月岛以其自然生态与人文古迹的交融,构成了区别于城市喧嚣的静谧空…

基于单片机的眼部按摩仪设计-控制系统设计

2.总控制电路设计 2.1单片机的选择 2.1.1单片机的简介 这是一块多功能型的逻辑芯片,它相当于一台计算机,相比于计算机它只差了一些I/O设备,当它出现的时候就为许多领域的学习提供便利。 从上世纪90年代开始,单片机就开始被人们熟…

有没有想过:为什么索引能加快查询速度?深入 B+ 树原理,小白也能秒懂!

视频看了几百小时还迷糊?关注我,几分钟让你秒懂!很多开发者会用索引,但一问“为什么索引快?”就支支吾吾。今天我们就抛开黑盒,用 Java Spring Boot 的视角,结合生活化类比和底层原理&#xff…

11种AI论文创作助手,提供LaTeX排版与语义优化双重支持

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

重磅!谷歌推出全新TranslateGemma翻译模型系列

1 月 16 日,Google 正式推出了全新开放翻译模型系列 TranslateGemma。该系列基于 Gemma 3 架构开发,提供 4B、12B 和 27B 三种参数规模。Google 表示,TranslateGemma 的推出标志着开放翻译技术的又一重大进展,旨在打破语言障碍&am…

歌乐枕西,嘉陵抱东,磁器口藏千年韵

磁器口古镇坐落于重庆市沙坪坝区东北部,是一座拥有千年历史的巴渝文化地标。它依山而建,东临嘉陵江,西靠歌乐山,由三山环抱,两溪萦绕,构成了独特的山水格局。古镇始建于北宋年间,明清以来因瓷器…

11种AI论文创作工具,集成LaTeX排版与自动化内容优化技术

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

光圈智选首页升级:升佣 + 选品提速双 buff

光圈智选新版首页已完成重构上线,围绕带货场景中的“高效选品”与“收益提升”两大核心痛点优化,打通从选品到收益转化的全链路体验,为达人、商家的带货运营提供更高效的工具支撑。选品能力升级:精准匹配需求,提升选品…

导师推荐!MBA开题报告TOP8 AI论文写作软件测评

导师推荐!MBA开题报告TOP8 AI论文写作软件测评 2026年MBA开题报告写作工具测评:精准选择,提升效率 随着AI技术的不断进步,越来越多的MBA学生开始借助智能写作工具来提高论文写作效率。然而,面对市场上琳琅满目的AI论文…

基于stm32的四旋翼无人机的设计——飞行控制系统软件设计

2 四旋翼无人机设计总体思路 确定无人机基本需求,主要包括无人机的功能、性能、成本、功耗、尺寸和重量等。确定这些之后,就可以针对这些需求进行硬件模块的选择以及软件的初步构思。 对无人机进行系统设计,把实际问题转变为工程问题&#xf…

惊魂一刻!重装系统误删分区,数据救援大揭秘

在数字化时代,数据已成为我们生活和工作中不可或缺的一部分。然而,在操作电脑的过程中,有时会因为疏忽或误操作而导致数据丢失,其中,重装系统时误将所有分区删除便是一种常见且令人头疼的情况。这种误操作往往会导致存…