一个模型统一4D世界生成与重建,港科大One4D框架来了

来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。

本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,视频生成和世界模型,目前正在寻找工业界全职职位。

一、背景介绍

近年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。One4D 构造了一个同步输出多模态的视频扩散模型,能够用一个模型同步输出 RGB 视频与 Pointmap(XYZ)几何视频,并支持从单张图像到 4D 生成、从稀疏帧到 4D 生成 + 重建、以及从完整视频到 4D 重建等多种任务形态。

  • 论文标题:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
  • 论文地址:https://arxiv.org/abs/2511.18922
  • Github:https://github.com/MiZhenxing/One4D
  • 项目主页:https://mizhenxing.github.io/One4D

二、One4D 算法设计

One4D 的核心目标是用强大的视频生成模型(比如Wan Video)统一 4D 生成与 4D 重建,输出对齐的 RGB 和几何多模态结果。论文亮点有:

1. 多模态输出:RGB + Pointmap;

2. DLC:解耦 LoRA 控制,稳住 RGB 同时学几何对齐;

3. UMC:统一掩码条件,一套模型覆盖生成和重建任务。

具体来说,One4D 将动态 4D 场景表示为两种同步的输出模态。(1) RGB frames(外观);(2) Pointmaps(XYZ),即与 RGB 视频对齐的 3 通道几何视频,每个像素存 XYZ 值,可进一步导出 Depth 并结合后处理估计相机轨迹,最终可视化为 4D 点云和相机。

并且,One4D 在一个框架内支持三种输入:单张图到 4D 生成,稀疏视频帧到 4D 生成 + 重建,完整视频到 4D 重建。

1. DLC:解耦 LoRA 控制

在基于视频扩散模型的 “RGB + 几何” 多模态联合建模里,一个常见做法是把模态在通道维拼接。但在低资源微调时,这会导致严重的跨模态干扰,几何学不好,基础模型的 RGB 质量也容易被拖垮。而将两个模态在长宽维度拼接,共享参数,也会导致跨模态干扰,几何精度不高,而且与 RGB 无法保持对齐。

One4D 提出 Decoupled LoRA Control(DLC) 来专门解决这个问题,设计目标包括:

(1) 低资源微调也尽量保住底座视频模型的强先验;(2) 解耦 RGB 与几何生成,减少互相干扰;(3) 仍要保留必要的跨模态通信,确保像素级对齐一致。

具体做法是:

1. 为 RGB 与 Pointmap 分别挂载模态专属 LoRA,并且形成两条解耦计算分支,共享冻结的 base 参数,但 forward 分开跑。确保两个模态能够相对独立。

2. 再用少量 zero-init 的 control links 连接对应层,让两个模态从 0 开始逐步学会互相控制,从而实现精确的像素级对齐。

从直观上理解 DLC 的设计, RGB 分支努力保持视频美学与运动先验,几何分支专心拟合几何视频的分布,少量控制连接负责对齐同步。这也正是 One4D 强调的多模态输出同步生成的关键。

2. UMC:统一掩码条件

为了使用同一个视频模型统一 4D 的生成和重建,One4D 基于Wan Video的多任务框架,提出了 Unified Masked Conditioning(UMC),把不同类型的条件如单帧、稀疏帧、全视频,统一打包成一个条件视频,缺失帧用 0 填充,并使用一个 mask 张量指定哪些帧需要生成。单张图对应纯生成,稀疏帧对应混合生成 + 重建,全视频对应纯重建。在UMC的具体实现上,RGB 分支的条件视频通过 VAE 编码之后,连接到 RGB 的 latent states 上。而 XYZ 分支不直接使用这个条件视频,控制信号是通过 DLC 从 RGB 传递给 XYZ,这保证了 XYZ 分支能够更好地去适应新模态。UMC 的设计让 One4D 具备一个非常实用的能力,同一个扩散骨干,同时做 4D 生成和 4D 重建。One4D 模型不需要为不同任务改结构,只需改变输入帧的稀疏度,就可以在不同生成与重建任务之间平滑切换。

3. 训练数据

训练 One4D,需要获得大规模 “外观 - 几何” 配对数据。One4D 的数据构建遵循两个原则:几何要准、分布要真实。因此我们采用合成数据 + 真实数据混合策略。

合成数据通过游戏引擎渲染动态场景,天然提供每帧的几何真值,用于为 Pointmap(XYZ)提供稳定监督,帮助模型学到可靠的时序几何一致性。

真实数据,收集自公开视频数据的真实场景视频,以覆盖复杂光照、材质、运动模式。由于真实视频通常缺少几何真值,我们使用现有的 4D 重建方法 Geo4D 生成几何标注,从而把真实世界外观分布引入训练。

这套数据策略带来的直接收益是,合成数据提供几何精度与稳定性,真实数据提供视觉多样性与真实分布,从而让 One4D 在保持视频质感的同时,也能输出可用、对齐、时序一致的 4D 几何结果。One4D 使用 34K 条视频在 8 张 NVIDIA H800 GPU 上训练 5500 步,就得到了很好的效果。

三、实验结果

1. 单图到 4D 生成

论文将 One4D 与 4DNeX 做了单图到 4D 的对比,评价指标有:

用户偏好(User study):在一致性、动态性、美学、深度质量、整体 4D 连贯性等维度上,One4D 全面领先。

VBench:动态性(Dynamic)显著提升(55.7 vs 25.6),同时 I2V consistency 仍保持可比水平。

这些结果支持了 One4D 的优势,输出的多模态结果有更真实的 RGB 动态、更干净的深度、更完整连贯的 4D 点云与相机轨迹。在不牺牲 RGB 视频质量的前提下,仍然能学到准确、细粒度的 4D 几何结构。更多对比视频请移步项目主页:https://mizhenxing.github.io/One4D

2. 完整视频到 4D 重建

One4D 并不只在 4D 生成任务上优势显著,它还是一个重建模型,在完整视频 4D 重建上也保持了不错的性能。在深度重建评测数据集 Sintel 和 Bonn 上,One4D 的表现明显超过一些只做重建的方法如 MonST3R 和 CUT3R。即使我们的方法使用 Geo4D 构造了训练数据,它也取得了与只做重建的 Geo4D 相近的效果。更多对比视频请移步项目主页:https://mizhenxing.github.io/One4D

在相机轨迹评估数据集 Sintel 和 TUM 上,One4D 的相机估计能力也保持了可用精度,充分证明了 One4D 统一重建与生成的能力。

3. 稀疏视频帧到 4D 生成

在稀疏视频帧设置下,One4D 的输入仅是首尾帧以及少量中间帧,此时模型需要生成缺失 RGB 帧并补全完整几何序列。实验证明,即使在极稀疏条件下,One4D 仍能得到合理的 4D 结构。这意味着 One4D 不止能做重建,而是真正具备生成动态 4D 场景的能力。

四、总结

One4D 让视频扩散模型不再只会生成 RGB,而是能够同步生成外观(RGB)与几何(Pointmap / 深度 / 相机轨迹),在同一套框架中统一了 4D 生成和重建任务。它通过 UMC 与 DLC 解决了多任务切换与多模态联合训练中最关键的稳定性与对齐问题。One4D 推动视频生成走向生成可用于理解与交互的 4D 世界,为下一代世界模型与多模态内容创作提供了更实用的基础能力。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1154635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字信号处理篇---DFT中的频谱泄露

DFT中的频谱泄露:音乐会的“走音评委”问题🎭 核心比喻:音乐会评分系统想象一个歌唱比赛,规则是:评委只听整首歌的片段(比如只听10秒)然后根据这10秒来打全部分数每个分数对应一个特定音高&…

vivado2023.2下载安装教程:新手教程之避免常见下载陷阱

Vivado 2023.2 安装实战指南:从零开始避坑,一次成功 你是不是也曾在百度搜索“vivado2023.2下载安装教程”时,被一堆广告、失效链接和压缩包搞得焦头烂额? 明明点的是“高速下载”,结果等了三小时只下完一半&#xf…

AI日报 - 2026年01月13日

#本文由AI生成 🌐 一、【行业深度】 1. 🌟 Midjourney携手Spellbrush发布Niji 7,动漫生成迈入晶透画质时代 🔥 热点聚焦: 2026年1月9日,Midjourney与Spellbrush联合推出全新AI绘图模型Niji 7,专…

通俗解释OBD标准:SAE J1979规范核心内容概述

让汽车“开口说话”:深入浅出解读 OBD 的通用语言——SAE J1979 你有没有遇到过这样的场景? 车子仪表盘上突然亮起一个黄色的发动机图标(俗称“故障灯”),你心里一紧,但又不知道问题出在哪。送去维修厂&am…

HunyuanVideo-Foley极限挑战:10分钟长视频音效生成稳定性测试

HunyuanVideo-Foley极限挑战:10分钟长视频音效生成稳定性测试 1. 背景与挑战:当AI音效遇上长视频生成 1.1 视频音效自动化的技术演进 在传统影视制作中,音效设计(Foley)是一项高度依赖人工经验的艺术工作。从脚步声…

数字信号处理篇---栅栏效应

DFT中的栅栏效应:透过“稀疏栅栏”看风景 🎭 核心比喻:稀疏栅栏看游行 想象你站在一排稀疏的木栅栏后面观看一场盛大的游行: 栅栏的木板之间有宽缝隙 游行队伍连续不断地走过 但你只能透过木板缝隙看出去 会发生什么&#x…

视频汇聚平台EasyCVR助力农贸市场迈向“智慧监管”新时代

本文将聚焦EasyCVR在农贸市场场景的应用,剖析其如何通过多协议融合、全终端适配等特性,破解市场管理难题,构建“可视、可管、可追溯”的智慧监管体系。一、农贸市场监管的核心痛点监管覆盖不全面:出入口、摊位、仓库、公共通道、消…

Python PyQt图形界面设计完整指南

用PyQt打造工业级上位机:从零构建专业图形界面的实战之路你有没有遇到过这样的场景?手里的传感器数据哗哗地来,串口助手却只能傻乎乎地刷着十六进制;想做个实时波形图,结果Tkinter画出来像上世纪的DOS程序;…

Qwen3-VL-2B-Instruct避坑指南:新手必看部署技巧

Qwen3-VL-2B-Instruct避坑指南:新手必看部署技巧 [toc] 1. 引言:为什么你需要这份避坑指南? 1.1 多模态模型的部署挑战 随着多模态大模型(MLLM)在视觉理解、图文生成和代理交互等场景中的广泛应用,Qwen…

从零实现Windows下minidump捕获:C++代码完整示例

崩溃现场不再“黑盒”:手把手教你用C实现Windows下的minidump捕获你有没有遇到过这样的场景?程序在用户电脑上莫名其妙崩溃,日志里只留下一句“程序已停止工作”,而开发团队却束手无策——没有堆栈、没有上下文、无法复现。这种“…

2026 开年亚马逊跨境“重新洗牌”:费用回调+入库更贵+小包免税暂停,卖家要从“运营”进化成“经营”

如果你还在用 2024 那套“铺货—跑词—猛砸广告”的节奏,2026 可能会被三件事同时拽住脚:平台费用与入库规则更精细、美国低货值免税被暂停、AI 正在改写流量入口。这不是“又一轮内卷”,更像一次结构性换挡:会算账、会做链路、会…

如何选择部署方式?GLM-4.6V-Flash-WEB双模式详解

如何选择部署方式?GLM-4.6V-Flash-WEB双模式详解 随着多模态大模型在图像理解、视觉问答、图文生成等场景的广泛应用,高效、灵活的部署方式成为开发者关注的核心问题。智谱AI最新推出的 GLM-4.6V-Flash-WEB 视觉大模型,不仅在性能上实现了显…

AI手势识别项目文档怎么读?核心亮点拆解入门必看

AI手势识别项目文档怎么读?核心亮点拆解入门必看 1. 引言:AI 手势识别与追踪的现实意义 随着人机交互技术的不断演进,非接触式控制正逐步成为智能设备的重要输入方式。从智能家居到虚拟现实,从远程会议到无障碍辅助系统&#xf…

Linux发行版从amd64向arm64移植的流程图解说明

从 x86 到 ARM:一次真实的 Linux 发行版跨架构移植实践 最近接手了一个项目——要把我们内部维护的一个基于 Debian 的定制 Linux 系统,从传统的 amd64 (x86-64)平台完整迁移到 arm64 (AArch64)架构上&…

MediaPipe Pose一文详解:CPU版极速推理环境部署教程

MediaPipe Pose一文详解:CPU版极速推理环境部署教程 1. 引言 1.1 AI人体骨骼关键点检测的技术背景 随着计算机视觉技术的快速发展,人体姿态估计(Human Pose Estimation)已成为智能健身、动作捕捉、虚拟现实和人机交互等领域的核…

MediaPipe核心技术:AI打码卫士高效秘密

MediaPipe核心技术:AI打码卫士高效秘密 1. 引言:AI 人脸隐私卫士 —— 智能自动打码的时代到来 随着社交媒体和数字影像的普及,个人隐私保护问题日益突出。一张看似普通的合照,可能无意中暴露了他人不愿公开的面部信息。传统手动…

GLM-4.6V-Flash-WEB横向评测:准确率与速度平衡分析

GLM-4.6V-Flash-WEB横向评测:准确率与速度平衡分析 💡 获取更多AI镜像 想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支…

深度学习计算机毕设之基于python-CNN卷积神经网络识别昆虫基于python的人工智能识别昆虫

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

技术落地|基于EasyCVR的湿地公园可视化智能监管方案设计与实现

一、方案背景湿地是地球重要生态系统,对维持生态平衡、保护生物多样性意义重大。然而,随着人类活动增加,违规垂钓、非法捕捞、破坏植被等行为频发,严重威胁湿地生态安全。传统人工巡检存在效率低、实时性差、数据反馈滞后等问题&a…

数字信号处理篇---DFT中的混叠

DFT中的混叠:数字世界的“分身术”骗局🎭 核心比喻:旋转木马照相馆想象一个旋转木马游乐场,它:每10秒转一圈上面有8匹不同颜色的马(红橙黄绿青蓝紫白)你站在外面用相机拍照,但相机设…