超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染

超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染

原创 AI生成未来 AI生成未来2025年12月30日 09:12上海

作者:Xiaofeng Mao等

解读:AI生成未来

论文链接:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
工程链接:https://stdstu12.github.io/YUME-Project
数据链接:https://github.com/Lixsp11/sekai-codebase

亮点直击

  • 联合时空通道建模(TSCM):用于无限上下文生成,尽管上下文长度不断增加,该方法仍能保持稳定的采样速度。

  • Self-Forcing 与 TSCM 集成:旨在加速 Yume1.5的推理过程,同时减少(长序列生成中的)误差累积。

  • 实现了卓越的生成与编辑性能:通过精细的数据集构建和模型架构设计Yume1.5 在世界生成(World Generation)和编辑(Editing)任务上均取得了优异的表现。

解决的问题

现有的视频生成和世界模拟模型主要面临三大挑战:

  1. 通用性有限大多基于游戏数据训练,难以生成逼真的动态城市场景。

  2. 生成延迟高:扩散模型的高计算成本限制了实时连续生成,难以实现流畅的无限探索。

  3. 文本控制能力不足:现有方法通常仅支持键盘/鼠标控制,缺乏通过文本指令生成随机事件(如“出现幽灵”)的能力。

提出的方案

Yume1.5 通过三个核心维度的系统优化来解决上述问题:

  1. 长视频生成架构:采用联合时空通道建模(TSCM),有效压缩历史上下文。

  2. 实时加速策略:结合双向注意力蒸馏(Self-Forcing)与增强的文本嵌入方案,大幅提升推理速度并减少误差积累。

  3. 文本控制事件生成:通过混合数据集训练策略和特定的架构设计,实现了基于文本的事件触发。

应用的技术

  • 联合时空通道建模 (TSCM):针对长视频生成,分别在时空维度和通道维度对历史帧进行压缩,减少显存占用并保持推理速度。

  • 线性注意力 (Linear Attention):在 DiT 块中处理通道压缩后的特征,提升计算效率。

  • Self-Forcing 蒸馏:训练模型使用自己生成的(含误差的)历史帧作为条件进行预测,从而提高对推理过程中误差累积的鲁棒性。

  • 双流文本编码:将文本提示分解为“事件描述”和“动作描述”,分别处理以降低计算开销。

达到的效果

  • 性能提升:在 Yume-Bench 基准测试中,指令跟随能力(Instruction Following)得分达到0.836,显著优于 Wan-2.1 和 MatrixGame。

  • 实时性:在单张 A100 GPU 上,以 540p 分辨率实现了12 FPS的生成速度。

  • 长时一致性:通过 TSCM 和 Self-Forcing,模型在长序列生成中保持了更稳定的美学质量和图像质量,避免了传统滑动窗口方法的剧烈衰减。

方法

本文提出了一个综合框架,通过多维度的系统性创新,生成交互式、逼真且时间连贯的视频世界。该方法为联合文本生成视频(Text-to-Video, T2V)和图像生成视频(Image-to-Video, I2V)建立了统一的基础,同时解决了长期一致性和实时性能的关键挑战。核心贡献包括:(1)用于高效长视频生成的联合 TSCM 策略;(2)结合 TSCM 和 Self-Forcing 的实时加速框架;(3)一种交替训练范式,同时实现世界生成和探索能力。总的来说,这些进展促进了适用于复杂现实场景探索的动态交互式环境的创建。

图1。Yume1.5框架支持三种交互式生成模式:从描述生成文本到世界、从静态图像生成到世界,以及基于文本的事件编辑。所有模式均通过连续键盘输入控制,用于人物和摄像机移动,实现自回归生成可探索且持久的虚拟世界。我们在补充材料中包含了演示视频。

架构初步

本文采用 Wan提出的方法论,建立了一个用于联合 T2V 和 I2V 生成的基础模型。该方法使用噪声 初始化视频生成过程。对于文本生成视频训练,文本嵌入 和 被输入到 DiT 主干网络中。

对于图像生成视频模型,给定图像或视频条件 ,将其补零以匹配维度 。构建一个二进制掩码 (其中 1 表示保留区域,0 表示待生成区域)。条件输入通过 进行融合,随后由 Wan DiT 主干网络处理。此时, 可以被视为由历史帧 和预测帧 组成。

本文的文本编码策略不同于 Wan 的方法。Wan 直接通过 T5 处理整个标题,而本文如图 3(b) 所示,将标题分解为事件描述 (Event Description)和 动作描述 (Action Description),并将它们分别输入 T5。随后将得到的嵌入表示进行拼接。事件描述指定要生成的目标场景或事件,而动作描述定义键盘和鼠标控制。这种方法具有显著优势:由于可能的动作描述集合是有限的,它们可以被高效地预计算和缓存。同时,事件描述仅在初始生成阶段处理。结果是,该方法大幅降低了后续视频推理步骤中的 T5 计算开销。模型使用 Rectified Flow 损失进行训练。

图 3.Yume1.5 的核心组件。 (a) 具有线性注意力的 DiT 块,可实现有效的特征融合。 (b) 具有分解的事件和动作描述的训练管道。 (c) 基于时间距离以不同压缩率进行自适应历史标记下采样。 (d) 具有双压缩内存管理的基于块的自回归推理。

通过联合时空通道建模 (TSCM) 实现长视频生成

鉴于视频推理持续时间的延长,视频条件 的帧数 逐渐增加,导致巨大的计算开销。将所有上下文帧包含在计算中是不切实际的。现有的几种方法旨在缓解这个问题:

  1. 滑动窗口:一种广泛采用的方法,选择当前预测帧附近的窗口内的连续最近帧。然而,这种方法往往导致历史帧信息的丢失。

  2. 历史帧压缩:诸如 FramePack和 Yume等方法对历史帧进行压缩,对接近预测帧的帧应用较少的压缩,对较远的帧应用较大的压缩。这同样导致更远的历史帧信息丢失增加。

  3. 基于相机轨迹的搜索:像 World Memory这样的方法利用已知的相机轨迹来计算历史帧与待预测当前帧之间的视场重叠,选择重叠度最高的帧。这种方法与通过键盘输入控制的视频模型不兼容。即使有预测的相机轨迹,在动态视点变化下准确估计轨迹仍然很困难,通常会导致显著误差。

为了解决这些局限性,本文提出了联合时空-通道建模 (Joint Temporal–Spatial–Channel Modeling)方法,分两步实施。本文考虑分别对历史帧 应用时空压缩和通道级压缩。

时空压缩

对于历史帧 ,本文首先应用时间和空间压缩:以 1/32 的比率执行随机帧采样,随后使用高压缩比的 Patchify。压缩方案运作如下:

在此, 表示分别沿 的时间、高度和宽度维度进行 、 和 的下采样。类似地, 对应于沿相同维度的 、 和 下采样率,依此类推。本文通过在 DiT 内部插值 Patchify 权重来实现这些变化的下采样率。与 YUME 相比,本文执行时间随机帧采样的方法减少了 Patchify 的参数量和模型的计算负载。本文获得压缩表示 ,并通过具有 下采样率的原始 Patchify 处理预测帧。压缩表示 随后与处理后的预测帧 拼接,组合后的张量被输入到 DiT 块中。

通道压缩

本文对历史帧 应用进一步的下采样,将 通过一个压缩率为 的 Patchify,并将通道维度降至 96,得到 。如图 3(a) 所示,这些压缩的历史 Token 被输入到 DiT 块中。在视频 Token 通过 DiT 块中的交叉注意力层后,它们首先通过全连接 (FC) 层进行通道缩减,在提取预测帧 后,将其与 拼接。组合后的 Token 通过线性注意力层融合产生 。最后,通过另一个 FC 层以恢复通道维度,然后逐元素加到 上进行特征融合:,其中 表示 中的 Token 数量。

线性注意力。本文的设计如图 3(a) 所示。该方法从线性注意力中汲取灵感,易于实现。本文通过全连接层投影 以获得查询 、键 和值 表示,然后用点积 替换指数核函数 ,其中 是 ReLU 激活函数。计算定义如下:

其中 表示 中的 Token 数量。然后本文计算 ,随后将 ROPE 应用于 和 ,同时结合归一化层 以防止梯度不稳定。通常,注意力输出 会通过线性层,因此本文在此计算之前应用归一化层:

小结。由于标准注意力的计算成本对输入 Token 的数量敏感,通过时空压缩来压缩历史帧,并在 DiT 块中使用标准注意力将其与预测帧一起处理。相反,由于线性注意力对通道维度敏感,对历史帧应用通道级压缩,并在 DiT 块的线性注意力层中将其与预测帧融合。通过这种方法,本文实现了联合时空通道压缩,同时保持了生成质量。

实时加速

本文首先在混合数据集上训练预训练的扩散模型。本文对 T2V 和 I2V 任务采用交替训练策略。具体来说,模型在当前步骤在 T2V 数据集上训练,在下一步切换到 I2V 数据集。这种方法使模型具备了世界生成、编辑和探索的综合能力。由此产生的模型称为基础模型。

如图 4 所示,本文首先使用基础模型的权重初始化生成器 、假模型 和真模型 。生成器从其自身的分布中采样先前的帧,并将其用作生成新预测帧的上下文。这个过程迭代进行,按顺序生成并组装帧以形成清晰的视频序列 。然后,本文通过最小化跨噪声水平 的扩散真实数据分布与生成数据分布之间的预期 KL 散度,将多步扩散模型转换为少步生成器 :

其中 是步骤 的前向扩散。与DMD 的关键区别在于使用模型预测的数据而不是真实数据作为视频条件,从而减轻了训练-推理差异及相关的误差累积。

本文的方法与Self-Forcing 的不同之处在于消除了 KV 缓存并引入了 时空通道建模 (TSCM),从而能够利用更长的上下文信息。

实验

实验设置

  • 基础模型:使用 Wan2.2-5B 作为预训练模型。

  • 训练参数:分辨率 704x1280,16 FPS,使用 NVIDIA A100 GPU。先进行 10,000 次迭代的基础训练,再进行 600 次迭代的 Self-Forcing + TSCM 训练。

  • 评估指标:使用 Yume-Bench,包含指令跟随(Instruction Following)、主体/背景一致性、运动平滑度、美学质量和成像质量。

定量结果

  1. I2V 生成对比

    • Yume1.5 在指令跟随能力上得分0.836,远超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。

    • 推理速度极快:生成一个 block 仅需 8 秒,而 Wan-2.1 需 611 秒。

  2. 长视频生成验证

    • 对比了是否使用 Self-Forcing + TSCM 的模型。结果显示,随着视频片段数量增加(时间推移),使用该技术的模型在第 4-6 个片段的美学得分和图像质量得分保持稳定,而未使用的模型则出现明显下降。

消融研究

  • TSCM 的有效性:移除 TSCM 改用简单的空间压缩后,指令跟随能力从 0.836 降至 0.767。此外,TSCM 使得自回归推理时间随上下文增加保持稳定(在 8 个 block 后每步推理时间恒定),而全上下文输入方法的速度则急剧下降。

结论

Yume1.5,这是一个交互式世界生成模型,能够通过自回归合成从单张输入图像生成无限视频,同时支持直观的基于键盘的相机控制。本文的框架解决了动态世界生成中的三个基本挑战:跨领域的通用性有限、高计算延迟以及文本控制能力不足。

Yume1.5 的关键创新包括:(1)一种联合时空通道建模 (TSCM) 方法,在保持时间连贯性的同时实现高效的长视频生成;(2)一种减轻推理过程中误差累积的加速方法;(3)通过精心的架构设计和混合数据集训练实现的文本控制世界事件生成能力。

展望将 Yume1.5 扩展以支持更复杂的世界交互,并在虚拟环境和模拟系统中拥有更广泛的应用场景。

参考文献

[1] Yume1.5: A Text-Controlled Interactive World Generation Model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1120672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FaceMaskDetection口罩检测终极指南:从零部署到企业级实战

FaceMaskDetection口罩检测终极指南:从零部署到企业级实战 【免费下载链接】FaceMaskDetection 开源人脸口罩检测模型和数据 Detect faces and determine whether people are wearing mask. 项目地址: https://gitcode.com/gh_mirrors/fa/FaceMaskDetection …

揭秘实时面部交换技术:DeepFaceLive从入门到精通实战指南

揭秘实时面部交换技术:DeepFaceLive从入门到精通实战指南 【免费下载链接】DeepFaceLive Real-time face swap for PC streaming or video calls 项目地址: https://gitcode.com/GitHub_Trending/de/DeepFaceLive 想要在视频会议或直播中实现惊艳的面部特效吗…

5个护眼模式设置技巧:Cerebro如何让你的眼睛不再疲劳?

5个护眼模式设置技巧:Cerebro如何让你的眼睛不再疲劳? 【免费下载链接】cerebro 🔵 Cerebro is an open-source launcher to improve your productivity and efficiency 项目地址: https://gitcode.com/gh_mirrors/ce/cerebro 在数字时…

Office Tool Plus:革新Office部署体验的智能解决方案

Office Tool Plus:革新Office部署体验的智能解决方案 【免费下载链接】Office-Tool Office Tool Plus localization projects. 项目地址: https://gitcode.com/gh_mirrors/of/Office-Tool 在当今数字化工作环境中,高效部署Office套件已成为每个组…

vLLM 巨大里程碑

vLLM 巨大里程碑 原创 老章很忙 Ai学习的老章 2026年1月6日 17:02 中国香港 我是 vLLM 的粉丝,更新过 N 多相关文章,内网部署大模型全都是使用 vLLM 大模型本地部署,vLLM 睡眠模式来了 vLLM v0.13.0 来了,对 DeepSeek 深度优…

Pyxelate深度解析:像素艺术生成算法的技术实现与实战指南

Pyxelate深度解析:像素艺术生成算法的技术实现与实战指南 【免费下载链接】pyxelate Python class that generates pixel art from images 项目地址: https://gitcode.com/gh_mirrors/py/pyxelate Pyxelate是一个基于Python的先进图像处理库,专门…

在A10/A100/H100上运行ms-swift,充分发挥高性能GPU算力优势

在A10/A100/H100上运行ms-swift,充分发挥高性能GPU算力优势真正的挑战不是模型大小,而是工程效率 今天的大模型研发早已不再是“有没有模型”的问题,而是“能不能高效落地”的问题。一个千亿参数的模型如果训练一周、部署延迟高达秒级、显存占…

基于ms-swift解析HTML DOM结构提取知识图谱三元组

基于 ms-swift 解析 HTML DOM 结构提取知识图谱三元组 在当今信息爆炸的时代,网页内容已成为企业、机构乃至个人获取知识的主要来源。然而,这些信息大多以非结构化的 HTML 形式存在——虽然人类可以轻松理解“苹果公司成立于1976年”这样的句子&#xff…

终极Web阴影效果完全指南:5分钟学会创建照片级真实阴影

终极Web阴影效果完全指南:5分钟学会创建照片级真实阴影 【免费下载链接】real-shadow Module that casts photorealistic shadows 项目地址: https://gitcode.com/gh_mirrors/re/real-shadow 在现代Web设计中,Web阴影效果已成为提升用户体验和视觉…

FaceFusion人脸增强实战:从模糊到高清的完美蜕变

FaceFusion人脸增强实战:从模糊到高清的完美蜕变 【免费下载链接】facefusion Next generation face swapper and enhancer 项目地址: https://gitcode.com/GitHub_Trending/fa/facefusion 还在为人像照片模糊不清而烦恼吗?想要一键提升画质却又担…

CreamApi终极指南:一键解锁多平台游戏DLC完整教程

CreamApi终极指南:一键解锁多平台游戏DLC完整教程 【免费下载链接】CreamApi 项目地址: https://gitcode.com/gh_mirrors/cr/CreamApi 还在为昂贵的游戏DLC发愁吗?想要免费体验完整游戏内容?CreamApi正是你需要的解决方案&#xff01…

macOS音频终极指南:BackgroundMusic实现应用独立音量控制完整教程

macOS音频终极指南:BackgroundMusic实现应用独立音量控制完整教程 【免费下载链接】BackgroundMusic kyleneideck/BackgroundMusic: 是一个 iOS 和 macOS 的音频播放器应用。适合对音频播放和开发 iOS 和 macOS 应用的人,特别是想开发一个简单的音频播放…

通过ms-swift部署Qwen3-Omni与Llava模型实现图文音视频全模态理解

通过 ms-swift 部署 Qwen3-Omni 与 Llava 实现图文音视频全模态理解 在智能设备日益“感官化”的今天,用户早已不再满足于纯文本的交互体验。从一段带字幕的短视频到一场融合PPT与语音讲解的网课,信息正以图像、音频、视频和文字交织的方式流动。传统大模…

mGBA模拟器完全配置手册:从零开始打造完美游戏体验

mGBA模拟器完全配置手册:从零开始打造完美游戏体验 【免费下载链接】mgba mGBA Game Boy Advance Emulator 项目地址: https://gitcode.com/gh_mirrors/mg/mgba 还记得小时候捧着Game Boy Advance的快乐时光吗?现在,通过mGBA模拟器&am…

Open Catalyst数据集技术演进与选择指南:OC20/OC22/OC25深度解析

Open Catalyst数据集技术演进与选择指南:OC20/OC22/OC25深度解析 【免费下载链接】ocp Open Catalyst Projects library of machine learning methods for catalysis 项目地址: https://gitcode.com/GitHub_Trending/oc/ocp 在催化剂机器学习研究领域&#…

Apache Doris管理工具终极指南:从零开始掌握集群运维

Apache Doris管理工具终极指南:从零开始掌握集群运维 【免费下载链接】doris Apache Doris is an easy-to-use, high performance and unified analytics database. 项目地址: https://gitcode.com/gh_mirrors/dori/doris Apache Doris作为高性能实时分析数据…

2026 高职财务专业就业方向有哪些,一文说清!

🧊财务行业数字化转型进入深水区,AI 与财务机器人已替代超 70% 的基础核算工作,传统 “账房先生” 式人才逐渐被市场淘汰。其中,结合分阶段职业规划,明确证书的核心价值,助力高职生以 CDA 数据分析师为突破…

LocalStack本地开发环境终极搭建指南:5步搞定完整AWS模拟服务

LocalStack本地开发环境终极搭建指南:5步搞定完整AWS模拟服务 【免费下载链接】localstack 💻 A fully functional local AWS cloud stack. Develop and test your cloud & Serverless apps offline 项目地址: https://gitcode.com/GitHub_Trendin…

欢迎使用Moffee

欢迎使用Moffee 【免费下载链接】moffee moffee: Make Markdown Ready to Present 项目地址: https://gitcode.com/gh_mirrors/mo/moffee Moffee的核心优势 极简语法:只需Markdown,无需学习新语言智能布局:自动处理文本、图片、代码的…

STM32 L4系列QSPI功能限制与规避方案

STM32 L4系列QSPI通信的“坑”与实战填坑指南你有没有遇到过这种情况:系统明明运行得好好的,一进内存映射模式读外部Flash,突然来个中断,然后——卡死、HardFault、调试器失联?或者想访问超过16MB的大容量QSPI Flash&a…