【论文自动阅读】SemanticGen: Video Generation in Semantic Space

快速了解部分

基础信息(英文):

1.题目: SemanticGen: Video Generation in Semantic Space
2.时间: 2025.12
3.机构: Zhejiang University, Kuaishou Technology (Kling Team), CUHK, DLUT, HUST
4.3个英文关键词: Video Generation, Semantic Space, Diffusion Model

1句话通俗总结本文干了什么事情

本文提出了一种名为SemanticGen的新方法,通过先在“语义空间”规划视频的大致结构,再在“像素空间”填充细节,从而实现更高效、更连贯的长视频生成。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 收敛慢且成本高:现有的视频生成模型直接在像素或VAE隐空间操作,计算量巨大,训练收敛非常慢。
  2. 长视频生成难:生成长视频时,双向注意力机制计算复杂度随长度平方级增长,容易导致画面漂移或质量下降。

核心方法:关键技术、模型或研究设计(简要)

SemanticGen采用“两阶段”生成策略:首先利用预训练的视觉模型提取视频的高阶语义特征(全局规划),然后训练扩散模型先生成这些语义特征,最后将其映射回VAE隐空间生成最终视频。

深入了解部分

相比前人创新在哪里

  1. 生成空间的转变:不同于传统方法直接在VAE隐空间生成,SemanticGen选择在高阶语义空间进行初始建模。
  2. 语义压缩技术:提出使用轻量级MLP对语义特征进行压缩和高斯分布正则化,解决了直接在高维语义空间采样困难和收敛慢的问题。
  3. 长视频扩展性:通过在高度压缩的语义空间使用全注意力机制维持全局一致性,在VAE空间使用移窗注意力(Swin Attention)降低计算复杂度。

解决方法/算法的通俗解释

想象你要画一幅复杂的画。传统方法是一笔一笔地画(像素级)。SemanticGen的做法是:

  1. 第一步(打草稿):先画出简单的火柴人和框框(语义空间),确定人物位置和动作走向。
  2. 第二步(描边填色):根据草稿,把火柴人变成有血有肉的人(VAE空间),填充细节、纹理和光影。
    这种方法不仅画得更快(收敛快),而且不容易把人画变形(长视频一致性好)。

解决方法的具体做法

  1. 语义编码:使用Qwen-2.5-VL的视觉塔作为语义编码器,提取视频的时空特征。
  2. 特征压缩:通过一个可学习的MLP将高维语义特征压缩为低维向量,并使其符合高斯分布。
  3. 两阶段训练
    • 阶段一:微调视频扩散模型,使其能根据压缩后的语义特征生成VAE隐变量。
    • 阶段二:训练语义生成器,学习从文本生成对应的压缩语义特征。
  4. 推理合成:先生成语义特征,再将其注入到视频生成模型中解码为视频。

基于前人的哪些方法

  1. 基础架构:基于DiT(Diffusion Transformers)和Rectified Flow(直化流)框架。
  2. 语义编码:利用了Qwen-2.5-VL作为预训练的语义提取器。
  3. 注意力机制:在长视频生成中引入了Swin Transformer的移窗注意力机制。

实验设置、数据、评估方式、结论

  1. 数据:内部文本视频对数据集(短片),以及由电影/电视剧剪辑的60秒长片段(长视频)。
  2. 评估:使用VBench(短)和VBench-Long(长)基准,以及衡量漂移的△FID指标。
  3. 结论
    • 在短片生成中,效果与SOTA模型(如Wan2.1, HunyuanVideo)相当。
    • 在长视频生成中,显著优于基线模型(如SkyReels-V2, Self-Forcing),有效缓解了画面漂移问题。
    • 语义空间压缩(MLP)能显著加速模型收敛。

提到的同类工作

  1. TokensGen:同样采用两阶段范式,但它是对VAE隐变量进行压缩,而非语义特征。
  2. REPA:通过将扩散模型隐藏状态与语义特征对其来加速收敛。
  3. RCG:提出先建模自监督表示再映射到图像分布,但主要用于无条件图像生成。

和本文相关性最高的3个文献

  1. TokensGen(Ref ):最接近的方法,同样是两阶段,但对比证明了生成语义空间比生成压缩VAE空间收敛更快。
  2. Qwen2.5-VL(Ref ):本文所依赖的核心语义编码器,用于提取视频的时空语义特征。
  3. Self-Forcing(Ref ):作为长视频生成的强基线模型,用于对比展示SemanticGen在解决长视频漂移方面的优势。

我的

主要是解决text to video任务的问题。主要想法就是用semantic feature来作为condition,相当于把语义抽象出来作为condition。相比之前text通过旁路cross attention的方式注入,这种更强调语义,从而如果语义一致,那么长视频一直根据语义生成的话就更一致了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1168944.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【毕业设计】SpringBoot+Vue+MySQL 学生宿舍信息系统平台源码+数据库+论文+部署文档

💡实话实说:C有自己的项目库存,不需要找别人拿货再加价。摘要 随着高校规模的不断扩大和学生人数的持续增长,传统的学生宿舍管理模式逐渐暴露出效率低下、信息不透明和数据冗余等问题。学生宿舍作为高校管理的重要组成部分&#x…

AI赋能的11项论文写作解决方案,涵盖LaTeX排版与智能改写功能

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分 基础信息(英文): 题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos时间: 2026.1机构: NLPR & MAIS, CASIA; CreateAI3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocula…

如何将CAD图纸进行黑白打印?

当我们在使用浩辰CAD看图王软件看图纸时,有时候会因为需要,将图纸打印出来,绘图的时候为了便于区分将图层设置为不同的颜色。 那么,在浩辰CAD看图王中如何才可以将图纸设置成黑白打印呢?今天就为大家简单介绍下&#…

导师严选2026自考AI论文网站TOP10:高效写作全维度测评

导师严选2026自考AI论文网站TOP10:高效写作全维度测评 2026年自考AI论文写作工具测评:精准定位高效写作新标杆 随着人工智能技术的不断进步,越来越多的自考生开始依赖AI写作工具来提升论文撰写效率。然而,市面上的平台种类繁多&am…

OctShop源码高效灵活构建小程序多用户商城

随着移动互联网和社交网络的迅猛发展,小程序电商已成为企业数字化转型的重要抓手。在众多电商平台解决方案中,“OctShop小程序多用户商城”凭借其模块化架构、强大的多商户支持能力以及高度可定制性,逐渐成为中小企业、品牌商及创业者构建私域…

历时八年,微软XAML Studio正式开源

https://github.com/dotnet/XAMLStudio XAML 可以理解为 XML 面向UI的特定词汇(对象、属性、事件、绑定) .NET运行时支持。 XAML Studio 是微软 Garage 项目的一员,它能帮助您快速构建 UWP XAML 原型,并轻松复制到 Visual Stu…

基于单片机的智能窗户结构系统设计

二、概述 2.1基本功能介绍 本课题研究方向是基于单片机为控制核心的智能窗户有关其机械结构运作上,作为一款智能型窗户,为了能够完美的融合到现代和未来的智能家居生活当中,我们所研究的智能窗户将会实现以下主要功能: 1)人控机械…

基于单片机的语音识别控制灯

2方案论证 2.1方案论证 本次设计使用STC89C52单片机,它属于MCS-51系列,STC89C52是一个应用范围广泛的8位单片机,成本低是他的一大优势。STC89C52作为控制中心,他的功能是对专门的语音进行处理并接受芯片传输的指令,使用…

MySQL索引精讲:从原理到实战,小白也能秒懂!

视频看了几百小时还迷糊?关注我,几分钟让你秒懂!在日常开发中,我们经常会遇到 SQL 查询慢得像蜗牛的情况。明明数据量不大,却查个几秒钟甚至十几秒——这时候,MySQL 索引就是你最该检查的地方!今…

一种基于STM32的智能门锁系统的设计

第二章 整体方案设计 2.1 需求分析 搭建简单的智能门锁系统作品,需要相应的硬件与软件结合,本设计基于STM32的智能门锁系统主要实现的功能要求有: (1)显示屏显示操作界面; (2)使用者可以通过设置按键进入管理界面,可以…

11个AI论文工具,支持LaTeX排版与多维度内容优化

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

不止是 “姐妹岛”:明月岛的独家浪漫

明月岛,是位于黑龙江省齐齐哈尔市区西北嫩江中游的一座江心岛。其总面积约为7.6平方公里,因形如一弯明月倒映于江水之上而得名。作为一处四面环水的独特地理单元,明月岛以其自然生态与人文古迹的交融,构成了区别于城市喧嚣的静谧空…

基于单片机的眼部按摩仪设计-控制系统设计

2.总控制电路设计 2.1单片机的选择 2.1.1单片机的简介 这是一块多功能型的逻辑芯片,它相当于一台计算机,相比于计算机它只差了一些I/O设备,当它出现的时候就为许多领域的学习提供便利。 从上世纪90年代开始,单片机就开始被人们熟…

有没有想过:为什么索引能加快查询速度?深入 B+ 树原理,小白也能秒懂!

视频看了几百小时还迷糊?关注我,几分钟让你秒懂!很多开发者会用索引,但一问“为什么索引快?”就支支吾吾。今天我们就抛开黑盒,用 Java Spring Boot 的视角,结合生活化类比和底层原理&#xff…

11种AI论文创作助手,提供LaTeX排版与语义优化双重支持

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

重磅!谷歌推出全新TranslateGemma翻译模型系列

1 月 16 日,Google 正式推出了全新开放翻译模型系列 TranslateGemma。该系列基于 Gemma 3 架构开发,提供 4B、12B 和 27B 三种参数规模。Google 表示,TranslateGemma 的推出标志着开放翻译技术的又一重大进展,旨在打破语言障碍&am…

歌乐枕西,嘉陵抱东,磁器口藏千年韵

磁器口古镇坐落于重庆市沙坪坝区东北部,是一座拥有千年历史的巴渝文化地标。它依山而建,东临嘉陵江,西靠歌乐山,由三山环抱,两溪萦绕,构成了独特的山水格局。古镇始建于北宋年间,明清以来因瓷器…

11种AI论文创作工具,集成LaTeX排版与自动化内容优化技术

工具对比排名 工具名称 核心优势 支持LaTeX 适用场景 aibiye AIGC率降个位数,兼容知网规则 是 AI痕迹强处理 aicheck 学术改写优化,语义保留佳 是 格式统一化 askpaper 降重降AI一体,20分钟快速响应 是 初稿优化 秒篇 人类特…

光圈智选首页升级:升佣 + 选品提速双 buff

光圈智选新版首页已完成重构上线,围绕带货场景中的“高效选品”与“收益提升”两大核心痛点优化,打通从选品到收益转化的全链路体验,为达人、商家的带货运营提供更高效的工具支撑。选品能力升级:精准匹配需求,提升选品…