【论文精读】DreamVideo:定制化主体与动作的视频生成技能

news/2025/11/27 19:41:39/文章来源:https://www.cnblogs.com/ljbguanli/p/19279245

【论文精读】DreamVideo:定制化主体与动作的视频生成技能

标题:DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

作者:Yujie Wei, Yu Liu, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yingya Zhang, Jingren Zhou, Hongming Shan

单位:1 Fudan University(复旦大学), 2 Alibaba Group(阿里巴巴集团), 3 Huazhong University of Science and Technology(华中科技大学), 4 Zhejiang University(浙江大学)

发表:CVPR 2024

论文链接:https://arxiv.org/pdf/2312.04433

项目链接:https://dreamvideot2v.github.io

代码链接:https://github.com/ali-vilab/VGen(阿里视觉生成库)

关键词:定制化视频生成、扩散模型、主体学习、动作学习、轻量级适配器、文本引导生成、时空一致性


更具挑战性的课题。本文解读的 CVPR 论文《DreamVideo: Composing Your Dream Videos with Customized Subject and Motion》提出了一种创新方案,首次实现了 “任意主体 + 任意动作” 的灵活定制视频生成。就是在文本驱动的生成式 AI 领域,图像生成技术已日趋成熟,但视频生成因需同时兼顾空间主体一致性与时间动作连贯性,仍

一、研究背景与动机

1.1 领域现状:图像定制成熟,视频定制存在短板

扩散模型(Diffusion Models)的快速发展推动了定制化生成技术的进步。在图像领域,Textual Inversion、DreamBooth 等方法已能利用少量参考图精准学习主体特征,生成符合用户需求的个性化图像。但在视频领域,定制化生成仍面临两大核心挑战:

  • 空间与时间的双重控制:视频需同时保证 “主体身份不变”(空间维度)和 “动作符合目标”(时间维度),现有方法难以兼顾二者。
  • 现有办法的局限性
    • 单维度优化:如 Dreamix 仅聚焦主体身份注入,Tune-A-Video 仅优化动作模式,导致另一维度泛化能力下降;
    • 缺乏动作多样性:如 AnimateDiff 虽能将图像生成为视频,但更侧重相机运动,无法满足特定动作定制需求;
    • 融合冲突:直接组合主体与动作模型时,易出现主体失真或动作断裂的障碍。

1.2 研究目标

DreamVideo 的核心目标是:通过少量主体参考图和动作参考视频,生成 “指定主体执行指定动作” 的高保真视频,同时拥护主体与动作的灵活组合,无需为每个组合重新训练模型。

二、核心方法:分阶段学习与轻量级适配器设计

DreamVideo 的核心创新在于将视频定制任务解耦为 “主体学习” 和 “动作学习” 两个独立阶段,通过两个轻量级适配器(Identity Adapter、Motion Adapter)分别建模空间主体特征和时间动作模式,最终在推理阶段灵活组合。整体框架如图 2 所示。

注:框架分为主体学习(左上图)和动作学习(右上图),推理时组合两个适配器生成定制视频(下图),预训练视频扩散模型全程冻结。

2.1 基础:视频扩散模型(VDM) preliminaries

DreamVideo 基于预训练的视频扩散模型(VDM)构建,其核心原理是借助 “逐步去噪” 学习视频数据分布。VDM 将视频表示为 latent 代码z \in \mathbb{R}^{B \times F \times H \times W \times C}(B = 批量大小、F = 帧数、H/W = 分辨率、C = 通道数),训练目标是最小化噪声预测损失:\mathcal{L}=\mathbb{E}_{z, c, \epsilon \sim \mathcal{N}(0, I), t}\left[\left\| \epsilon-\epsilon_{\theta}\left(z_{t}, \tau_{\theta}(c), t\right)\right\| _{2}^{2}\right],其中,z_t = \alpha_t z_0 + \sigma_t \epsilon是含噪 latent 代码,\epsilon_\theta是 3D UNet 噪声预测网络(包含时空卷积、空间 Transformer、时间 Transformer 层),\tau_\theta是预训练文本编码器。

2.2 阶段 1:主体学习(Subject Learning)—— 精准捕捉主体外观

主体学习的目标是从 3~5 张参考图中学习主体的 “粗粒度概念” 和 “细粒度外观细节”,采用两步策略:

2.2.1 步骤 1:文本身份学习(Textual Inversion)

凭借优化一个伪词(如S^*)的文本嵌入,让模型用该嵌入表示主体的粗粒度概念。此阶段冻结预训练 VDM,仅更新 S^*的文本嵌入,使用 prompt“aS^*” 训练约 3000 轮(学习率1e-4)。

  • 作用:为主体建立一个可被模型理解的 “文本标签”,避免直接微调模型导致的过拟合。
2.2.2 步骤 2:身份适配器训练(Identity Adapter)

仅靠文本嵌入无法捕捉主体的细节(如纹理、颜色),因此设计轻量级身份适配器,在冻结文本嵌入和 VDM 的前提下,进一步学习细粒度外观。

  • 适配器结构(图 3 (a)):采用瓶颈(Bottleneck)架构,含下投影层(W_{down} \in \mathbb{R}^{l \times d}l>d、GELU 激活函数、上投影层(W_{up} \in \mathbb{R}^{d \times l}),并加入残差连接:h_{t}'=h_{t}+\sigma\left(h_{t} * W_{down }\right) * W_{up },其中h_t是空间 Transformer 的隐藏状态,F=1(仅用单帧图像训练)。
  • 初始化技巧:W_{up}初始化为 0,避免训练初期破坏预训练 VDM 的特征提取能力。

注:(a) 身份适配器(瓶颈架构 + 残差连接);(b) 动作适配器(在身份适配器基础上增加外观引导线性层)。

2.3 阶段 2:动作学习(Motion Learning)—— 纯动作建模,解耦外观

动作学习的目标是从 1~ 多段参考视频中学习动作模式,同时避免学习参考视频中的主体外观(防止与目标主体冲突),核心是动作适配器与外观引导机制。

2.3.1 动作适配器设计(Motion Adapter)

动作适配器结构与身份适配器类似(图 3 (b)),但新增 “外观引导层”,强制模型仅关注动作:

  1. 外观引导获取:从参考视频中随机选 1 帧,通过 CLIP 图像编码器生成图像嵌入e \in \mathbb{R}^{B \times 1 \times C'},并广播到所有帧;
  2. 适配器前向过程h_{t}^{e}=\hat{h}_{t}+ broadcast\left(e * W_{cond }\right)\hat{h}_{t}'=\hat{h}_{t}+\sigma\left(\hat{h}_{t}^{e} * W_{down }\right) * W_{up},其中,\hat{h}_t是时间 Transformer 的隐藏状态,W_{cond} \in \mathbb{R}^{C' \times l}是外观引导线性层。
  • 关键作用:外观引导为模型提供 “非动作” 的外观基准,使其专注于学习帧间动作变化,而非参考视频中的主体外观。
2.3.2 训练细节

动作适配器训练约 1000 轮(学习率1e-5),冻结 VDM 和 CLIP 编码器,仅更新适配器参数。支持从 “单段视频” 或 “多段同类动作视频” 中学习动作模式。

2.4 适配器位置选择:基于参数重要性分析

为确定适配器在 VDM 中的最佳插入位置,论文分析了微调时各层参数的变化率(\Delta_l = \|\theta_l' - \theta_l\|_2 / \|\theta_l\|_2),将参数分为 4 类:交叉注意力(仅空间层)、自注意力、前馈网络(FFN)、其他。

注:(a) 空间参数(主体学习):交叉注意力层变化率最高,是主体特征学习的关键;(b) 时间参数(动作学习):所有层变化率相近,需在全层插入适配器。

基于分析结果,适配器插入位置如下:

  • 身份适配器:仅插入空间 Transformer 的交叉注意力层(主体学习依赖文本 - 图像交叉注意力);
  • 动作适配器:插入时间 Transformer 的所有层(动作学习需全层建模帧间依赖)。

2.5 推理阶段:灵活组合,零额外训练

推理时无需重新训练,仅需:

  1. 组合训练好的身份适配器和动作适配器;
  2. 从主体参考图中随机选 1 张,通过 CLIP 生成外观引导,输入动作适配器;
  3. 启用 DDIM 采样(50 步)和无分类器引导(classifier-free guidance),生成 32 帧、8fps 的视频。

三、实验验证:定性与定量双重证明

论文构建了大规模实验数据集(20 个定制主体 + 30 种动作模式 + 42 个文本 prompt),从 “主体 - 动作联合定制”“单独主体定制”“单独动作定制” 三个维度,与主流方法进行对比。

3.1 实验设置

  • 基线方法
    • 联合定制:AnimateDiff(图像扩散 + 动作模块)、ModelScopeT2V(全微调空间 / 时间参数)、LoRA(低秩适应组合);
    • 单独主体定制:Textual Inversion、Dreamix、Custom Diffusion;
    • 单独动作定制:ModelScopeT2V(仅微调时间参数)、Tune-A-Video;
  • 评价指标
    • 主体相关:CLIP-T(生成帧与文本嵌入相似度)、CLIP-I(生成帧与参考图相似度)、DINO-I(自监督模型度量的主体相似度);
    • 动作相关:时间一致性(T. Cons.,连续帧 CLIP 相似度均值);
    • 效率:参数量(Para.)。

3.2 联合定制:主体与动作的和谐融合

3.2.1 定性结果分析

  • AnimateDiff:主体外观保留较好,但动作多样性不足(如 “狗滑板” 动作僵硬);
  • ModelScopeT2V/LoRA:存在 “融合冲突”—— 要么主体失真(如猫的形态扭曲),要么动作断裂;
  • DreamVideo:精准保留主体身份(如狗的纹理、猫的轮廓),同时动作连贯(如滑板姿态自然),且支持多样场景(如 “卢浮宫前奔跑”)。
3.2.2 定量结果分析

DreamVideo 在所有关键指标上均优于基线,且参数量仅 85M(远低于 ModelScopeT2V 的 1.31B):

3.2.3 人类评估(表 4)

5 名标注者对 50 组视频(5 种动作 + 10 个主体)进行投票,DreamVideo 在 “文本对齐”“主体保真度”“动作保真度”“时间一致性” 四项指标上均获最高偏好:

3.3 单独主体定制:细节保留与场景适配

3.3.1 定性结果分析

  • Textual Inversion:主体细节丢失(如 “怪物跳舞” 中怪物形态模糊);
  • Dreamix:主体细节较好,但易过拟合(动作幅度小),且无法生成 prompt 中的额外物体(如 “披萨”);
  • DreamVideo:主体细节精准(如 “狼奔跑” 的毛发纹理),动作自然,且能生成场景中的额外物体(如 “披萨”)。
3.3.2 定量结果分析

DreamVideo 在 CLIP-T(文本对齐)和 DINO-I(主体相似度)上最优,参数量仅 11M(远低于 Dreamix 的 823M):

3.4 单独动作定制:纯动作建模,无外观污染

3.4.1 定性结果分析

  • ModelScopeT2V:会学习参考视频中的主体外观(如 “人举重” 视频导致生成 “熊举重” 时带有人的特征);
  • Tune-A-Video:动作不连贯(帧间跳变);
  • DreamVideo:完全忽略参考视频的外观,仅学习动作模式(如 “熊举重” 姿态与 “人举重” 一致,但外观是纯熊),且帧间连贯。
3.4.2 定量结果分析

DreamVideo 在 CLIP-T(动作与文本对齐)和 T. Cons.(时间一致性)上最优,参数量 74M(低于 ModelScopeT2V 的 522M):

3.5 消融实验:验证各组件必要性

论文对 “文本身份学习”“动作适配器”“外观引导” 三个核心组件进行消融,结果如下:

3.5.1 定性结果分析

  • 无文本身份:主体细节丢失(如 “树懒举重” 的毛发纹理模糊);
  • 无动作适配器:无法生成目标动作(如 “狼弹吉他” 仅为静态帧);
  • 无外观引导:主体与背景失真(如 “狼弹吉他” 中狼的形态扭曲);
  • DreamVideo(全组件):主体细节完整,动作连贯,背景合理。
3.5.2 定量结果分析

所有组件移除后,指标均下降,证明各组件的必要性:

四、创新价值与局限性

4.1 核心创新

  1. 首次实现 “任意主体 + 任意动作” 定制:突破现有手段单维度优化的局限,凭借解耦学习支撑灵活组合;
  2. 轻量级高效设计:适配器参数量仅 85M,训练成本低(单 A100 GPU 上主体学习 12 分钟、动作学习 15~30 分钟);
  3. 外观 - 动作解耦:依据 CLIP 外观引导,避免动作学习时污染主体特征,解决融合冲突问题;
  4. 参数高效微调:预训练 VDM 全程冻结,仅更新适配器参数,兼顾性能与泛化。

4.2 局限性

  1. 多主体多动作支持不足:目前仅能生成 “单个主体执行单个动作” 的视频,无法处理 “多主体 + 多动作” 场景(如 “猫追狗”);
  2. 依赖基础模型能力:若基础 VDM 无法生成某些场景(如 “狼骑自行车”),DreamVideo 会继承该局限;
  3. 精细动作建模不足:从单段视频学习时,难以实现 “帧级动作对齐”,仅能学习粗粒度动作模式。

五、总结与展望

DreamVideo 通过 “分阶段学习 + 轻量级适配器” 的设计,为定制化视频生成提供了全新思路,其核心价值在于平衡了 “定制灵活性”“生成质量” 与 “训练效率”。未来可从以下方向进一步优化:

  1. 设计多主体融合模块,支持复杂场景生成;
  2. 结合视频编辑技术,提升精细动作建模能力;
  3. 探索跨模态引导(如音频、骨骼动画),进一步增强动作可控性。

该论文的技术方案不仅推动了视频生成领域的发展,也为其他时空序列生成任务(如 3D 动画、自动驾驶场景模拟)提供了借鉴意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/978911.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

acme证书申请

1Mg4iPPmdgm5j1exz4W0c5ZuvCMvnAYFivHE_W-V export CF_Key="1Mg4iPPmdgm5j1exz4W0c5ZuvCMvnAYFivHE_W-V" export CF_Email="2806429860@qq.com"

NOIP模拟赛11.27

今天打了一场NOIP模拟赛。 T1:暴力+一些思维+二分小优化,结果少写了一句话,100pts->60pts,痛失40分 T2:结论题,想出结论结果没写对,最后只写了一个暴力,100pts->40pts,痛失60分 T3:一些思维+欧拉路径,…

Open WebUI大模型输出完成后新对话响应延迟、输出变慢问题

Open WebUI时回答完后经常会遇到新提问回答响应延迟、或输出变慢的问题,通过显卡风扇明显可以感知后台依然占用计算资源,在运行。 该问题在LM Studio上不明显,但是使用Open WebUI就会明显感觉到,主要问题在于Open …

[CEOI 2025] Equal Mex 题解

[CEOI 2025] Equal Mex 题解[CEOI 2025] Equal Mex 虽然说是套路题,但是记录一下一些结论防止自己以后忘了。 首先不难发现你划分出的每个子段的 \(\operatorname{mex}\) 一定就是整个区间的 \(\operatorname{mex}\),…

法语动词变位

忍好久了。 第三组变位怎么这么 tm 烦啊。 今天突发奇想,是不是能让 AI 把我没能力实现的想法实现一下。我去还真可以啊! 那就粘在下面吧~~~ 以后说不定会补充,但也有可能记本子上。 🇫🇷 法语第三组动词变位规…

日总结 32

html5 和flash区别: Flash 核心功能 | HTML5 替代方案 | 说明 矢量动画 / 逐帧动画 | CSS3 动画 / 过渡 + SVG + Canvas | CSS3 做简单动效,SVG 做矢量动画,Canvas 做逐帧 / 复杂动…

2025年11月液体容器磁致伸缩液位计,格雷母线,lvdt位移传感器厂家最新推荐,容器监测与位移适配指南

2025年11月液体容器磁致伸缩液位计、格雷母线、LVDT位移传感器厂家最新推荐在工业生产中,液体容器的监测以及位移适配是保障生产安全与高效运行的重要环节。而杭州浙达精益机电技术股份有限公司(TEC品牌)就是一家在…

2025年11月掘进机位移传感器,拦焦车位移传感器,推焦车位移传感器厂家最新推荐,焦化设备适配测评

2025年11月位移传感器厂家推荐:杭州浙达精益适配焦化设备测评在2025年11月,对于掘进机、拦焦车、推焦车位移传感器的选择,众多厂家中,杭州浙达精益机电技术股份有限公司(TEC品牌)值得重点关注。该公司成立于1993…

2025年11月辊缝位移传感器,切纸位移传感器,水坝闸门液压位移传感器厂家最新推荐,水利与造纸适配测评

2025 年 11 月位移传感器厂家最新推荐:水利与造纸适配测评在工业发展的进程中,辊缝位移传感器、切纸位移传感器以及水坝闸门液压位移传感器等设备发挥着至关重要的作用。这些传感器广泛应用于钢铁、造纸、水利等多个…

2025年11月起重机位移传感器,挖掘机位移传感器,压路机位移传感器厂家最新推荐,工程机械性能测评

《2025年11月工程机械位移传感器厂家推荐与性能考量》在2025年11月,对于起重机、挖掘机、压路机等工程机械而言,位移传感器的选择至关重要。一个优质的位移传感器能显著提升工程机械的性能和可靠性。而杭州浙达精益机…

Java大厂面试真题:Spring Boot微服务+Kafka消息队列+AIGC场景实战问答全解析 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

从被动审查到主动风控:文档抽取技术驱动合同管理范式转移

当一份合同历经多轮谈判,产生数个修订版本后,如何确保最终版没有遗漏关键修改?如何快速洞察条款表述的细微变化背后隐藏的法律风险?在传统的“人眼扫描”式比对方式下,这些挑战不仅极度耗费专业人力,更构成了企业…

Python中isdigit、isdecimal、isnumeric区别详解

Python中isdigit、isdecimal、isnumeric区别详解【Python入门教程】第88篇 常用字符串方法之字符类型检查本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份…

3D 场景预加载应用实现 | 图扑软件

预加载是在进入正式场景之前提前加载所需模型、材质、图片等资源的技术手段,其核心价值在于消除资源加载等待,确保场景首次渲染即可完整呈现,从而提供无缝、流畅的用户体验。在复杂的 Web 3D 可视化应用中,资源预加…

2025年11月GEO公司推荐:全链路破局企业流量困境,AI驱动搜索优化实力全解析

在生成式 AI 重塑搜索生态的浪潮下,AI 搜索与 GEO 优化已成为企业争夺数字流量的核心战略。《2025 中国生成式 AI 搜索生态白皮书》显示,2025 年第三季度相关服务市场规模超 220 亿元,企业采用率同比激增 147%。但行…

CH584/CH585NFC调试相关

在NFC调试中不同线圈对应的匹配参数大概率不一样,刷卡的效果的表现不一。在打板画线圈的时候就要根据沁恒提供的NFC手册及实际版上空间去绘制线圈。绘制线圈的时候要注意线圈的自感要在1-1.5uh左右(计算公式可见手册…

租房买房必看2租房切忌“暗室”!这种房子阴气重、易生病,白送都别住!

2 租房切忌“暗室”!这种房子阴气重、易生病,白送都别住! 2.1 房子便宜是有原因的! 在找房的过程中,你是否遇到过这样的情况: 地段不错,装修尚可,租金却比周边便宜一大截? 这时候请务必警惕!走进屋里看看,是…

人工智能之数据分析 Matplotlib:第二章 Pyplot

人工智能之数据分析 Matplotlib:第二章 Pyplot人工智能之数据分析 Matplotlib 第二章 Pyplot@目录人工智能之数据分析 Matplotlib前言一、导入方式二、基本用法示例1. 绘制简单折线图2. 多条曲线 & 图例3. 散点图…

医疗器械渠道管理革新:数字化平台如何解决行业痛点

医疗器械行业的信息化水平相较其他行业明显滞后,大量业务仍依赖纸质单据、Excel、邮件及散乱的即时通讯工具。这种模式导致流程不可见、无提醒、无追溯,人员投入大却效率低下。在带量采购成为常态的背景下,医疗器械…

性能验证问题汇总

QSPI-Flash启动时,取指速度慢 背景知识:外挂Flash支持通过QSPI接口挂接;支持从QSPI Flash启动;QSPI Flash支持2线、4线读写;直接从Flash取值,速度比较慢,一般通过以下两种方法加速为外挂Flash增加cache 使能QSP…