ExVideo: 提升5倍性能-用于视频合成模型的新型后调谐方法

标题:ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
作者: Zhongjie Duan; Wenmeng Zhou; Cen Chen; Yaliang Li; Weining Qian
DOI: 10.48550/arXiv.2406.14130
摘要: Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model’s capacity to generate up to $5\times$ its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn’t compromise the model’s innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.
GitHub: https://github.com/modelscope/DiffSynth-Studio

📜 研究核心

⚙️ 内容

该研究的核心在于开发了一种创新的后调优方法——ExVideo,它致力于克服当前视频扩散模型在生成长时间视频方面的限制。ExVideo的设计目标是增强现有模型的功能,使之在不大幅增加训练成本的前提下,能够输出更长的视频序列。

该方法巧妙地利用了3D卷积、时间注意力和位置嵌入等常见时间模型结构的扩展策略,确保了在视频长度显著增加的同时,模型依旧能保持其在不同风格和分辨率视频生成上的泛化性能。通过在Stable Video Diffusion模型上的扩展训练,ExVideo证明了其能够使模型生成帧数最多提升至原视频5倍的能力,并且只需1,500 GPU小时的训练量,这在4万个视频组成的数据库上得到了验证。

💡 创新点

  1. 参数高效性:ExVideo提出了一种新的后调优策略,使得在不对整个模型进行大规模重训的情况下,仅通过对模型中时序相关组件的微调,就能够显著增强其生成更长视频片段的能力。这种方法大大降低了对计算资源的需求,仅需1.5k GPU小时就能将视频生成帧数提高至原模型的5倍。

  2. 多架构兼容性:该策略设计了针对不同时间模型架构(如3D卷积、时间注意力和位置嵌入)的扩展策略,这使得它能够广泛应用于多种现有的视频合成模型,提高了方法的通用性和适用范围。

  3. 视频连贯性和质量保障:ExVideo不仅提升了视频长度,而且确保了生成视频的视觉质量和叙事连贯性,避免了常见的视频连贯性问题,如错误累积导致的图像断裂现象,这是通过精细的模型调整实现的。

  4. 泛化能力不受损:即使视频长度显著增加,ExVideo的模型依然能保持其在生成不同风格和分辨率视频方面的优势,证明了模型在扩展视频长度的同时,其内在的泛化能力并未被削弱。

🧩 不足

  1. 基础模型限制:ExVideo增强的视频扩散模型仍然受限于其基础模型的固有局限。例如,尽管能够生成更长的视频序列,但在合成高质量的人像方面表现不佳,经常出现帧不完整或人像失真的情况。这意味着对于需要高度精确的人脸或人体动作合成的应用场景,当前解决方案可能不尽理想。

  2. 资源约束:研究团队指出,由于资源限制,他们未能独立预训练一个大型的视频合成基础模型。这意味着模型的潜力可能还未完全释放,且对于未来进一步提升模型性能,可能需要更多计算资源或更高效的训练策略。

  3. 长期视频理解能力:尽管ExVideo在生成较长视频方面有所突破,但当前的视频合成模型普遍缺乏对长期视频连贯性的理解和处理能力。这意味着在生成长视频时,模型可能会累积误差,影响视频的整体连贯性和叙事逻辑,特别是在没有额外优化措施的情况下。

  4. 版权与数据来源:尽管使用了如OpenSora等公开数据集来规避版权问题,但这些数据集的视频质量和多样性可能仍有限制,可能无法完全代表实际应用场景中的全部复杂性和多样性,这可能会影响模型的泛化能力。

  5. 技术挑战:尽管采用了多项工程优化措施(如参数冻结、混合精度训练、梯度检查点、Flash Attention及深度加速库),以应对扩展视频序列训练中的计算资源挑战,但这些技术手段可能仍有优化空间,尤其是在处理极端长视频或高分辨率视频时。

🔁 研究内容

💧 数据

使用了一个包含40,000个视频的大型数据集进行实验,数据集包含多样化的风格和分辨率,确保了模型训练的广泛适用性。

👩🏻‍💻 方法

扩展时序模块后调优策略

  1. 目标与动机
  • 目标:使现有的视频合成模型能够生成更长的视频,而不需要从头开始训练或大幅增加计算资源消耗。

  • 动机:尽管视频合成技术取得了显著进步,但大多数模型受限于计算资源,只能生成较短的视频片段。ExVideo旨在克服这一限制,同时维持模型的泛化能力和生成多样风格、分辨率视频的优势。

  1. 3D卷积层的保留与利用
  • 原理与保留:3D卷积层是视频处理中常用的一种技术,它可以捕获空间和时间维度上的特征。先前研究表明,即使不经过微调,3D卷积层也能自适应地处理不同尺度的数据,因此ExVideo方法选择直接保留模型中原有的3D卷积层结构。

  • 优势:保留这些层可以保持模型对不同视频分辨率和时序长度的广泛适应性,无需对这些基础层做重大改动,减少了模型调整的复杂度。

  1. 时间注意力模块的微调
  • 策略:受到大型语言模型中时间注意力机制扩展应用于更长序列的启发,ExVideo对时间注意力层的参数进行了微调。通过这种微调,增强了模型处理更长视频序列的能力。

  • 效果:这种调整使得模型能够更好地捕捉和利用长序列中的上下文依赖,从而提高生成视频的连贯性和复杂性。

  1. 可训练位置嵌入的引入
  • 问题:原始的静态位置嵌入或固定的可训练嵌入在面对更长视频时可能不再适用。

  • 解决方案:引入了扩展的可训练位置嵌入,这些嵌入参数以循环模式初始化,与预训练模型的位置嵌入配置相兼容,从而能适应更长的视频序列。

  • 附加策略:在位置嵌入层之后添加了一个恒等3D卷积层,其核心初始化为恒等矩阵,其余参数初始化为零。这个层旨在学习长期的视频特征,同时在训练初期保持视频表示的不变性,以维护与原始计算过程的一致性。

  1. 总体架构调整
  • 适应性修改:所有修改都是适应性的,确保了预训练模型原有的泛化能力得以保留。在训练扩展模块时,模型外部的参数被固定,以此来降低内存使用,提高训练效率。

  • 优化效率:考虑到注意力操作的计算复杂度随序列长度增加呈二次增长,ExVideo采取的策略在不显著增加计算负担的前提下,提高了模型处理长视频序列的能力。

综上所述,ExVideo通过针对性地调整时序模块,即优化3D卷积层、微调时间注意力机制并引入改进的位置嵌入策略,实现了在不牺牲模型原有特性的基础上,有效扩展视频合成模型生成视频长度的目标。这种方法不仅提升了模型的实用性,还为视频合成技术的发展开辟了新的方向。

🔬 实验

本文主要介绍了作者在视频合成模型方面所做的研究和实验。首先,作者对现有的视频合成模型进行了分类,并提出了三种常见的时空模块架构:3D卷积、时空注意力和位置编码。然后,作者提出了一种扩展时空模块的方法,以提高模型的生成能力。最后,作者通过多个实验验证了他们的方法的有效性,并与其他现有模型进行了比较。

第一个实验是针对文本到视频合成的任务。作者将现有的文本到图像模型与视频合成模型相结合,可以轻松地开发出集成管道,将文本描述转换为视频。在这个任务中,作者使用了Stable Diffusion 3作为基础帧生成器,并展示了该模型能够从高质量的图像中生成流畅的运动过渡,即使训练数据集中不包括某些风格(如平面动漫和像素艺术)也是如此。这个实验的结果表明,扩展后的Stable Video Diffusion模型保留并扩展了原始模型的一般化能力。

第二个实验是为了展示模型学习过程中的动态变化。作者展示了在训练过程中,模型生成的视频如何从只有结构完整性逐渐发展成为具有复杂运动的能力。这个实验的结果表明,模型能够在长时间的学习过程中理解场景的深度和空间关系。

第三个实验是为了测试模型在不同分辨率下的性能。作者展示了模型在常见宽高比下能够成功生成更高分辨率的视频。这个实验的结果表明,模型不仅具有强大的泛化能力和鲁棒性,而且经过后调优后能够进一步提高其性能。

最后一个实验是对模型与其他现有模型的比较。作者选择了多种不同的视频合成模型,包括AnimateDiff、LaVie、ModelScopeT2V等,并将其结果与扩展后的Stable Video Diffusion模型进行了比较。结果显示,大多数现有模型通常只能生成少量的运动,而扩展后的Stable Video Diffusion模型则具有更强的生成能力,能够生成更复杂的运动。这表明扩展后的模型具有更高的生成性能。

📜 结论

  • 视频质量与连贯性:ExVideo不仅成功扩展了视频长度,而且保证了生成视频的质量和叙事连贯性,没有因视频长度的增加而牺牲这些关键指标。

  • 泛化能力:模型在生成不同风格和分辨率的视频时仍然表现出色,表明其内在的泛化能力未受损害

🤔 个人总结

文章优点

该论文提出了一种名为ExVideo的视频合成模型增强技术,通过后调优的方式扩展了现有视频合成模型的时间范围,从而实现了更长的视频生成。该方法在Stable Video Diffusion模型上进行了验证,并成功将生成帧数从25帧扩展到128帧,同时保持了原始模型的生成能力。此外,该方法还具有内存效率高、可与其他开源技术集成等优点。

方法创新点

该论文的主要贡献在于提出了ExVideo技术,这是一种基于后调优的方法,可以有效地扩展现有视频合成模型的时间范围。与传统的训练方法相比,这种方法不需要大量的计算资源,可以在有限的计算资源下实现更长的视频生成。此外,该方法还可以无缝地与文本到图像模型集成,进一步提高了其应用价值。

未来展望

虽然ExVideo技术已经取得了一些进展,但仍然存在一些限制。例如,该方法仍受到基础模型的限制,无法准确合成人类肖像。因此,在未来的研究中,需要开发更加先进的基础模型来提高视频合成的质量。此外,还需要更多的数据集和更强大的计算资源来支持这种技术的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens

【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation 论文:https://arxiv.org/abs/2405.09789 代码:https://github.com/ViTAE-Transformer/LeMeViT 由于相邻像素和图像块之间的高…

【2024年更新】ZF关注度指数大合集(包含8类数据)

数据简介:共包含8类数据 1. 地方ZF环境关注度指数:2007-2021 2. 地方ZF数字关注度指数:1999-2021 3. 省级ZF数字关注度指数:2001-2024 4. 农业新质生产力ZF关注度指数:2001-2024 5. 新质生产力ZF关注度指数&#…

c语言入门

c语言入门 C语言一经出现就以其功能丰富、表达能力强、灵活方便、应用面广等特点迅速在全世界普及和推广。C语言不但执行效率高而且可移植性好,可以用来开发应用软件、驱动、操作系统等。C语言也是其它众多高级语言的鼻祖语言,所以说学习C语言是进入编程…

关于怎么将wireshark抓包视频流转为视频播放出来

0.安装wireshark 安装PotPlayer 1.将以下两个插件放入 C:\Program Files\Wireshark\plugins 目录中 2.筛选视频流数据包,右键Decode As… 改为RTP 或者 右键->follow(追踪流)->UDP stream 然后叉掉弹窗 3.选择菜单Edit->Prefe…

js取数组最大值之Math.max、Math.max.apply

js取数组最大值之Math.max、Math.max.apply Math.maxMath.max.applyapply()第一个参数为什么可以是null 最小值同理 Math.max Math.max(n1,n2,n3,…,nX) 支持传递多个参数,带有较大的值的那个数 Math.max(2,5,3,6,2,4,2,15,9,6,0,1)Math.max.apply apply() 语法&a…

shell编程实战

1.1 shell脚本编程的步骤 需求分析:确定功能 命令测试:确定脚本需要的关键命令 编辑脚本 测试脚本 1.2 操作 1.2.1 实验一 1.需求描述 (1)统计网络中的服务器的mac 注:ARP,地址解析协议 注: (2)检查哪些主机开…

《玫瑰的故事》为何能触动亿万观众的心?

大家最近有看神仙姐姐的新剧嘛? 《玫瑰的故事》作为一部备受瞩目的作品,其影响力不仅在于精彩的剧情和演员们精湛的演技,更在于它所传达的深刻情感和人生哲理。而这部作品之所以能够大爆并引起大批观众的共鸣,背后也有着更多重的原因。 一…

ingress相关yaml文件报错且相关资源一切正常解决方法

今天在执行ingress相关文件的时候莫名其妙报错了,问了别人得知了这个方法 执行ingress相关文件报错 01.yaml是我自己创建关于ingress的yaml文件 报错信息 且相关资源一切正常 解决方法 kubectl get validatingwebhookconfigurations删除ingress-nginx-admissio…

深入探索大模型的魅力:前沿技术、挑战与未来展望

目录 一、大模型的前沿技术 二、大模型面临的挑战 三、大模型的未来展望 四、总结 在当今人工智能领域,大模型不仅是一个热门话题,更是推动技术进步的重要引擎。从深度学习的浪潮中崛起,大模型以其卓越的性能和广泛的应用前景&#xff0c…

快速降低地平线4延迟 极限竞速地平线4延迟严重这样做

极限竞速地平线4全新的开放式剧情设计,让玩家的每一次驾驶都充满了未知与挑战。与此同时,现实世界的玩家也将与玩家一同在这片土地上驰骋。在这里,时间、天气和四季的变化都仿佛触手可及,玩家将亲身体验到真实而震撼的赛车世界。在…

20240624(周一)AH股行情总结:A股低开低走, 恒生科技指数跌2%,贵州茅台转跌为涨

内容提要 A股三大指数收盘均跌超1%,半导体、智慧医疗、商业航天概念领跌,中芯国际跌超3%,盘中一度涨2%。水电股逆势走强;白酒股低开高走,贵州茅台翻红,盘初曾跌3%。微盘股指数大跌4%。 正文 周一&#x…

数据恢复篇:如何在Android上恢复删除的短信

如果您不小心删除了Android设备上的短信并想要检索它们,则可以尝试以下方法: 如何在Android上恢复删除的短信 检查您的备份: 如果您之前备份了Android设备,则可以从备份中恢复已删除的短信。检查您设备的内部存储空间或 Google 云…

Halcon 重叠区域 显示汉字 图像分割

一 如何填充区域之间的GAP或分割重叠区域 read_image(Image,fabrik)*区域生长法将图像分割成相同强度的区域,并将其划分成大小为行*列的矩形。 为了确定两个相邻的矩形是否属于相同的区域, *仅使用其中心点的灰度值。 如果灰度值差小于等于公差&#xff…

Flask路由和视图

Flask路由和视图 一、 路由系统 1. 路由系统基础 路由装饰器: Flask使用装饰器app.route来将URL规则绑定到视图函数上。 装饰器可以指定路径规则(rule)、请求方法(methods)、以及别名(endpoint&#xff…

php反序列化漏洞简介

目录 php序列化和反序列化简介 序列化 反序列化 类中定义的属性 序列化实例 反序列化实例 反序列化漏洞 序列化返回的字符串格式 魔术方法和反序列化利用 绕过wakeup 靶场实战 修复方法 php序列化和反序列化简介 序列化 将对象状态转换为可保持或可传输的格式的…

Linux—系统安全及应用

目录 一、账号安全控制 1、系统账号清理 1.1、将用户账号设置为无法登录 1.2、锁定长期不使用的账号 1.3、删除无用的账号 1.4、锁定账号文件passwd、shadow 2、密码安全控制 2.1、设置密码有效期 2.1.1、适用于新建用户 2.1.2、适用于已有用户 2.2、强制用户下次登录…

①常用API----Math

public static int abs(int a) // 返回参数的绝对值 public static double ceil(double a) // 返回大于或等于参数的最小整数 public static double floor(double a) // 返回小于或等于参数的最大整数 public static int round(f…

ETAS工具导入DEXT生成Dcm及Dem模块(一)

文章目录 前言Cfggen之前的修改ECU关联DcmDslConnectionDiagnostic ProtocolDiagnostic Ecu Instance PropsCommonContributionSetEvent修改communication channel总结前言 诊断模块开发一般是先设计诊断数据库,OEM会释放对应的诊断数据库,如.odx文件或.cdd文件。如果OEM没有…

Linux-chown的使用简介

一、chown命令作用 更改文件或目录的所有者和所属群组 二、chown命令用法 Chown用法:chown [参数] 所有者:所属者 文件名 (参数非必要,可为空) 参数 参数说明 user 新的文件拥有者的使用者 ID group 新的文件拥有者的使用者组(group) -c 显示更改…

如何修复Power BI【View usage metrics report】指标报表数据源更新问题?

故事背景 有朋友留言询问:通过我之前写的 想知道Power BI用户访问报告的次数?快来学习! 这篇文章,了解了如何查看Power BI用户访问报告的详情。 但是最近由于创建【View usage metrics report】指标报表的小伙伴离职了&#x…