有哪些开源的视频生成模型

有哪些开源的视频生成模型

diannao/2025/11/4 12:44:46/文章来源:https://blog.csdn.net/bestpasu/article/details/146889028

在这里插入图片描述

1. 阿里巴巴通义万相2.1（WanX 2.1）

技术架构：基于Diffusion Transformer（DiT）架构，结合自研的高效变分自编码器（VAE）和Flow Matching训练方案，支持时空上下文建模。
参数规模：提供14B和1.3B两种参数规格，后者支持本地部署（仅需8.2GB显存）。
生成能力：
- 支持无限长1080P视频的高效编解码，首次实现中文文字视频生成。
- 可生成复杂运镜效果，并还原物理规律（如雨滴溅水效果）。
应用场景：广告设计、宣传片、短视频创作。
性能指标：
- 在VBench评测中以86.22%得分位居榜首，超越Sora、Luma等模型。
- 生成速度比原有SOTA模型快2.5倍，运动质量指标达商用级别。

2. 腾讯混元大模型（Hunyuan Video）

技术架构：130亿参数的图生视频模型，基于Hybrid-Mamba-Transformer混合架构，支持中英文输入和多尺寸视频生成。
生成能力：
- 生成5秒短视频，支持对口型、唱歌功能及动漫角色制作。
- 提供视频配音与数字人驱动功能。
应用场景：写实视频、广告、教育内容。
性能指标：
- 在文本一致性、运动质量等评测维度领先，总体评分41.30%，显著高于第二名。

3. 阶跃星辰Step-Video-T2V

技术架构：300亿参数的Diffusion Transformer（DiT），采用Flow Matching训练和3D全注意力机制，支持动态幅度与镜头轨迹控制。
生成能力：
- 生成204帧（约8秒）540P视频，支持复杂动作（如芭蕾舞）和物理规律复现。
- 通过通道维度拼接技术保持画面与原图一致性。
应用场景：动画制作、短视频创作、教育培训。
性能指标：
- 在VBench-I2V基准测试中达到SOTA级别，运动控制能力突出。

4. Open-Sora 2.0

技术架构：基于3D自编码器和MMDiT架构（Masked Motion Diffusion Transformer），11B参数，结合Flow Matching训练。
生成能力：
- 支持720P分辨率、24 FPS视频生成，最长128帧，支持文生视频（T2V）和图生视频（T2I2V）。
- 训练成本仅20万美元（224张GPU），接近闭源模型性能。
应用场景：影视预演、广告创意、游戏开发。
性能指标：
- VBench评测与Sora差距缩小至0.69%，用户偏好测试超越HunyuanVideo等模型。

5. 昆仑万维SkyReels-V1

技术架构：13B参数，基于好莱坞影视数据训练，集成3D因果卷积和自研推理优化框架「SkyReels-Infer」。
生成能力：
- 支持33种微表情和400+自然动作组合，生成544P分辨率视频。
- 单卡4090推理仅需80秒，支持分布式多卡并行。
应用场景：AI短剧创作、电影特效。
性能指标：
- 在开源视频生成模型中性能最强，画面达电影级质感。

6. LTX Video

技术架构：基于DiT和潜在扩散模型（Latent Diffusion），采用高压缩比Video-VAE（1:192）。
生成能力：
- 实时生成768×512分辨率、24 FPS视频（2秒生成5秒视频）。
- 支持文生视频和图生视频，画面过渡自然。
应用场景：广告、短视频、游戏图形升级。
性能指标：
- 在速度和视觉质量上超越传统模型，支持低显存设备运行。

7. 智谱CogVideoX

技术架构：基于3D因果VAE和专家Transformer，支持INT8量化（显存需求7.8GB）。
生成能力：
- 生成6秒、720×480分辨率视频，支持低显存显卡（如1080 Ti）。
- 通过渐进式训练生成长时动态视频。
应用场景：教育、影视预演。
性能指标：
- 在人类评估中表现SOTA，支持多分辨率帧打包。

总结对比

模型	参数规模	分辨率/帧率	核心优势	应用场景
通义万相2.1	14B/1.3B	1080P/不限长	中文文字生成、物理规律复现	广告、短视频
腾讯混元	130B	多种尺寸/5秒	对口型、多语言支持	写实视频、动漫
Step-Video-T2V	300B	540P/8秒	动态控制、复杂动作生成	动画、特效
Open-Sora 2.0	11B	720P/24 FPS	低成本、高性能	影视预演、教育
SkyReels-V1	13B	544P/80秒推理	微表情与动作组合	AI短剧、电影特效
LTX Video	-	768×512/24 FPS	实时生成、高压缩比	广告、游戏
CogVideoX	-	720×480/6秒	低显存需求、长视频生成	教育、影视预演

关键趋势

技术突破：主流模型普遍采用DiT架构和3D VAE，显著提升时空建模能力。
开源生态：阿里、腾讯、阶跃星辰等企业推动模型开源，加速技术普及。
应用扩展：从短视频生成向影视、教育、游戏等专业场景延伸。

这些模型的开源降低了AI视频生成门槛，推动了多领域创新，未来将进一步缩小与闭源模型的差距。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/76526.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【动态规划】最长上升子序列模板

【动态规划】最长上升子序列模板

最长上升子序列题目传送门一、题目描述给定一个长度为 N 的数列，求数值严格单调递增的子序列的长度最长是多少。输入格式第一行包含整数 N。第二行包含 N 个整数，表示完整序列。输出格式输出一个整数，表示最大长度。数据范围 …

阅读更多...

LeetCode 891 -- 贡献度思想

LeetCode 891 -- 贡献度思想

题目描述子序列宽度之和思路 ref 代码相似题子数组范围和 acwing

阅读更多...

化工行业如何通过定制化工作流自动化实现25-30%成本优化？

化工行业如何通过定制化工作流自动化实现25-30%成本优化？

作者：Mihir Jhaveri 编译：李升伟发布日期：2024年10月30日在化工生产领域，数字化转型正以颠覆性态势重塑产业格局。通过集成定制化软件、ERP系统、工业物联网（IIoT）传感网络、机器人流程自动化&#xff0…

阅读更多...

Compose组件转换XML布局

Compose组件转换XML布局

文章目录学习JetPack Compose资源前言：预览界面的实现Compose组件的布局管理一、Row和Colum组件（LinearLayout）LinearLayout（垂直方向 → Column）LinearLayout（水平方向 → Row） 二、相对布局 …

阅读更多...

RAG测试数据集资源

RAG测试数据集资源

一、通用问答基准数据集 HotpotQA 特点：包含11万+多跳问答对最佳用途：测试复杂推理能力数据示例：{"question": "Were Scott Derrickson and Ed Wood of the same nationality?","answer": "Yes, both are American" }MS MARCO 特点…

阅读更多...

快速掌握MCP——Spring AI MCP包教包会

快速掌握MCP——Spring AI MCP包教包会

最近几个月AI的发展非常快，各种大模型、智能体、AI名词和技术和框架层出不穷，作为一个业余小红书博主的我最近总刷到MCP这个关键字，看着有点高级我也来学习一下。 1.SpringAI与functionCall简单回顾前几个月我曾写过两篇关于SpringAI的基础…

阅读更多...

学习笔记--(6)

学习笔记--(6)

import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0，与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…

阅读更多...

【AI4CODE】5 Trae 锤一个基于百度Amis的Crud应用

【AI4CODE】5 Trae 锤一个基于百度Amis的Crud应用

【AI4CODE】目录【AI4CODE】1 Trae CN 锥安装配置与迁移【AI4CODE】2 Trae 锤一个 To-Do-List 【AI4CODE】3 Trae 锤一个贪吃蛇的小游戏【AI4CODE】4 Trae 锤一个数据搬运工的小应用 1 百度 Amis 简介百度 Amis 是一个低代码前端框架，由百度开源。它通过 J…

阅读更多...

认识 Promise

认识 Promise

认识 Promise 前言：为什么会出现 Promise？ 最常见的一个场景就是 ajax 请求，通俗来说，由于网速的不同，可能你得到返回值的时间也是不同的，这个时候我们就需要等待，结果出来了之后才知道怎么样…

阅读更多...

纯c++实现transformer 训练+推理

纯c++实现transformer 训练+推理

项目地址 https://github.com/freelw/cpp-transformer C 实现的 Transformer 这是一个无需依赖特殊库的 Transformer 的 C 实现，涵盖了训练与推理功能。本项目使用C复刻了《Dive into Deep Learning》中关于 Transformer 的第 11 章11.7小节点内容。构建了一个英…

阅读更多...

Go 语言规范学习（7）

Go 语言规范学习（7）

文章目录 Built-in functionsAppending to and copying slicesClearCloseManipulating complex numbersDeletion of map elementsLength and capacityMaking slices, maps and channelsMin and maxAllocationHandling panicsBootstrapping PackagesSource file organizationPac…

阅读更多...

Python Cookbook-5.1 对字典排序

Python Cookbook-5.1 对字典排序

任务你想对字典排序。这可能意味着需要先根据字典的键排序，然后再让对应值也处于同样的顺序。解决方案最简单的方法可以通过这样的描述来概括:先将键排序，然后由此选出对应值: def sortedDictValues(adict):keys adict.keys()keys.sort()return …

阅读更多...

Git Rebase 操作中丢失提交的恢复方法

Git Rebase 操作中丢失提交的恢复方法

背景介绍在团队协作中，使用 Git 进行版本控制是常见实践。然而，有时在执行 git rebase 或者其他操作后，我们可能会发现自己的提交记录"消失"了，这往往让开发者感到恐慌。本文将介绍几种在 rebase 后恢复丢失提交的方法。问题描述当我们执行以下操作时，可能…

阅读更多...

C语言基础要素(019)：输出ASCII码表

C语言基础要素(019)：输出ASCII码表

计算机以二进制处理信息，但二进制对人类并不友好。比如说我们规定用二进制值 01000001 表示字母’A’，显然通过键盘输入或屏幕阅读此数据而理解它为字母A，是比较困难的。为了有效的使用信息，先驱者们创建了一种称为ASCII码的交换代…

阅读更多...

鸿蒙定位开发服务

鸿蒙定位开发服务

引言鸿蒙操作系统（HarmonyOS）作为面向万物互联时代的分布式操作系统，其定位服务（Location Kit）为开发者提供了多场景、高精度的位置能力支持。本文将从技术原理、开发流程到实战案例，全面解析鸿蒙定位服务…

阅读更多...

rknn_convert的使用方法

rknn_convert的使用方法

rknn_convert是RKNN-Toolkit2提供的一套常用模型转换工具，通过封装上述API接口，用户只需编辑模型对应的yml配置文件，就可以通过指令转换模型。以下是如何使用rknn_convert工具的示例命令以及支持的指令参数： python -m rknn.api.…

阅读更多...

解决 axios get请求瞎转义问题

解决 axios get请求瞎转义问题

在Vue.js项目中，axios 是一个常用的HTTP客户端库，用于发送HTTP请求。qs 是一个用于处理查询字符串的库，通常与 axios 结合使用，特别是在处理POST请求时，将对象序列化为URL编码的字符串。 1. 安装 axios 和 qs 首先&a…

阅读更多...

【XTerminal】【树莓派】Linux系统下的函数调用编程

【XTerminal】【树莓派】Linux系统下的函数调用编程

目录一、XTerminal下的Linux系统调用编程 1.1理解进程和线程的概念并在Linux系统下完成相应操作 (1) 进程 (2)线程 (3) 进程 vs 线程 (4)Linux 下的实践操作 1.2Linux的“虚拟内存管理”和stm32正式物理内存（内存映射）的区别 (1)Linux虚拟内存管…

阅读更多...

torch 拆分子张量分割张量

torch 拆分子张量分割张量

目录 unbind拆分子张量 1. 沿着第n个维度拆分（即按“批次”拆分） split分割张量常用用法： 总结： unbind拆分子张量 import torchquaternions torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]]) result torch.unbind(quaternio…

阅读更多...

【Linux】内核驱动学习笔记（二）

【Linux】内核驱动学习笔记（二）

7、framebuffer驱动详解 7.1、什么是framebuffer (1)裸机中如何操作LCD (2)OS下操作LCD的难点 (3)framebuffer帧缓冲（简称fb）是linux内核中虚拟出的一个设备 (4)framebuffer向应用层提供一个统一标准接口的显示设备 (5)从驱动来看，fb是一个…

阅读更多...

最新文章