有哪些开源的视频生成模型

在这里插入图片描述

1. 阿里巴巴通义万相2.1(WanX 2.1)

  • 技术架构:基于Diffusion Transformer(DiT)架构,结合自研的高效变分自编码器(VAE)和Flow Matching训练方案,支持时空上下文建模。
  • 参数规模:提供14B和1.3B两种参数规格,后者支持本地部署(仅需8.2GB显存)。
  • 生成能力
    • 支持无限长1080P视频的高效编解码,首次实现中文文字视频生成。
    • 可生成复杂运镜效果,并还原物理规律(如雨滴溅水效果)。
  • 应用场景:广告设计、宣传片、短视频创作。
  • 性能指标
    • 在VBench评测中以86.22%得分位居榜首,超越Sora、Luma等模型。
    • 生成速度比原有SOTA模型快2.5倍,运动质量指标达商用级别。

2. 腾讯混元大模型(Hunyuan Video)

  • 技术架构:130亿参数的图生视频模型,基于Hybrid-Mamba-Transformer混合架构,支持中英文输入和多尺寸视频生成。
  • 生成能力
    • 生成5秒短视频,支持对口型、唱歌功能及动漫角色制作。
    • 提供视频配音与数字人驱动功能。
  • 应用场景:写实视频、广告、教育内容。
  • 性能指标
    • 在文本一致性、运动质量等评测维度领先,总体评分41.30%,显著高于第二名。

3. 阶跃星辰Step-Video-T2V

  • 技术架构:300亿参数的Diffusion Transformer(DiT),采用Flow Matching训练和3D全注意力机制,支持动态幅度与镜头轨迹控制。
  • 生成能力
    • 生成204帧(约8秒)540P视频,支持复杂动作(如芭蕾舞)和物理规律复现。
    • 通过通道维度拼接技术保持画面与原图一致性。
  • 应用场景:动画制作、短视频创作、教育培训。
  • 性能指标
    • 在VBench-I2V基准测试中达到SOTA级别,运动控制能力突出。

4. Open-Sora 2.0

  • 技术架构:基于3D自编码器和MMDiT架构(Masked Motion Diffusion Transformer),11B参数,结合Flow Matching训练。
  • 生成能力
    • 支持720P分辨率、24 FPS视频生成,最长128帧,支持文生视频(T2V)和图生视频(T2I2V)。
    • 训练成本仅20万美元(224张GPU),接近闭源模型性能。
  • 应用场景:影视预演、广告创意、游戏开发。
  • 性能指标
    • VBench评测与Sora差距缩小至0.69%,用户偏好测试超越HunyuanVideo等模型。

5. 昆仑万维SkyReels-V1

  • 技术架构:13B参数,基于好莱坞影视数据训练,集成3D因果卷积和自研推理优化框架「SkyReels-Infer」。
  • 生成能力
    • 支持33种微表情和400+自然动作组合,生成544P分辨率视频。
    • 单卡4090推理仅需80秒,支持分布式多卡并行。
  • 应用场景:AI短剧创作、电影特效。
  • 性能指标
    • 在开源视频生成模型中性能最强,画面达电影级质感。

6. LTX Video

  • 技术架构:基于DiT和潜在扩散模型(Latent Diffusion),采用高压缩比Video-VAE(1:192)。
  • 生成能力
    • 实时生成768×512分辨率、24 FPS视频(2秒生成5秒视频)。
    • 支持文生视频和图生视频,画面过渡自然。
  • 应用场景:广告、短视频、游戏图形升级。
  • 性能指标
    • 在速度和视觉质量上超越传统模型,支持低显存设备运行。

7. 智谱CogVideoX

  • 技术架构:基于3D因果VAE和专家Transformer,支持INT8量化(显存需求7.8GB)。
  • 生成能力
    • 生成6秒、720×480分辨率视频,支持低显存显卡(如1080 Ti)。
    • 通过渐进式训练生成长时动态视频。
  • 应用场景:教育、影视预演。
  • 性能指标
    • 在人类评估中表现SOTA,支持多分辨率帧打包。

总结对比

模型参数规模分辨率/帧率核心优势应用场景
通义万相2.114B/1.3B1080P/不限长中文文字生成、物理规律复现广告、短视频
腾讯混元130B多种尺寸/5秒对口型、多语言支持写实视频、动漫
Step-Video-T2V300B540P/8秒动态控制、复杂动作生成动画、特效
Open-Sora 2.011B720P/24 FPS低成本、高性能影视预演、教育
SkyReels-V113B544P/80秒推理微表情与动作组合AI短剧、电影特效
LTX Video-768×512/24 FPS实时生成、高压缩比广告、游戏
CogVideoX-720×480/6秒低显存需求、长视频生成教育、影视预演

关键趋势

  1. 技术突破:主流模型普遍采用DiT架构和3D VAE,显著提升时空建模能力。
  2. 开源生态:阿里、腾讯、阶跃星辰等企业推动模型开源,加速技术普及。
  3. 应用扩展:从短视频生成向影视、教育、游戏等专业场景延伸。

这些模型的开源降低了AI视频生成门槛,推动了多领域创新,未来将进一步缩小与闭源模型的差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76526.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【动态规划】最长上升子序列模板

最长上升子序列 题目传送门 一、题目描述 给定一个长度为 N 的数列,求数值严格单调递增的子序列的长度最长是多少。 输入格式 第一行包含整数 N。 第二行包含 N 个整数,表示完整序列。 输出格式 输出一个整数,表示最大长度。 数据范围 …

LeetCode 891 -- 贡献度思想

题目描述 子序列宽度之和 思路 ref 代码 相似题 子数组范围和 acwing

化工行业如何通过定制化工作流自动化实现25-30%成本优化?

作者:Mihir Jhaveri 编译:李升伟 发布日期:2024年10月30日 在化工生产领域,数字化转型正以颠覆性态势重塑产业格局。通过集成定制化软件、ERP系统、工业物联网(IIoT)传感网络、机器人流程自动化&#xff0…

Compose组件转换XML布局

文章目录 学习JetPack Compose资源前言:预览界面的实现Compose组件的布局管理一、Row和Colum组件(LinearLayout)LinearLayout(垂直方向 → Column)LinearLayout(水平方向 → Row) 二、相对布局 …

RAG测试数据集资源

一、通用问答基准数据集 HotpotQA 特点:包含11万+多跳问答对最佳用途:测试复杂推理能力数据示例:{"question": "Were Scott Derrickson and Ed Wood of the same nationality?","answer": "Yes, both are American" }MS MARCO 特点…

快速掌握MCP——Spring AI MCP包教包会

最近几个月AI的发展非常快,各种大模型、智能体、AI名词和技术和框架层出不穷,作为一个业余小红书博主的我最近总刷到MCP这个关键字,看着有点高级我也来学习一下。 1.SpringAI与functionCall简单回顾 前几个月我曾写过两篇关于SpringAI的基础…

学习笔记--(6)

import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0,与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…

【AI4CODE】5 Trae 锤一个基于百度Amis的Crud应用

【AI4CODE】目录 【AI4CODE】1 Trae CN 锥安装配置与迁移 【AI4CODE】2 Trae 锤一个 To-Do-List 【AI4CODE】3 Trae 锤一个贪吃蛇的小游戏 【AI4CODE】4 Trae 锤一个数据搬运工的小应用 1 百度 Amis 简介 百度 Amis 是一个低代码前端框架,由百度开源。它通过 J…

认识 Promise

认识 Promise 前言:为什么会出现 Promise? 最常见的一个场景就是 ajax 请求,通俗来说,由于网速的不同,可能你得到返回值的时间也是不同的,这个时候我们就需要等待,结果出来了之后才知道怎么样…

纯c++实现transformer 训练+推理

项目地址 https://github.com/freelw/cpp-transformer C 实现的 Transformer 这是一个无需依赖特殊库的 Transformer 的 C 实现,涵盖了训练与推理功能。 本项目使用C复刻了《Dive into Deep Learning》中关于 Transformer 的第 11 章11.7小节点内容。构建了一个英…

Go 语言规范学习(7)

文章目录 Built-in functionsAppending to and copying slicesClearCloseManipulating complex numbersDeletion of map elementsLength and capacityMaking slices, maps and channelsMin and maxAllocationHandling panicsBootstrapping PackagesSource file organizationPac…

Python Cookbook-5.1 对字典排序

任务 你想对字典排序。这可能意味着需要先根据字典的键排序,然后再让对应值也处于同样的顺序。 解决方案 最简单的方法可以通过这样的描述来概括:先将键排序,然后由此选出对应值: def sortedDictValues(adict):keys adict.keys()keys.sort()return …

Git Rebase 操作中丢失提交的恢复方法

背景介绍 在团队协作中,使用 Git 进行版本控制是常见实践。然而,有时在执行 git rebase 或者其他操作后,我们可能会发现自己的提交记录"消失"了,这往往让开发者感到恐慌。本文将介绍几种在 rebase 后恢复丢失提交的方法。 问题描述 当我们执行以下操作时,可能…

C语言基础要素(019):输出ASCII码表

计算机以二进制处理信息,但二进制对人类并不友好。比如说我们规定用二进制值 01000001 表示字母’A’,显然通过键盘输入或屏幕阅读此数据而理解它为字母A,是比较困难的。为了有效的使用信息,先驱者们创建了一种称为ASCII码的交换代…

鸿蒙定位开发服务

引言 鸿蒙操作系统(HarmonyOS)作为面向万物互联时代的分布式操作系统,其定位服务(Location Kit)为开发者提供了多场景、高精度的位置能力支持。本文将从技术原理、开发流程到实战案例,全面解析鸿蒙定位服务…

rknn_convert的使用方法

rknn_convert是RKNN-Toolkit2提供的一套常用模型转换工具,通过封装上述API接口,用户只需编辑模型对应的yml配置文件,就可以通过指令转换模型。以下是如何使用rknn_convert工具的示例命令以及支持的指令参数: python -m rknn.api.…

解决 axios get请求瞎转义问题

在Vue.js项目中,axios 是一个常用的HTTP客户端库,用于发送HTTP请求。qs 是一个用于处理查询字符串的库,通常与 axios 结合使用,特别是在处理POST请求时,将对象序列化为URL编码的字符串。 1. 安装 axios 和 qs 首先&a…

【XTerminal】【树莓派】Linux系统下的函数调用编程

目录 一、XTerminal下的Linux系统调用编程 1.1理解进程和线程的概念并在Linux系统下完成相应操作 (1) 进程 (2)线程 (3) 进程 vs 线程 (4)Linux 下的实践操作 1.2Linux的“虚拟内存管理”和stm32正式物理内存(内存映射)的区别 (1)Linux虚拟内存管…

torch 拆分子张量 分割张量

目录 unbind拆分子张量 1. 沿着第n个维度拆分(即按“批次”拆分) split分割张量 常用用法: 总结: unbind拆分子张量 import torchquaternions torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]]) result torch.unbind(quaternio…

【Linux】内核驱动学习笔记(二)

7、framebuffer驱动详解 7.1、什么是framebuffer (1)裸机中如何操作LCD (2)OS下操作LCD的难点 (3)framebuffer帧缓冲(简称fb)是linux内核中虚拟出的一个设备 (4)framebuffer向应用层提供一个统一标准接口的显示设备 (5)从驱动来看,fb是一个…