[ComfyUI]官方已支持Skyreels混元图生视频,速度更快,效果更好(附工作流)

一、介绍

昨天有提到官方已经支持了Skyreels,皆大欢喜,效果更好一些,还有GGUF量化版本,进一步降低了大家的显存消耗。

今天就来分享一下官方流怎么搭建,我体验下来感觉更稳了一些,生成速度也更快,不愧是官方。

二、相关模型

要使用官方版的混元视频,你版本要更新到2月19号

然后其他模型很多是通用的,有几个是新的,反正我网盘里面都有提供

首先是大模型,bf16或者fp8的,还有GGUF的回头再说

加速lora:skyreels-i2v-smooth-lora-test-00000350.safetensors

CLIP有2个

VAE一个

三、工作流说明

不复杂,官方的流其实和Flux那一套很像,我一共分5个模块和大家说说

  • 图片处理,尺寸限制
  • 模型加载,各种模型
  • 提示词描述
  • 采样生成视频
  • 视频合并输出

来,今天干货很多,今年AI视频领域要大爆发了,快跟上,付费的工具太贵了,还是多期待这种开源的能起来,这样大家玩AI的成本才能降下来。

图片处理

首先我们要对图片做一些尺寸限制,目前 Skyreels 官方有给出推荐的图片尺寸 544x97,最高帧率是97帧,在这个范围内都可以调整。

所有我这里对宽高做了一些限制,这里面有个很细节的地方,我设置了短边最少是544,高度跟着自适应,这种是适合竖屏的,如果是横屏的你就自己调整一下。

尺寸越大,生成时间越长,关键是显存占用就更多。

我测试了上百次,发现一个问题,之前我用倍数取整8倍,经常会报错下面这个错。

后来我调整到16倍了就不报错了,这个细节大家自己遇到了也可以跟着调整。感觉这个对图片尺寸有一些限制的。

模型加载,各种模型

这里核心就是加载了Skyreels的I2V模型,以及上篇提到的 加速稳定lora,这2个是核心,中间的Patch Sage Attention KJ以及Patch Model Patcher Order你可以隐藏掉。

我这里开启了,是要用到SageAttention注意力量化加速的应用,可以提高视频生成速度。
官网地址:https://github.com/thu-ml/SageAttention

简单的理解,就是保持质量不变,减少生成时间,这个在视频领域还是很重要的。

安装这个,我折腾了好几个小时,这个东西不能在线安装,需要把源码下载下来,本地编译安装,才是最新的SageAttention 2.0.1 版本。

安装对本地的依赖版本要求比较高,我简单的列一下:
官方也给出了基础要求,torch要大于2.3,我是安装2.5.1
CUDA也不能太低,我是安装了12.4

安装步骤如下

git clone https://github.com/thu-ml/SageAttention.git
cd sageattention 
python setup.py install  # or pip install -e .

安装SageAttention之前,需要先安装上了triton,这个之前一篇讲Skyreels的文章说到过。

如果你折腾了半天安装不上,也可以不用,直接参数选择禁用即可。

另外,KJ大佬那边模型也提供了GGUF的模型
https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/tree/main

大家根据自己实际显存大小挑选使用把推荐Q4、Q6都试试看,要使用GGUF,你那你需要安装个GGUF插件。

提示词描述

这个就是常规的提示词模块了,最终接入到InstructPixToPix条件。

要注意的是,这里正负提示词都需要写个FPS-24,听说这样生成的视频质量会好一些。

这里的动画描述词要自己写,我自己额外做了一个高级版本,通过图片反推,再通过DeepSeek R1的思考,直接根据一张图给出了最适合的图片动画描述词。

效果还不错,接入了目前最火的DeepSeek R1的API,免费额度也够我用很久了。

这部分是付费,有需要的到时候再联系我,教你如何接入DeepSeek R1。

采样生成视频

官方版本的采样一共分两次,第一次是增加了一些噪点后采样一次,然后再接一个采样,有个地方设置要注意,这里用了分离Sigmas,值记得要是总步数的一半,比如我们这里只要20步,那前后各10步。

空Latent视频这里的总长度就是帧率,49帧就是大概2秒。

其他设置保持不变即可,最后出的视频再加一个图像调色后就可以生成视频了

到这里后面其实还可以做一些优化,比如补帧、以及后期的视频高清放大,都有方案,以后再慢慢分享,一次分享太多怕大家吸收不过来。

案例演示

下面是几个我通过DeepSeek R1推理模型给出的动画提示词描述,效果感觉比我自己写牛逼多了。

这些都是直接在ComfyUI工作流里面搞定的,都是自动化,非常方便。

蓝色长发如绸缎般轻柔向右侧飘动,发尾泛起细微光点涟漪,鳞片服饰下摆随步伐节奏小幅起伏闪烁,犄角头饰尖端缓慢上下点动,T台两侧人群头部同步小幅度左右转动注视,背景波浪纹路由中心向两侧传递起伏光波,保持CGI材质的光泽流动感与暗色人鱼装束对比,所有动态元素运动轨迹相互牵引,服装高光区域始终维持鳞片结构的数字渲染质感

混元图生视频1

棕色长发末端轻柔向右飘动, 仙女灯串光线柔和明暗起伏, 窗外云层缓慢向左平移, 木地板反光波纹轻微荡漾, 灰色沙发靠垫随呼吸节奏微微下陷, 保持写实摄影质感与极简家居构图

自动写提示词2

黄叶沿弧形轨迹缓慢飘落,白色货车沿路面轻微颠簸前行,轮胎匀速旋转,炊烟呈波浪形向右侧蜿蜒上升,左侧邮箱因震动左右微幅摆动,云层整体向右缓慢平移,树枝末梢随风高频低幅颤动,枫叶在飘落时伴随自转,保持半写实笔触的温暖秋色质感,柏油路面反光点随云影移动明暗交替,二楼窗帘呈现呼吸般的起伏,轮胎扬起的细小尘埃呈螺旋扩散,所有动态元素活动范围严格控制在局部区域。

hunyuan-_00011

打伞少女的长发丝缕向右轻柔飘动,伞面以中心轴缓慢顺时针旋转,绿色植物叶片随伞转动方向起伏摇摆,荧光蝴蝶翅膀高频颤动伴随光粒上升轨迹,地面光晕以呼吸节奏明暗脉动,保持霓虹渐变笔触与柔光弥散效果,禁止人物位移或镜头推拉,所有动态幅度控制在伞面投影区域内

hunyuan-_00018

少女骑行时棕色发丝轻柔后扬,蓝色裙摆随踏板节奏小幅起伏,自行车轮匀速转动辐条闪烁,背景云层缓慢右飘形态缓慢拉伸,海面波纹横向扩散推挤船体轻微上下浮动,保持动漫风格高饱和色块与硬朗轮廓线,禁止镜头移动或比例变化,动态元素仅限发梢10%、裙摆15%、云层20%区域微动。

hunyuan-_00020

四、云端镜像

大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。

目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。

今天这个图生视频官方版本案例已经弄到镜像上了,欢迎体验,镜像上我也安装了加速的SageAttention 2.0.1,4秒视频,5分钟就出来了,速度和可灵官方接口差用差不多。

镜像名称:嘟嘟AI绘画趣味学


云平台镜像地址:

https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY

https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY

新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长

五、总结

以上就是ShyReels官方版工作流使用说明了,效果真的越来越好了。

简单版本图生视频工作流是免费分享给大家。

但想要带DeepSeek R1自动生成动画提示词模块的,可以联系我,这个是付费版本的,售价还是39.9,我会发你完整版工作流,再给你一个详细的接入文档,DeepSeek R1目前是主流大模型,接入ComfyUI可以做很多事情。

昨天刚帮一个影视机构搞定批量图生视频工作流,省下了大批成本,可灵目前还是偏贵,现在AI视频开源模型越来越好,我相信以后AI视频的价格是可以打下来的。

AI时代,值得我们去投入时间研究。

技术的迭代是飞快的,要关注最新的消息才不会掉队。​

嘟嘟每天分享最新的ComfyUI技术前沿。​

本篇中的工作流和模型网盘链接:https://pan.quark.cn/s/ab576aa693ab

我是嘟嘟,专注于 AI 绘画以及 AI 工具分享,欢迎来一起交流。​

如果觉得文章有帮助,请帮忙点赞收藏关注一下呦~​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/70795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

B站pwn教程笔记-3

栈知识、部分保护措施 GDB显示的栈地址有时候并不是可靠的地址,gdb也是用特殊的进程映像来拿地址的。且gdb默认关闭栈地址随机化。但是,偏移量是没有错误的。目前还没学到咋解决 第一个栈帧是main函数栈帧,之前的一些系统函数什么的没有栈帧…

Qt在Linux嵌入式开发过程中复杂界面滑动时卡顿掉帧问题分析及解决方案

Qt在Linux嵌入式设备开发过程中,由于配置较低,加上没有GPU,我们有时候会遇到有些组件比较多的复杂界面,在滑动时会出现掉帧或卡顿的问题。要讲明白这个问题还得从CPU和GPU的分工说起。 一、硬件层面核心问题根源剖析 CPU&#x…

Spring Boot 项目中,JDK 动态代理和 CGLIB 动态代理的使用

在 Spring Boot 项目中,JDK 动态代理和 CGLIB 动态代理都是实现 AOP (面向切面编程) 的重要技术。 它们的主要区别在于代理对象的生成方式和适用范围。 下面详细介绍它们的使用场景: 1. JDK 动态代理 (JDK Dynamic Proxy) 原理: JDK 动态代理…

OpenCV计算摄影学(2)图像去噪函数denoise_TVL1()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 原始-对偶算法是用于解决特定类型变分问题(即,寻找一个函数以最小化某个泛函)的算法。特别地,图像…

在 Windows 下的 Docker 中安装 R语言

以下是在 Windows 系统的 Docker 中安装 R 语言的详细教程,包括 Docker 的安装、配置以及如何在容器中运行 R 语言的步骤。 步骤 1:安装 Docker 下载 Docker Desktop 访问 Docker 官方网站:Docker Desktop: The #1 Containerization Tool for…

【数据挖掘在量化交易中的应用:特征发现与特征提取】

好的,我将撰写一篇关于金融领域数据挖掘的技术博客,重点阐述特征发现和特征提取,特别是在量化交易中的应用。我会提供具体的实操步骤,并结合Python和TensorFlow进行代码示例。 完成后,我会通知您进行查看。 数据挖掘…

如何在视频中提取关键帧?

在视频处理中,提取关键帧是一项常见的任务。下面将介绍如何基于FFmpeg和Python,结合OpenCV库来实现从视频中提取关键帧的功能。 实现思路 使用FFmpeg获取视频的关键帧时间戳:FFmpeg是一个强大的视频处理工具,可以通过命令行获取…

九、数据治理架构流程

一、总体结构 《数据治理架构流程图》(Data Governance Architecture Flowchart) 水平结构:流程图采用水平组织,显示从数据源到数据应用的进程。 垂直结构:每个水平部分进一步划分为垂直列,代表数据治理的…

Docker 搭建 Gitlab 服务器 (完整详细版)

参考 Docker 搭建 Gitlab 服务器 (完整详细版)_docker gitlab-CSDN博客 Docker 安装 (完整详细版)_docker安装-CSDN博客 Docker 日常命令大全(完整详细版)_docker命令-CSDN博客 1、Gitlab镜像 # 查找Gitlab镜像 docker search gitlab # 拉取Gitlab镜像 docker pull gitlab/g…

Spring MVC 框架学习笔记:从入门到精通的实战指南

目录 1. Spring MVC 概述 2. Spring MVC 项目搭建 3. Spring MVC 执行流程 4. Spring MVC RequestMapping 注解 5. Spring MVC 获取请求参数 6. Spring MVC 常见注解 7. Spring MVC 响应处理 8. Spring MVC SSM 整合 9. Spring MVC 作用域传参 10. Spring MVC 上传 1…

RK3568开发笔记-AD7616调试笔记

目录 前言 一、AD7616介绍 高分辨率 高速采样速率 宽模拟输入范围 集成丰富功能 二、原理图连接 三、设备树配置 四、内核驱动配置 五、AD芯片测试 总结 前言 在嵌入式数据采集领域,将模拟信号精准转换为数字信号至关重要。AD7616 作为一款性能卓越的 16 位模数转换器…

【对话推荐系统】Towards Topic-Guided Conversational Recommender System 论文阅读

Towards Topic-Guided Conversational Recommender System 论文阅读 Abstract1 Introduction2 Related Work2.1 Conversation System2.2 Conversational Recommender System2.3 Dataset for Conversational Recommendation 3 Dataset Construction3.1 Collecting Movies for Re…

ASP.NET Core 8.0学习笔记(二十八)——EFCore反向工程

一、什么是反向工程 1.原则:DBFirst 2.反向工程:根据数据库表来反向生成实体类 3.生成命令:Scaffold-DbContext ‘连接字符串’ 字符串示例: Server.;DatabaseDemo1;Trusted_Connectiontrue; MultipleActiveResultSets true;Tru…

springcloud和dubbo的区别

Spring Cloud和Dubbo作为微服务架构中非常流行的两个框架,它们在多个方面存在显著的区别。以下是对两者区别的详细分析: 1. 初始定位和生态环境 Spring Cloud:定位为微服务架构下的一站式解决方案,依托于Spring平台,…

【大模型LLM】DeepSeek LLM Scaling Open-Source Language Models with Longtermism

深度探索LLM:以长期主义扩展开源语言模型 0.论文摘要 开源大语言模型(LLMs)的快速发展确实令人瞩目。然而,以往文献中描述的扩展规律得出了不同的结论,这为LLMs的扩展蒙上了一层阴影。我们深入研究了扩展规律&#…

C#快速调用DeepSeek接口,winform接入DeepSeek查询资料 C#零门槛接入DeepSeek C#接入DeepSeek源代码下载

下载地址<------完整源码 在数字化转型加速的背景下&#xff0c;企业应用系统对智能服务的需求日益增长。DeepSeek作为先进的人工智能服务平台&#xff0c;其自然语言处理、图像识别等核心能力可显著提升业务系统的智能化水平。传统开发模式下&#xff0c;C#开发者需要耗费大…

Qt常用控件之多行输入框QTextEdit

多行输入框QTextEdit QTextEdit 是一个多行输入框控件&#xff0c;支持富文本和 markdown 格式&#xff0c;当文本内容超出编辑框的范围时能自动提供滚动条。 QPlainTextEdit 是只支持富文本格式的多行输入框&#xff0c;属性和使用上与 QTextEdit 几乎没有区别。 QTextEdit属…

VC++零基础入门之系列教程 【附录E MFC快速参考指南】

附录E MFC快速参考指南 E.1 创建窗口 使用M F C CWnd wnd; W n d . C r e a t e E x ( E xSt y l e , C l a s s N a m e , Wi n d o w N a m e , S t y l e , x , y, Wi d t h , H e i g h t , P a r e n t , M e n u , P a r a m ) ; 使用A P I HWND hwnd=::CreateWi n d …

【前端】react+ts 轮播图的实现

一、场景描述 在很多网站的页面中都有轮播图&#xff0c;所以我想利用react.js和ts实现一个轮播图。自动轮播图已经在前面实现过了&#xff0c;如&#xff1a;https://blog.csdn.net/weixin_43872912/article/details/145622444?sharetypeblogdetail&sharerId145622444&a…

python与C系列语言的差异总结(4)

如果具有传统编译型语言的经验&#xff0c;大家可能会对是否使用字典而犹豫不决&#xff0c;担心字典的效率比列表或数组低。事实上Python字典的执行速度已经相当快了。Python语言的许多内部特性都依赖于字典&#xff0c;为提高字典的效率已经投入了大量的心血。Python的所有数…