视频扩散模型介绍 Video Diffusion Models Introduction
- Diffusion 扩散模型中的一些概念
- DDPM
- DDIM
- CLIP
- Latent Diffusion
- Stable Diifusion
- LoRA
- DreamBooth
- ControlNet
- 视频生成
- 评估标准
- 图片层面
- 视频层面
- 前人的工作
- Make-A-Video
- Align your Latents
- 开源视频生成模型
- ModelScopeT2V(阿里)
- Show-1
- VideoCrafter(tx)
- LaVie
- Stable Video Diffusion
- 高效的生成方法
- AnimateDiff
- Text2Video-Zero 无需训练
- 其他
- Storyboard
- VisorGPT
- VideoDirectorGPT
- Long-form Video Prior
- 其他工作
- 长视频生成
- NUWA-XL
- Video Editing
- Tuning-based
- Tune-A-Video
- Dreamix
- Training-Free
- TokenFlow
- FateZero
- 其他工作
- Controlled Editing
- Gen-1
- Pix2Video
- ControlVideo
- VideoControlNet
- CCEdit
- VideoComposer
- 其他工作
- Pose Control姿态控制
- MagicAnimate
- PointControl
- 3D-Aware
Diffusion 扩散模型中的一些概念
DDPM
扩散过程和去噪过程


去噪器,预测出来噪声然后与原始图片相减,得到干净的图片

当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”

DDIM
跳步

DDIM和DDPM作对比:


CLIP

Latent Diffusion
不是直接在像素空间进行操作,多了编码解码,在latent空间操作加噪和去噪过程

Stable Diifusion

LoRA
微调

DreamBooth

ControlNet


视频生成
一些已有的工作分类

3D可以分成(2+1),就是从图片生成到视频生成的一种思路

早期工作:

解码器+插帧+超分辨率模块



评估标准

图片层面
语义相似度

像素相似度



视频层面
视频生成的质量和多样性

一致性


组合评估

前人的工作
Make-A-Video


Align your Latents

开源视频生成模型
ModelScopeT2V(阿里)


可变temporal attention

下面是模型效果,ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的

Show-1

VideoCrafter(tx)

LaVie

Stable Video Diffusion
数据处理


训练过程:
先初始化参数

训练过程

fine-tune阶段

高效的生成方法
AnimateDiff
把文生图片模型转化为文生视频模型而不需要单独train




Text2Video-Zero 无需训练
动机:如何在不用fine-tune的情况下使用Stable Diffusion
做法:给定第一帧noise后,人为定义全局scene motion



其他

Storyboard
前面生成的视频都是几秒钟长度的视频,如果时间要增长,有哪些工作做了
文本->电影脚本->视频
VisorGPT


VideoDirectorGPT

Long-form Video Prior

其他工作

长视频生成
NUWA-XL


Video Editing

Tuning-based
Tune-A-Video


Sparse-Casual的attention方式节约内存空间,只跟第一帧和前一帧做attention



Dreamix


Training-Free
TokenFlow

FateZero

其他工作

Controlled Editing
Gen-1

Pix2Video
Control场景里也有不需要训练的方法

ControlVideo
另外一种不需要训练的方法



VideoControlNet
CCEdit

VideoComposer

其他工作

Pose Control姿态控制
MagicAnimate

PointControl
比如图中想把猫换成狗但是背景保留



只在关键帧标注

