CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

注1:本文系“计算机视觉/三维重建论文速递”系列之一，致力于简洁清晰完整地介绍、解读计算机视觉，特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。
本次介绍的论文是: CVPR 2023 | 用户可控的条件图像到视频生成方法
文章DOI:
https://doi.org/10.48550/arXiv.2303.13744 ↗。

CVPR 2023 | 用户可控的条件图像到视频生成方法

在这里插入图片描述

1 引言

图像到视频(I2V)生成是计算机视觉领域一个迷人且富有潜力的研究课题。给定一张静态图像 $x_0$ 和一个文本描述 $y$ (例如“微笑”),条件图像到视频(cI2V)生成旨在合成出一个符合条件 $y$ 的新视频 $\hat{x}\_1^K$ 。cI2V生成在艺术创作、娱乐产业以及机器学习的数据增广等方面都有巨大的应用前景。但是,cI2V生成面临的核心挑战在于如何同时生成符合图像 $x_0$ 的视觉外观以及符合条件 $y$ 的时域动态。

在这里插入图片描述

2 动机

以往的cI2V生成方法可以分为两大类:直接合成法和无扭曲合成法。

直接合成法
- 直接基于图像 $x_0$ 和条件 $y$ 逐帧生成新的视频帧
- 但是这类方法往往难以同时满足视觉细节的保真和时域连贯性。
无扭曲合成法
- 先生成一系列扭曲场或光流,然后根据它们来扭曲或漂移图像 $x_0$ ,从而合成新视频
- 但是它们的扭曲场或光流生成往往依赖额外的监督信息,例如人体姿态。对于只给定图像 $x_0$ 和简单文本条件 $y$ 的情况,无扭曲合成法效果仍有限。

本文提出一种称为潜在流弥散模型(LFDM)的新型cI2V生成框架,以弥补现有方法的不足。LFDM的核心创新在于,它首先基于条件 $y$ 在潜在空间中合成一个时域连贯的光流序列,然后用该光流序列来扭曲图像 $x_0$ ,从而生成新视频。这种基于扭曲的生成方式可以更好地利用图像 $x_0$ 所包含的视觉细节,同时满足条件 $y$ 要求的运动动力学。

3 方法

LFDM的生成流程如图1所示。它包含两个阶段的训练。

在这里插入图片描述

3.1 阶段一:潜在光流自动编码器

在阶段一中,我们用无标注视频训练一个潜在光流自动编码器(LFAE)。LFAE 包含编码器 $\Phi$ 、光流预测器 $F$ 和解码器 $\Omega$ 三个模块。给定一对来自同一视频的参考帧 $x_{ref}$ 和驱动帧 $x_{dri}$ ,编码器 $\Phi$ 先把 $x_{ref}$ 编码为潜在空间的特征图 $z$ ,然后 $F$ 估计 $x_{ref}$ 到 $x_{dri}$ 之间的逆向潜在空间光流 $f$ 。 $f$ 用于扭曲 $z$ 得到 $\tilde{z}$ ,最后 $\Omega$ 解码 $\tilde{z}$ 来重建 $x_{dri}$ 。LFAE的训练目标是最小化重建损失。

3.2 阶段二:弥散模型

在阶段二中,我们训练一个基于3D U-Net的弥散模型(DM)来生成时域连贯的潜在光流序列。给定一段训练视频 $x_0^K={x_0,x_1,...,x_K}$ 和对应的标签 $y$ ,我们用阶段一训练好的 $F$ 来估计 $x_0$ 到每个 $x_k$ 的光流 $f_k$ 。然后这些 $f_k$ 被DM以 $y$ 和 $x_0$ 为条件,学习生成时域连贯的光流。相比像素空间或潜在特征空间,LFDM的DM只需要学习一个简单的低维光流空间,因此训练更高效。