Diffusion卷向视频,谷歌CEO劈柴亲自“带货”

2fd6115c269c47fc3ea95db9745a2612.jpeg

源|机器之心

编|张倩、杜伟

谷歌、Meta 等科技巨头又挖了一个新坑。

在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视频。

上周,Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video,利用这款工具生成的视频非常具有想象力。

fd567fa5672fabc5b8533407d84873d0.gif

当然,谷歌也不甘示弱。刚刚,该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。

6af6ac4b08763697e3436c4519950420.png

下面这个洗盘子的泰迪熊就是用 Imagen Video 生成的,可以看到,画面的分辨率和连贯性都有一定的保障。

e6e1be741dce79bd3ff50cf5ececd1a9.gif

下面这个片段是由 Phenaki 生成的,视频长达 2.5 分钟。可以看出,模型对于长 prompt 的解析非常出色。

这段视频的prompt为:「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom out quickly to show the coastal city. Zoom out quickly from the coastal city.」

Imagen Video:给出文本提示,生成高清视频

生成式建模在最近的文本到图像 AI 系统中取得了重大进展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特别地,扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中取得了巨大成功。

谷歌想要做的是从文本生成视频。以往的视频生成工作集中于具有自回归模型的受限数据集、具有自回归先验的潜变量模型以及近来的非自回归潜变量方法。扩散模型也已经展示出了出色的中等分辨率视频生成能力。

在此基础上,谷歌推出了 Imagen Video,它是一个基于级联视频扩散模型的文本条件视频生成系统。给出文本提示,Imagen Video 就可以通过一个由 frozen T5 文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。

0c88a38a66e22870592bc6a8d90f2b6e.png

论文地址:https://imagen.research.google/video/paper.pdf

在论文中,谷歌详细描述了如何将该系统扩展为一个高清文本转视频模型,包括某些分辨率下选择全卷积时空超分辨率模型以及选择扩散模型的 v 参数化等设计决策。谷歌还将以往基于扩散的图像生成研究成果成功迁移到了视频生成设置中。

谷歌发现,Imagen Video 能够将以往工作生成的 24fps 64 帧 128×128 视频提升至 128 帧 1280×768 高清视频。此外,Imagen Video 还具有高度的可控性和世界知识,能够生成多样化艺术风格的视频和文本动画,还具备了 3D 对象理解能力。

让我们再来欣赏一些 Imagen Video 生成的视频,比如开车的熊猫:

6425edd1302a48b84c5bd0a2dbc59821.gif

遨游太空的木船:

95e0497993ece91f2dccfa01d65e6cb6.gif

更多生成视频请参阅:https://imagen.research.google/video/

方法与实验

整体而言,谷歌的视频生成框架是七个子视频扩散模型的级联,它们相应执行文本条件视频生成、空间超分辨率和时间超分辨率。借助整个级联,Imagen Video 能够以每秒 24 帧的速度生成 128 帧 1280×768 的高清视频(约 1.26 亿像素)。

与此同时,在渐进式蒸馏的帮助下,Imagen Video 的每个子模型中仅使用八个扩散步骤就能生成高质量视频。这将视频生成时间加快了大约 18 倍。

下图 6 展示了 Imagen Video 的整个级联 pipeline,包括 1 个 frozen 文本编码器、1 个基础视频扩散模型以及 3 个空间超分辨率(SSR)和 3 个时间超分辨率(TSR)模型。这七个视频扩散模型共有 116 亿参数。

在生成过程中,SSR 模型提高了所有输入帧的空间分辨率,同时 TSR 模型通过在输入帧之间填充中间帧来提高时间分辨率。所有模型同时生成一个完整的帧块,这样 SSR 模型不会遭受明显的伪影。

bb903aeb5d181087ba4585609521e1bd.png

Imagen Video 构建在视频 U-Net 架构之上,具体如下图 7 所示。

583d607b20aa8d4ad812cfdb05f00d6e.png

在实验中,Imagen Video 在公开可用的 LAION-400M 图像文本数据集、1400 万个视频文本对和 6000 万个图像文本对上进行训练。结果正如上文所述,Imagen Video 不仅能够生成高清视频,还具备一些纯从数据中学习的非结构化生成模型所没有的独特功能。

下图 8 展示了 Imagen Video 能够生成具有从图像信息中学得的艺术风格的视频,例如梵高绘画风格或水彩画风格的视频。

941302aa8447442d0b6546c31c3c92f0.png

下图 9 展示了 Imagen Video 对 3D 结构的理解能力,它能够生成旋转对象的视频,同时物体的大致结构也能保留。

948c5a1197847d49b6e503f455fbff09.png

下图 10 展示了 Imagen Video 能够可靠地生成各种动画样式的文本,其中一些使用传统工具很难来制作。

03fdc8cc09a6f05a99138dce3d66c4c1.png

更多实验细节请参阅原论文。

Phenaki:你讲故事我来画

我们知道,虽然从本质上讲,视频就是一系列图像,但生成一个连贯的长视频并没有那么容易,因为在这项任务中,可用的高质量数据非常少,而且任务本身的计算需求又很大。

更麻烦的是,像之前那种用于图像生成的简短文本 prompt 通常不足以提供对视频的完整描述,视频需要的是一系列 prompt 或故事。理想情况下,一个视频生成模型必须能够生成任意长度的视频,并且要能根据某个时刻 t 的 prompt 变化调节生成的视频帧。只有具备这样的能力,模型生成的作品才能称之为「视频」,而不是「移动的图像」,并开启在艺术、设计和内容创作方面的现实创意应用之路。

谷歌等机构的研究人员表示,「据我们所知,基于故事的条件视频生成之前从未被探索过,这是第一篇朝着该目标迈进的早期论文。」

810fad464ef13995dc6d6cc2a4ef51ad.png

  • 论文链接:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf

  • 项目链接:https://phenaki.github.io/#interactive

由于没有基于故事的数据集可以拿来学习,研究人员没有办法简单地依靠传统深度学习方法(简单地从数据中学习)完成这些任务。因此,他们专门设计了一个模型来完成这项任务。

这个新的文本转视频模型名叫 Phenaki,它使用了「文本转视频」和「文本转图像」数据联合训练。该模型具有以下能力:

1、在开放域 prompt 的条件下生成时间上连贯的多样化视频,即使该 prompt 是一个新的概念组合(见下图 3)。生成的视频可以长达几分钟,即使该模型训练所用的视频只有 1.4 秒(8 帧 / 秒)

92128b26d9930f4b45e246bd68e11926.png

2、根据一个故事(即一系列 prompt)生成视频,如下图 1 和图 5 所示:

258a85697022513c7246f88b1b300d74.png

4b30f097369dc3092a295cfeeaf20513.png

从以下动图中我们可以看到 Phenaki 生成视频的连贯性和多样性:

3dd94fbae50a2b9074bd0e85df7ff6cf.gif

bae8d2c70ceece04ec67d896a4e4a9b6.gif

要实现这些功能,研究人员无法依赖现有的视频编码器,因为这些编码器要么只能解码固定大小的视频,要么独立编码帧。为了解决这个问题,他们引入了一种新的编码器 - 解码器架构——C-ViViT。

C-ViViT 可以:

  • 利用视频中的时间冗余来提高每帧模型的重构质量,同时将视频 token 的数量压缩 40% 或更多;

  • 在给定因果结构的情况下,允许编码和解码可变长度视频。

PHENAKI 模型架构

受之前自回归文本转图像、文本转视频研究的启发,Phenaki 的设计主要包含两大部分(见下图 2):一个将视频压缩为离散嵌入(即 token)的编码器 - 解码器模型和一个将文本嵌入转换为视频 token 的 transformer 模型。

4c5a09e01b17addf2e16315810543bc4.png

获取视频的压缩表示是从文本生成视频的主要挑战之一。之前的工作要么使用 per-frame 图像编码器,如 VQ-GAN,要么使用固定长度视频编码器,如 V ideoVQVAE。前者允许生成任意长度的视频,但在实际使用中,视频必须要短,因为编码器不能及时压缩视频,并且 token 在连续帧中是高度冗余的。后者在 token 数量上更加高效,但它不允许生成任意长度的视频。

在 Phenaki 中,研究者的目标是生成可变长度的视频,同时尽可能压缩视频 token 的数量,这样就可以在当前的计算资源限制下使用 Transformer 模型。为此,他们引入了 C-ViViT,这是 ViViT 的一种因果变体,为视频生成进行了额外的架构更改,它可以在时间和空间维度上压缩视频,同时保持时间上的自回归。该功能允许生成任意长度的自回归视频。

为了得到文本嵌入,Phenaki 还用到了一个预训练的语言模型——T5X。

具体细节请参见原论文。

4bdf40360464f23e00af94661d09797c.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pmp知识点详解-项目大牛整理_PMP核心知识点—第四章:项目整合管理(一)

文章来源:科科过PMP作者:科科过PMP由知乎号“慧翔天地PMP”推荐如有侵权请联系小编看到后第一时间处理一、制定项目章程1Inputs⑴商业文件→商业论证:①记录项目目标以及项目对目标的贡献②决定项目的期望结果是否值得所需投资③包含商业需求…

程序员面试金典 - 面试题 17.15. 最长单词(排序+递归)

1. 题目 给定一组单词words,编写一个程序,找出其中的最长单词,且该单词由这组单词中的其他单词组合而成。 若有多个长度相同的结果,返回其中字典序最小的一项,若没有符合要求的单词则返回空字符串。 示例&#xff1a…

.net 2.0 制作 柱状图

最近项目需要用到图表,饼图,柱状图,这些都很常用,在网上找了下,不是自已要的,只好自已动手做个,先做了个柱状图,先看下效果图代码有详解下载代码 此代码在winform环境下编译通过,要用在web环境也简单,只需将Graphics对…

不卷大厂了,78位高校青年教师晒出工资

源|青塔人才综合自知乎、小红书今天,小编给大家搜罗了江苏、浙江、上海、广东、山东、北京、福建、广西、云南、陕西、川渝、中部、东北地区78位高校教师的薪资待遇,欢迎转发分享~江苏常四荒:普通高校,讲师…

牛客练习赛61 - A - 打怪

题目描述 你是一个勇士,现在你准备去森林刷毛球怪,你有两个属性(血量,攻击力),毛球怪也有这两个属性。 当你遭遇一只毛球怪时你们会进入战斗,然后你和毛球怪轮流攻击(你先手&#x…

javascript 的参数有长度限制吗?一个细节引起的误区

一个普通的javascrip函数&#xff0c;只有一个入口参数 function test(info) ... { alert(info); } 页面用是aspx代码生成&#xff0c;调用test函数的入口参数可能是一个很长的字符串&#xff0c;同时页面上根据一个数据集构造很多如下所示的标签。 < a href " jav…

CCF列表更新引热议:ICLR未上榜,NAACL等级上升

编 | 卖萌酱2021年1月&#xff0c;CCF决定启动新一轮中国计算机学会推荐国际学术会议和期刊目录&#xff08;一下简称《目录》&#xff09;调整工作并委托CCF学术工作委员会组织实施。经过前期的充分讨论和论证后&#xff0c;于2021年9月开始正式向各专委会征集调整建议。期间由…

centos mysql jar 驱动包_JDBC连接MySQL的数据库

JDBC连接MySQL的数据库开发工具&#xff1a;eclipes数据库&#xff1a;mysql 5.6jdk&#xff1a;1.8目的&#xff1a;通过简单示例&#xff0c;教会大家如何通过java的代码实现的MySQL的数据库访问。访问数据库&#xff1a;首先要加载数据库的驱动程序(只需要在第一次访问数据库…

牛客练习赛61 - B - 吃水果

题目描述 最近米咔买了n个苹果和m个香蕉&#xff0c;他每天可以选择吃掉一个苹果和一个香蕉&#xff08;必须都吃一个&#xff0c;即如果其中一种水果的数量为0&#xff0c;则他不能进行这个操作&#xff09;&#xff0c;或者使用魔法将某一种水果的数量翻倍。 现在米咔想吃西…

SQL Server中的数据类型详解

(1)char、varchar、text和nchar、nvarchar、ntextchar 和varchar的长度都在1到8000之间&#xff0c;它们的区别在于char是定长字符数据&#xff0c;而varchar是变长字符数据。所谓定长就是长度固定的&#xff0c;当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面…

java定时器只执行一次_面试阿里P6,却被MySQL难倒,二战阿里,挤进天猫团队(Java岗)...

爱因斯坦说过“耐心和恒心总会得到报酬的”&#xff0c;我也一直把这句话当做自己的座右铭&#xff0c;这句箴言在今年也彻底在我身上实现了。每一个程序员都拥有一座大厂梦&#xff0c;我也不例外&#xff0c;去年面试阿里P6&#xff0c;竟然被MySQL问倒了&#xff0c;很多相关…

推荐一个动漫风格转换的开源项目!可在线运行

文 | 超神经源 | HyperAIAnimeGANv2 最近发布了一项更新&#xff0c;由社区贡献者开发&#xff0c;通过 Gradio 实现了一个可以在线运行的 Demo&#xff0c;发布在 huggingface 上。访问链接&#xff1a;https://huggingface.co/spaces/akhaliq/AnimeGANv2即可在线上轻松实现 A…

程序员面试金典 - 面试题 16.09. 运算(只用+法做乘除)

1. 题目 请实现整数数字的乘法、减法和除法运算&#xff0c;运算结果均为整数数字&#xff0c; 程序中只允许使用加法运算符和逻辑运算符&#xff0c;允许程序中出现正负常数&#xff0c;不允许使用位运算。 你的实现应该支持如下操作&#xff1a; Operations() 构造函数min…

python语言支持函数式编程_Python语言之Pyhton入门笔记函数式编程

本文主要向大家介绍了Python语言之Pyhton入门笔记函数式编程&#xff0c;通过具体的内容向大家展示&#xff0c;希望对大家学习Python语言有所帮助。 一&#xff0c;匿名函数 def add(x,y) return xy print(add(2,3)) flambda x,y:xy #匿名函数需要lambdb来指定&#xff0c;lam…

谷歌大脑提出VeLO优化器,无需调参,最高比Adam快16倍!

文 | 萧箫 发自 凹非寺源 | 量子位还在苦恼怎么给优化器调整更好的参数吗&#xff1f;现在&#xff0c;谷歌大脑搞出了一个新的优化器VeLO&#xff0c;无需手动调整任何超参数&#xff0c;直接用就完事了。与其他人工设计的如Adam、AdaGrad等算法不同&#xff0c;VeLO完全基于A…

程序员面试金典 - 面试题 17.22. 单词转换(BFS)

1. 题目 给定字典中的两个词&#xff0c;长度相等。 写一个方法&#xff0c;把一个词转换成另一个词&#xff0c; 但是一次只能改变一个字符。 每一步得到的新词都必须能在字典中找到。 编写一个程序&#xff0c;返回一个可能的转换序列。如有多个可能的转换序列&#xff0c;…

成功:选择比努力更重要,智慧比勤奋更重要

人生三句话&#xff1a; 1、想要什么&#xff0c;比做什么更重要&#xff1b; 2、选择比努力更重要&#xff1b; 3、智慧比勤奋更重要&#xff1b;信息时代的财富&#xff0c;蕴藏在哪里&#xff1f;农业时代财富&#xff0c;蕴藏在土地&#xff0c;谁拥有土地&…

OpenAI新模型惊艳了!对话问答能力逆天

编&#xff5c;昕朋 Aeneas源&#xff5c;新智元OpenAI新模型来了&#xff01;全新对话模型ChatGPT&#xff0c;可以回答用户问题&#xff0c;还能挑出问题的错误之处。面对不懂的问题&#xff0c;还会承认错误并拒绝回答&#xff01;当人们翘首期待GPT-4时&#xff0c;OpenAI在…

程序员面试金典 - 面试题 17.17. 多次搜索(Trie树)

文章目录1. 题目2. 解题2.1 暴力超时2.2 Trie树1. 题目 给定一个较长字符串big和一个包含较短字符串的数组smalls&#xff0c;设计一个方法&#xff0c;根据smalls中的每一个较短字符串&#xff0c;对big进行搜索。 输出smalls中的字符串在big里出现的所有位置positions&#…

雅虎的Mash-up 之路

当今的互联网&#xff0c;每天都会冒出许多的新产品、新技术、新概念&#xff0c;越来越多的Web N.0已经让我们看得眼花缭乱。现在业界对Mash-up有个比较统一的定义&#xff1a;Mash-up 模式指的是网站采用混合技术搭建&#xff0c;不同的功能模块与不同的外界API接口对接实现。…