上海网站建设制作微信莱芜房产网官网

news/2025/9/23 10:42:27/文章来源:
上海网站建设制作微信,莱芜房产网官网,wordpress侧边栏插件,电脑版网站建设源#xff5c;机器之心编#xff5c;张倩、杜伟谷歌、Meta 等科技巨头又挖了一个新坑。在文本转图像上卷了大半年之后#xff0c;Meta、谷歌等科技巨头又将目光投向了一个新的战场#xff1a;文本转视频。上周#xff0c;Meta 公布了一个能够生成高质量短视频的工具——Ma…源机器之心编张倩、杜伟谷歌、Meta 等科技巨头又挖了一个新坑。在文本转图像上卷了大半年之后Meta、谷歌等科技巨头又将目光投向了一个新的战场文本转视频。上周Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video利用这款工具生成的视频非常具有想象力。当然谷歌也不甘示弱。刚刚该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质后者主要挑战视频长度可以说各有千秋。下面这个洗盘子的泰迪熊就是用 Imagen Video 生成的可以看到画面的分辨率和连贯性都有一定的保障。下面这个片段是由 Phenaki 生成的视频长达 2.5 分钟。可以看出模型对于长 prompt 的解析非常出色。这段视频的prompt为「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom out quickly to show the coastal city. Zoom out quickly from the coastal city.」Imagen Video给出文本提示生成高清视频生成式建模在最近的文本到图像 AI 系统中取得了重大进展比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特别地扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中取得了巨大成功。谷歌想要做的是从文本生成视频。以往的视频生成工作集中于具有自回归模型的受限数据集、具有自回归先验的潜变量模型以及近来的非自回归潜变量方法。扩散模型也已经展示出了出色的中等分辨率视频生成能力。在此基础上谷歌推出了 Imagen Video它是一个基于级联视频扩散模型的文本条件视频生成系统。给出文本提示Imagen Video 就可以通过一个由 frozen T5 文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。论文地址https://imagen.research.google/video/paper.pdf在论文中谷歌详细描述了如何将该系统扩展为一个高清文本转视频模型包括某些分辨率下选择全卷积时空超分辨率模型以及选择扩散模型的 v 参数化等设计决策。谷歌还将以往基于扩散的图像生成研究成果成功迁移到了视频生成设置中。谷歌发现Imagen Video 能够将以往工作生成的 24fps 64 帧 128×128 视频提升至 128 帧 1280×768 高清视频。此外Imagen Video 还具有高度的可控性和世界知识能够生成多样化艺术风格的视频和文本动画还具备了 3D 对象理解能力。让我们再来欣赏一些 Imagen Video 生成的视频比如开车的熊猫遨游太空的木船更多生成视频请参阅https://imagen.research.google/video/方法与实验整体而言谷歌的视频生成框架是七个子视频扩散模型的级联它们相应执行文本条件视频生成、空间超分辨率和时间超分辨率。借助整个级联Imagen Video 能够以每秒 24 帧的速度生成 128 帧 1280×768 的高清视频约 1.26 亿像素。与此同时在渐进式蒸馏的帮助下Imagen Video 的每个子模型中仅使用八个扩散步骤就能生成高质量视频。这将视频生成时间加快了大约 18 倍。下图 6 展示了 Imagen Video 的整个级联 pipeline包括 1 个 frozen 文本编码器、1 个基础视频扩散模型以及 3 个空间超分辨率SSR和 3 个时间超分辨率TSR模型。这七个视频扩散模型共有 116 亿参数。在生成过程中SSR 模型提高了所有输入帧的空间分辨率同时 TSR 模型通过在输入帧之间填充中间帧来提高时间分辨率。所有模型同时生成一个完整的帧块这样 SSR 模型不会遭受明显的伪影。Imagen Video 构建在视频 U-Net 架构之上具体如下图 7 所示。在实验中Imagen Video 在公开可用的 LAION-400M 图像文本数据集、1400 万个视频文本对和 6000 万个图像文本对上进行训练。结果正如上文所述Imagen Video 不仅能够生成高清视频还具备一些纯从数据中学习的非结构化生成模型所没有的独特功能。下图 8 展示了 Imagen Video 能够生成具有从图像信息中学得的艺术风格的视频例如梵高绘画风格或水彩画风格的视频。下图 9 展示了 Imagen Video 对 3D 结构的理解能力它能够生成旋转对象的视频同时物体的大致结构也能保留。下图 10 展示了 Imagen Video 能够可靠地生成各种动画样式的文本其中一些使用传统工具很难来制作。更多实验细节请参阅原论文。Phenaki你讲故事我来画我们知道虽然从本质上讲视频就是一系列图像但生成一个连贯的长视频并没有那么容易因为在这项任务中可用的高质量数据非常少而且任务本身的计算需求又很大。更麻烦的是像之前那种用于图像生成的简短文本 prompt 通常不足以提供对视频的完整描述视频需要的是一系列 prompt 或故事。理想情况下一个视频生成模型必须能够生成任意长度的视频并且要能根据某个时刻 t 的 prompt 变化调节生成的视频帧。只有具备这样的能力模型生成的作品才能称之为「视频」而不是「移动的图像」并开启在艺术、设计和内容创作方面的现实创意应用之路。谷歌等机构的研究人员表示「据我们所知基于故事的条件视频生成之前从未被探索过这是第一篇朝着该目标迈进的早期论文。」论文链接https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf项目链接https://phenaki.github.io/#interactive由于没有基于故事的数据集可以拿来学习研究人员没有办法简单地依靠传统深度学习方法简单地从数据中学习完成这些任务。因此他们专门设计了一个模型来完成这项任务。这个新的文本转视频模型名叫 Phenaki它使用了「文本转视频」和「文本转图像」数据联合训练。该模型具有以下能力1、在开放域 prompt 的条件下生成时间上连贯的多样化视频即使该 prompt 是一个新的概念组合见下图 3。生成的视频可以长达几分钟即使该模型训练所用的视频只有 1.4 秒8 帧 / 秒2、根据一个故事即一系列 prompt生成视频如下图 1 和图 5 所示从以下动图中我们可以看到 Phenaki 生成视频的连贯性和多样性要实现这些功能研究人员无法依赖现有的视频编码器因为这些编码器要么只能解码固定大小的视频要么独立编码帧。为了解决这个问题他们引入了一种新的编码器 - 解码器架构——C-ViViT。C-ViViT 可以利用视频中的时间冗余来提高每帧模型的重构质量同时将视频 token 的数量压缩 40% 或更多在给定因果结构的情况下允许编码和解码可变长度视频。PHENAKI 模型架构受之前自回归文本转图像、文本转视频研究的启发Phenaki 的设计主要包含两大部分见下图 2一个将视频压缩为离散嵌入即 token的编码器 - 解码器模型和一个将文本嵌入转换为视频 token 的 transformer 模型。获取视频的压缩表示是从文本生成视频的主要挑战之一。之前的工作要么使用 per-frame 图像编码器如 VQ-GAN要么使用固定长度视频编码器如 V ideoVQVAE。前者允许生成任意长度的视频但在实际使用中视频必须要短因为编码器不能及时压缩视频并且 token 在连续帧中是高度冗余的。后者在 token 数量上更加高效但它不允许生成任意长度的视频。在 Phenaki 中研究者的目标是生成可变长度的视频同时尽可能压缩视频 token 的数量这样就可以在当前的计算资源限制下使用 Transformer 模型。为此他们引入了 C-ViViT这是 ViViT 的一种因果变体为视频生成进行了额外的架构更改它可以在时间和空间维度上压缩视频同时保持时间上的自回归。该功能允许生成任意长度的自回归视频。为了得到文本嵌入Phenaki 还用到了一个预训练的语言模型——T5X。具体细节请参见原论文。后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/912248.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哈尔滨网站设计哪家公司好上海贸易公司注册条件

[react] react中setState的第二个参数作用是什么呢? 第二个参数是一个callback函数,用于setState设置state的属性值成功之后的回调,此时调用this.state.property可以取到刚刚设置的最新的值 个人简介 我是歌谣,欢迎和大家一起…

住房城乡建设局网站专业制作网站电脑

ESP32-Web-Server编程-建立第一个网页 HTTP 简述 可能你每天都要刷几个短视频,打开几个网页来娱乐一番。当你打开一个网络上的视频或者图片时,其实际发生了下面的流程: 其中客户端就是你的浏览器啦,服务器就是远程一个存放视频或…

冠县网站建设多少钱网站开发手机模拟器

推荐阅读时间:8min~15min主要内容:卷积神经网络《Convolutional Neural Networks》是Andrw Ng深度学习专项课程中的第四门课。这门课主要介绍卷积神经网络(CNN)的基本概念、模型和具体应用。该门课共有4周课时,所以我将…

做影视网站须要注意什么网站上做旅游卖家要学什么软件

lambda体中有受检异常,为什么不能在lambda表达式外层try catch,只能在lambda里面try catch xxx.getUpdateList().forEach((map) ->{xxxVO vo new xxxVO();BeanUtils.populate(vo,map); // populate方法往外抛了异常list.add(vo);});因为lambda表达式本身没有处理异常的机制…

百度站长 添加网站深圳龙华邮政编码是多少

MrDoc知识文档平台是一款基于Python开发的在线文档系统,适合作为个人和中小型团队的私有云文档、云笔记和知识管理工具,致力于成为优秀的私有化在线文档部署方案。我现在主要把markdown笔记放在上面,因为平时老是需要查询一些知识点&#xff…

网站建设网页与数据库连接中国建设银行官网招聘

1,其实自来水石出来的水是干净的,但是在运输到我们家的过程中      是不排除会造成二次污染的,比如管道材料故障,小区二次加压等环节      都可能带来虫卵,铁锈,泥沙等污染物,      2,不光咱们的自来水会有这种情况,很多欧美国家的饮用水,      也都需要自己 再…

怎么做网站8uftpwordpress 安全选项

一、需要自己安装PHP和MYSQL服务器环境。 二、务必设置伪静态规则,否则将无法访问文章栏目页面。 三、启用伪静态功能,请在站点设置中选择使用thinkphp的伪静态规则。 四、在域名的根目录下找到”data/config.php”文件,填入数据库的账号和…

石家庄自适应网站建设wordpress房地产插件

通讯网关 api网关这些年来,API网关正在经历一些身份危机 。 它们是否是集中的共享资源,从而促进了API对外部实体的公开和治理? 它们是集群入口哨兵,可以严格控制哪些用户流量进入或离开集群吗? 还是他们根据自己拥有…

日志清理脚本模板 - 一叶舟

日志清理脚本模板日志清理脚本模板 cat /data_log_back_bak/move_old_logs.sh #!/bin/bash# 日志源目录和备份目录LOG_DIR="/data/logs/back" TMP_DIR="/tmp" BAK_DIR="/data_log_back_bak&q…

11.备库出现gap处理方法

备库检查是否有日志缺失: select * from v$archive_gap; THREAD# LOW_SEQUENCE# HIGH_SEQUENCE#1 99 109 从上面的信息可以看出,备库中缺失了99到109的日志。…

网站开发江西网站推广软文是什么

前言算法为王。想学好前端,先练好内功,内功不行,就算招式练的再花哨,终究成不了高手;只有内功深厚者,前端之路才会走得更远。强烈推荐 GitHub 上值得前端学习的数据结构与算法项目,包含 gif 图的…

完整教程:2020年_408统考_数据结构41题

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[原创]《C#高级GDI+实战:从零开发一个流程图》第10章:鼠标拖动完成连线、拖动时实时显示半透明虚线连线效果、自定义连接点样式

一、前言 上节课程我们实现了连接形状不同的连接点,但在实际使用中会发现很繁琐,需要分别指定开始形状和结束形状的连接点,这明显不符合操作经验逻辑。我们本节课程就来实现鼠标拖动完成连线,拖到哪个连接点就对哪…

修改Abp中Auto API Controllers中 默认生成的 Put、Delete请求

在做公家的项目,有个奇葩的规定,Http请求 不能用Put和Delete。 怎么在使用Abp,自动生成的Api,全局修改原有规则,将修改、删除都改成Post呢? 只需要,在Host项目的XXXModule类中,重写的PreConfigureServices方法…

dedecms做网站网站界面设计分析

一、文件的基本权限权限:r, w, x对于文件来讲,r::可读,可以使用类似cat等命令查看文件内容;w:可写,可以编辑或删除此文件;x:可执行,exacutable,可以命令提示符下当作命令…

博物馆网站微信公众号建设方案网站未备案 打不开

先安装MMEdu库! MMEdu安装:https://blog.csdn.net/zyl_coder/article/details/132483865 下面的代码请在Jupyter上运行,并自己准备数据集。若模型还未训练,请先在本地训练完模型后再进行模型推理。 import cv2 capture cv2.Vi…

公司和公司网站的关系男孩子和男孩子在一起怎么做网站

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 单片机家电产品–OC门电路 前言 记录学习单片机家电产品内容 已转载记录为主 一、知识点 1OC门电路和OD门电路的区别 OC门电路和OD门电路的区别 OC门:三极管…

红叶网站建设方案广州建立网站的公司网站

智能优化算法应用:基于非洲秃鹫算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于非洲秃鹫算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.非洲秃鹫算法4.实验参数设定5.算法结果6.…

传媒免费网站建设易语言做网站教程

随着人工智能技术不断深入实际应用场景,加速各行各业场景应用落地,边缘计算的重要性越发凸显。相较于传统的集中式云计算,边缘计算在距离数据源或用户更近的地方提供计算能力,不仅满足了对实时性要求较高的场景应用需求&#xff0…

免费创建企业网站阿里云 两个网站

1,将一个字符串转换为整数 在C语言中,可以使用库函数 atoi() 将字符串转换为整数。 atoi() 函数接受一个字符串作为参数,并返回其对应的整数。 以下是一个示例代码,演示如何使用 atoi() 函数将字符串转换为整数: #i…