人工智能专题: Sora,世界模拟器的视频生成器

今天分享的是人工智能系列深度研究报告:《人工智能专题: Sora,世界模拟器的视频生成器》。

(报告出品方:华泰证券

报告共计:16

来源:人工智能学派

Sora 能做什么?60s 文生视频功能惊艳,可以理解和模拟真实世界

根据 OpenAI 官方介绍,目前 Sora 具备生成包括多个角色、特定类型的运动、准确细节的 主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得 生成的视频更加生动。此外,由于 OpenAI 将扩散模型与 LLM 相结合,使得 Sora 具备了 理解和模拟真实世界的能力,因此 Sora 所生成的视频中已经可以展现出空间以及空间内物 体之间的真实物理关系。目前 Sora 除了文生视频功能外,还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能,具体功能如下:

文生视频:基于用户的自然语言描述准确地生成相应视频内容。以 OpenAI 官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和 生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。 她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的 镜面效果,许多行人来来往往。”输出作品参考下图。

图生视频:基于用户提供的参考图片及文本指令,衍生出视频内容。

视频扩展:Sora 具备了能够将视频沿着时间线向过去或未来扩展的功能。即从一个生成视频的片段出发,向时间的倒退或前进方向进行延伸,从而生成视频的开头或结尾部分。

视频拼接:用户可以使用 Sora 在两个输入视频之间逐渐进行插入补充视频,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

视频编辑:Sora 可以将用户输入的基础视频,基于用户的文本指令,在零样本的情况下改变原视频的风格、环境、拍摄手法等。

图像生成:根据给出的文本提示,Sora 可通过将高斯噪点的补丁安排在一个空间网格中, 时间维度设为单一帧,进而生成不同尺寸的图像,分辨率最高可达 2048x2048。例如下列图片的提示词为“一个女人在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深 的应用使得主体脱颖而出”,“充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物”。

Sora 有何优势?视频质量优势显著,突破视频时长及镜头切换限制

Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI 文生视频工具,Sora 除了拥有视频向前扩展、视频拼接等功能外,还可以通过多镜头等方 式生成相较于其他 AI 文生视频工具更加复杂的视频,同时在时长、流畅度以及逻辑性方面 表现出了显著的优势,并且初步具备了理解和模拟真实物理世界的能力。OpenAI 认为,视 频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运 动中的物理世界,迈向了一个新的高度。Sora 的发布也意味着 AGI 有望加速到来,是 AGI 实现过程里的重大里程碑事件,而不仅仅只是视频生成。Sora 具体优势如下:

突破视频时长及镜头切换限制:由于受到 AI 算法和学习能力的限制,RunWay、Pika 等之 前的头部 AI 文生视频工具,无法完成镜头切换后的衔接,因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换,还能生成 60 秒的 超长视频。

更加自由的视频尺寸:基于 OpenAI 公布的 Sora 技术报告,Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2,仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。

背景角色稳定:过往的 AI 文生视频工具通常会出现背景角色不稳定的情况,即在背景中有 许多的人或动物的情况下,画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中 也得到了改善,以“东京漫步的女士”视频为例,在 Runway 中输入同样的提示词后,背 景人物会做出一些怪异的走路姿势,而 Sora 视频中背景角色表现非常稳定。

理解和模拟真实世界:由于 Sora 初步具备了理解和模拟真实世界的能力,因此 Sora 生成 的视频通常具备一些新兴特征,主要包括 3D 一致性、物体持久性、模拟物理交互等,这些 特征也使得 Sora 生成的视频更加的生动、逼真。

报告共计:16页

来源:人工智能学派

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苍穹外卖——第一天nginx

放到全是英文路径的打不开 到安装路径进入cmd,输入nginx -t nginx: the configuration file E:\Astudy\nginx-1.20.2/conf/nginx.conf syntax is ok nginx: [emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forbid…

Fiddler工具 — 18.Fiddler抓包HTTPS请求(一)

1、Fiddler抓取HTTPS过程 第一步:Fiddler截获客户端发送给服务器的HTTPS请求,Fiddler伪装成客户端向服务器发送请求进行握手 。 第二步:服务器发回相应,Fiddler获取到服务器的CA证书, 用根证书(这里的根证…

c# Contains方法-检查集合中是否包含指定的元素

Contains 是 .NET 集合框架中许多集合类&#xff08;如 List、Array、HashSet 等&#xff09;提供的一种方法&#xff0c;用于检查集合中是否包含指定的元素。对于 List<int> 类型&#xff0c;Contains 方法会遍历列表中的所有元素&#xff0c;并判断传入的方法参数是否存…

UI自动化之使用poco进行元素的唯一定位

直接选择&#xff1a; 1.poco(text买入).click() 2.poco("android.widget.ImageView").click()相对选择、空间选择&#xff1a; 3.poco(text/name).parent().child()[0].click()正则表达式&#xff1a; 4.listpoco(textMatches".*ETF")今天主要想记录下…

c编译器学习05:与chibicc类似的minilisp编译器(待续)

minilisp项目介绍 项目地址&#xff1a;https://github.com/rui314/minilisp 作者也是rui314&#xff0c;commits也是按照模块开发提交的。 minilisp只有一个代码文件&#xff1a;https://github.com/rui314/minilisp/blob/master/minilisp.c 加注释也只有996行。 代码结构&a…

《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_5

《剑指Offer》笔记&题解&思路&技巧&优化_Part_5 &#x1f60d;&#x1f60d;&#x1f60d; 相知&#x1f64c;&#x1f64c;&#x1f64c; 相识&#x1f622;&#x1f622;&#x1f622; 开始刷题&#x1f7e2;1. LCR 158. 库存管理 II——数组中出现次数超过一…

vue.js前端框架应用案例

Vue.js 是一种流行的前端框架&#xff0c;它可以帮助开发者构建单页应用&#xff08;SPA&#xff09;和复杂的用户界面。以下是几个 Vue.js 的案例&#xff0c;涵盖了不同领域的应用&#xff1a; Vue.js 官方文档&#xff1a;Vue.js 的官方文档本身就是一个使用 Vue.js 构建的…

SQL数据库基础语法-增删改

SQL数据库基础语法-增删改 数据库是 ​ “按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 GeekSec专注技能竞赛培训5年&#xff0c;包含网络建设与运维和信息安全管理与评估两大赛项&#xff0c;…

synchronized原理Callable接口

synchronized原理 特点 1.synchronized既是一个悲观锁,又是个乐观锁&#xff0c;自适应的&#xff01; synchronized默认是乐观锁,但是如果发现锁竞争比较激烈,就会变成悲观锁!!2.synchronized既是轻量级锁,又是一个重量级锁,自适应&#xff01; synchronized默认是轻量…

字符串算法(算法竞赛)--最小表示法与最详细的字符串哈希

1、B站视频链接&#xff1a;F01 最小表示法_哔哩哔哩_bilibili 题目链接&#xff1a;【模板】最小表示法 - 洛谷 #include <bits/stdc.h> using namespace std; const int N7e5; int n; int s[N];int get_min(){for(int i1;i<n;i)s[ni]s[i];//字符串复制一倍int i1,j…

png图片转换tif图片格式(只有目标和背景两种颜色)

在这里以红色目标为例子&#xff0c;我的背景里面有很多颜色&#xff0c;但是我只想要红色的目标部分 &#xff08;注&#xff1a;这里的程序是将图片中的红色目标提取出来&#xff0c;其余背景全是黑色&#xff0c;如果想要其他颜色&#xff0c;请根据阈值自行修改&#xff09…

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。…

辽宁博学优晨教育科技有限公司视频剪辑培训靠谱吗?

在数字媒体日益繁荣的今天&#xff0c;视频剪辑已成为一项炙手可热的技能。不少培训机构纷纷涉足这一领域&#xff0c;辽宁博学优晨教育科技有限公司便是其中之一。然而&#xff0c;面对众多的选择&#xff0c;很多人不禁要问&#xff1a;辽宁博学优晨教育科技有限公司的视频剪…

android密集架移动动画效果开发

机缘 因公司需要开发密集架相关项目,涉及相关项目需求设计,市场上并未有相关动画效果流出,基于设计开发相关需求 多列密集架情况: 密集架固定列在最左侧密集架固定列在最右侧密集架固定列在最中间收获 最终完成初步效果 实例展示: android密集架移动效果 部分核心代码…

【深度学习每日小知识】交并集 (IoU)

交并集 (IOU) 是一种性能指标&#xff0c;用于评估注释、分割和对象检测算法的准确性。它量化数据集中的预测边界框或分段区域与地面实况边界框或注释区域之间的重叠。 IOU 提供了预测对象与实际对象注释的对齐程度的衡量标准&#xff0c;从而可以评估模型准确性并微调算法以改…

睿易售前初级课程Y1.1易网络易网关-2023练习题答案

1、某家庭场景,四室一厅,业主追求高画质影视观看,拉了千兆带宽,我们可以给他推荐哪款网关? A、EG105G-P B、EG210G-P C、EG105G-P-E D、EG105GW C 2、EG205G V2中“V2”代表千兆及以上版本。 A、正确 B、错误 B 3、以下产品中哪些是无线网关?【多选题】 A、EG205GW…

中科大计网学习记录笔记(十四):多路复用与解复用 | 无连接传输:UDP

前言&#xff1a; 学习视频&#xff1a;中科大郑烇、杨坚全套《计算机网络&#xff08;自顶向下方法 第7版&#xff0c;James F.Kurose&#xff0c;Keith W.Ross&#xff09;》课程 该视频是B站非常著名的计网学习视频&#xff0c;但相信很多朋友和我一样在听完前面的部分发现信…

人形机器人专题:传感器,人形机器人实现“具身感知”的关键

今天分享的是人形机器人系列深度研究报告&#xff1a;《人形机器人专题&#xff1a;传感器&#xff0c;人形机器人实现“具身感知”的关键》。 &#xff08;报告出品方&#xff1a;浙商证券股份有限公司&#xff09; 报告共计&#xff1a;44页 来源&#xff1a;人工智能学派…

大模型量化方法总结

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

TCP/IP 三次握手四次挥手详解,以及异常状态分析

目录 1.TCP/IP 三次握手TCP/IP 三次握手过程为什么是三次握手&#xff1f;半连接队列和全连接队列ISN(initial sequence number)是否是固定的吗&#xff1f;三次握手过程能携带数据&#xff1f;SYN 攻击 TCP/IP 四次挥手TCP/IP 四次挥手过程为什么是 2MSL 时间才进入到 close 状…