宝玉:Sora 如何改变我们的生活

以下是宝玉老师接受有关Sora采访以及整理脱水的文字稿,非常值得阅读。

很荣幸受王又又邀请,今天和她以及《宇宙探索编辑部》副导演吕启洋(Ash)一起聊聊了一下当前火爆的话题 Sora,看 Sora 如何改变我们的生活。

我把技术相关的一些问题整理成了文字,希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类:

  1. Sora 的技术科普
  2. Sora 产品相关问题
  3. Sora 的价值和应用
  4. Sora 有关的八卦闲聊

注意,这里的回答都是我个人的观点,一部分也借鉴了大家在帖子中讨论的结果,很多答案不一定准确,仅供参考。也欢迎指正其中错误或者提出不同观点。

Sora 的技术科普

Sora 是什么?能干什么?

简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。

Sora 跟之前的 AI 视频生成工具有什么升级?跟市面上其他的例如 Runway、Pika、SVD 这些 AI 视频生成工具有什么区别?

"之所以 Sora 引发极大关注,主要在于它生成视频质量要比之前的高很多,不仅时间最长能到 60 秒,而且它可以支持镜头切换、画面人物和背景稳定、很高画质。

Pika 是基于 Diffusion 模型,把图片和视频训练成毫无意义的马赛克图片,再从空白马赛克图片能反向扩散生成图片和视频,有两种主要模式,一种是基于图片关键帧扩展成视频,例如已有视频的风格变换;一种是对视频的训练,但是由于显卡限制,只能一次训练特定分辨率的几秒视频,一次也只能生成几秒钟的视频。

LLM、ChatGPT 是 Transformer 模型,预测 Token 生成文本内容,Token 可以理解为字和词。

Sora 则是基于 Diffusion Transformer 模型,结合了扩散模型和 Transformer 模型,不过它是预测生成的不是文本 Token,而是“时空补丁(spacetime patches) ”,可以理解为一个几帧(一秒不到)的视频的一个小块。

主要优势是训练的时候不受视频和显卡约束,生成的时候也更加多样,可以灵活组合时空补丁。"

使用成本:现在可以生成 60 秒视频,60 秒视频的成本是多少?对算力有什么要求?

现在"DALL-E 3 HD Image 价格 $0.08;Runway Gen-2 价格是$0.05/秒。

Sora 没有公布相关数据,纯猜测:Sora 的推理大约需要 ~8xA100,生成视频预估一秒一分钟,半小时成本约 ~$10"

有可能可以生成音乐(音频)么?如果不行难点在哪?

未来应该是可以的,现在没有是因为:

  • 需要根据视频中的环境、物体类型、物体之间的碰撞、所在位置发出不同的声音
  • 需要多种声源叠加
  • 音乐不仅要质量高,还需要和视频中的场景融合
  • 人物对白需要和人物的位置、口型、表情对齐

Sora 产品相关问题

是否需要建模还是通过其他方式使用?什么时候能落地商用?

不需要本地搭建,预计会提供两种方式:ChatGPT 集成、API 调用;但生成视频的成本偏高、耗时也比较长;可能会限制次数或者提供更高一档的订阅。

预计三个月到半年内会逐步放开。

在不同的时间使用相同的要求语,会生成相同的视频吗?能支持后续微调修改或者输入更确定的边界条件生成么?当前模型架构有能力支持这些么?

同样的提示词每次都不会相同,但是 seed 相同应该可以做到相似;

Sora 支持图片生成视频和视频生成视频,但人物是否可以做到一致还需要产品发布后才能下结论。

什么时候可以生成更长时间的视频,比如 30 分钟、60 分钟甚至更长?

生成视频时间越长对显存要求越高,但是按照现在技术发展的速度,乐观估计 1 年后应该可以到 5-10 分钟,30 分钟 60 分钟预计在 3-5 年的时间。

生成视频的版权归谁?

根据图片生成的规则来推测,应该是归创作者所有,但是生成的作品本身不能侵权。

虚拟 vs 现实:如何判断那些视频是拍的?哪些是 Sora 做的?以后还有啥会是真的呢?深度伪造问题:会不会更容易被诈骗,如何反诈?

现在的视频都有水印,未来应该会有检测工具。

另外仔细看是能看出视频中不符合逻辑的地方,例如蚂蚁只有 4 条腿,人的手会变形等等。

我们其实早已经历过:照片不是真的、电视不是真的、电影不是真的,人民群众的鉴别水平也会同步提升。

伪造和鉴别伪造是长期攻防战。

Sora 接下来的发展前景演进趋势?

  1. 成本降低(更快更便宜);
  2. 质量提升(时长、画质、镜头切换、一致性、符合物理规律);
  3. 新的能力:声音、和 GPT 的融合,完全的多模态;

能不能用来做动画片?

短片完全没问题,复杂场景和更长时间的还不行,未来可期。

Sora 的价值和应用

Sora 有哪些应用场景?实用性有多大?商业应用价值?

我从四个方面总结了 Sora 的价值和应用:

  1. 首先它能放大了普通人的表达能力,张小龙说汽车是双腿的延伸,ChatGPT 就是双手的延伸,Sora 就是我们表达的综合延伸,也就是传说中的“嘴替”

这意味着我们可以更好的来表达自己的想法,不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力,甚至是演讲能力。

  1. Sora 是一种低成本的视频工具

Sora 将极大的降低了视频制作的成本,这意味着更多的人可以用更低的成本来制作视频,这对于视频创作者来说是一个很大的利好。

  1. 新的人机交互方式,动态生成视频

Sora 已经演示了生成我的世界这样游戏的能力,也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外,我们也可以让 Sora 动态对新闻、文章生成视频,而不需要去阅读。

  1. 情感上的寄托

生成已故亲人的视频,保留他们的记忆。数字伴侣。

Sora 赚钱逻辑在哪里?

取决于围绕 Sora 创造的价值:

  • 情感价值:卖课缓解焦虑、提供娱乐、情感寄托
  • 艺术价值:微电影
  • 内容价值:小说二创、卖素材、教学、讲故事、游戏生成、广告
  • 生态价值:Prompt、更加易用小工具、绕过限制
  • 降本增效:快速 MVP 验证想法、广告、电商、电影分镜

普通人怎么用好?如何利用 Sora 做点副业?

  • 用起来,学会怎么用,知道它能做什么,边界在哪里
  • 选一个适合自己的方向,提前准备好相关素材或者开发项目
  • 技术人员可以准备开始筹备产品、工具:收集 Prompt、基于 API 二次开发

Sora 有关的八卦闲聊

名字真的是起源于天元突破的 op 空色デイズ吗?

我倾向于是。

现在的热度是 (为了融资、股价) 的概念炒作?还是真实有用的?

真实有用,可以马上应用到短视频,例如 OpenAI 在 Tiktok 的账号,视频以假乱真

您在网上看到或者听说的一些比较夸张脱离实际的说法?

"Sora"关键原材料之—马来酰亚胺树脂来自于四川绵阳一家公司。
Sora 懂物理
Sora 连接了游戏引擎
Sora 是 AGI 的关键里程碑,几年内就能实现 AGI

在全球顶尖公司之间 Sora 的竞争力如何?中国在这个领域的发展情况?在中国做这个的公司有哪些?中国和欧美的差距在哪里?

OpenAI 已经投入了一年多,领先业界半年到一年,甚至更多,具体体现在:

  • 技术的领先,目前技术还没公开,其他公司要破解需要时间
  • 大模型的优势,他们有最先进的模型可以帮助训练,例如自动生成高质量的视频标注
    中国应该很快能追赶上——人才、数据、算力都有,但是只有少数大厂才有机会,对人才、数据、算力要求都太高

目前不清楚是否中国公司已经有做这个方向的,但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累

中国和欧美的差距主要在于对 AI 技术方向上的把握,但这也不仅仅是中国的问题,目前全世界所有其他公司都跟随 OpenAI 的步伐;另外就是算力上还不能完全自给自足。

新一次产业革命?有网友指出,短短几年内,被追捧的高热度“划时代”技术有 web3、区块链、元宇宙、谷歌眼镜、波士顿机器人、vision pro、chatgpt 等等,这次确认要再次划时代了吗?

看怎么定义吧,从文本生成视频领域来说,一定是划时代的!真正的文本生成视频领域的 GPT 时刻。

  • ChatGPT 文本生成
  • Stable Diffusion、MIdJourney、DALL-E 图像生成
  • Sora 文本生成视频

Sora 在硅谷的体感热度?在业内的真实反响?目前 AI 视频生成赛道的创业者、投资者们心态如何,将会如何应对?

  • 反响热烈,正面评价居多
  • 预计 Diffusion 方向会比较难拿到投资
  • 创业者需要重新考虑方向,例如视频编辑、转向基于 Sora 的接口开发应用

跟芯片有什么关系?

未来几年视频生成会继续热门,继续需要大量的算力,也就是需要大量的显卡,但未来显卡应该不会只有 NVIDIA 一家独大,应该会有更多的公司参与进来,这样的话,显卡的供应会更充足,价格会更加合理,性能也会更高。

总结

以上就是今天访谈的主要内容,完整的视频地址在:https://weibo.com/6498373231/O1E3dzFky

另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖,很多观点(例如 Sora 生成亲人视频)确实是我之前没有想到的,这也算是将大家讨论的内容的一个总结。谢谢各位的参与!

X 讨论帖:https://twitter.com/dotey/status/1759861034708251116
微博讨论帖:https://weibo.com/1727858283/O1tUdnbt8

本文同步发布于:https://baoyu.io/blog/ai/will-sora-change-our-life

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/698680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

web前端安全性——XSS跨站脚本攻击

前端Web安全主要涉及保护Web应用程序免受恶意攻击和滥用的过程。攻击者可能会利用Web漏洞来窃取敏感信息、执行未经授权的操作或破坏应用程序。作为前端工程师我们应该了解前端攻击的漏洞有哪些,采用什么方法解决。 跨站脚本攻击(XSS) 1、概…

Object和Function是函数,函数都有一个prototype属性

Object 和 Function 都是 JavaScript 自带的函数对象 在 JavaScript 中,万物皆对象,你要一个吗?new Object() 啊! 当然,就好比同样为人,也区分普通人和天才。 对象也是有分类的,分为 普通对象…

员工离职倾向分析工具

很多公司都担心员工离职,尤其是工龄久的老员工,为什么呢? 很多离职员工带走上家机密,还有的辞职后开公司成为了上家企业的对手公司等等,这类事件非常常见,因此员工离职是一个敏感的话题。 员工离职的原因 …

基于springboot+vue的植物健康系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

C语言作用域2.0

作用域的临时掩盖 如果有多个不同的作用域相互嵌套,那么小范围的作用域会临时 “遮蔽” 大范围的作用域中的同名标识符,被 “遮蔽” 的标识符不会消失,只是临时失去可见性。 示例代码: int a 100;// 函数代码块1 int main(voi…

力扣随笔之两数之和 Ⅱ -输入有序数组(中等167)

思路:在递增数组中找出满足相加之和等于目标数 定义左右两个指针(下标)从数组两边开始遍历,若左右指针所指数字之和大于目标数,则将右指针自减,若左右指针所指数字之和小于目标数,则左指针自加&…

2.23数据与结构算法学习日记(贪心)

洛谷P1109 学生分组 题目描述 有 n 组学生,给出初始时每组中的学生个数,再给出每组学生人数的上界 R 和下界 L (L≤R),每次你可以在某组中选出一个学生把他安排到另外一组中,问最少要多少次才可以使 N 组学生的人数都在 [L,R] 中…

大项目中,某个cpp文件读取所在包路径的方法

在一个比较大的C项目中,我们有很多包,每个包都有一个自己的src、include、CMakeLists.txt和其它文件,比如以下文件结构: project- pkg1- datas- data.json- src- xxx1.cpp- include- xxx1.h - CMakeLists.txt- pkg2- src- xxx2.…

为什么vue3内不使用this

在 Vue 3 中,this 的使用受到了限制,主要是因为在 Vue 3 中引入了 Composition API,它提供了一种更灵活、更可组合的方式来组织和管理组件的逻辑。在 Composition API 中,不再使用传统的选项(如 data、methods、comput…

前端(vue)数据存储方案

引言 本需求文档旨在明确前端项目中的数据存储需求,包括数据类型、数据结构、数据交互方式等。它定义了前端项目中需要存储和处理的数据,以及对这些数据进行访问和操作的要求。 功能需求 数据存储按数据类型分为 持久存储、内存存储(响应式…

AD24-蛇形走线

一、单端蛇形走线 1、公差参数 2、布线-网络等长调节 3、参数说明 ①手工输入绕线的长度 ②参照个网络的长度绕线 ③按照自身设置的规绕线(一般选用) 4、调节 5、最后 二、差分蛇形走线 1、布线-差分对网络等长调节 2、如在选中的时候出现问题,按CtrlD…

273.【华为OD机试真题】园区参观路径(动态规划-JavaPythonC++JS实现)

🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目-园区参观路径二.解题思路三.题解代码Python题解…

Linux学习方法-框架学习法——Linux应用程序编程框架

配套视频学习链接:https://www.bilibili.com/video/BV1HE411w7by?p4&vd_sourced488bc722b90657aaa06a1e8647eddfc 目录 Linux应用程序编程 Linux应用程序编程 Linux文件I/O(input/output) Linux文件I/O(五种I/O模型) Linux多进程 Linux多线程 网络通信(s…

集合、List、Set、Map、Collections、queue、deque

概述 相同类型的数据进行统一管理操作,使用数据结构、链表结构,二叉树 分类:Collection、Map、Iterator 集合框架 List接口 有序的Collection接口,可以对列表中的每一个元u尿素的插入位置进行精确的控制,用户可以根…

k8s之nodelocaldns与CoreDNS组件

在 Kubernetes 集群中,通常是先通过 NodeLocal DNS Cache 进行域名解析,如果 NodeLocal DNS Cache 没有找到对应的域名解析结果,才会向 CoreDNS 发起请求。在部署层面上看nodelocaldns会在每个节点上运行一个 DNS 缓存服务,而Core…

Qt事件过滤器

1. 事件过滤器 void QObject::installEventFilter(QObject *filterObj) bool eventFilter(QObject *obj, QEvent *event); filterObj表示事件筛选器对象,它接收发送到此QObject对象(安装事件过滤器的部件对象)的所有事件。筛选器可以停止事件…

SpringCloud-Gateway解决跨域问题

Spring Cloud Gateway是一个基于Spring Framework的微服务网关,用于构建可扩展的分布式系统。在处理跨域问题时,可以通过配置网关来实现跨域资源共享(CORS)。要解决跨域问题,首先需要在网关的配置文件中添加相关的跨域…

Qt应用软件【协议篇】websocket的介绍和代码示例

WebSocket简介 WebSocket是一种网络通信协议,它使得浏览器(客户端)和服务器之间的通信变得更加高效和实时。这种技术特别适用于需要快速、双向交换数据的应用,比如实时聊天应用、在线游戏、实时股票交易平台等。WebSocket协议在2011年被标准化(RFC 6455),它旨在通过一个…

Spring Boot 常用注解大全

以下是Spring Boot中常用的注解及其详细解释以及相应的代码示例: SpringBootApplication: 这个注解用于标识一个Spring Boot应用的主类。它整合了 Configuration,EnableAutoConfiguration 和 ComponentScan。 SpringBootApplication public class Demo…

(六)激光线扫描-三维重建

本篇文章是《激光线扫描-三维重建》系列的最后一篇。 1. 基础理论 1.1 光平面 在之前光平面标定的文章中,已经提到过了,是指 激光发射器投射出一条线,形成的一个扇形区域平面就是光平面。 三维空间中平面的公式是: A X + B Y + C Z + D = 0 A X+B Y+C Z+D=0