宝玉：Sora 如何改变我们的生活

宝玉：Sora 如何改变我们的生活

news/2026/1/9 17:58:13/文章来源:https://blog.csdn.net/weixin_45264425/article/details/136264497

以下是宝玉老师接受有关Sora采访以及整理脱水的文字稿，非常值得阅读。

很荣幸受王又又邀请，今天和她以及《宇宙探索编辑部》副导演吕启洋（Ash）一起聊聊了一下当前火爆的话题 Sora，看 Sora 如何改变我们的生活。

我把技术相关的一些问题整理成了文字，希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类：

Sora 的技术科普
Sora 产品相关问题
Sora 的价值和应用
Sora 有关的八卦闲聊

注意，这里的回答都是我个人的观点，一部分也借鉴了大家在帖子中讨论的结果，很多答案不一定准确，仅供参考。也欢迎指正其中错误或者提出不同观点。

Sora 的技术科普

Sora 是什么？能干什么？

简单来说，Sora 是一种能用文本生成最长 60 秒视频的技术，也可以用来生成图片，因为图片本质上是一帧的视频。

Sora 跟之前的 AI 视频生成工具有什么升级？跟市面上其他的例如 Runway、Pika、SVD 这些 AI 视频生成工具有什么区别？

"之所以 Sora 引发极大关注，主要在于它生成视频质量要比之前的高很多，不仅时间最长能到 60 秒，而且它可以支持镜头切换、画面人物和背景稳定、很高画质。

Pika 是基于 Diffusion 模型，把图片和视频训练成毫无意义的马赛克图片，再从空白马赛克图片能反向扩散生成图片和视频，有两种主要模式，一种是基于图片关键帧扩展成视频，例如已有视频的风格变换；一种是对视频的训练，但是由于显卡限制，只能一次训练特定分辨率的几秒视频，一次也只能生成几秒钟的视频。

LLM、ChatGPT 是 Transformer 模型，预测 Token 生成文本内容，Token 可以理解为字和词。

Sora 则是基于 Diffusion Transformer 模型，结合了扩散模型和 Transformer 模型，不过它是预测生成的不是文本 Token，而是“时空补丁（spacetime patches） ”，可以理解为一个几帧（一秒不到）的视频的一个小块。

主要优势是训练的时候不受视频和显卡约束，生成的时候也更加多样，可以灵活组合时空补丁。"

使用成本：现在可以生成 60 秒视频，60 秒视频的成本是多少？对算力有什么要求？

现在"DALL-E 3 HD Image 价格 $0.08；Runway Gen-2 价格是$0.05/秒。

Sora 没有公布相关数据，纯猜测：Sora 的推理大约需要 ~8xA100，生成视频预估一秒一分钟，半小时成本约 ~$10"

有可能可以生成音乐（音频）么？如果不行难点在哪？

未来应该是可以的，现在没有是因为：

需要根据视频中的环境、物体类型、物体之间的碰撞、所在位置发出不同的声音
需要多种声源叠加
音乐不仅要质量高，还需要和视频中的场景融合
人物对白需要和人物的位置、口型、表情对齐

Sora 产品相关问题

是否需要建模还是通过其他方式使用？什么时候能落地商用？

不需要本地搭建，预计会提供两种方式：ChatGPT 集成、API 调用；但生成视频的成本偏高、耗时也比较长；可能会限制次数或者提供更高一档的订阅。

预计三个月到半年内会逐步放开。

在不同的时间使用相同的要求语，会生成相同的视频吗？能支持后续微调修改或者输入更确定的边界条件生成么？当前模型架构有能力支持这些么？

同样的提示词每次都不会相同，但是 seed 相同应该可以做到相似；

Sora 支持图片生成视频和视频生成视频，但人物是否可以做到一致还需要产品发布后才能下结论。

什么时候可以生成更长时间的视频，比如 30 分钟、60 分钟甚至更长？

生成视频时间越长对显存要求越高，但是按照现在技术发展的速度，乐观估计 1 年后应该可以到 5-10 分钟，30 分钟 60 分钟预计在 3-5 年的时间。

生成视频的版权归谁？

根据图片生成的规则来推测，应该是归创作者所有，但是生成的作品本身不能侵权。

虚拟 vs 现实：如何判断那些视频是拍的？哪些是 Sora 做的？以后还有啥会是真的呢？深度伪造问题：会不会更容易被诈骗，如何反诈？

现在的视频都有水印，未来应该会有检测工具。

另外仔细看是能看出视频中不符合逻辑的地方，例如蚂蚁只有 4 条腿，人的手会变形等等。

我们其实早已经历过：照片不是真的、电视不是真的、电影不是真的，人民群众的鉴别水平也会同步提升。

伪造和鉴别伪造是长期攻防战。

Sora 接下来的发展前景演进趋势？

成本降低（更快更便宜）；
质量提升（时长、画质、镜头切换、一致性、符合物理规律）；
新的能力：声音、和 GPT 的融合，完全的多模态；

能不能用来做动画片？

短片完全没问题，复杂场景和更长时间的还不行，未来可期。

Sora 的价值和应用

Sora 有哪些应用场景？实用性有多大？商业应用价值？

我从四个方面总结了 Sora 的价值和应用：

首先它能放大了普通人的表达能力，张小龙说汽车是双腿的延伸，ChatGPT 就是双手的延伸，Sora 就是我们表达的综合延伸，也就是传说中的“嘴替”

这意味着我们可以更好的来表达自己的想法，不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力，甚至是演讲能力。

Sora 是一种低成本的视频工具

Sora 将极大的降低了视频制作的成本，这意味着更多的人可以用更低的成本来制作视频，这对于视频创作者来说是一个很大的利好。

新的人机交互方式，动态生成视频

Sora 已经演示了生成我的世界这样游戏的能力，也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外，我们也可以让 Sora 动态对新闻、文章生成视频，而不需要去阅读。

情感上的寄托

生成已故亲人的视频，保留他们的记忆。数字伴侣。

Sora 赚钱逻辑在哪里？

取决于围绕 Sora 创造的价值：

情感价值：卖课缓解焦虑、提供娱乐、情感寄托
艺术价值：微电影
内容价值：小说二创、卖素材、教学、讲故事、游戏生成、广告
生态价值：Prompt、更加易用小工具、绕过限制
降本增效：快速 MVP 验证想法、广告、电商、电影分镜

普通人怎么用好？如何利用 Sora 做点副业？

用起来，学会怎么用，知道它能做什么，边界在哪里
选一个适合自己的方向，提前准备好相关素材或者开发项目
技术人员可以准备开始筹备产品、工具：收集 Prompt、基于 API 二次开发

Sora 有关的八卦闲聊

名字真的是起源于天元突破的 op 空色デイズ吗？

我倾向于是。

现在的热度是 (为了融资、股价) 的概念炒作？还是真实有用的？

真实有用，可以马上应用到短视频，例如 OpenAI 在 Tiktok 的账号，视频以假乱真

您在网上看到或者听说的一些比较夸张脱离实际的说法？

"Sora"关键原材料之—马来酰亚胺树脂来自于四川绵阳一家公司。
Sora 懂物理
Sora 连接了游戏引擎
Sora 是 AGI 的关键里程碑，几年内就能实现 AGI

在全球顶尖公司之间 Sora 的竞争力如何？中国在这个领域的发展情况？在中国做这个的公司有哪些？中国和欧美的差距在哪里？

OpenAI 已经投入了一年多，领先业界半年到一年，甚至更多，具体体现在：

技术的领先，目前技术还没公开，其他公司要破解需要时间
大模型的优势，他们有最先进的模型可以帮助训练，例如自动生成高质量的视频标注
中国应该很快能追赶上——人才、数据、算力都有，但是只有少数大厂才有机会，对人才、数据、算力要求都太高

目前不清楚是否中国公司已经有做这个方向的，但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累

中国和欧美的差距主要在于对 AI 技术方向上的把握，但这也不仅仅是中国的问题，目前全世界所有其他公司都跟随 OpenAI 的步伐；另外就是算力上还不能完全自给自足。

新一次产业革命？有网友指出，短短几年内，被追捧的高热度“划时代”技术有 web3、区块链、元宇宙、谷歌眼镜、波士顿机器人、vision pro、chatgpt 等等，这次确认要再次划时代了吗？

看怎么定义吧，从文本生成视频领域来说，一定是划时代的！真正的文本生成视频领域的 GPT 时刻。

ChatGPT 文本生成
Stable Diffusion、MIdJourney、DALL-E 图像生成
Sora 文本生成视频

Sora 在硅谷的体感热度？在业内的真实反响？目前 AI 视频生成赛道的创业者、投资者们心态如何，将会如何应对？

反响热烈，正面评价居多
预计 Diffusion 方向会比较难拿到投资
创业者需要重新考虑方向，例如视频编辑、转向基于 Sora 的接口开发应用

跟芯片有什么关系？

未来几年视频生成会继续热门，继续需要大量的算力，也就是需要大量的显卡，但未来显卡应该不会只有 NVIDIA 一家独大，应该会有更多的公司参与进来，这样的话，显卡的供应会更充足，价格会更加合理，性能也会更高。

总结

以上就是今天访谈的主要内容，完整的视频地址在：https://weibo.com/6498373231/O1E3dzFky

另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖，很多观点（例如 Sora 生成亲人视频）确实是我之前没有想到的，这也算是将大家讨论的内容的一个总结。谢谢各位的参与！

X 讨论帖：https://twitter.com/dotey/status/1759861034708251116
微博讨论帖：https://weibo.com/1727858283/O1tUdnbt8

本文同步发布于：https://baoyu.io/blog/ai/will-sora-change-our-life

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/698680.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

web前端安全性——XSS跨站脚本攻击

web前端安全性——XSS跨站脚本攻击

前端Web安全主要涉及保护Web应用程序免受恶意攻击和滥用的过程。攻击者可能会利用Web漏洞来窃取敏感信息、执行未经授权的操作或破坏应用程序。作为前端工程师我们应该了解前端攻击的漏洞有哪些，采用什么方法解决。跨站脚本攻击（XSS） 1、概…

阅读更多...

Object和Function是函数，函数都有一个prototype属性

Object和Function是函数，函数都有一个prototype属性

Object 和 Function 都是 JavaScript 自带的函数对象在 JavaScript 中，万物皆对象，你要一个吗？new Object() 啊！ 当然，就好比同样为人，也区分普通人和天才。对象也是有分类的，分为普通对象…

阅读更多...

员工离职倾向分析工具

员工离职倾向分析工具

很多公司都担心员工离职，尤其是工龄久的老员工，为什么呢？ 很多离职员工带走上家机密，还有的辞职后开公司成为了上家企业的对手公司等等，这类事件非常常见，因此员工离职是一个敏感的话题。员工离职的原因 …

阅读更多...

基于springboot+vue的植物健康系统(前后端分离)

基于springboot+vue的植物健康系统(前后端分离)

博主主页：猫头鹰源码博主简介：Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战，欢迎高校老师\讲师\同行交流合作主要内容：毕业设计(Javaweb项目|小程序|Pyt…

阅读更多...

C语言作用域2.0

C语言作用域2.0

作用域的临时掩盖如果有多个不同的作用域相互嵌套，那么小范围的作用域会临时 “遮蔽” 大范围的作用域中的同名标识符，被 “遮蔽” 的标识符不会消失，只是临时失去可见性。示例代码： int a 100;// 函数代码块1 int main(voi…

阅读更多...

力扣随笔之两数之和 Ⅱ -输入有序数组（中等167）

力扣随笔之两数之和 Ⅱ -输入有序数组（中等167）

思路：在递增数组中找出满足相加之和等于目标数定义左右两个指针（下标）从数组两边开始遍历，若左右指针所指数字之和大于目标数，则将右指针自减，若左右指针所指数字之和小于目标数，则左指针自加&…

阅读更多...

2.23数据与结构算法学习日记（贪心）

2.23数据与结构算法学习日记（贪心）

洛谷P1109 学生分组题目描述有 n 组学生，给出初始时每组中的学生个数，再给出每组学生人数的上界 R 和下界 L (L≤R)，每次你可以在某组中选出一个学生把他安排到另外一组中，问最少要多少次才可以使 N 组学生的人数都在 [L,R] 中…

阅读更多...

大项目中，某个cpp文件读取所在包路径的方法

大项目中，某个cpp文件读取所在包路径的方法

在一个比较大的C项目中，我们有很多包，每个包都有一个自己的src、include、CMakeLists.txt和其它文件，比如以下文件结构： project- pkg1- datas- data.json- src- xxx1.cpp- include- xxx1.h - CMakeLists.txt- pkg2- src- xxx2.…

阅读更多...

为什么vue3内不使用this

为什么vue3内不使用this

在 Vue 3 中，this 的使用受到了限制，主要是因为在 Vue 3 中引入了 Composition API，它提供了一种更灵活、更可组合的方式来组织和管理组件的逻辑。在 Composition API 中，不再使用传统的选项（如 data、methods、comput…

阅读更多...

前端（vue）数据存储方案

前端（vue）数据存储方案

引言本需求文档旨在明确前端项目中的数据存储需求，包括数据类型、数据结构、数据交互方式等。它定义了前端项目中需要存储和处理的数据，以及对这些数据进行访问和操作的要求。功能需求数据存储按数据类型分为持久存储、内存存储（响应式…

阅读更多...

AD24-蛇形走线

AD24-蛇形走线

一、单端蛇形走线 1、公差参数 2、布线-网络等长调节 3、参数说明 ①手工输入绕线的长度 ②参照个网络的长度绕线 ③按照自身设置的规绕线（一般选用) 4、调节 5、最后二、差分蛇形走线 1、布线-差分对网络等长调节 2、如在选中的时候出现问题，按CtrlD…

阅读更多...

273.【华为OD机试真题】园区参观路径（动态规划-JavaPythonC++JS实现）

273.【华为OD机试真题】园区参观路径（动态规划-JavaPythonC++JS实现）

🚀点击这里可直接跳转到本专栏，可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路，高质量解题代码(Java&Python&C++&JS分别实现)，详细代码讲解，助你深入学习，深度掌握！文章目录一. 题目-园区参观路径二.解题思路三.题解代码Python题解…

阅读更多...

Linux学习方法-框架学习法——Linux应用程序编程框架

Linux学习方法-框架学习法——Linux应用程序编程框架

配套视频学习链接：https://www.bilibili.com/video/BV1HE411w7by?p4&vd_sourced488bc722b90657aaa06a1e8647eddfc 目录 Linux应用程序编程 Linux应用程序编程 Linux文件I/O(input/output) Linux文件I/O(五种I/O模型) Linux多进程 Linux多线程网络通信(s…

阅读更多...

集合、List、Set、Map、Collections、queue、deque

集合、List、Set、Map、Collections、queue、deque

概述相同类型的数据进行统一管理操作，使用数据结构、链表结构，二叉树分类：Collection、Map、Iterator 集合框架 List接口有序的Collection接口，可以对列表中的每一个元u尿素的插入位置进行精确的控制，用户可以根…

阅读更多...

k8s之nodelocaldns与CoreDNS组件

k8s之nodelocaldns与CoreDNS组件

在 Kubernetes 集群中，通常是先通过 NodeLocal DNS Cache 进行域名解析，如果 NodeLocal DNS Cache 没有找到对应的域名解析结果，才会向 CoreDNS 发起请求。在部署层面上看nodelocaldns会在每个节点上运行一个 DNS 缓存服务，而Core…

阅读更多...

Qt事件过滤器

Qt事件过滤器

1. 事件过滤器 void QObject::installEventFilter(QObject *filterObj) bool eventFilter(QObject *obj, QEvent *event); filterObj表示事件筛选器对象，它接收发送到此QObject对象（安装事件过滤器的部件对象）的所有事件。筛选器可以停止事件…

阅读更多...

SpringCloud-Gateway解决跨域问题

SpringCloud-Gateway解决跨域问题

Spring Cloud Gateway是一个基于Spring Framework的微服务网关，用于构建可扩展的分布式系统。在处理跨域问题时，可以通过配置网关来实现跨域资源共享（CORS）。要解决跨域问题，首先需要在网关的配置文件中添加相关的跨域…

阅读更多...

Qt应用软件【协议篇】websocket的介绍和代码示例

Qt应用软件【协议篇】websocket的介绍和代码示例

WebSocket简介 WebSocket是一种网络通信协议，它使得浏览器（客户端）和服务器之间的通信变得更加高效和实时。这种技术特别适用于需要快速、双向交换数据的应用，比如实时聊天应用、在线游戏、实时股票交易平台等。WebSocket协议在2011年被标准化（RFC 6455），它旨在通过一个…

阅读更多...

Spring Boot 常用注解大全

Spring Boot 常用注解大全

以下是Spring Boot中常用的注解及其详细解释以及相应的代码示例： SpringBootApplication: 这个注解用于标识一个Spring Boot应用的主类。它整合了 Configuration，EnableAutoConfiguration 和 ComponentScan。 SpringBootApplication public class Demo…

阅读更多...

（六）激光线扫描-三维重建

（六）激光线扫描-三维重建

本篇文章是《激光线扫描-三维重建》系列的最后一篇。 1. 基础理论 1.1 光平面在之前光平面标定的文章中，已经提到过了，是指激光发射器投射出一条线，形成的一个扇形区域平面就是光平面。三维空间中平面的公式是： A X + B Y + C Z + D = 0 A X+B Y+C Z+D=0

阅读更多...

最新文章