b 站视频合集
 【AI+X组队学习】Sora原理与技术实战:Sora技术路径详解
 Sora 技术报告(OpenAI)
 huggingsd 文生图视频系列的一个开源项目
 最强视频生成模型Sora相关技术解析
 https://github.com/lichao-sun/SoraReview
惊艳效果:
- 长视频
- 高清
- 视频融合能力
- 同一场景的多角度/镜头的生成能力
TeText-to-video: 文生视频
 Image-to-video: 图生视频
 Video-to-video: 改变源视频风格or场景
 Extending video in time: 视频拓展(前后双向)
 Create seamless loops: Tiled videos that seem like they never endImage generation: 图片生成 (size最高达到 2048 x 2048)
 Generate video in any foformat: From 1920 x 1080 to 1080 x 1920 视频输出比例自定义
 Simulate virtual worlds: 链接虚拟世界,游戏视频场景生成Create a video: 长达60s的视频并保持人物、场景一致性
要做世界模拟器。
 
DDPM 扩散模型
 ViT 把完整的图片 Patch 化,把单个图片的patch 序列化。
为了处理视频,提出了 ViViT,用 Transformers 来处理视频的一个模型.
 
 包含时空信息的patch。
 如何进行样本取样?






 

Sora, 通过 patch,预测下一个patch,构建一个自回归的方式来进行的。而不是之前那种预测关键帧,插帧的方式。
 DALLE 2 也是通过文本的方式。
