Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮

随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!

        Dalle-3在2023年9月以其强大的图像生成能力惊艳了世人。它从精细化的文本描述入手,融合进了GPT-4的丰富caption能力,另外还引入了早已验证成功了latent空间替代逐pixel的预测,大幅提高了生成图像的质量和多样性。Dalle-3的出现,极大地推动了视觉AIGC领域的发展,为后续的效果创新奠定了坚实的基础。以下是官方样例:

        紧随其后的是2024年2月15的Sora,它在通用视频生成领域取得了突破性的进展。Sora引入了先进的DiTs模块替换掉了UNET,并且将视频处理成了Transformer结构中的visual patch,极大的提升了视频生成的性能,引发了业界广泛的关注。

        压轴的是2024年2月22的Stable Diffusion 3,即图像生成领域的最新SOTA。它引入了更为先进的扩散过程和噪声估计技术Flow Matching,精细化的文本描述配合多模DiTs,使得生成的图像更具指令跟随能力,尤其在图像中文本控制的表现上刷新了新高度。Stable Diffusion 3的出现,不仅提升了扩散模型在图像生成任务中的性能,还为其他领域如自然语言处理、语音识别等提供了可借鉴的技术思路。以下是官方样例:

        这三大技术的崛起,标志着视觉AIGC元年技术大爆炸的到来。它们不仅在各自领域内取得了卓越的成就,还在相互融合中催生出更多新的应用场景和商业模式。未来,随着技术的不断进步和创新,我们有理由相信,视觉AIGC将会为人类带来更多的惊喜和可能。

一、Dalle-3
论文题目:Improving Image Generation with Better Captions,https://cdn.openai.com/papers/dall-e-3.pdf

体验入口:Bing AI - 搜索,https://cn.bing.com/create

发布时间:2023.9

亮点:
1.)精细化caption
论文着重宣传部分。caption生成模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述。以下是用GPT-4生成更加精细化caption的例子:

2.)LDM diffusion
图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度,然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入LDM diffusion模型而且像素级diffusion,指导图像生成方向。与SDXL类似在潜空间进行diffusion是DALL-E 3比前两代生成的图片质量更好的核心原因之一。

二、Sora
论文题目:Video generation models as world simulators,https://openai.com/research/video-generation-models-as-world-simulators

体验入口:Video generation models as world simulators

发布时间:2024.2.15

亮点:
1.)visual patch
Sora将视频数据转换成Transformer大模型可以使用的tokens。这个过程涉及到将视频中的多帧图像进行深度学习压缩,并加上第三维的时间信息,形成patches。这些patches作为tokens,可以应用于Transformer模型中。这种数据转换方式使得Sora能够处理和理解视频数据,为后续的视频生成和处理打下基础。:

2.)diffusion transformer(DiTs)
Sora运用扩散模型来处理视频生成的连续性和细节刻画问题,而Transformer则用于理解并整合复杂的时空上下文信息。通过这样的组合方式,Sora能够高效且创造性地生成高质量的视频内容。具体来讲,使用Transformers替换扩散模型中U-Net主干网络,分析发现,这种Diffusion Transformers(DiTs)不仅速度更快(更高的Gflops),而且在ImageNet 512×512和256×256的类别条件图片生成任务上,取得了更好的效果,256×256上实现了SOTA的FID指标(2.27)。DiTs论文:Scalable Diffusion Models with Transformers,https://arxiv.org/abs/2212.09748。

其中DiTs结构如下:

三、SD-3
论文题目:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis,https://arxiv.org/pdf/2403.03206.pdf

体验入口:https://stability.ai/stablediffusion3

发布时间:2024.02.22

该图表以 SD3 为基准,基于人类偏好评估,展示了 SD3 在视觉美学、提示遵循和排版等方面相对于其他竞争模型的优势。

亮点:
1.)diffusion transformer(DiTs)
与Sora类似用Latent Diffusion Transformer(DiTs) 换掉扩散模型中的 U-Net 结构。SD 3架构图如下所示:

具体来讲,多模态扩散是基座,该架构是建立在 DiT基础上。原始DiT 只考虑类别条件下的图像生成,并使用调制机制来对扩散过程的时间步和类别标签进行条件约束。MM-DiT有如下特点。

1、输入侧:简单文本特征+timestep,丰富文本特征,带噪latent特征+位置编码。

2、多模态DiT:如图 2b 所示,为文本和图像两种模态使用两组独立的权重,然后将两种模态转化后的特征连接起来进行attention后继续分拆出来文本与图像分支,如此嵌套。最终达到文本控制的最大化。

2.)Flow Matching
Flow Matching是一个新的生成模型框架,这项研究为基于连续归一化流(CNF)的生成建模引入了一种新范式,实现了以前所未有的规模训练 CNF。这个框架不依赖复杂的模拟或对数似然估计,而是直接处理生成目标概率路径的向量场。简单来说,Flow Matching给我们提供了一张地图(向量场)和一条路线(概率路径),让我们能够更清晰地了解数据是如何生成的。通过这张地图和路线,我们可以更轻松地训练生成模型,让它学习从噪声中生成出我们想要的数据。Flow Matching还提出了一个叫做条件Flow Matching (CFM)的损失函数,这个函数让模型的训练变得更容易。同时,它还支持各种概率路径,包括diffusion路径和OT路径,这让我们在训练模型时有了更多的选择。使用 Flow Matching 技术的意义则在于提升采样效率。Flow Matching论文:Flow Matching for Generative Modeling,https://arxiv.org/pdf/2210.02747.pdf。

图2和图6是Flow Matching对比diffusion和OT示意图
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/sunbaigui/article/details/136898729

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/770360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode-300.最长递增子序列】

题目详情: 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的…

字符驱动程序-LCD驱动开发

一、驱动程序的框架 总共分为五步: 1、自己设定或者系统分配一个主设备号 2、创建一个file_operations结构体 这个结构体中有操作硬件的函数,比如drv_open、drv_read 3、写一个注册设备驱动函数 需要register_chrdev(major,name,结构体)&#xff0…

kingbaseESV8逻辑备份还原

数据库逻辑备份还原 sys_dump -h127.0.0.1 -Usystem -f/home/kingbase/db01.dmp db01 ksql -h127.0.0.1 test system -c drop database db01 ksql -h127.0.0.1 test system -c create database db01 ksql -h127.0.0.1 -Usystem -ddb01 -f/home/kingbase/db01.dmp --------…

各种需要使用的方法-->vue/微信小程序/layui

各种需要使用的方法-->vue/微信小程序/layui 1、vue里样式不起作用的方法,可以通过deep穿透的方式2、 js获取本周、上周、本月、上月日期3、ArrayBuffer Blob 格式转换ArrayBuffer与Blob的区别ArrayBuffer转BlobBlob转ArrayBuffer需要借助fileReader对象 4、使用…

2015年认证杯SPSSPRO杯数学建模D题(第一阶段)城市公共自行车全过程文档及程序

2015年认证杯SPSSPRO杯数学建模 D题 城市公共自行车 原题再现: 城市交通问题直接影响市民的生活和工作。在地形平坦的城市,公共自行车出行系统是一种很好的辅助手段。一般来说,公共自行车出行系统由数据中心、驻车站点、驻车桩、自行车&…

python初级第一次作业

一、 dayint(input("enter today day")) fdayint(input("enter num of day since today")) c((fday%7)day)%7 if c0:print("sunday") elif c1:print("monday") elif c2:print("tuesday") elif c3:print("wendnsday&quo…

openGauss + Datakit搭建openGauss运维平台

系统架构OS 硬件需求:2c4g [rootlocalhost ~]# cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) [rootlocalhost ~]# uname -m x86_64 [rootlocalhost ~]# hostname -I 192.168.92.32 下载地址:https://opengauss.org/zh/download/ 下载…

yoloV3的目标检测_3.11

目标 利用yolo模型进行目标检测的方法完成目标检测功能的实现 整个流程如下: 基于OPenCV中的DNN模块 加载已训练好的yolov3模型及其权重参数将要处理的图像转换成输入到模型中的blobs利用模型对目标进行检测遍历检测结果应用非极大值抑制绘制最终检测结果&#x…

【能源数据分析-00】能源领域数据集集锦(动态更新)

一、前言 大数据科学在能源领域的深度应用,已经深刻改变了这一行业的垂直格局。它为我们提供了宝贵的见解,帮助降低下游市场的成本,使石油生产商能够更好地应对市场繁荣期的需求。近期,石油价格的剧烈下跌给全球经济带来了沉重打…

LeetCode 2.两数相加

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0 …

Kubernetes概念:服务、负载均衡和联网:2. Gateway API

Gateway API 官方文档:https://kubernetes.io/zh-cn/docs/concepts/services-networking/gateway/ Gateway API 通过使用可扩展的、角色导向的、 协议感知的配置机制来提供网络服务。它是一个附加组件, 包含可提供动态基础设施配置和高级流量路由的 API…

如何在CentOS 7上搭建Redis Sentinel ?

在CentOS 7上搭建Redis Sentinel包括安装Redis、配置Redis主从复制、以及设置Sentinel本身。以下是具体步骤: 1. 安装Redis 首先确保系统是最新的,然后安装Redis。如果你的CentOS 7没有自带Redis包,你可能需要先添加EPEL仓库。 sudo yum u…

[音视频学习笔记]八、FFMpeg结构体分析 -上一个项目用到的数据结构简单解析:AVFrame、AVFormatContext、AVCodecContext

前言 上次我们做了一个简单的视频解码,MediaPlay-FFmpeg - Public 这一次简单对这个代码进行一个剖析,对其中的数据结构进行一个解析。 这些数据结构之间的关系 AVFrame 、AVFormatContext 、AVCodecContext 、AVIOContext 、AVCodec 、AVStream 、AV…

CentOS7.x 上安装并配置 MySQL 8.x

如何在 CentOS 7 上安装并配置 MySQL 8.x MySQL 是最流行的开源关系型数据库管理系统之一,被广泛应用于各种网站和应用程序中。 步骤 1:下载并添加 MySQL 8.x 官方 Yum 仓库 首先,打开终端,下载 MySQL Yum 仓库的 rpm 包&#…

Redis 服务器指南:高性能内存数据库的完整使用指南

Redis 服务器是一个基于内存的键值存储数据库,具有高性能和丰富的数据结构支持。 Redis 服务器的基本使用方法 安装 Redis Redis 可以通过官方网站下载源码进行编译安装,也可以通过包管理工具直接安装。 在 Ubuntu 上,可以使用以下命令进…

从政府工作报告中的IT热词统计探计算机行业发展(三)智能网联新能源汽车:2次

从政府工作报告探计算机行业发展 政府工作报告作为政府工作的全面总结和未来规划,不仅反映了国家整体的发展态势,也为各行各业提供了发展的指引和参考。随着信息技术的快速发展,计算机行业已经成为推动经济社会发展的重要引擎之一。因此&…

3.24作业

基于UDP的网络聊天室 项目需求: 如果有用户登录,其他用户可以收到这个人的登录信息如果有人发送信息,其他用户可以收到这个人的群聊信息如果有人下线,其他用户可以收到这个人的下线信息服务器可以发送系统信息 服务器端代码 #in…

智能小程序开发 —— P2P SDK 源码介绍(四)

ty.p2p.onDownloadTotalProgressUpdate 下载总进度回调 需引入P2PKit,且在>2.0.3版本才可使用 参数 function callback 下载总进度回调的回调函数 回调参数 Object res 属性类型默认值必填说明deviceIdstring是设备idprogressnumber是上传/下载进度 函数定…

matlab-双树复小波变换DTCWT(转自 MathWorks)

此示例展示了双树复小波变换 (DTCWT) 如何在信号、图像和体积处理方面提供优于临界采样 DWT 的优势。DTCWT 作为两个独立的双通道滤波器组来实现。为了获得本示例中描述的优点,您不能任意选择两个树中使用的缩放和小波滤波器。一棵树的低通(缩放&#xf…

3.25 ARM day8

1.自己设置温度湿度阈值&#xff0c;当温度过高时&#xff0c;打开风扇&#xff0c;蜂鸣器报警 2.当湿度比较高时&#xff0c;打开LED1灯&#xff0c;蜂鸣器报警 bee.c #include"bee.h" void bee_init() {RCC->MP_AHB4ENSETR | (0x1<<1);GPIOB->MODE…