(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述

【本文为我在去年完成的综述,因某些原因未能及时投稿,但本文仍能为想要全面了解文本到图像的生成和编辑的学习者提供可靠的参考。目前本文已投稿 ACM Computing Surveys。

完整内容可在如下链接获取,或在 Q 群群文件获取。 中文版为论文初稿,英文版有适量改动。

链接: https://pan.baidu.com/s/19FSRXH4TxlqgE3rgjuXDDg?pwd=y3gj 提取码: y3gj

论文地址:https://arxiv.org/abs/2505.02527

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

】 

Text to Image Generation and Editing: A Survey

目录

0. 摘要

1. 简介

1.1 综述对比(表)

1.2 本文框架 (图)

1.3 文本到图像生成 (图)

1.4 文本到图像编辑 (图)

1.5 模型对比 (表)

1.6 性能对比(表) 


0. 摘要

文本到图像生成(T2I)指的是模型在文本提示的引导下,生成符合文本描述的高质量图像。在过去的几年,T2I 引起了人们的广泛关注,涌现了无数的作品。在本综述中,我们综合性的回顾了从 2021 到 2024 进行的 141 项研究。

  • 首先,我们介绍了 T2I 的四个基础模型架构(Autoregression,Non-autoregression,GAN 和Diffusion)以及常用的关键技术(Autoencoder,Attention 和无分类器引导 )。
  • 其次,我们就 T2I 生成和 T2I 编辑两个方向系统地对比了这些研究的方法,包括它们使用的编码器以及关键技术。
  • 此外,我们还并排对比了这些研究的性能,从数据集,评估指标、训练资源以及推断速度等方面。
  • 除了四个基础模型,我们还调查了T2I的其他研究,例如基于能量的模型以及近期的 Mamba 和多模态。我们还调查了 T2I 可能的社会影响并给出了相应的解决措施。
  • 最后,我们提出了提高T2I模型能力以及未来可能发展方向的独特见解。

总之,我们的综述是第一篇系统且全面的T2I的综合性概述,旨在为未来的研究人员提供了一个有价值的指南,并激励这一领域的持续进步。 

1. 简介

随着生成式模型的发展,文本到图像生成(T2I)也得到了极大的发展,涌现了无数的工作。我们的综述为研究人员提供了一个整体的视角,包括对社区已有的重要工作的对比以及一些新兴的研究方向,以此来帮助研究人员了解T2I领域的发展。

本综述所调查的 T2I 论文的选取标准为:

  • 我们调查 2021~2024 年的论文;
  • 我们调查社区中高度关注的T2I论文及其后续工作,例如:LDM,Imagen,DALL-E,Cogview以及 Pixart 等;
  • 我们调查来自会议的顶级论文中的T2I论文;
  • 我们调查根据前面的标准选取的文章中引用的(进行了对比或在相关工作中提到)T2I论文;
  • 在起草本综述时,我们关注 arXiv 中最新的令人感兴趣的 T2 I论文,其中部分文章在完成本文时已被会议收录。详见表 2。

之前的 T2I 综述,通常只涉及单个基础模型的调查;如 GAN 或者 Diffusion。虽然也有一些综述也调查了多个基础模型,但与我们的综述相比,不够全面:

  • 它们调查的文献数量太少,
  • 它们未调查近期的一些研究,例如Mamba,
  • 它们的对比不够充分,我们的调查使用的并排对比(见表2和表3)使不同模型的差异一目了然,
  • 相比于这些综述,我们的综述对社会影响及解决办法做出了详尽的调查,
  • 立足于已有文献,我们的综述指出了更多的未来研究方向。详细对比见表 1。

1.1 综述对比 (表)

1.2 本文框架 (图)

1.3 文本到图像生成 (图)

1.4 文本到图像编辑 (图)

1.5 模型对比 (表)

1.6 性能对比(表) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/80608.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB的cvpartition函数用法

1. 函数作用 cvpartition 将数据集划分为训练集和测试集,支持多种交叉验证方法,包括: Hold-Out验证:单次划分(如70%训练,30%测试)K折交叉验证:数据分为K个子集,依次用其…

Java【网络原理】(5)深入浅出HTTPS:状态码与SSL/TLS加密全解析

目录 1.前言 2.正文 2.1状态码 2.2HTTP与HTTPS的关系 2.3SSL协议 2.3.1对称加密 2.3.2非对称加密 2.3.3中间人攻击 2.3.4校验机制 2.3.4.1证书 2.3.4.2数字签名 1. 数字签名的生成过程 2. 数字签名的验证过程 2.4TLS协议(握手过程) 3.小结…

代码随想录算法训练营第三十七天

LeetCode题目: 300. 最长递增子序列674. 最长连续递增序列718. 最长重复子数组2918. 数组的最小相等和(每日一题) 其他: 今日总结 往期打卡 300. 最长递增子序列 跳转: 300. 最长递增子序列 学习: 代码随想录公开讲解 问题: 给你一个整数数组 nums ,找到其中最长…

【Java ee初阶】网络原理

TCP协议 1.确认应答 实现可靠传输的核心机制 2.超时重传 实现可靠传输的核心机制 3.连接管理 网络部分最高频的面试题 4.滑动窗口 提高传输效率的机制 5.流量控制 依据接收方的处理能力,限制发送方的发送速度。 6.拥塞控制 依据传输链路的处理能力&#xff0c…

B站取关脚本

个人的账号可能被盗了,发现关注数量蹦到3000多,然后b站没有一键取关的按钮,并且对api的访问有速度限制,然后网上的脚本很多都已经失效了,所以自己稍微写个简陋的 测试时间: 2025.05.11 使用步骤: 进入b站的关注页面…

PyGame游戏开发(含源码+演示视频+开结题报告+设计文档)

前言: 大二小学期python课上基于pygame做的一个游戏小demo,当时老师花了一天讲解了下python基础语法后(也是整个大学四年唯一学习python的时间),便让我们自学网课一周然后交项目,所以做的非常仓促&#xff…

使用 React 实现语音识别并转换功能

在现代 Web 开发中,语音识别技术的应用越来越广泛。它为用户提供了更加便捷、自然的交互方式,例如语音输入、语音指令等。本文将介绍如何使用 React 实现一个简单的语音识别并转换的功能。 功能概述 我们要实现的功能是一个语音识别测试页面&#xff0…

C++ 双峰高斯函数拟合

C 双峰高斯函数拟合 一维高斯函数二维高斯函数多维高斯函数一维双峰高斯函数代码实现 二维双峰高斯函数代码实现 多维多峰高斯函数 在数据分析与清洗中经常遇到这样的数据:数据不仅仅向单个中心靠拢,而是类似分段的向两个甚至多个中心靠拢。数据向单个中…

【RP2350】香瓜树莓派RP2350之LED

本文最后修改时间:2025年05月10日 01:57 一、本节简介 本节以树莓派pico2开发板为例,举例如何写一个LED驱动加进工程里。 二、实验平台 1、硬件平台 1)树莓派pico2开发板 ①树莓派pico2开发板(作为仿真器) ②micr…

机器人运动控制原理浅析-UC Berkeley超视觉模态模型

加州伯克利发布的超视觉多感知模态融合(FuSe, Fuse Heterogeneous Sensory Data)模型,基于视觉、触觉、听觉、本体及语言等模态,利用自然语言跨模态对齐(Cross-Modal Grounding)优调视觉语言动作等通用模型,提高模型任务成功率。 总体框架 …

【Bootstrap V4系列】学习入门教程之 组件-媒体对象(Media object)

Bootstrap V4系列 学习入门教程之 组件-媒体对象(Media object) 媒体对象(Media object)一、Example二、Nesting 嵌套三、Alignment 对齐四、Order 顺序五、Media list 媒体列表 媒体对象(Media object) B…

解决VirtualBox中虚拟机(ubuntu)与主机(windows)之间互相复制粘贴(文本)

一.开始的设置 1.在VirtualBox中打开设置,常规中修改主机与虚拟机交互设置 2.虚拟机关闭状态下,存储中选中控制器SATA,勾选‘使用主机输入输出’ 3.选中操作系统对应的虚拟文件,.vdi文件,勾选右边的固态驱动器。 4.启…

java 多核,多线程,分布式 并发编程的现状 :从本身的jdk ,到 spring ,到其它第三方。

Java 在多核、多线程和高性能编程领域提供了丰富的现成框架和工具,既有标准库中的并发组件,也有第三方框架。以下是一些关键框架及其应用场景的总结:便于后面我们站在巨人的肩膀上,继续前行 一、Java 标准库中的多线程框架 Execut…

Nodejs核心机制

文章目录 前言 前言 结合 Node.js 的核心机制进行说明: 解释事件循环的各个阶段。 答案 Node.js 事件循环分为 6 个阶段,按顺序执行: Timers:执行 setTimeout 和 setInterval 的回调。 Pending I/O Callbacks:处理系…

C++笔记6:数字字面量后缀和前缀总结

在C中,可以在数字字面量后面添加字母后缀(或前缀)来表示特定的数据类型。这些后缀能够明确指定字面量的类型,避免类型转换带来的潜在问题。以下是常见的几种类型后缀及其含义: 1. 整数后缀 u 或 U:表示 u…

50.辐射抗扰RS和传导抗扰CS测试环境和干扰特征分析

辐射抗扰RS和传到抗扰CS测试环境和干扰特征分析 1. 辐射抗扰RS2. 传导抗扰CS 1. 辐射抗扰RS 辐射抗扰RS考察对外界电磁场干扰得抗扰能力,测试频段为80MHz~2000MHz,用1KHz得正弦波进行调幅,在电波暗室内进行。测试标准:IEC 61000-…

Java多态详解

Java多态详解 什么是多态? 比如我们说:“驾驶一辆车”,有人开的是自行车,有人开的是摩托车,有人开的是汽车。虽然我们都说“开车”,但“怎么开”是由具体的车类型决定的:“开”是统一的动作&a…

问题及解决01-面板无法随着窗口的放大而放大

在MATLAB的App Designer中,默认情况下,组件的位置是固定的,不会随着父容器的大小变化而改变。问题图如下图所示。 解决: 为了让Panel面板能够随着UIFigure父容器一起缩放,需要使用布局管理器,我利用 MATLA…

【GESP真题解析】第 20 集 GESP 二级 2025 年 3 月编程题 2:时间跨越

大家好,我是莫小特。 这篇文章给大家分享 GESP 二级 2025 年 3 月编程题第 2 题:时间跨越。 题目链接 洛谷链接:B4260 时间跨越 一、完成输入 根据题意,输入包含五行,每行一个正整数,分别代表 y,m,d,h,k。 注意到数据范围:对于全部数据,保证有 2000≤y≤3000,1≤m≤…

GTS-400 系列运动控制器板卡介绍(二十一)---电子齿轮跟随

运动控制器函数库的使用 运动控制器驱动程序、dll 文件、例程、Demo 等相关文件请通过固高科技官网下载,网 址为:www.googoltech.com.cn/pro_view-3.html 1 Windows 系统下动态链接库的使用 在 Windows 系统下使用运动控制器,首先要安装驱动程序。在安装前需要提前下载运动…