探索在生成扩散模型中基于RAG增强生成的实现与未来

概述

像 Stable Diffusion、Flux 这样的生成扩散模型,以及 Hunyuan 等视频模型,都依赖于在单一、资源密集型的训练过程中通过固定数据集获取的知识。任何在训练之后引入的概念——被称为 知识截止——除非通过 微调 或外部适应技术(如 低秩适应,LoRA)进行补充,否则不会出现在模型中。

因此,如果一个生成系统能够输出图像或视频,并且能够根据需要从在线资源中获取信息并将其纳入生成过程,那就再好不过了。例如,一个对最新苹果或特斯拉产品一无所知的扩散模型,仍然可以生成包含这些新产品的图像。

在语言模型方面,我们大多数人都熟悉像 Perplexity、Notebook LM 和 ChatGPT-4o 这样的系统,它们可以在 检索增强生成(RAG)模型中纳入新的外部信息。

然而,在生成图像方面,这种功能并不常见,ChatGPT 也会承认自己在这方面的局限性:

ChatGPT 4o 根据一般线条和它所解释的描述,对一款全新手表的外观做出了合理猜测;但它无法“吸收”并将新图像整合到基于 DALL-E 的生成中。

将检索到的外部数据纳入生成图像是具有挑战性的,因为传入的图像必须首先被分解为标记和嵌入,然后映射到模型对主题的最近训练知识领域。

尽管这一过程对于像 ControlNet 这样的后训练工具来说效果良好,但此类操作大多停留在表面,本质上是将检索到的图像通过渲染管道传递,而没有将其深度整合到模型的内部表示中。

因此,模型缺乏像 NeRF 这样的神经渲染系统的能力,后者能够以真正的空间和结构理解构建场景。

一、 成熟的逻辑

类似的限制也适用于大型语言模型(LLMs)中的 RAG 基查询,例如 Perplexity。当这种类型的模型处理检索到的外部数据时,其功能类似于一个成年人凭借一生的知识来推断某个主题的概率。

然而,就像一个人无法将新信息追溯性地整合到塑造其基本世界观的认知框架中——当他们的偏见和先入为主的观念仍在形成时——LLM 也无法将其新知识无缝地整合到其预训练结构中。

相反,它只能“影响”或并置新数据与其现有的内化知识,使用已学到的原则进行分析和推测,而不是在基础层面上进行综合。

在“并置”和“内化”生成之间的等效性不足,可能会在生成的图像中比基于语言的生成中更为明显:各种研究表明,“原生”(而非基于 RAG)生成的更深层次网络连接和更高的创造力已被 建立。

二、RAG 能力图像生成的隐藏风险

即使在技术上可行地将检索到的互联网图像无缝整合到新合成的图像中,以 RAG 风格进行整合,安全相关的限制也会带来额外的挑战。

许多用于训练生成模型的数据集已经被策划,以尽量减少明确、种族主义或暴力内容等敏感类别的存在。然而,这一过程并不完美,残留的关联可能仍然存在。为了缓解这种情况,像 DALL·E 和 Adobe Firefly 这样的系统依赖于二级过滤机制,对输入提示和生成的输出进行筛查,以禁止相关内容。

因此,一个简单的 NSFW 过滤器——主要阻断明显露骨的内容——将不足以评估检索到的基于 RAG 的数据的可接受性。此类内容仍可能以超出模型预定义的审核参数范围的方式具有冒犯性或有害性,可能会引入 AI 缺乏适当评估情境意识的材料。

最近发现的 CCP 旗下的 DeepSeek 的一个漏洞,旨在压制对禁止政治内容的讨论,突显了如何利用替代输入路径绕过模型的伦理保障;可以说,这也适用于从互联网检索到的任意新数据,当它被纳入新的图像生成时。

三、 RAG 用于图像生成

尽管存在这些挑战和棘手的政治方面的问题,但仍有一些项目试图使用基于 RAG 的方法将新数据纳入视觉生成中。

3.1 ReDi

2023 年的 检索式扩散(ReDi)项目是一个无学习框架,通过从预计算的知识库中检索类似的 轨迹 来加速扩散模型推理。

数据集中的值可以在 ReDi 中“借用”用于新的生成

在扩散模型的背景下,轨迹是模型从 纯噪声 生成图像的逐步路径。通常,这个过程会逐渐发生,每一步都会稍微完善图像。

ReDi 通过跳过其中许多步骤来加速这一过程。它不是计算每一个步骤,而是从数据库中检索一个类似的过去轨迹,并跳到过程中的一个更晚的点。这减少了所需的计算量,使基于扩散的图像生成速度更快,同时仍然保持高质量。

ReDi 并不修改扩散模型的 权重,而是使用知识库跳过中间步骤,从而减少采样所需的函数估计数量。

当然,这并不等同于随意将特定图像纳入生成请求中;但它确实与类似类型的生成有关。

ReDi 于 2022 年发布,那一年潜扩散模型 吸引了 公众的想象力,ReDi 似乎是最早采用基于 RAG 方法的扩散基础方法之一。

尽管应该提到的是,2021 年 Facebook Research 发布了 实例条件 GAN,它试图将 GAN 图像条件化为新的图像输入,这种将图像投影到潜在空间的做法在文献中非常常见,无论是对于 GAN 还是扩散模型;挑战在于使这样一个过程成为训练自由的,并在实时中发挥作用,就像专注于 LLM 的 RAG 方法一样。

3.2 RDM

另一个早期尝试 RAG 增强图像生成的是 检索增强扩散模型(RDM),它引入了一种半 参数化 的生成图像合成方法。与传统扩散模型将所有学习到的视觉知识存储在其神经网络参数中不同,RDM 依赖于一个外部图像数据库:

RDM* 中说明性伪查询检索到的最近邻。

在训练过程中,模型从外部数据库中检索 __[最近邻](https://www.un在训练过程中,模型从外部数据库中检索 最近邻(视觉上或语义上相似的图像),以指导生成过程。这使得模型能够根据真实世界的视觉实例来调整其输出。

检索过程由 CLIP 提供支持,旨在确保检索到的图像与查询内容具有有意义的相似性,并提供新信息以改善生成效果。这种方法减少了对参数的依赖,使得模型能够在不需要庞大训练数据集的情况下实现具有竞争力的结果。

RDM 方法支持 事后修改:研究人员可以在推理时更换数据库,从而实现对新风格、领域甚至完全不同任务(如风格化或类别条件合成)的零样本适应。

RDM 的一个关键优势在于,它能够在不重新训练模型的情况下提升图像生成效果。通过简单地更改检索数据库,模型可以泛化到从未明确训练过的新概念。这对于存在 领域偏移 的应用场景特别有用,例如基于不断演变的数据集生成医学影像,或者将文本到图像模型适应于创意应用。

然而,这种基于检索的方法依赖于外部数据库的质量和相关性,这使得数据策划成为实现高质量生成的重要因素。此外,这种方法距离实现商业语言模型中典型的基于 RAG 的交互式图像合成仍有较大差距。

3.3 ReMoDiffuse

ReMoDiffuse 是一种用于 3D 人体运动生成的检索增强运动扩散模型。与依赖纯学习表示的传统运动生成模型不同,ReMoDiffuse 从大规模运动数据集中检索相关的运动样本,并将其整合到去噪过程中,其架构类似于 RDM(见上文)。

右侧为 RAG 增强的 ReMoDiffuse 与先前方法的对比

这使得模型能够生成更自然、更多样化且在语义上忠实于用户文本提示的运动序列。

ReMoDiffuse 采用了一种创新的 混合检索机制,基于语义和运动学相似性选择运动序列,以确保检索到的运动不仅在主题上相关,而且在物理上合理地整合到新生成中。

然后,模型使用 语义调制的 Transformer 对检索到的样本进行细化,有选择地整合检索到的运动知识,同时保持生成序列的特征品质。

ReMoDiffuse 的流程架构

该模型的 条件混合 技术增强了模型在不同提示和检索条件下的泛化能力,通过在生成过程中平衡检索到的运动样本与文本提示的权重,解决了扩散模型中常见的 分类器自由引导 技术的 尺度敏感性问题。

这有助于防止不真实或重复的输出,即使对于罕见的提示也是如此。它还解决了扩散模型中常见的尺度敏感性问题,这种问题通常出现在分类器自由引导技术中。

3.4 RA-CM3

斯坦福大学 2023 年的论文 Retrieval-Augmented Multimodal Language Modeling(RA-CM3)允许系统在推理时访问现实世界的信息。


斯坦福大学的检索增强多模态语言模型(RA-CM3)使用从互联网检索到的图像增强生成过程,但目前仍处于原型阶段,尚未公开发布

RA-CM3 将检索到的文本和图像整合到生成流程中,增强文本到图像和图像到文本的合成效果。该模型使用 CLIP 进行检索,并以 Transformer 作为生成器,在生成输出之前引用相关的多模态文档。

在 MS-COCO 上的基准测试显示,与 DALL-E 和类似系统相比,RA-CM3 实现了 12 点的 Fréchet Inception Distance(FID)降低,且计算成本更低。

然而,与其他基于检索增强的方法一样,RA-CM3 并没有无缝内化其检索到的知识。相反,它将新数据叠加在其预训练的网络上,类似于 LLM 通过搜索结果增强回答。虽然这种方法可以提高事实准确性,但它并不能替代在需要深度合成的领域中更新训练的需求。

此外,目前尚未发布该系统的实际实现版本,甚至没有通过 API 平台提供。

3.5 RealRAG

来自中国的最新发布 Retrieval-Augmented Realistic Image Generation(RealRAG)引发了我们对 RAG 增强生成图像系统的关注。


RealRAG 中引入的外部图像(位于下方中间)
RealRAG 从公开可用的数据集(如 ImageNet、Stanford Cars、Stanford Dogs 和 Oxford Flowers)中检索相关对象的实际图像,并将其整合到生成过程中,以填补模型的知识空白。

RealRAG 的一个关键组件是 自反式对比学习,它训练检索模型找到信息丰富的参考图像,而不仅仅是选择 视觉上相似 的图像。

作者指出:

“我们的关键见解是训练一个检索器,使其检索到的图像远离生成器的生成空间,但接近文本提示的表示。”

“为此,我们首先根据给定的文本提示生成图像,然后利用这些生成的图像作为查询,从基于真实对象的数据库中检索最相关的图像。这些最相关的图像被用作反思性负样本。”

这种方法确保检索到的图像为生成过程贡献了 缺失的知识,而不是强化模型中已有的偏见。

从左到右:检索到的参考图像;没有使用 RAG 的结果;使用检索图像的结果

然而,对检索质量和数据库覆盖范围的依赖意味着其有效性可能会因高质量参考图像的可用性而有所不同。如果相关图像不存在于数据集中,模型可能仍然难以处理不熟悉的概念。

RealRAG 采用了一种非常模块化的架构,兼容多种其他生成架构,包括基于 U-Net、DiT 和自回归的模型。

总体而言,检索和处理外部图像会增加计算开销,系统的性能取决于检索机制在不同任务和数据集上的泛化能力。

四、总结

这是一篇关于图像检索多模态生成系统的代表性而非穷尽性概述。一些此类系统仅使用检索来改善视觉理解或数据集策划,而不是寻求生成图像,例如 Internet Explorer。

文献中还有许多其他基于 RAG 的项目尚未发布。只有发表研究论文的原型,例如 Re-Imagen,尽管它来自谷歌,但只能访问本地自定义数据库中的图像。

此外,2024 年 11 月,百度 宣布 了 基于图像检索的增强生成(iRAG),这是一个使用“数据库”检索图像的新平台。尽管据报道 iRAG 可在 Ernie 平台上使用,但关于检索过程的细节似乎很少,它似乎依赖于一个 本地数据库(即服务本地的,用户无法直接访问)。

此外,2024 年的论文 Unified Text-to-Image Generation and Retrieval 提供了另一种基于 RAG 的方法,使用外部图像在生成时增强结果——同样,这些图像来自 本地数据库,而不是来自 即时互联网来源

围绕 RAG 增强图像生成的兴奋可能会集中在能够直接将互联网来源或用户上传的图像整合到生成过程中的系统上,并允许用户参与图像的选择或来源。

然而,这是一个重大挑战,原因至少有两个:首先,此类系统的有效性通常取决于在资源密集型训练过程中形成的深度整合关系;其次,如前所述的安全性、合法性以及版权限制等问题,使得这一功能不太可能成为 API 驱动的网络服务的特性,也不太可能在商业部署中实现。

原文地址:https://www.unite.ai/the-future-of-rag-augmented-image-generation/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/897444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加列宽调整功能,示例Table14基础固定表头示例

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

取反符号~

取反符号 ~ 用于对整数进行按位取反操作。它会将二进制表示中的每一位取反,即 0 变 1,1 变 0。 示例 a 5 # 二进制表示为 0000 0101 b ~a # 按位取反,结果为 1111 1010(补码表示) print(b) # 输出 -6解释 5 的二…

论文阅读分享——UMDF(AAAI-24)

概述 题目:A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modalities 发表:The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24) 年份:2024 Github:暂…

WBC已形成“东亚-美洲双中心”格局·棒球1号位

世界棒球经典赛(WBC)作为全球最高水平的国家队棒球赛事,参赛队伍按实力、地域和历史表现可分为多个“阵营”。以下是基于历届赛事(截至2023年)的阵营划分及代表性队伍分析: 第一阵营:传统豪强&a…

django中路由配置规则的详细说明

在 Django 中,路由配置是将 URL 映射到视图函数或类视图的关键步骤,它决定了用户请求的 URL 会触发哪个视图进行处理。以下将详细介绍 Django 中路由配置的规则、高级使用方法以及多个应用配置的规则。 基本路由配置规则 1. 项目级路由配置 在 Django 项目中,根路由配置文…

【报错】微信小程序预览报错”60001“

1.问题描述 我在微信开发者工具写小程序时,使用http://localhost:8080是可以请求成功的,数据全都可以无报错,但是点击【预览】,用手机扫描二维码浏览时,发现前端图片无返回且报错60001(打开开发者模式查看日…

栅格裁剪(Python)

在地理数据处理中,矢量裁剪栅格是一个非常重要的操作,它可以帮助我们提取感兴趣的区域并获得更精确的分析结果。其重要性包括: 区域限定:地球科学研究通常需要关注特定的地理区域。通过矢量裁剪栅格,我们可以将栅格数…

【无人机路径规划】基于麻雀搜索算法(SSA)的无人机路径规划(Matlab)

效果一览 代码获取私信博主基于麻雀搜索算法(SSA)的无人机路径规划(Matlab) 一、算法背景与核心思想 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一种受麻雀群体觅食行为启发的元启发式算法&#xff0…

MySQL数据库安装及基础用法

安装数据库 第一步:下载并解压mysql-8.4.3-winx64文件夹 链接: https://pan.baidu.com/s/1lD6XNNSMhPF29I2_HBAvXw?pwd8888 提取码: 8888 第二步:打开文件中的my.ini文件 [mysqld]# 设置3306端口port3306# 自定义设置mysql的安装目录,即解…

软件工程:软件开发之需求分析

物有本末,事有终始。知所先后,则近道矣。对软件开发而言,软件需求乃重中之重。必先之事重千钧,不可或缺如日辰。 汽车行业由于有方法论和各种标准约束,对软件开发有严苛的要求。ASPICE指导如何审核软件开发&#xff0…

正则表达式,idea,插件anyrule

​​​​package lx;import java.util.regex.Pattern;public class lxx {public static void main(String[] args) {//正则表达式//写一个电话号码的正则表达式String regex "1[3-9]\\d{9}";//第一个数字是1,第二个数字是3-9,后面跟着9个数字…

RISC-V医疗芯片工程师复合型转型的路径与策略

从RISC-V到医疗芯片:工程师复合型转型的路径与策略 一、引言 1.1 研究背景 在科技快速发展的当下,芯片技术已然成为推动各行业进步的核心驱动力之一。其中,RISC-V 架构作为芯片领域的新兴力量,正以其独特的优势迅速崛起,对整个芯片产业的格局产生着深远影响。RISC-V 架…

【设计模式】掌握建造者模式:如何优雅地解决复杂对象创建难题?

概述 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 分离了部件的构造(由Builder来负责)和装配(由Director负责)。 从而可以构造出复杂的对象。这个模式适用于:某个对象的构建过程复杂的情况。 由于实现了构建和装配的解耦。…

量子计算对区块链技术的影响:革新与挑战

量子计算对区块链技术的影响:革新与挑战 大家好,我是你们的技术伙伴Echo_Wish。今天我们来探讨一个颇具前沿性的话题——量子计算对区块链技术的影响。量子计算作为新一代计算技术,其强大的计算能力为各个领域带来了革新。然而,量…

【Java代码审计 | 第八篇】文件操作漏洞成因及防范

未经许可,不得转载。 文章目录 文件操作漏洞文件读取漏洞基于 InputStream 的读取基于 FileReader 的读取 文件下载漏洞文件删除漏洞防范 文件操作漏洞 分为文件读取漏洞、文件下载漏洞与文件删除漏洞。 文件读取漏洞 在Java中,文件读取通常有两种常见…

与rkipc通信

rkipc的通信方式 在ipcweb中,程序是通过/var/tmp/rkipc和rkipc进行通信,并且网络和客户端的函数封装在luckfox-pico/project/app/ipcweb/ipcweb-backend/src/socket_client文件夹中, client.cpp是客户端命令 socket.cpp是网络命令 编写rkip…

NLP常见任务专题介绍(2)-多项选择任务(MultipleChoice)训练与推理模板

一、 使用 BigBird 进行多项选择任务训练与推理 本示例展示如何使用 BigBirdForMultipleChoice 训练一个多项选择模型,适用于考试答题、阅读理解、常识推理等任务。 1️⃣ 任务描述 目标:给定一个问题和多个选项,模型预测正确答案。 数据格式:输入包含 (问题, 选项1, 选项…

【论文解读】MODEST 透明物体 单目深度估计和分割 ICRA 2025

MODEST是一种用于透明物体的单目深度估计和分割的方法,来自ICRA 2025。 它通过单张RGB图像作为输入,能够同时预测透明物体的深度图和分割掩码。 由深度图生成点云数据,然后采用GraspNet生成抓取位姿,开展透明物体抓取实验。 论文…

【网络安全工程】任务11:路由器配置与静态路由配置

目录 一、概念 二、路由器配置 三、配置静态路由CSDN 原创主页:不羁https://blog.csdn.net/2303_76492156?typeblog 一、概念 1、路由器的作用:通过路由表进行数据的转发。 2、交换机的作用:通过学习和识别 MAC 地址,依据 M…

深入理解隐式类型转换:从原理到应用

C⽀持内置类型隐式类型转换为类类型对象,需要有相关内置类型为参数的构造函数。 构造函数前⾯加explicit就不再⽀持隐式类型转换。 类类型的对象之间也可以隐式转换,需要相应的构造函数⽀持。 内置类型隐式类型转换为类类型对象 在 C 中,如果…