长春网站建设技术支持天元建设集团有限公司 伊永成 电话

web/2025/10/9 8:10:36/文章来源:
长春网站建设技术支持,天元建设集团有限公司 伊永成 电话,微信怎么做一些微网站,自己做的网站响应速度慢概述 像 Stable Diffusion、Flux 这样的生成扩散模型#xff0c;以及 Hunyuan 等视频模型#xff0c;都依赖于在单一、资源密集型的训练过程中通过固定数据集获取的知识。任何在训练之后引入的概念——被称为 知识截止——除非通过 微调 或外部适应技术#xff08;如 低秩适…概述 像 Stable Diffusion、Flux 这样的生成扩散模型以及 Hunyuan 等视频模型都依赖于在单一、资源密集型的训练过程中通过固定数据集获取的知识。任何在训练之后引入的概念——被称为 知识截止——除非通过 微调 或外部适应技术如 低秩适应LoRA进行补充否则不会出现在模型中。 因此如果一个生成系统能够输出图像或视频并且能够根据需要从在线资源中获取信息并将其纳入生成过程那就再好不过了。例如一个对最新苹果或特斯拉产品一无所知的扩散模型仍然可以生成包含这些新产品的图像。 在语言模型方面我们大多数人都熟悉像 Perplexity、Notebook LM 和 ChatGPT-4o 这样的系统它们可以在 检索增强生成RAG模型中纳入新的外部信息。 然而在生成图像方面这种功能并不常见ChatGPT 也会承认自己在这方面的局限性 ChatGPT 4o 根据一般线条和它所解释的描述对一款全新手表的外观做出了合理猜测但它无法“吸收”并将新图像整合到基于 DALL-E 的生成中。 将检索到的外部数据纳入生成图像是具有挑战性的因为传入的图像必须首先被分解为标记和嵌入然后映射到模型对主题的最近训练知识领域。 尽管这一过程对于像 ControlNet 这样的后训练工具来说效果良好但此类操作大多停留在表面本质上是将检索到的图像通过渲染管道传递而没有将其深度整合到模型的内部表示中。 因此模型缺乏像 NeRF 这样的神经渲染系统的能力后者能够以真正的空间和结构理解构建场景。 一、 成熟的逻辑 类似的限制也适用于大型语言模型LLMs中的 RAG 基查询例如 Perplexity。当这种类型的模型处理检索到的外部数据时其功能类似于一个成年人凭借一生的知识来推断某个主题的概率。 然而就像一个人无法将新信息追溯性地整合到塑造其基本世界观的认知框架中——当他们的偏见和先入为主的观念仍在形成时——LLM 也无法将其新知识无缝地整合到其预训练结构中。 相反它只能“影响”或并置新数据与其现有的内化知识使用已学到的原则进行分析和推测而不是在基础层面上进行综合。 在“并置”和“内化”生成之间的等效性不足可能会在生成的图像中比基于语言的生成中更为明显各种研究表明“原生”而非基于 RAG生成的更深层次网络连接和更高的创造力已被 建立。 二、RAG 能力图像生成的隐藏风险 即使在技术上可行地将检索到的互联网图像无缝整合到新合成的图像中以 RAG 风格进行整合安全相关的限制也会带来额外的挑战。 许多用于训练生成模型的数据集已经被策划以尽量减少明确、种族主义或暴力内容等敏感类别的存在。然而这一过程并不完美残留的关联可能仍然存在。为了缓解这种情况像 DALL·E 和 Adobe Firefly 这样的系统依赖于二级过滤机制对输入提示和生成的输出进行筛查以禁止相关内容。 因此一个简单的 NSFW 过滤器——主要阻断明显露骨的内容——将不足以评估检索到的基于 RAG 的数据的可接受性。此类内容仍可能以超出模型预定义的审核参数范围的方式具有冒犯性或有害性可能会引入 AI 缺乏适当评估情境意识的材料。 最近发现的 CCP 旗下的 DeepSeek 的一个漏洞旨在压制对禁止政治内容的讨论突显了如何利用替代输入路径绕过模型的伦理保障可以说这也适用于从互联网检索到的任意新数据当它被纳入新的图像生成时。 三、 RAG 用于图像生成 尽管存在这些挑战和棘手的政治方面的问题但仍有一些项目试图使用基于 RAG 的方法将新数据纳入视觉生成中。 3.1 ReDi 2023 年的 检索式扩散ReDi项目是一个无学习框架通过从预计算的知识库中检索类似的 轨迹 来加速扩散模型推理。 数据集中的值可以在 ReDi 中“借用”用于新的生成 在扩散模型的背景下轨迹是模型从 纯噪声 生成图像的逐步路径。通常这个过程会逐渐发生每一步都会稍微完善图像。 ReDi 通过跳过其中许多步骤来加速这一过程。它不是计算每一个步骤而是从数据库中检索一个类似的过去轨迹并跳到过程中的一个更晚的点。这减少了所需的计算量使基于扩散的图像生成速度更快同时仍然保持高质量。 ReDi 并不修改扩散模型的 权重而是使用知识库跳过中间步骤从而减少采样所需的函数估计数量。 当然这并不等同于随意将特定图像纳入生成请求中但它确实与类似类型的生成有关。 ReDi 于 2022 年发布那一年潜扩散模型 吸引了 公众的想象力ReDi 似乎是最早采用基于 RAG 方法的扩散基础方法之一。 尽管应该提到的是2021 年 Facebook Research 发布了 实例条件 GAN它试图将 GAN 图像条件化为新的图像输入这种将图像投影到潜在空间的做法在文献中非常常见无论是对于 GAN 还是扩散模型挑战在于使这样一个过程成为训练自由的并在实时中发挥作用就像专注于 LLM 的 RAG 方法一样。 3.2 RDM 另一个早期尝试 RAG 增强图像生成的是 检索增强扩散模型RDM它引入了一种半 参数化 的生成图像合成方法。与传统扩散模型将所有学习到的视觉知识存储在其神经网络参数中不同RDM 依赖于一个外部图像数据库 RDM* 中说明性伪查询检索到的最近邻。 在训练过程中模型从外部数据库中检索 __[最近邻](https://www.un在训练过程中模型从外部数据库中检索 最近邻视觉上或语义上相似的图像以指导生成过程。这使得模型能够根据真实世界的视觉实例来调整其输出。 检索过程由 CLIP 提供支持旨在确保检索到的图像与查询内容具有有意义的相似性并提供新信息以改善生成效果。这种方法减少了对参数的依赖使得模型能够在不需要庞大训练数据集的情况下实现具有竞争力的结果。 RDM 方法支持 事后修改研究人员可以在推理时更换数据库从而实现对新风格、领域甚至完全不同任务如风格化或类别条件合成的零样本适应。 RDM 的一个关键优势在于它能够在不重新训练模型的情况下提升图像生成效果。通过简单地更改检索数据库模型可以泛化到从未明确训练过的新概念。这对于存在 领域偏移 的应用场景特别有用例如基于不断演变的数据集生成医学影像或者将文本到图像模型适应于创意应用。 然而这种基于检索的方法依赖于外部数据库的质量和相关性这使得数据策划成为实现高质量生成的重要因素。此外这种方法距离实现商业语言模型中典型的基于 RAG 的交互式图像合成仍有较大差距。 3.3 ReMoDiffuse ReMoDiffuse 是一种用于 3D 人体运动生成的检索增强运动扩散模型。与依赖纯学习表示的传统运动生成模型不同ReMoDiffuse 从大规模运动数据集中检索相关的运动样本并将其整合到去噪过程中其架构类似于 RDM见上文。 右侧为 RAG 增强的 ReMoDiffuse 与先前方法的对比 这使得模型能够生成更自然、更多样化且在语义上忠实于用户文本提示的运动序列。 ReMoDiffuse 采用了一种创新的 混合检索机制基于语义和运动学相似性选择运动序列以确保检索到的运动不仅在主题上相关而且在物理上合理地整合到新生成中。 然后模型使用 语义调制的 Transformer 对检索到的样本进行细化有选择地整合检索到的运动知识同时保持生成序列的特征品质。 ReMoDiffuse 的流程架构 该模型的 条件混合 技术增强了模型在不同提示和检索条件下的泛化能力通过在生成过程中平衡检索到的运动样本与文本提示的权重解决了扩散模型中常见的 分类器自由引导 技术的 尺度敏感性问题。 这有助于防止不真实或重复的输出即使对于罕见的提示也是如此。它还解决了扩散模型中常见的尺度敏感性问题这种问题通常出现在分类器自由引导技术中。 3.4 RA-CM3 斯坦福大学 2023 年的论文 Retrieval-Augmented Multimodal Language ModelingRA-CM3允许系统在推理时访问现实世界的信息。 斯坦福大学的检索增强多模态语言模型RA-CM3使用从互联网检索到的图像增强生成过程但目前仍处于原型阶段尚未公开发布 RA-CM3 将检索到的文本和图像整合到生成流程中增强文本到图像和图像到文本的合成效果。该模型使用 CLIP 进行检索并以 Transformer 作为生成器在生成输出之前引用相关的多模态文档。 在 MS-COCO 上的基准测试显示与 DALL-E 和类似系统相比RA-CM3 实现了 12 点的 Fréchet Inception DistanceFID降低且计算成本更低。 然而与其他基于检索增强的方法一样RA-CM3 并没有无缝内化其检索到的知识。相反它将新数据叠加在其预训练的网络上类似于 LLM 通过搜索结果增强回答。虽然这种方法可以提高事实准确性但它并不能替代在需要深度合成的领域中更新训练的需求。 此外目前尚未发布该系统的实际实现版本甚至没有通过 API 平台提供。 3.5 RealRAG 来自中国的最新发布 Retrieval-Augmented Realistic Image GenerationRealRAG引发了我们对 RAG 增强生成图像系统的关注。 RealRAG 中引入的外部图像位于下方中间 RealRAG 从公开可用的数据集如 ImageNet、Stanford Cars、Stanford Dogs 和 Oxford Flowers中检索相关对象的实际图像并将其整合到生成过程中以填补模型的知识空白。 RealRAG 的一个关键组件是 自反式对比学习它训练检索模型找到信息丰富的参考图像而不仅仅是选择 视觉上相似 的图像。 作者指出 “我们的关键见解是训练一个检索器使其检索到的图像远离生成器的生成空间但接近文本提示的表示。” “为此我们首先根据给定的文本提示生成图像然后利用这些生成的图像作为查询从基于真实对象的数据库中检索最相关的图像。这些最相关的图像被用作反思性负样本。” 这种方法确保检索到的图像为生成过程贡献了 缺失的知识而不是强化模型中已有的偏见。 从左到右检索到的参考图像没有使用 RAG 的结果使用检索图像的结果 然而对检索质量和数据库覆盖范围的依赖意味着其有效性可能会因高质量参考图像的可用性而有所不同。如果相关图像不存在于数据集中模型可能仍然难以处理不熟悉的概念。 RealRAG 采用了一种非常模块化的架构兼容多种其他生成架构包括基于 U-Net、DiT 和自回归的模型。 总体而言检索和处理外部图像会增加计算开销系统的性能取决于检索机制在不同任务和数据集上的泛化能力。 四、总结 这是一篇关于图像检索多模态生成系统的代表性而非穷尽性概述。一些此类系统仅使用检索来改善视觉理解或数据集策划而不是寻求生成图像例如 Internet Explorer。 文献中还有许多其他基于 RAG 的项目尚未发布。只有发表研究论文的原型例如 Re-Imagen尽管它来自谷歌但只能访问本地自定义数据库中的图像。 此外2024 年 11 月百度 宣布 了 基于图像检索的增强生成iRAG这是一个使用“数据库”检索图像的新平台。尽管据报道 iRAG 可在 Ernie 平台上使用但关于检索过程的细节似乎很少它似乎依赖于一个 本地数据库即服务本地的用户无法直接访问。 此外2024 年的论文 Unified Text-to-Image Generation and Retrieval 提供了另一种基于 RAG 的方法使用外部图像在生成时增强结果——同样这些图像来自 本地数据库而不是来自 即时互联网来源。 围绕 RAG 增强图像生成的兴奋可能会集中在能够直接将互联网来源或用户上传的图像整合到生成过程中的系统上并允许用户参与图像的选择或来源。 然而这是一个重大挑战原因至少有两个首先此类系统的有效性通常取决于在资源密集型训练过程中形成的深度整合关系其次如前所述的安全性、合法性以及版权限制等问题使得这一功能不太可能成为 API 驱动的网络服务的特性也不太可能在商业部署中实现。 原文地址https://www.unite.ai/the-future-of-rag-augmented-image-generation/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/89524.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

南通网站制作推广建站网络

在 CSDN 这个技术交流的大舞台上,原力值不仅是个人活跃度的象征,更是开启更多权益与福利的钥匙。最近,我出于自身需求,一头扎进了提升原力值的研究中,经过多方探索与资料整理,现在就迫不及待地把这些干货分…

网站后台百度商桥代码哪里安装筑人才官网

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 类与对象 1、面向过程和面向对象初步认识 2、类的引入 3、类的定义 4、类的访问限定符及封装 4.1、访问限定符 4.2、封装 5、类的作用域 6、类的…

网站背景色代码谁有哪种浏览器网站免费的

第一章 C语言概述 1.1 C语言的发展史 1.1.1程序语言简述 1、机器语言 低级语言,又称二进制代码语言。一种使用0、1表示的二进制代码编写指令以执行计算机操作的语言。 特点:计算机可以直接识别,不需要进行任何翻译。 2、汇编语言 为了减…

济南微网站开发深圳建设集团有限公司地址

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

中国各大网站软件营销网站建设

jpa语法错误根据我在帮助团队和进行培训方面的经验,这是我遇到的一些陷阱/错误,它们在使用JPA的基于Java的系统中引起了一些问题。 需要一个公共的无参数构造函数 始终使用双向关联/关系 将OneToMany用于可能庞大的集合 需要一个公共的无参数构造函数…

网站优化注意事项广州免费孕检

在面向对象的软件开发中,中介者模式是一种重要的行为型设计模式,用于降低多个对象间通信的复杂性。通过提供一个中心化的对象来处理不同组件之间的交互,中介者模式使得组件间不必显式引用彼此,从而使其松散耦合、更易于维护。本文…

连云港网站建设的公司匠王红木在那个网站做众筹

目录 前言: 什么是React路由? 导航和页面切换 路由参数和动态路由 路由守卫和权限控制 总结 前言: React是一个流行的JavaScript库,用于构建用户界面。在使用React开发Web应用程序时,路由和导航是必不可少的功能…

建国内外网站有什么区别促销活动推广文案

深度聚类不仅继承了传统聚类算法的优点,在对高维和非线性数据的处理能力,以及自适应性和抗噪性方面也具有很大优势。 具体来说,结合深度学习的聚类算法通过利用深度神经网络的强大特征提取能力,自动学习和识别数据中的复杂结构和…

网站换域名怎么做公司网站建设企划书

1、理解使用对象完成数据组织的思路 1.1类和对象的基本理解 理解类:从现实世界到编程世界 类由三个部分组成:类名、类的属性、类的方法。类的定义实际上是描述事物的一种方法,在现实世界中,事物都是有属性和行为的。通过类&…

招代理商的网站农业生态园电商网站建设

在我的上一篇文章中: JPA –基本投影 –我已经提到了构建JPA投影的两种基本可能性。 这篇文章为您带来了更多示例,这次基于Querydsl框架。 注意,这里我指的是Querydsl版本3.1.1。 重塑构造函数表达式 看下面的代码: ... import …

用个人的信息备案网站淘宝关键词怎么选取

1. 数组名作为指针 int arr[5] {0,1,2,3,4}; int*ptr arr; 2. 取地址 int* ptr &arr[3]; 3.指针算数运算 int* ptr arr; int* p *(arr1);

网站页面优化包括新网站建设咨询

流程控制 分支 循环语句     if...else...     if...else if...else switch(值0) { ------------值0是什么类型, case后面的值就要是什么类型       case 值1:         执行语句         break;       case 值1:         …

网站icp备案需要多久服务公司小说

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:就业…

做我女朋友的表白句的网站宁波网站建设企业网站制作

微信获取公众号授权失败 :ssl connect error 本人用的是微擎,也是刚入手,碰到这个问题感觉很棘手。 通过一步步调试发现问题出在curl 认证这里,得到结果错误代码:35,错误信息就是:ssl connect …

做执法设备有哪些网站进出口贸易公司

目录 1. 通过netstat来分析服务器和客户端的TCP状态 2.通过tcpdump抓包分析服务器和客户端的TCP状态 2.1 语法

一站式做网站服务品牌网站建设推荐乐云seo

如果您曾经编写过测试数据库交互的代码,例如数据访问对象,那么您很可能遇到了测试中最长期的烦恼之一:为了准确地测试这些交互,需要一个数据库。 为了本文的方便,让我们考虑一个将PostgreSQL用作其环境的一部分的应用…

专业的手机价格网站建设wordpress 学习视频

文章目录 目录 文章目录 前言 一.变量 概述 定义 自定义变量 环境变量 概述: 定义环境变量: 位置变量 "$*"会把所有位置参数当成一个整体(或者说当成一个单词 变量的赋值和作用域 read 命令 变量和引号 变量的作用域 变…

网页设计作业视频网站如何免费建一个网站

思维导图文章已收录Github精选,欢迎Star:https://github.com/yehongzhi/learningSummary悲观锁悲观锁是平时开发中经常用到的一种锁,比如ReentrantLock和synchronized等就是这种思想的体现,它总是假设别的线程在拿线程的时候都会修…

wordpress做管理网站建设网站坪山

我这几天一直在看C#的书,知道了委托是怎么回事,但我一直不能理解这个委托是用在什么地方,有什么好处,请高手指点。 转载于:https://www.cnblogs.com/yjlft/archive/2006/04/03/365443.html

网站开发合作运营平台合同郑州定制网站推广工具产品

来源: 网易智能美国当地时间5月7日,硅谷无人车创业公司 Drive.ai 宣布将于2018年7月在德克萨斯州弗里斯科市提供自动驾驶汽车服务。这或许会成为美国第一个真正落地的自动驾驶汽车载人服务,也标志着公众第一次有机会在公共道路上使用按需定制…