【AI论文】SuperEdit:修正并促进基于指令的图像编辑的监督信号

摘要:由于手动收集准确的编辑数据存在挑战,现有的数据集通常使用各种自动化方法构建,导致编辑指令和原始编辑图像对之间不匹配导致监督信号出现噪声。 最近的研究试图通过生成更高质量的编辑图像、在识别任务上进行预训练或引入视觉语言模型(VLM)来改进编辑模型,但未能解决这一根本问题。 在本文中,我们通过为给定的图像对构建更有效的编辑指令,提供了一种新的解决方案。 这包括修正编辑指令,使其更好地与原始编辑图像对保持一致,并使用对比编辑指令进一步提高其有效性。 具体而言,我们发现编辑模型在不同的推理步骤中表现出特定的生成属性,与文本无关。 基于这些先验属性,我们为VLM定义了一个统一的指南来纠正编辑指令。 然而,有一些具有挑战性的编辑场景,仅靠纠正指令无法解决。 为此,我们进一步构建了具有正负指令的对比监督信号,并将其引入使用三元组损失的模型训练中,从而进一步促进监督的有效性。 我们的方法不需要VLM模块或之前工作中使用的预训练任务,提供了一种更直接、更有效的方式来提供更好的监督信号,并为基于指令的图像编辑提供了一种新颖、简单、有效的解决方案。 多个基准测试的结果表明,我们的方法明显优于现有的方法。 与之前的SOTA SmartEdit相比,我们在Real-Edit基准测试中实现了9.19%的改进,训练数据减少了30倍,模型大小缩小了13倍。Huggingface链接:Paper page,论文链接:2505.02370

研究背景和目的

研究背景

随着深度学习和扩散模型在图像生成领域的快速发展,基于文本指令的图像编辑技术逐渐成为研究热点。这类技术允许用户通过自然语言描述来修改图像,而无需手动绘制掩码或进行复杂的图像处理操作。然而,现有的基于指令的图像编辑方法面临一个核心挑战:由于训练数据的自动生成过程中存在噪声,导致编辑指令与原始-编辑图像对之间的对齐不准确,从而产生噪声监督信号。这种噪声监督信号会严重影响图像编辑模型的性能,限制其在实际应用中的效果。

为了解决这一问题,现有研究尝试通过多种途径改进图像编辑模型,包括生成更高质量的编辑图像、在识别任务上进行预训练,或引入视觉语言模型(VLMs)来增强对编辑指令的理解。然而,这些方法要么引入了显著的计算开销,要么未能从根本上解决噪声监督信号的问题。因此,如何从数据层面直接提升监督信号的质量,成为当前基于指令的图像编辑研究中亟待解决的关键问题。

研究目的

本文的研究目的在于提出一种新的方法,通过优化监督信号来提升基于指令的图像编辑模型的性能。具体而言,本研究旨在:

  1. 改进监督信号质量:通过修正编辑指令,使其更好地与原始-编辑图像对对齐,从而减少噪声监督信号的影响。

  2. 引入对比监督信号:通过构造正例和负例编辑指令,利用三重损失函数(triplet loss)进一步增强监督信号的有效性,使模型能够从正负样本中学习到更丰富的编辑知识。

  3. 验证方法有效性:在多个基准测试集上验证所提方法的有效性,并与现有最先进的方法进行比较,展示所提方法在减少训练数据需求和模型参数的同时,能够显著提升图像编辑的性能。

研究方法

方法概述

本文提出的方法名为SuperEdit,其核心在于通过两个关键步骤来改进基于指令的图像编辑模型的监督信号质量:

  1. 监督信号修正:利用扩散模型的先验知识和视觉语言模型(VLMs)来修正编辑指令,使其更好地与原始-编辑图像对对齐。

  2. 对比监督信号引入:通过构造正例和负例编辑指令,并利用三重损失函数来增强监督信号的有效性,使模型能够学习到更丰富的编辑知识。

具体实现
  1. 监督信号修正

    • 扩散模型先验:通过分析扩散模型在不同推理阶段的行为,发现不同阶段对应于图像生成的不同属性(如全局布局、局部对象属性、图像细节和风格变化)。基于这一发现,本文提出了一种统一的修正指南,用于指导VLMs修正编辑指令。

    • 指令修正过程:将原始-编辑图像对输入到VLMs(如GPT-4o)中,要求其根据扩散模型的先验知识描述编辑图像相对于原始图像的变化,并据此修正编辑指令。

  2. 对比监督信号引入

    • 正负例构造:基于修正后的编辑指令,通过替换数量、空间位置和对象类型等属性来构造负例指令,同时保留原始指令作为正例。

    • 三重损失函数:将正例和负例指令分别输入到编辑模型中,预测噪声,并利用三重损失函数来最小化正例指令预测噪声与真实噪声之间的距离,同时最大化负例指令预测噪声与真实噪声之间的距离。

研究结果

实验设置

为了验证所提方法的有效性,本文在Real-Edit基准测试集上进行了广泛实验。该基准测试集包含高分辨率图像,并使用GPT-4o进行评分,评估指标包括准确性(%)和得分(从0到5),分别评估编辑图像是否遵循编辑指令(Following)、图像结构是否得到保留(Preserving)以及编辑图像的整体质量/美观度是否下降(Quality)。

定量结果

在Real-Edit基准测试集上,SuperEdit方法在所有三个评估指标(Following、Preserving、Quality)上均取得了最佳性能。具体而言,与现有最先进的方法SmartEdit相比,SuperEdit在整体得分上提升了11.4%,在Following、Preserving和Quality三个指标上的准确率分别提升了3%、7%和11%。此外,SuperEdit在训练数据需求和模型参数方面均显著优于现有方法,仅使用了40K高质量编辑数据和1.1B模型参数,即实现了显著的性能提升。

定性结果

通过可视化比较,SuperEdit方法在多个编辑任务上均展现出了卓越的性能。例如,在“将老虎替换为狮子,保持在水中的相同位置”这一指令下,SuperEdit方法能够准确地完成替换操作,并保持狮子的位置不变;而SmartEdit方法则未能完全遵循指令,导致狮子的位置发生了偏移。此外,在“将背景更改为沙滩,远处有海洋”这一复杂指令下,SuperEdit方法也能够生成高质量的编辑图像,而SmartEdit方法则未能完全理解指令意图,导致编辑结果不理想。

研究局限

尽管SuperEdit方法在基于指令的图像编辑任务上取得了显著的性能提升,但仍存在一些局限性:

  1. 复杂指令理解困难:当原始图像中包含多个对象且指令仅修改其中一个对象时,编辑模型仍难以准确执行编辑操作。此外,预训练的文本到图像扩散模型本身存在的困难(如理解数量、位置或对象关系)也会影响编辑模型的性能。

  2. 计算开销:虽然SuperEdit方法在训练数据需求和模型参数方面优于现有方法,但仍需要使用VLMs(如GPT-4o)来修正编辑指令,这可能会引入额外的计算开销。

  3. 数据集偏差:尽管本文在多个基准测试集上验证了SuperEdit方法的有效性,但这些基准测试集可能仍存在偏差,无法完全反映实际应用中的复杂情况。

未来研究方向

针对SuperEdit方法的局限性和当前基于指令的图像编辑研究中的挑战,未来的研究可以从以下几个方面展开:

  1. 改进指令理解能力:探索更先进的方法来提升编辑模型对复杂指令的理解能力,例如引入更强大的VLMs或开发专门的指令解析模块。

  2. 降低计算开销:研究如何降低使用VLMs修正编辑指令的计算开销,例如通过模型压缩、知识蒸馏或开发更高效的修正算法。

  3. 扩展数据集和评估指标:构建更多样化的基准测试集,并开发更全面的评估指标,以更准确地评估图像编辑模型在实际应用中的性能。

  4. 结合多模态信息:探索如何结合图像、文本和语音等多模态信息来进一步提升图像编辑模型的性能,使其能够更准确地理解用户意图并生成更符合期望的编辑结果。

  5. 探索可解释性:研究如何提升图像编辑模型的可解释性,使其能够向用户解释其编辑决策的依据和过程,从而增强用户对模型的信任度和满意度。

通过以上研究方向的探索,有望进一步推动基于指令的图像编辑技术的发展,使其在实际应用中发挥更大的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/79771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于大疆红外图片提取温度方法 python 方法

思路 红外图片需要是黑白图片 提取红外图片最高和最低温度 温度图例 根据最高温度31.2摄氏度 最低温度19.9摄氏度 那中间的值在 0到255 之间 那有这个值之后。就可以获取到图片里面 每个点或者面的值 实现方式 def find_Gray(self, t_max, t_min, c_temp):"""…

金融小知识

📉 一、“做空”是啥? 通俗说法:押“它会跌”,赚钱! ✅ 举个例子: 有一天老王的包子涨价到 10 块一个,张三觉得这价格肯定撑不住,未来会跌到 5 块。于是他: 向朋友借了…

JavaScript 数据存储全攻略:从 Cookie 到 IndexedDB

1. Cookie:传统的轻量级存储 Cookie 是最早的客户端存储解决方案之一,最初设计用于服务器和客户端之间的状态保持。 基本用法 javascript 复制 下载 // 设置cookie document.cookie "usernameJohnDoe; expiresThu, 18 Dec 2025 12:00:00 UTC…

Leetcode 刷题记录 09 —— 链表第三弹

本系列为笔者的 Leetcode 刷题记录,顺序为 Hot 100 题官方顺序,根据标签命名,记录笔者总结的做题思路,附部分代码解释和疑问解答,01~07为C语言,08及以后为Java语言。 01 合并 K 个升序链表 /*** Definitio…

如何利用 Elastic Load Balancing 提升应用性能与可用性?

当今云计算的快速发展中,随着应用需求的增加,如何确保系统能够高效、稳定地处理不断增长的流量成为了每个技术团队关注的焦点。Elastic Load Balancing(ELB)作为一种强大的工具,能够帮助开发者和运维人员轻松应对流量波…

Word如何制作三线表格

1.需求 将像这样的表格整理成论文中需要的三线表格。 2.直观流程 选中表格 --> 表格属性中的边框与底纹B --> 在设置中选择无(重置表格)–> 确定 --> 选择第一行(其实是将第一行看成独立表格了,为了设置中线&…

JVM的双亲委派模型

引言 Java类加载机制中的双亲委派模型通过层层委托保证了核心类加载器与应用类加载器之间的职责分离和加载安全性,但其单向的委托关系也带来了一些局限性。尤其是在核心类库需要访问或实例化由应用类加载器加载的类时,双亲委派模型无法满足需求&#xf…

6.4.高并发设计

目录 一、高并发系统设计基础理论 CAP定理与高可用性权衡 • 一致性(C) vs 可用性(A)在电商、社交场景的取舍 • 分区容错性(P)的实践意义:异地多活与脑裂处理 性能指标与评估模型 • QPS、TP…

工程师转型算法工程师 深入浅出理解transformer-手搓板

编码器 以下部分引用台湾大学李宏毅教授的ppt 自己理解解释一遍(在youtobe 上可以搜索李宏毅即可) 首先先来看transformer的架构图 Embedding 我们先从Imput Embedding 跟 OutPutEmbedding 开始,让我们用 bert 模型来做一个解释 从huggingface上下载的bert-base…

软件工程学概述

一、软件危机 (一)软件危机的介绍 1. 基本思想与定义 软件危机(Software Crisis)是指在计算机软件的开发和维护过程中所遇到的一系列严重问题,这些问题既包括技术层面的挑战,也涉及管理层面的困境。其核心…

【ArcGIS Pro微课1000例】0068:Pro原来可以制作演示文稿(PPT)

文章目录 一、新建演示文稿二、插入页面1. 插入地图2. 插入空白文档3. 插入图像4. 插入视频三、播放与保存一、新建演示文稿 打开软件,新建一个地图文档,再点击【新建演示文稿】: 创建的演示文档会默认保存在目录中的演示文稿文件夹下。 然后可以对文档进行简单的设计,例如…

[吾爱出品][Windows] 产品销售管理系统2.0

[Windows] 产品销售管理系统 链接:https://pan.xunlei.com/s/VOPej1bHMRCHy2np9w3TBOyKA1?pwdgjy7# 使用方法:1、先设置一下图片保存路径 2、维护产品。客户等基础信息。例如:销售类型:一次性 销售编码:RCX。 3、销…

MySQL数据库高可用(MHA)详细方案与部署教程

一:MHA简介 核心功能 二:MHA工作原理 三:MHA组件 四:MHA 架构与工具 MHA架构 Manager关键工具 Node工具 五:工作原理与流程 1: 故障检测 2: 故障切换(Failover) 3 : 切换模式 六&a…

华为设备链路聚合实验:网络工程实战指南

链路聚合就像为网络搭建 “并行高速路”,既能扩容带宽,又能保障链路冗余,超实用! 一、实验拓扑速览 图中两台交换机 LSW1 和 LSW2,PC1、PC2 归属 VLAN 10,PC3 归属 VLAN 30。LSW1 与 LSW2 通过 GE0/0/1、…

数组和集合

数组和集合的区别: 1、数组是固定长度的数据结构,一旦创建长度就无法改变,集合是动态长度数据结构,可根据需求动态增加或减少元素。 2、数组包含基本数据类型和对象,而集合只能包含对象。 3、数组可以直接访问元素&…

WPF MVVM进阶系列教程(一、对话框)

🍠 WPF MVVM进阶系列教程 一、对话框 在前面的文章中,我们介绍了MVVM开发的一些基础知识。 对于日常开发来说,基本已经足够应付大部分场景。 从这里开始,介绍的都是在MVVM模式开发中,提升程序可维护性、灵活性、健壮…

【AI News | 20250507】每日AI进展

AI Repos 1、CFWorkerACME SSL证书助手是一个免费开源的平台,基于Cloudflare Worker运行,旨在自动化SSL证书的申请和下发,尤其适用于多服务器或内网环境。它通过自动化的CNAME和DNS操作完成域名验证,支持Let’s Encrypt、ZeroSSL…

5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)

最近很多朋友都在问:怎么本地部署 DeepSeek 搭建个人知识库。 老实说,如果你不是为了研究技术,或者确实需要保护涉密数据,我真不建议去折腾本地部署。 为什么呢? 目前 Ollama 从 1.5B 到 70B 都只是把 R1 的推理能力提炼到 Qwen 和 Llama 的蒸馏版本上。 虽说性能是提升…

极狐GitLab 分支管理功能介绍

极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 分支 (BASIC ALL) 分支是项目工作树的一个版本。分支是项目开发的基础。当你创建一个新的项目时,极狐GitLab 会为…

基于ASP.NET+MySQL实现待办任务清单系统

基于ASP.NET的ToDoList的设计与实现 一、前言 1.1 实验目的 使学生综合使用所学过的ASP.NET网络编程知识,掌握网络环境程序设计的基本概念;结合实际的操作和设计,巩固课堂学习内容,掌握网络环境编程的特点、原理和技术&#xf…