【AI论文】SuperEdit：修正并促进基于指令的图像编辑的监督信号

摘要：由于手动收集准确的编辑数据存在挑战，现有的数据集通常使用各种自动化方法构建，导致编辑指令和原始编辑图像对之间不匹配导致监督信号出现噪声。最近的研究试图通过生成更高质量的编辑图像、在识别任务上进行预训练或引入视觉语言模型（VLM）来改进编辑模型，但未能解决这一根本问题。在本文中，我们通过为给定的图像对构建更有效的编辑指令，提供了一种新的解决方案。这包括修正编辑指令，使其更好地与原始编辑图像对保持一致，并使用对比编辑指令进一步提高其有效性。具体而言，我们发现编辑模型在不同的推理步骤中表现出特定的生成属性，与文本无关。基于这些先验属性，我们为VLM定义了一个统一的指南来纠正编辑指令。然而，有一些具有挑战性的编辑场景，仅靠纠正指令无法解决。为此，我们进一步构建了具有正负指令的对比监督信号，并将其引入使用三元组损失的模型训练中，从而进一步促进监督的有效性。我们的方法不需要VLM模块或之前工作中使用的预训练任务，提供了一种更直接、更有效的方式来提供更好的监督信号，并为基于指令的图像编辑提供了一种新颖、简单、有效的解决方案。多个基准测试的结果表明，我们的方法明显优于现有的方法。与之前的SOTA SmartEdit相比，我们在Real-Edit基准测试中实现了9.19%的改进，训练数据减少了30倍，模型大小缩小了13倍。Huggingface链接：Paper page，论文链接：2505.02370

研究背景和目的

研究背景

随着深度学习和扩散模型在图像生成领域的快速发展，基于文本指令的图像编辑技术逐渐成为研究热点。这类技术允许用户通过自然语言描述来修改图像，而无需手动绘制掩码或进行复杂的图像处理操作。然而，现有的基于指令的图像编辑方法面临一个核心挑战：由于训练数据的自动生成过程中存在噪声，导致编辑指令与原始-编辑图像对之间的对齐不准确，从而产生噪声监督信号。这种噪声监督信号会严重影响图像编辑模型的性能，限制其在实际应用中的效果。

为了解决这一问题，现有研究尝试通过多种途径改进图像编辑模型，包括生成更高质量的编辑图像、在识别任务上进行预训练，或引入视觉语言模型（VLMs）来增强对编辑指令的理解。然而，这些方法要么引入了显著的计算开销，要么未能从根本上解决噪声监督信号的问题。因此，如何从数据层面直接提升监督信号的质量，成为当前基于指令的图像编辑研究中亟待解决的关键问题。

研究目的

本文的研究目的在于提出一种新的方法，通过优化监督信号来提升基于指令的图像编辑模型的性能。具体而言，本研究旨在：

改进监督信号质量：通过修正编辑指令，使其更好地与原始-编辑图像对对齐，从而减少噪声监督信号的影响。
引入对比监督信号：通过构造正例和负例编辑指令，利用三重损失函数（triplet loss）进一步增强监督信号的有效性，使模型能够从正负样本中学习到更丰富的编辑知识。
验证方法有效性：在多个基准测试集上验证所提方法的有效性，并与现有最先进的方法进行比较，展示所提方法在减少训练数据需求和模型参数的同时，能够显著提升图像编辑的性能。

研究方法

方法概述

本文提出的方法名为SuperEdit，其核心在于通过两个关键步骤来改进基于指令的图像编辑模型的监督信号质量：

监督信号修正：利用扩散模型的先验知识和视觉语言模型（VLMs）来修正编辑指令，使其更好地与原始-编辑图像对对齐。
对比监督信号引入：通过构造正例和负例编辑指令，并利用三重损失函数来增强监督信号的有效性，使模型能够学习到更丰富的编辑知识。

具体实现

监督信号修正
- 扩散模型先验：通过分析扩散模型在不同推理阶段的行为，发现不同阶段对应于图像生成的不同属性（如全局布局、局部对象属性、图像细节和风格变化）。基于这一发现，本文提出了一种统一的修正指南，用于指导VLMs修正编辑指令。
- 指令修正过程：将原始-编辑图像对输入到VLMs（如GPT-4o）中，要求其根据扩散模型的先验知识描述编辑图像相对于原始图像的变化，并据此修正编辑指令。
对比监督信号引入
- 正负例构造：基于修正后的编辑指令，通过替换数量、空间位置和对象类型等属性来构造负例指令，同时保留原始指令作为正例。
- 三重损失函数：将正例和负例指令分别输入到编辑模型中，预测噪声，并利用三重损失函数来最小化正例指令预测噪声与真实噪声之间的距离，同时最大化负例指令预测噪声与真实噪声之间的距离。

研究结果

实验设置

为了验证所提方法的有效性，本文在Real-Edit基准测试集上进行了广泛实验。该基准测试集包含高分辨率图像，并使用GPT-4o进行评分，评估指标包括准确性（%）和得分（从0到5），分别评估编辑图像是否遵循编辑指令（Following）、图像结构是否得到保留（Preserving）以及编辑图像的整体质量/美观度是否下降（Quality）。

定量结果

在Real-Edit基准测试集上，SuperEdit方法在所有三个评估指标（Following、Preserving、Quality）上均取得了最佳性能。具体而言，与现有最先进的方法SmartEdit相比，SuperEdit在整体得分上提升了11.4%，在Following、Preserving和Quality三个指标上的准确率分别提升了3%、7%和11%。此外，SuperEdit在训练数据需求和模型参数方面均显著优于现有方法，仅使用了40K高质量编辑数据和1.1B模型参数，即实现了显著的性能提升。

定性结果

通过可视化比较，SuperEdit方法在多个编辑任务上均展现出了卓越的性能。例如，在“将老虎替换为狮子，保持在水中的相同位置”这一指令下，SuperEdit方法能够准确地完成替换操作，并保持狮子的位置不变；而SmartEdit方法则未能完全遵循指令，导致狮子的位置发生了偏移。此外，在“将背景更改为沙滩，远处有海洋”这一复杂指令下，SuperEdit方法也能够生成高质量的编辑图像，而SmartEdit方法则未能完全理解指令意图，导致编辑结果不理想。

研究局限

尽管SuperEdit方法在基于指令的图像编辑任务上取得了显著的性能提升，但仍存在一些局限性：

复杂指令理解困难：当原始图像中包含多个对象且指令仅修改其中一个对象时，编辑模型仍难以准确执行编辑操作。此外，预训练的文本到图像扩散模型本身存在的困难（如理解数量、位置或对象关系）也会影响编辑模型的性能。
计算开销：虽然SuperEdit方法在训练数据需求和模型参数方面优于现有方法，但仍需要使用VLMs（如GPT-4o）来修正编辑指令，这可能会引入额外的计算开销。
数据集偏差：尽管本文在多个基准测试集上验证了SuperEdit方法的有效性，但这些基准测试集可能仍存在偏差，无法完全反映实际应用中的复杂情况。