【论文笔记】Attentive Eraser

标题:Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance

Source:https://arxiv.org/pdf/2412.12974 

收录:AAAI '25

作者单位:浙工商,字节(杭州),阿里(杭州)

1. 总结

  • 提供了一种无需调参的方法,使得预训练的扩散模型在目标擦除任务上实现sota效果。

  • 作者发现,自注意力图会影响生成图像的结构和纹理细节

  • 作者提出ASS模块(attention activation and suppression),基于给定蒙版,调用语言训练扩散模型的自监督机制,在逆生成过程中实现背景相对于前景的优先处理

2. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

2.1 用于目标擦除的扩散模型

2.2 Sampling guidance

  • Classifier guidance: 使用额外的预训练分类器提供监督信号

  • Classifier-free guidance: 构建一个隐式分类器来引导生成过程

  • Self-attention guidance: 使用或者调整自监督模块来引导生成过程

    • SAG: Hong et al., 2023

    • PAG: Ahn et al., 2024

3. 论文试图解决什么问题?

扩散模型作为一种生成式模型,在目标去除任务(object removal tasks)上,会输出带有随机artifacts和前景物体区域生成不自然的问题。

4. 这篇文章要验证一个什么学科假设?

为前景物体区域提供背景标签,而其他区域在生成过程中保证标签不变,即可消除生成不自然的问题。

5. 论文中提到的解决方案之关键是什么?

  • 作者发现不同层不同时间步的自监督图代表了图像各组成部分的语义信息。自监督图中代表前景和背景的部分有明显区分。

  • 一种直觉的生成方案就是将前景自注意力信号与背景的相混合。相应地,蒙版内区域相较于背景的自注意力信号要提升,而相对自己的要下降。背景区域的信号要被固定且不受生成过程的影响。因此,背景相较于前景的注意力信号需要下降。

6. 论文中的实验是如何设计的?

无需微调,直接替换attention模块。在基于扩散模型的inpainting框架上验证效果可行性:SIP (stochastic inpainting pipeline) 和 DIP (deterministic inpainting pipeline)。

7. 用于定量评估的数据集是什么?代码有没有开源?

测试:从OpenImages V5的测试集中随机抽取一万组数据,包含原始图,对应的蒙版,分割的外接框,和分割类别标签。

评估指标:

  • 整体效果:FID, LPIPS,

  • 局部效果:Local-FID,

  • 一致多样性:CLIP consensus,和

  • 目标擦除度:CLIP score,越高,说明擦除得越真实,擦除度越高。

代码已开源:https://github.com/Anonym0u3/AttentiveEraser?tab=readme-ov-file

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/72681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【powerjob】 powerjobserver注册服务IP错误

1、问题:powerjobserver 4.3.6 的服务器上有多个网卡对应多个ip,示例 eth0 :IP1 ,docker0:IP2 和worker 进行通信时 正确的应该时IP1 但是注册显示获取的确实IP2,导致 worker 通过ip2和server通信,网络不通,注册不上 2、解决方案 …

视频录像机视频通道是指什么

视频录像机的视频通道是指摄像机在监控矩阵或硬盘录像机设备上的视频输入的物理位置。 与摄像头数量关系:在视频监控系统中,有多少个摄像头就需要多少路视频通道,通道数量决定了视频录像机可接入摄像头的数量,一般硬盘录像机有4路…

面试150,数组 / 字符串

27. 移除元素 class Solution:def removeElement(self, nums: List[int], val: int) -> int:# 把不等于 val 的值移动到前面n len(nums)left 0for right in range(n):if nums[right] ! val:nums[left] nums[right]left 1return left26. 删除有序数组中的重复项 只保留 1…

【江科大STM32】TIM输入捕获模式PWMI模式测频率

一、输入捕获测频率 接线图: 测信号的输入引脚为PA6,信号从PA6进来,待测的PWM信号也是STM32自己生成的,输出引脚是PA0,所以接线这里直接用一根线将PA0引到PA6就可以了。 如果有信号发生器的话,也可以设置成…

湖仓一体化及冷、热、实时三级存储

一、湖仓一体化(Lakehouse) 湖仓一体化(Lakehouse)是数据湖(Data Lake)与数据仓库(Data Warehouse)的结合,旨在解决传统数据架构中数据孤岛、存储冗余、计算性能不足等问…

go切片定义和初始化

1.简介 切片是数组的一个引用,因此切片是引用类型,在进行传递时,遵守引用传递的机制。切片的使用和数组类似,遍历切片、访问切片的元素和切片的长度都一样。。切片的长度是可以变化的,因此切片是一个可以动态变化的数…

游戏引擎学习第138天

仓库:https://gitee.com/mrxiao_com/2d_game_3 资产:game_hero_test_assets_003.zip 发布 我们的目标是展示游戏运行时的完整过程,从像素渲染到不使用GPU的方式,我们自己编写了渲染器并完成了所有的工作。今天我们开始了一些新的内容&#…

毕业项目推荐:基于yolov8/yolov5/yolo11的暴力行为检测识别系统(python+卷积神经网络)

文章目录 概要一、整体资源介绍技术要点功能展示:功能1 支持单张图片识别功能2 支持遍历文件夹识别功能3 支持识别视频文件功能4 支持摄像头识别功能5 支持结果文件导出(xls格式)功能6 支持切换检测到的目标查看 二、数据集三、算法介绍1. YO…

docker中kibana启动后,通过浏览器访问,出现server is not ready yet

问题:当我在浏览器访问kibana时,浏览器给我报了server is not ready yet. 在网上试了很多方法,都未能解决,下面是我的方法: 查看kibana日志: docker logs -f kibana从控制台打印的日志可以发现&#xff…

在 Docker 中,无法直接将外部多个端口映射到容器内部的同一个端口

Docker 的端口映射是一对一的,即一个外部端口只能映射到容器内部的一个端口。 1. 为什么不能多对一映射? 端口冲突: 如果外部多个端口映射到容器内部的同一个端口,Docker 无法区分外部请求应该转发到哪个内部端口,会…

游戏引擎学习第120天

仓库:https://gitee.com/mrxiao_com/2d_game_3 上次回顾:周期计数代码 我们正在进行一个项目的代码优化工作,目标是提高性能。当前正在优化某个特定的代码片段,已经将其执行周期减少到48个周期。为了实现这一目标,我们设计了一个…

C++中的.h文件一般是干什么的?

在C中,.h 文件通常是 头文件(Header File),它们的主要作用是声明类、函数、常量、宏以及其他在多个源文件(.cpp文件)之间共享的元素。头文件提供了一个接口,使得不同的源文件能够访问这些共享的…

基础算法总结

基础算法总结 1、模拟1.1 什么是模拟算法1.2 算法题1.2.1 多项式输出1.2.2 蛇形方阵 2 高精度算法2.1 什么是高精度算法2.2 算法题2.2.1 高精度加法 2.2.2 高精度乘法 3 普通枚举3.1 算法题3.1.1 铺地毯 3.1.2 回文日期 4 前缀和算法4.1 什么是前缀和4.2 算法题4.2.1 最大子段和…

密码学(哈希函数)

4.1 Hash函数与数据完整性 数据完整性: 检测传输消息(加密或未加密)的修改。 密码学Hash函数: 构建某些数据的简短“指纹”;如果数据被篡改,则该指纹(以高概率)不再有效。Hash函数…

游戏引擎学习第135天

仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾 game_asset.cpp 的创建 在开发过程中,不使用任何现成的游戏引擎或第三方库,而是直接基于 Windows 进行开发,因为 Windows 目前仍然是游戏的标准平台,因此首先在这个环境中进行…

Linux:文件描述符与重定向

目录 一、文件描述符 1.文件内核对象 2.文件描述符分配原则 二、文件重定向 1.重定向的现象 输出重定向 输入重定向 dup2 2.重定向的使用 三、标准输出和标准错误 继上篇文章中,我们了解了fd打印的值为文件描述符,那么它还有什么作用呢&…

白盒测试(3):PCB阻抗测试方法

PCB阻抗测试是确保信号完整性的关键,通过测量走线的特性阻抗,验证其是否符合设计目标。常用方法包括时域反射法(TDR)、网络分析仪法和仿真软件法。TDR通过分析反射信号定位阻抗异常,网络分析仪通过S参数计算阻抗&#…

CentOS 7 安装Nginx-1.26.3

无论安装啥工具、首先认准了就是官网。Nginx Nginx官网下载安装包 Windows下载: http://nginx.org/download/nginx-1.26.3.zipLinxu下载 wget http://nginx.org/download/nginx-1.26.3.tar.gzLinux安装Nginx-1.26.3 安装之前先安装Nginx依赖包、自行选择 yum -y i…

笔记:如何使用XAML Styler以及在不同的开发环境中使用一致

一、目的:分享如何使用XAML Styler以及在不同的开发环境中使用一致 XAML Styler 是一个 Visual Studio 扩展,用于自动格式化和整理 XAML 文件。它可以帮助开发者保持一致的代码风格,提高代码的可读性和可维护性。以下是如何在 Visual Studio …

分布式存储学习——HBase概述

1.1 HBase概述 1.1.1 理解大数据背景 1.1.2 HBase是什么 1.1.3 HBase与Hadoop的关系 1.1.4 HBase的核心功能模块 1.1.5 HBase的应用场景和经典案例 1.1.6 小结 本文参考于学校《HBase应用于开发》教材 1.1 HBase概述 本节将介绍大数据背景和HBase的基本概念&#xff0c…