Ingredient-oriented Multi-Degradation Learning for Image Restoration论文阅读

摘要:重点在于关联多个任务本质的联系。
不同恢复任务的关联性很重要。
揭示退化现象的内在机理联系很有意义。
多合一的方法能在单一模型中处理多种退化问题,可扩展性较差。
成分导向范式挖掘不同图像退化现象背后的物理规律或特征模式。
成分导向退化重构框架IDR包含两个核心阶段:任务导向知识收集与成分导向知识整合。
一、根据底层物理原理对退化类型进行定制化操作,为每类退化建立相应的先验中心库。
二、通过可学习的主成分分析PCA将任务导向的先验中心库重构为统一的成分导向中心库,并采用动态路由机制实现概率性未知退化去除。

摘要

探索不同图像恢复任务之间的关联性对于揭示退化现象背后的内在机理具有重要意义。近年来,各类"多合一"方法蓬勃发展,能够在单一模型中处理多种图像退化问题。然而,在实际应用中,鲜有研究尝试通过挖掘各类退化现象的根本性成分来建立任务间的关联性,导致当涉及更多任务时,模型的可扩展性较差。本文提出一种新颖的成分导向范式,以替代传统的任务导向范式,从而实现可扩展的学习。具体而言,我们提出的方法名为成分导向退化重构框架(IDR),包含两个核心阶段:任务导向知识收集与成分导向知识整合。在第一阶段,我们根据底层物理原理对不同退化类型进行定制化操作,并为每类退化建立相应的先验中心库。第二阶段则通过可学习的主成分分析(PCA)逐步将任务导向的先验中心库重构为统一的成分导向中心库,并采用动态路由机制实现概率性未知退化去除。大量实验表明,我们的方法在多种图像恢复任务上展现出优异的有效性和可扩展性。更重要的是,IDR框架对未知下游任务表现出良好的泛化能力。

1. 引言

图像恢复旨在从降质观测中重建高质量图像,这是涵盖一系列低级视觉任务的通用术语。除了在摄影领域实现令人满意的视觉效果外,图像恢复还广泛应用于自动驾驶、监控等现实场景。复杂环境对图像恢复算法提出了更高要求,尤其是当退化类型具有多样性和不确定性时。由于大多数现有方法专注于单一退化去除(如去噪[15,24,61]、去雨[20,52,55]、去模糊[8,40,42]、去雾[26,44,45]、低光增强[14,34,50]等),这些方法难以满足现实场景的应用需求。

近年来,“多合一”方法逐渐兴起,可在单一模型中处理多种图像退化。这类方法大致可分为两类:特定退化型和与退化无关型。前者(如文献[2,28])通过独立子网络处理不同退化,需预先指定退化类型,限制了应用范围;后者(如文献[25,47])则摆脱了退化类型的先验约束,提升了灵活性。然而,两者均面临扩展性不足的问题——随着任务数量增加,模型性能受限于潜在能力瓶颈,且未挖掘退化类型间的内在关联(即任务导向范式)。

为解决上述问题,我们提出两个核心问题:
i) “不同退化是否存在共性?” 近十年来,鲜有研究关注这一领域。文献[10]首次揭示了图像去雾与低光增强之间的关联。进一步观察发现,此类关联普遍存在,例如去模糊与去雨中的方向性特征、去雨与去噪中的非自然图像层叠现象。因此,探索不同恢复任务间的关联以学习退化背后的本质成分(即成分导向范式)具有重要意义。
ii) “退化图像是否必然仅属于单一退化类型?” 在现实场景中,多重退化可能同时存在(如暴雨常伴随薄雾,夜间监控中的低光与模糊叠加[63])。因此,孤立地学习每项恢复任务并不合理。

本文提出面向图像恢复的成分导向退化重构框架(IDR),提供了一种通过深入解析退化本质成分的新视角。具体而言,IDR的学习过程包含两个阶段:任务导向知识收集与成分导向知识整合。我们通过元先验学习模块(MPL)实现这一重构,该模块可嵌入任何基于Transformer的骨干网络。第一阶段根据底层物理原理对不同退化进行定制化操作,预嵌入各退化类型的物理特性先验,并建立独立的任务导向先验中心库,用于挖掘特定退化成分的组合表示。第二阶段通过可学习的主成分分析(PCA)逐步将任务导向中心库重构为统一的成分导向中心库,在成分层面寻找跨退化的共性,同时尽可能保留各自的差异信息。此外,MPL采用动态软路由机制,根据第一阶段嵌入的操作先验,实现概率性未知退化去除。

本工作的主要贡献总结如下:

  • 重新审视当前“多合一”方法的范式,提出通过挖掘退化本质成分提升模型扩展性。
  • 提出成分导向退化重构框架(IDR),包含两个阶段:任务导向知识收集与成分导向知识整合,协同作用于退化表征与退化操作。
  • 大量实验验证了方法的有效性。据我们所知,IDR是首个能以“多合一”方式同时处理五类图像恢复任务的方法。

2. 相关工作

2.1 图像恢复
图像恢复旨在通过缓解设备或环境带来的不利影响,将退化图像复原为干净版本。近年来,图像恢复任务经历了从传统方法到基于学习的方法的重大范式转变,后者在去噪[15,24,61]、去雨[20,52,55]、去模糊[8,40,42]、去雾[26,44,45]、低光增强[14,34,50]等任务中展现出卓越性能。此外,还提出了多种通用图像恢复方法。文献[3]提出了一种非线性激活自由网络作为图像恢复的简单基线;文献[4]探讨了归一化在低级视觉任务中的潜力;文献[43,58,59]则通过展开策略将图像恢复建模为深层理性过程,强调上下文信息和空间细节的保持。随着视觉Transformer的兴起,其全局建模能力和对输入内容的适应性催生了一系列图像恢复方法,包括基于窗口注意力[29,49]、通道交互[57]和潜在注意力[5]的模型。

近年来,“多合一”方法逐渐流行,可在单一模型中处理多种退化问题。文献[2]提出了一种基于Transformer的多头多尾框架用于多退化去除;文献[28]设计了多编码器单解码器网络,并结合神经架构搜索以应对多种恶劣天气处理任务;文献[25]提出了一种无需任务特定头或尾的先验网络,通过对比学习提升灵活性;文献[47]利用天气类型查询,通过单编码器解码器Transformer处理多退化问题;文献[30]则尝试学习任务无关的先验知识,以应对各类图像恢复任务。

2.2 多任务学习
多任务学习[1]早于深度学习兴起前就被引入,并已应用于计算机视觉[31,37]、自然语言处理[16]、语音合成[51]和强化学习[17]等多个领域。由于多任务学习常伴随优化冲突,一系列研究被开发出来。文献[6]提出利用梯度幅度平衡各任务的损失函数;文献[22]基于每项任务的同方差不确定性设计了权重机制;文献[54]将多目标元学习建模为多目标双层优化问题,并提出基于梯度的优化算法寻找共同下降方向。

多任务学习的核心优势在于挖掘任务间的关联性。文献[19,21]通过任务聚类构建凸优化框架;文献[32,37]则提出关系网络和交叉缝合网络,以发现任务间的关系并学习共享表示与任务特定表示的最优组合。

3. 方法

本节首先介绍各类图像退化的建模原理,随后引入IDR的核心组件——元先验学习模块(MPL),该模块可显式嵌入任何Transformer架构以实现实用性(第3.1节)。IDR的优化过程包含两阶段学习流程:(a) 任务导向知识收集(第3.2节)和 (b) 成分导向知识整合(第3.3节)。优化目标简要概述于第3.4节。


退化建模
在文献中,图像退化过程通常定义为:
y = ϕ ( x ; A ) + N , ( 1 ) y = \phi(x; A) + N, \quad (1) y=ϕ(x;A)+N,(1)
其中 ϕ ( ⋅ ) \phi(\cdot) ϕ() 表示退化函数, A A A 是其参数, N N N 代表加性噪声, y y y x x x 分别表示退化观测值和潜在干净图像。当 ϕ ( ⋅ ) \phi(\cdot) ϕ() 为元素级加法时,式(1) 可重写为:
y = A + x + N = A ^ + x , ( 2 ) y = A + x + N = \hat{A} + x, \quad (2) y=A+x+N=A^+x,(2)
这对应图像去雨[48]和去噪[9]的通用形式,其中 A A A 分别表示雨痕和独立同分布零均值高斯噪声。当 ϕ ( ⋅ ) \phi(\cdot) ϕ() 为元素级乘法时:
y = A ⋅ x + N = A ⋅ x + ϵ ⋅ x = A ^ ⋅ x , ( 3 ) y = A \cdot x + N = A \cdot x + \epsilon \cdot x = \hat{A} \cdot x, \quad (3) y=Ax+N=Ax+ϵx=A^x,(3)
这对应图像去雾[45]和低光增强[50]的通用形式,根据大气散射模型[36,41]和Retinex理论[23], A A A 分别表示透射图和光照图。当 ϕ ( ⋅ ) \phi(\cdot) ϕ() 为卷积时:
y = A ∗ x + N = A ∗ x + ϵ ∗ x = A ^ ∗ x , ( 4 ) y = A * x + N = A * x + \epsilon * x = \hat{A} * x, \quad (4) y=Ax+N=Ax+ϵx=A^x,(4)
这对应图像去模糊[60]的通用形式,其中 A A A 表示模糊核。需注意,我们通过重新参数化噪声项来突出底层物理规律,而更复杂的退化可通过上述函数的组合建模(例如暴雨伴随雨幕效应)。本质上,不同退化类型基于上述基本原理遵循不同的组合建模原则。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/899300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

禅道后台命令执行漏洞

漏洞简介 禅道是第一款国产的开源项目管理软件。它集产品管理、项目管理、质量管理、文档管理、 组织管理和事务管理于一体,是一款专业的研发项目管理软件,完整地覆盖了项目管理的核心流程。 禅道管理思想注重实效,功能完备丰富,…

密码学——知识问答

目录 1、阐述公开密钥算法的定义,结合RSA算法说明公钥密码的基本要求。 说明公钥与私钥两种密码学并举例与其应用 1. 公钥密码学(非对称加密): 2. 私钥密码学(对称加密): 对比公钥与私钥密码…

PDF多表格结构识别与跨表语义对齐:基于对抗迁移的鲁棒相似度度量模型

文章目录 一. 项目结构二.流程分析2.1 批处理器核心代码解析 三. 跨页表格相似度匹配原理3.1 表头内容相似度-特征向量归一化3.2 表头内容相似度-余弦相似度3.3 定时缓存清理 ocr扫描有其局限性。对于pdf文本类型这种pdfbox,aspose-pdf,spire直接提取文本…

es 3期 第27节-运用Script脚本实现复杂需求

#### 1.Elasticsearch是数据库,不是普通的Java应用程序,传统数据库需要的硬件资源同样需要,提升性能最有效的就是升级硬件。 #### 2.Elasticsearch是文档型数据库,不是关系型数据库,不具备严格的ACID事务特性&#xff…

23、web前端开发之html5(四)

十二. HTML5实践示例 前面我们详细讲解了HTML5的特点&#xff0c;包括语义化标签、增强的表单功能、多媒体元素&#xff08;如<video>和<audio>&#xff09;、Canvas绘图、SVG集成以及离线存储等。以下是一些详细的HTML5实践示例&#xff0c;展示如何使用HTML5的新…

海思烧录工具HITool电视盒子刷机详解

HiTool是华为开发的一款用于海思芯片设备的刷机和调试工具&#xff0c;可对搭载海思芯片的机顶盒、智能电视等设备进行固件烧录、参数配置等操作。以下为你详细介绍&#xff1a; 功能用途 固件烧录&#xff1a;这是HiTool最主要的功能之一。它能够将下载好的适配固件文件烧录到…

软考中级-软件设计师 23种设计模式(内含详细解析)

23种设计模式 &#x1f3af; 创建型设计模式&#x1f4cc; 抽象工厂&#xff08;Abstract Factory&#xff09; 设计模式&#x1f4cc; 工厂方法&#xff08;Factory Method&#xff09;设计模式&#x1f4cc; 单例&#xff08;Singleton&#xff09;设计模式&#x1f4cc; 生成…

thinkphp8.0\swoole的websocket应用

环境&#xff1a;centOS7.9、php8.3、thinkphp8.0\think-swoole4.1 我用的官方think-swoole插件 第一步&#xff1a;根据官方文档&#xff0c;需要安装此扩展插件 composer require topthink/think-swoole 第二步&#xff1a;在根目录下config文件夹下编辑swoole.php配置文…

Ubuntu服务器挂载时遇到文件系统错误怎么办

在Ubuntu服务器上挂载分区时&#xff0c;如果遇到文件系统错误&#xff0c;通常可能是由于磁盘损坏、文件系统损坏、不正确的卸载等原因造成的。以下是详细的排查与修复步骤&#xff1a; 一、查看错误信息 首先&#xff0c;尝试手动挂载并观察具体错误&#xff1a; sudo mount …

【设计模式】策略模式(Strategy Pattern)详解

策略模式&#xff08;Strategy Pattern&#xff09;详解 一、策略模式的定义 策略模式&#xff08;Strategy Pattern&#xff09;是一种行为型设计模式&#xff0c;它定义了一组算法&#xff0c;将每个算法封装起来&#xff0c;并使它们可以相互替换&#xff0c;从而让算法的…

软考笔记5——软件工程基础知识

第五章节——软件工程基础知识 软件工程基础知识 第五章节——软件工程基础知识一、软件工程概述1. 计算机软件2. 软件工程基本原理3. 软件生命周期4. 软件过程 二、软件过程模型1. 瀑布模型2. 增量模型3. 演化模型&#xff08;原型模型、螺旋模型)4. 喷泉模型5. 基于构建的开发…

Vim 实用指南

导航 简介Vim 的来历Vim 语言 Vim 的三种模式Normal&#xff08;普通模式&#xff09;Insert&#xff08;插入模式&#xff09;Visual&#xff08;可视模式&#xff09;三种模式转换 普通模式实用技巧说明复制当前行并粘贴使用上一个命令撤销上一个操作最常用的跳转命令查找对应…

Git入门——常用指令汇总

以下是一份精心整理的 Git常用指令速查表&#xff0c;基本覆盖日常开发使用场景&#xff0c;建议收藏备用&#x1f447; &#x1f527; 环境配置 指令作用git config --global user.name "你的名字"设置全局用户名git config --global user.email "你的邮箱&qu…

常见中间件漏洞攻略-Jboss篇

一、CVE-2015-7501-Jboss JMXInvokerServlet 反序列化漏洞 第一步&#xff1a;开启靶场 第二步&#xff1a;访问该接口&#xff0c;发现直接下载&#xff0c;说明接⼝开放&#xff0c;此接⼝存在反序列化漏洞 http://47.103.81.25:8080/invoker/JMXInvokerServlet 第三步&…

播放本地视频-实现视频画廊功能

实现一个视频画廊&#xff0c;播放本地视频 可以切换不同视频的功能 文章目录 需求&#xff1a;场景实现方案遇到的坑播放器选择界面显示不全视频友好显示问题缓存 总结 需求&#xff1a; 实现一个视频画廊&#xff0c;播放本地视频 可以切换不同视频的功能 场景 图片画廊的…

从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.2.2文本生成逻辑:Top-k采样与温度控制

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 2.2.2 文本生成逻辑:Top-k采样与温度控制1. 文本生成的核心挑战与数学框架1.1 自回归生成的基本流程2. `Top-k`采样原理与工程实现2.1 数学定义与算法流程2.2 PyTorch实现优化3. 温度控制的数学本质与参…

为什么后端接口返回数字类型1.00前端会取到1?

这得从axios中得默认值说起&#xff1a; Axios 的 transformResponse axios 在接收到服务器的响应后&#xff0c;会通过一系列的转换函数&#xff08;transformResponse&#xff09;来处理响应数据&#xff0c;使其适合在应用程序中使用。默认情况下&#xff0c;axios 的 tran…

【C++游戏引擎开发】《线性代数》(2):矩阵加减法与SIMD集成

一、矩阵加减法数学原理 1.1 定义 ​逐元素操作:运算仅针对相同位置的元素,不涉及矩阵乘法或行列变换。​交换律与结合律: 加法满足交换律(A + B = B + A)和结合律( ( A + B ) + C = A + ( B + C ) )。 ​减法不满足交换律(A − B ≠ B − A)。1.2 公式 ​ C i j = …

openGauss关联列数据类型不一致引起谓词传递失败

今天分享一个比较有意思的案例 注意&#xff1a;因为原始SQL很长&#xff0c;为了方便排版&#xff0c;简化了SQL 下面SQL跑60秒才出结果&#xff0c;客户请求优化 select dtcs.owner, dtcs.table_name, dtcs.column_name, dct.commentsfrom dba_tab_columns dtcsleft outer j…

01 相机标定与相机模型介绍

学完本文,您将了解不同相机模型分类、内参意义,及对应的应用代码模型 标定的意义 建模三维世界点投影到二维图像平面的过程。标定输出的是相机模型。 相机模型 相机模型可以解理解为投影模型 +