PR-2021

推荐深蓝学院的《深度神经网络加速:cuDNN 与 TensorRT》,课程面向就业,细致讲解CUDA运算的理论支撑与实践,学完可以系统化掌握CUDA基础编程知识以及TensorRT实战,并且能够利用GPU开发高性能、高并发的软件系统,感兴趣可以直接看看链接:深蓝学院《深度神经网络加速:cuDNN 与 TensorRT》
在这里插入图片描述


2. 核心思想分析

论文提出了一种基于通道注意力机制和空间图卷积网络的单幅图像超分辨率(Single Image Super-Resolution, SISR)模型,称为 CASGCN(Channel Attention and Spatial Graph Convolutional Network)。其核心思想是通过结合通道注意力机制空间图卷积网络,增强网络对图像特征的表达能力,解决传统卷积神经网络(CNN)在捕捉全局自相似性和空间相关性方面的局限性。

  • 通道注意力机制:通过对不同通道的特征进行加权,突出重要特征,抑制次要特征,从而提高特征提取的针对性。
  • 空间图卷积网络:利用图结构建模图像像素之间的全局空间相关性,突破传统CNN固定感受野的限制,捕捉图像中的非局部自相似性。
  • 多尺度特征提取:通过预处理模块提取不同尺度的特征,增强模型对复杂纹理和结构的适应能力。
  • 全局融合策略:通过融合多个CASG模块的中间输出,保留长期信息,提高重建质量。

论文强调通过动态生成的邻接矩阵(基于Gram矩阵)实现全局感受野,而无需额外参数,降低计算复杂度,同时结合残差学习和全局融合策略,进一步提升性能。


3. 目标函数分析

论文的目标函数旨在最小化重建图像 I S R I_{SR} ISR 与高分辨率真实图像 I H R I_{HR} IHR 之间的差异,采用 L1损失函数,其数学表达式如下:

min ⁡ θ L ( θ ) = 1 N ∑ i = 1 N ∥ F CASGCN ( I L R i ; θ ) − I H R i ∥ 1 \min_{\theta} L(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left\| \mathcal{F}_{\text{CASGCN}}(I_{LR}^i; \theta) - I_{HR}^i \right\|_1 θminL(θ)=N1i=1N FCASGCN(ILRi;θ)IHRi 1

  • 符号说明

    • θ \theta θ:网络参数集合。
    • N N N:训练样本数量。
    • I L R i I_{LR}^i ILRi:第 i i i 个低分辨率输入图像。
    • I H R i I_{HR}^i IHRi:对应的第 i i i 个高分辨率真实图像。
    • F CASGCN \mathcal{F}_{\text{CASGCN}} FCASGCN:CASGCN网络的映射函数,从低分辨率图像生成超分辨率图像。
    • ∥ ⋅ ∥ 1 \left\| \cdot \right\|_1 1:L1范数,表示像素级绝对误差。
  • 选择L1损失的理由

    • L1损失相比L2损失更能减少模糊效应,生成更锐利的图像。
    • L1损失对异常值不敏感,训练更稳定。
    • 论文提到,L1损失在先前工作中(如EDSR、RDN)已被证明有效,因此沿用此损失函数以保持一致性。

4. 目标函数的优化过程

优化过程通过最小化上述L1损失函数来更新网络参数 θ \theta θ,具体步骤如下:

  1. 优化器

    • 使用 ADAM优化器,参数设置为 β 1 = 0.9 \beta_1 = 0.9 β1=0.9 β 2 = 0.999 \beta_2 = 0.999 β2=0.999 ϵ = 1 0 − 8 \epsilon = 10^{-8} ϵ=108
    • ADAM通过自适应地调整学习率,加速梯度下降收敛,适合深层神经网络的优化。
  2. 学习率策略

    • 初始学习率设为 1 0 − 4 10^{-4} 104
    • 2 × 1 0 5 2 \times 10^5 2×105 次迭代,学习率减半,以逐步细化参数更新。
    • 这种学习率衰减策略有助于模型在早期快速收敛,后期稳定优化。
  3. 训练设置

    • 数据增强:对800张训练图像进行随机旋转(90°、180°、270°)和水平翻转,增加数据多样性。
    • 批量处理:每个训练批次包含16个大小为 32 × 32 32 \times 32 32×32 的低分辨率彩色图像块。
    • 迭代次数:通过多次迭代(具体次数未明确,但提到200个epoch用于消融实验),优化网络参数。
  4. 实现平台

    • 使用 PyTorch 框架,运行在 Titan V GPU 上,确保高效计算。
  5. 几何自集成(Geometric Self-ensemble)

    • 在测试阶段,采用自集成策略,通过对输入图像进行8种几何变换(翻转和旋转),生成多个增强输入,分别通过网络预测后逆变换并融合结果,进一步提升性能。

优化过程的核心是通过梯度下降迭代更新网络参数,使L1损失最小化,从而提高重建图像的质量。残差学习和全局融合策略的引入进一步缓解了深层网络的训练难度,增强了梯度传播。


5. 主要贡献点

论文的主要贡献点包括以下几个方面:

  1. 提出CASGCN模型

    • 设计了一种新颖的通道注意力与空间图卷积网络(CASGCN),通过结合通道注意力机制和图卷积网络,增强特征表达能力,捕捉全局自相似性。
  2. 开发CASG模块

    • 提出通道注意力与空间图(CASG)模块,包含通道注意力单元(CA)和空间感知图单元(SG)。
    • 通道注意力单元通过加权机制突出重要特征;空间图单元通过图卷积层建模空间相关性。
    • 动态生成邻接矩阵(基于Gram矩阵),无需额外参数即可实现全局感受野。
  3. 多尺度特征提取与全局融合

    • 引入预处理模块,通过不同卷积核(3×3、5×5)提取多尺度特征。
    • 采用全局融合策略,融合多个CASG模块的中间输出,保留长期信息。
  4. 优异的实验表现

    • 在多个标准数据集(如Set5、Set14、BSD100、Urban100、Manga109)上,CASGCN在双三次(BI)和模糊降采样(BD)退化模型下均表现出色,优于或媲美现有最先进方法。
    • 特别是在大尺度因子(如×8)下,CASGCN+表现最佳,显示出强大的细节恢复能力。
  5. 模型效率

    • 与其他高性能模型(如RDN、RCAN)相比,CASGCN参数量更少,性能更高,实现了性能与模型大小的良好权衡。

6. 实验结果分析

实验在多个标准数据集上进行,评估指标包括 PSNR(峰值信噪比)和 SSIM(结构相似性),测试了双三次(BI)和模糊降采样(BD)两种退化模型。以下是关键结果的总结:

6.1 双三次(BI)退化模型
  • 数据集:Set5、Set14、BSD100、Urban100、Manga109。
  • 比较方法:包括SRCNN、FSRCNN、MemNet、DBPN、EDSR、RDN、NLRN、RCAN、HDRN、RFANet。
  • 结果
    • CASGCN和CASGCN+(自集成版本)在所有尺度(×2、×3、×4、×8)上均表现优异,PSNR和SSIM值达到最佳或次佳。
    • 尤其在×8尺度下,CASGCN+显著优于其他方法,表明其在恢复高倍率超分辨率图像细节方面的优势。
    • 例如,在Manga109数据集上,CASGCN+在×8尺度下PSNR达到23.48,优于其他方法的23.16–23.40(表3)。
6.2 模糊降采样(BD)退化模型
  • 数据集:与BI模型相同,尺度为×3。
  • 比较方法:SPMSR、SRCNN、FSRCNN、VDSR、IRCNN、SRMD、RDN、RCAN、RFANet。
  • 结果
    • CASGCN+在大多数数据集上PSNR和SSIM值最高,显示出对复杂退化场景的适应性。
    • 视觉结果(图8)表明,CASGCN能有效减少模糊伪影,恢复更锐利的边缘,优于基于插值输入的方法。
6.3 消融实验
  • 预处理模块:与残差块、稠密块、Inception模块相比,预处理模块在Set14数据集上PSNR更高(如×2尺度下34.02 vs. 33.87–33.93,表1)。
  • CASG模块:通道注意力与图卷积的并行组合优于单独使用或非局部块(表2)。
  • 全局融合:添加预处理模块、CASG模块和全局融合后,PSNR逐步提升,验证了各组件的有效性(表3)。
6.4 模型大小比较
  • CASGCN参数量少于RDN和RCAN,但性能更高(图9),在Set5数据集上×3尺度下PSNR达到34.22,优于MemNet、DBPN、NLRN。
6.5 视觉效果
  • 在BI退化模型下(图7),CASGCN恢复的细节更丰富,例如在Urban100的“img067”图像中恢复了更多纹理细节。
  • 在BD退化模型下(图8),CASGCN减少了模糊伪影,边缘更清晰,显示出对复杂退化的鲁棒性。

7. 算法实现过程详细解释

CASGCN的实现过程可以分为网络结构设计、前向传播、训练和测试四个部分,以下逐一详细说明。

7.1 网络结构

CASGCN由三个主要部分组成(图2):

  1. 预处理模块

    • 输入低分辨率图像 I L R I_{LR} ILR,通过标准卷积层生成初始特征图 H 0 H_0 H0
      H 0 = F 0 ( I L R ) H_0 = \mathcal{F}_0(I_{LR}) H0=F0(ILR)
    • 预处理模块采用双分支结构,分别使用3×3和5×5卷积核提取不同尺度特征,类似Inception架构:
      H pre = F pre ( H 0 ) H_{\text{pre}} = \mathcal{F}_{\text{pre}}(H_0) Hpre=Fpre(H0)
    • 两个分支的特征通过共享信息,增强多尺度特征表达。
  2. CASG模块

    • N N N 个CASG块堆叠组成,每个CASG块包含通道注意力单元(CA)和空间感知图单元(SG)。
    • 通道注意力单元
      • 采用类似SE块的结构,通过全局平均池化压缩空间维度,生成通道描述符。
      • 使用全连接层和Sigmoid激活函数生成通道权重,重新缩放特征图:
        H CA = σ ( W 2 ⋅ ReLU ( W 1 ⋅ GAP ( H ) ) ) ⋅ H H_{\text{CA}} = \sigma(W_2 \cdot \text{ReLU}(W_1 \cdot \text{GAP}(H))) \cdot H HCA=σ(W2ReLU(W1GAP(H)))H
        其中 GAP \text{GAP} GAP 为全局平均池化, W 1 W_1 W1 W 2 W_2 W2 为全连接层参数, σ \sigma σ 为Sigmoid函数。
    • 空间感知图单元
      • 将特征图视为图结构,节点为像素,边由邻接矩阵定义。
      • 动态计算邻接矩阵 A A A,使用Gram矩阵捕捉特征间的空间相关性:
        A = softmax ( H T H ) A = \text{softmax}(H^T H) A=softmax(HTH)
        其中 H H H 为展平后的特征图, softmax \text{softmax} softmax 归一化相关性。
      • 图卷积操作更新节点特征:
        H SG = A ⋅ H ⋅ W H_{\text{SG}} = A \cdot H \cdot W HSG=AHW
        其中 W W W 为可学习的权重矩阵。
    • CA和SG单元的输出并行融合,形成CASG块输出:
      H CASG = Concat ( H CA , H SG ) H_{\text{CASG}} = \text{Concat}(H_{\text{CA}}, H_{\text{SG}}) HCASG=Concat(HCA,HSG)
    • 采用残差学习缓解训练难度:
      H L R = F CASG ( H pre ) + H 0 H_{LR} = \mathcal{F}_{\text{CASG}}(H_{\text{pre}}) + H_0 HLR=FCASG(Hpre)+H0
  3. 上采样模块

    • 使用子像素卷积或转置卷积将 H L R H_{LR} HLR 上采样至目标分辨率:
      I S R = F up ( H L R ) I_{SR} = \mathcal{F}_{\text{up}}(H_{LR}) ISR=Fup(HLR)
  4. 全局融合

    • 多个CASG块的中间输出通过拼接融合,保留长期信息:
      H fusion = Concat ( H 1 , H 2 , … , H N ) H_{\text{fusion}} = \text{Concat}(H_1, H_2, \ldots, H_N) Hfusion=Concat(H1,H2,,HN)
7.2 前向传播
  • 输入 I L R I_{LR} ILR,通过预处理模块生成 H pre H_{\text{pre}} Hpre
  • H pre H_{\text{pre}} Hpre 依次通过 N N N 个CASG块,每个块计算通道注意力和空间图卷积,融合后输出 H L R H_{LR} HLR
  • H L R H_{LR} HLR 通过上采样模块生成超分辨率图像 I S R I_{SR} ISR
  • 计算 I S R I_{SR} ISR I H R I_{HR} IHR 的L1损失,驱动网络优化。
7.3 训练
  • 数据准备:使用800张图像,增强后生成 32 × 32 32 \times 32 32×32 的LR图像块。
  • 优化:通过ADAM优化器最小化L1损失,学习率从 1 0 − 4 10^{-4} 104 逐步衰减。
  • 实现细节:使用PyTorch在Titan V GPU上训练,批大小为16。
7.4 测试
  • 自集成:对测试图像应用8种几何变换,生成增强输入,分别预测后逆变换并平均。
  • 评估:在标准数据集上计算PSNR和SSIM,比较视觉质量。

8. 总结

这篇论文通过提出CASGCN模型,结合通道注意力机制和空间图卷积网络,显著提升了单幅图像超分辨率的性能。其核心在于动态邻接矩阵、多尺度特征提取和全局融合策略,有效捕捉全局自相似性和通道重要性。实验结果验证了其在BI和BD退化模型下的优越性,尤其在大尺度因子下表现突出。算法实现清晰,训练和测试过程高效,模型在性能和参数量之间取得了良好平衡,为SISR领域提供了新的研究思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

unity使用ZXing.Net生成二维码

下载链接 https://github.com/micjahn/ZXing.Net 放到Plugins下即可使用

Ubuntu 编译SRS和ZLMediaKit用于视频推拉流

SRS实现视频的rtmp webrtc推流 ZLMediaKit编译生成MediaServer实现rtsp推流 SRS指定某个固定网卡,修改程序后重新编译 打开SRS-4.0.0/trunk/src/app/srs_app_rtc_server.cpp,在 232 行后面添加: ZLMediaKit编译后文件存放在ZLMediakit/rele…

如何备考GRE?

1.引言 GRE和雅思不太相同,首先GRE是美国人的考试,思维方式和很多细节和英系雅思不一样。所以底层逻辑上我觉得有点区别。 难度方面,我感觉GRE不容易考低分,但考高分较难。雅思就不一样了不仅上限难突破,下限还容易6…

uniapp|商品列表加入购物车实现抛物线动画效果、上下左右抛入、多端兼容(H5、APP、微信小程序)

以uniapp框架为基础,详细解析商品列表加入购物车抛物线动画的实现方案。通过动态获取商品点击位置与购物车坐标,结合CSS过渡动画模拟抛物线轨迹,实现从商品图到购物车图标的动态效果。 目录 核心实现原理坐标动态计算抛物线轨迹模拟​动画元素控制代码实现详解模板层设计脚本…

React中使用openLayer画地图

OpenLayers(简称ol)是一个‌开源的WebGIS前端开发库‌,基于JavaScript实现,主要用于在网页中嵌入动态二维地图。 官方网站: https://openlayers.org 中文官网: https://openlayers.vip 大家可以去参考学习…

WHAT - 缓存命中 Cache Hit 和缓存未命中 Cache Miss

文章目录 一、什么是缓存命中?二、前端开发要知道哪些缓存机制(以及命中条件)?1. 浏览器缓存(主要针对静态资源)常见的缓存位置关键 HTTP 头字段(决定命中与否) 2. 前端应用层缓存&a…

10 个可靠的 Android 文件传输应用程序

Android 文件传输是 Android 用户的常见需求。我们经常需要将文件从一台 Android 设备传输到 PC 或 Mac。但我们怎样才能做到这一点呢?俗话说,工欲善其事,必先利其器。因此,首先了解 10 个锋利的 Android 文件传输应用程序&#x…

AlphaEvolve:LLM驱动的算法进化革命与科学发现新范式

AlphaEvolve:LLM驱动的算法进化革命与科学发现新范式 本文聚焦Google DeepMind最新发布的AlphaEvolve,探讨其如何通过LLM与进化算法的结合,在数学难题突破、计算基础设施优化等领域实现革命性进展。从48次乘法优化44矩阵相乘到数据中心资源利…

Java大师成长计划之第24天:Spring生态与微服务架构之分布式配置与API网关

📢 友情提示: 本文由银河易创AI(https://ai.eaigx.com)平台gpt-4-turbo模型辅助创作完成,旨在提供灵感参考与技术分享,文中关键数据、代码与结论建议通过官方渠道验证。 在微服务架构中,如何管理…

eSwitch manager 简介

eSwitch manager 的定义和作用 eSwitch manager 通常指的是能够配置和管理 eSwitch(嵌入式交换机)的实体或接口。在 NVIDIA/Mellanox 的网络架构中,Physical Function(PF)在 switchdev 模式下充当 eSwitch manager&am…

最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人 | 社区来稿

关键词:对话式 AI | 语音智能体 | Voice Agent | VAD | 轮次检测 | 声网 | TEN GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智…

AI实践用例---日程规划(通用日程管理文件ICS)灵感踩坑日常

我是一位践行独立开发者之路的菜鸟开发者。 由于执行力较差,常常有很多想法但是很多时候没有去践行。 所以我有了让大模型为我生成日程安排的想法,这确实可以,很简单。只需要将你的想法告诉ai就行了。 例如: 发给AI的提示词: 我想你帮我对,嗯,未来的一年做一个嗯,大…

大疆无人机​​DRC 链路

在大疆上云API中,​​DRC 链路​​通常指 ​​Device-Cloud Remote Control Link(设备-云端远程控制链路)​​,它是无人机(或设备)与云端服务之间建立的​​实时控制与数据传输通道​​,用于实现…

tomcat一闪而过,按任意键继续以及控制台中文乱码问题

问题描述 今天在打开tomcat,启动startup.bat程序时 tomcat直接闪退,后面查找资料后发现,可以通过编辑startup.bat文件内容,在最后一行加入pause即可让程序不会因为异常而终止退出 这样方便查看tomcat所爆出的错误: 然后,我明确看到我的tomcat启动程序显示如下的内容,没有明确…

中大型水闸安全监测系统解决方案

一、方案概述 中大型水闸作为水利工程的重要组成部分,承担着调节水位、控制水流、防洪排涝等多重功能,在防洪减灾、水资源配置、生态环境改善等方面发挥着巨大作用。然而,由于历史原因,许多水闸存在建设标准偏低、质量较差、配套设…

轨迹误差评估完整流程总结(使用 evo 工具)

roslaunch .launch rosbag play your_dataset.bag -r 2.0 ✅ 第二步:录制估计轨迹 bash 复制编辑 rosbag record -O traj_only.bag /aft_mapped_to_init 运行一段时间后 CtrlC 停止,生成 traj_only.bag 第三步:提取估计轨迹和真值轨迹为…

Linux任务管理与守护进程

目录 任务管理 jobs,fg,bg 进程组概念 任务概念 守护进程 守护进程的概念 守护进程的查看 守护进程的创建 ​编辑模拟实现daemon函数 任务管理 每当有一个用户登录Linux时,系统就会创建一个会话(session) 任何…

Json rpc 2.0比起传统Json在通信中的优势

JSON-RPC 2.0 相较于直接使用传统 JSON 进行通信,在协议规范性、开发效率、通信性能等方面具有显著优势。以下是核心差异点及技术价值分析: 一、结构化通信协议,降低开发成本 传统 JSON 通信需要开发者自定义数据结构和处理逻辑,…

机器学习与人工智能:NLP分词与文本相似度分析

DIY AI & ML NLP — Tokenization & Text Similarity by Jacob Ingle in Data Science Collective 本文所使用的数据是在 Creative Commons license 下提供的。尽管我们已尽力确保信息的准确性和完整性,但我们不对数据的完整性或可靠性做任何保证。数据的使…

RK3568平台OpenHarmony系统移植可行性评估

https://docs.openharmony.cn/pages/v5.0/zh-cn/device-dev/quick-start/quickstart-appendix-compiledform.md 官方给的标准系统就是RK3568, 所以肯定可以, 关于硬件加速部分 看了鸿蒙RK3568开发板的GPU编译配置,只能说能用 https://docs.openharmony.cn/pages/v4.1/zh-cn/…