即插即用系列 | CVPR 2025 CATANet:一种用于轻量级图像超分辨率的高效内容感知 Token 聚合网络

论文题目:CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

论文原文 (Paper):https://arxiv.org/abs/2503.06896
官方代码 (Code):https://github.com/EquationWalker/CATANet
GitHub 仓库链接:https://github.com/AITricks/AITricks

目录

      • 1. 核心思想(Core Idea)
      • 2. 背景与动机(Background & Motivation)
        • 动机图解分析
      • 3. 主要创新点(Main Innovations)
      • 4. 方法细节(Method Details)
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解:Token Aggregation Block (TAB)
        • 4.3 理念与机制总结
        • 4.4 图解总结
      • 5. 即插即用模块的作用
      • 6. 实验部分分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想(Core Idea)

这篇论文针对轻量级图像超分辨率(SISR)任务,提出了一种名为CATANet的网络。其核心在于解决现有基于聚类(Cluster-based)的方法在推理阶段计算成本高昂的问题。CATANet 设计了CATA(内容感知 Token 聚合)模块,通过在训练阶段学习一组共享的全局 Token 中心,并在推理阶段直接使用这些固定的中心来聚合特征,从而避免了推理时的迭代计算。配合组内自注意力(IASA)组间交叉注意力(IRCA),模型能够高效地捕捉长距离依赖和全局信息。实验表明,CATANet 在性能上超越了 SOTA 方法 SPIN(PSNR 提升 0.33dB),且推理速度快了近一倍。


2. 背景与动机(Background & Motivation)

在超分辨率领域,Transformer 凭借其强大的长距离建模能力取得了巨大成功,但其计算复杂度随分辨率二次增长。为了轻量化,现有工作主要分为两类路径,但都存在局限性:

  1. 基于窗口/轴的方法(如 SwinIR):将图像划分为局部窗口或轴向条带。
  • 问题:这种方式是“内容无关(Content-agnostic)”的,限制了注意力机制捕捉长距离相似纹理的能力(比如图像左上角的草地和右下角的草地无法交互)。
  1. 基于聚类的方法(如 SPIN):使用 K-Means 等算法将相似的 Token 聚类。
  • 问题 1(表示粗糙):SPIN 仅使用聚类中心作为代理(Proxy)来传递信息,这种稀疏表示过于粗糙,丢失了细节。
  • 问题 2(推理慢):SPIN 在推理阶段仍需要对每张图片迭代计算聚类中心,这严重拖慢了推理速度,违背了轻量级模型的初衷。
动机图解分析

我们可以清晰地看到现有方法的瓶颈和 CATANet 的优势:

  • SPIN 与 ATD 的局限:图中绿色的圆点代表 SPIN 和 ATD 系列模型。虽然它们的 PSNR 较高,但在同等参数量下,计算量(Multi-Adds,圆圈大小)较大,且推理延迟较高(论文文中提到)。
  • SwinIR-light 的不足:右侧的 SwinIR-light 虽然参数量大,但性能(纵轴 PSNR)却不如左侧更轻量的模型,说明单纯堆砌局部窗口注意力效率不高。
  • CATANet 的突破:红星代表本文的 CATANet。可以看到,CATANet-L 在参数量和计算量远低于 SRFormer-light 的情况下,取得了最高的 PSNR;相比 SPIN,它在性能提升的同时,保持了极具竞争力的效率。这直观展示了本文**“用更少的算力换取更高质量的长距离交互”**的核心动机。

3. 主要创新点(Main Innovations)

  1. CATA 模块(内容感知 Token 聚合):提出了一种训练时更新、推理时固定的 Token 聚合策略。通过指数移动平均(EMA)在训练中更新全局共享的 Token 中心,彻底消除了推理阶段的聚类开销。
  2. IASA(组内自注意力):不同于 SPIN 仅利用聚类中心交互,IASA 将相似 Token 真正聚合到一组,并在组内直接进行自注意力计算,实现了细粒度的长距离信息交互。
  3. IRCA(组间交叉注意力):设计了组间交叉注意力,让每个 Token 组与全局 Token 中心进行交互,进一步利用了全局先验信息来增强特征表达。
  4. 非凡的效率:在保持 SOTA 性能的同时,CATANet-L 的推理速度约为 SwinIR-light 和 SRFormer-light 的两倍,是 SPIN 的五倍。

4. 方法细节(Method Details)

4.1 整体网络架构

数据流解析:
CATANet 采用了经典的残差网络结构:

  1. 浅层特征提取:输入低分辨率图像 ,经过一个 卷积层提取浅层特征 。
  2. 深层特征提取:核心部分由 个堆叠的残差组(Residual Group, RG)组成。
  • 每个 RG 包含三个关键部分:Token 聚合块(TAB)局部区域自注意力(LRSA)卷积层(Conv)
  • 数据流向:。
  1. 图像重建:经过深层特征提取后,通过上采样模块和重建层得到高分辨率输出 。
4.2 核心创新模块详解:Token Aggregation Block (TAB)

TAB 是论文最精华的模块,旨在高效实现长距离依赖建模。它主要由三个子模块串联而成:

模块 A:内容感知 Token 聚合 (CATA)

  • 设计理念:传统的聚类注意力(如 SPIN)在推理时需要对每张图跑 K-Means,太慢。CATA 提出在训练集上学习一组“通用”的 Token 中心。
  • 工作机制
  • 训练阶段:初始化 个 Token 中心。计算图像中每个 Token 与中心的相似度,将其分配到最近的中心所属的组(Group)。然后使用 EMA(指数移动平均)策略根据当前 batch 的特征更新这些中心。
  • 推理阶段:Token 中心不再更新,直接使用训练好的中心对测试图像的 Token 进行分组。
  • 子组划分(Sub-grouping):为了解决聚类后各组 Token 数量不均衡导致并行效率低的问题,CATA 将聚合后的 Token 进一步切分为固定大小的 Subgroups(如图 3(b)),大大提升了 GPU 并行效率。

模块 B:组内自注意力 (Intra-Group Self-Attention, IASA)

  • 输入:经过 CATA 分组并重排后的 Token 序列。
  • 机制:在每个 Subgroup 内部计算标准的自注意力(Self-Attention)。
  • 边界处理技巧:由于强制划分 Subgroup 可能把本该在一起的相似 Token 切分到相邻的组,IASA 允许每个 Subgroup 的 Query () 不仅关注当前的 Key/Value (),还关注相邻两个 Subgroup的 (如图 3©)。这是一种非常工程化但有效的“软连接”策略。
  • 作用:实现精细的、长距离的相似纹理特征交互。

模块 C:组间交叉注意力 (Inter-Group Cross-Attention, IRCA)

  • 输入:Subgroup 特征和全局 Token 中心 。
  • 机制:计算 Cross-Attention,其中 Query 来自图像特征,Key 和 Value 来自全局 Token 中心 。
  • 作用:Token 中心聚合了整个数据集的全局先验信息,IRCA 使得每个局部 Token 都能“查询”到全局的统计信息,进一步增强特征。
4.3 理念与机制总结

CATANet 的设计哲学是“全局先验引导的高效聚合”

  • 它认为图像的冗余不仅在局部,也在长距离的相似区域。
  • 通过 CATA,它把散落在图像各个角落的“墙砖”、“树叶”等相似纹理聚合到一起。
  • 通过“训练更新、推理固定”的机制,它巧妙地避开了在线聚类的高昂开销,把复杂的全局搜索转化为了简单的查表(查询最近中心)操作。
4.4 图解总结

这一套设计完美解决了动机图中提出的问题:

  1. 解决长距离依赖:CATA 将全图相似 Token 聚在一起,IASA 在组内交互,突破了 CNN 和窗口 Attention 的局部限制。
  2. 解决推理速度:CATA 移除了推理时的迭代过程;Sub-grouping 解决了聚类负载不均衡问题,使得 CATANet 比 SPIN 快得多,实现了图 1 中性能与效率的最佳平衡。

5. 即插即用模块的作用

TAB 模块(包含 CATA、IASA、IRCA)是一个独立的特征提取单元,非常适合移植到其他视觉任务中:

  1. 轻量级视觉 Transformer:如果你在设计用于移动端的 ViT,可以用 TAB 替换标准的 Self-Attention 层,能在降低计算量的同时保持全局感受野。
  2. 图像修复/去噪:在图像去噪或去雨任务中,利用 TAB 聚合相似的背景纹理,可以更有效地利用图像的非局部自相似性(Non-local Self-similarity)来恢复细节。
  3. 多模态融合:虽然论文未提,但 CATA 的全局中心思想也可以用于对齐不同模态的特征分布。

6. 实验部分分析

  • 与 SOTA 的对比:在 Set5、Set14、Urban100 等五个基准数据集上,CATANet 在 x2、x3、x4 倍率下均取得了最好的 PSNR/SSIM。特别是在纹理复杂的 Urban100 数据集上,优势更明显,验证了长距离建模的有效性。

  • 消融实验

  • IASA 与 IRCA 的作用:实验显示,单独增加 IASA 能显著提升性能,而叠加 IRCA 后性能进一步提升,证明了二者是互补的(一个关注具体实例细节,一个关注全局统计先验)。

  • 聚合策略对比:相比于其他 Token 聚合方法(如基于哈希的 NLSA 或基于 K-Means 的 Clustered Attention),CATANet 的 CATA 策略在性能上更优,且避免了哈希冲突或粗糙上采样的问题。

  • 推理速度:在 RTX 4090 上的测试表明,CATANet-L 的耗时仅为 86ms,远低于 SPIN 的 435ms 和 SRFormer-light 的 220ms,真正做到了“又快又好”。

  • 可视化 (LAM):LAM 归因图显示,CATANet 能够利用图像中更广泛区域的信息(红色散点分布更广),而不仅仅局限于局部窗口。


总结
CATANet 是一篇工程落地价值极高的论文。它没有盲目追求复杂的动态聚类,而是用一种“以静制动”(固定中心)的策略解决了聚类 Transformer 的效率痛点。对于需要处理高分辨率图像且对延迟敏感的场景,CATANet 提供了一个绝佳的 Backbone 设计范本。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛掰,MySQL 8.2 支持读写分离了!

MySQL InnoDB ReplicaSet启动 MySQL Router 8.2结论我们一直在等待的 MySQL 读/写分离功能 现在终于可以使用了!在规模上,我们在副本之间分配读取,但这必须在应用程序中以某种方式进行管理:指向在某个地方写入并在其他地方读取。在…

【PFJSP问题】自适应双种群协同鸡群算法ADPCCSO求解置换流水车间调度问题PFSP【含Matlab源码 14995期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…

洛谷 P3746 [六省联考 2017] 组合数问题

题目链接 题目求 \(\displaystyle \sum _ {i = 0} [x ^ {ik + r}] (1 + x) ^ {nk}\),定义多项式的循环卷积为两个多项式相乘后,把所有 \(x ^ i\) 的项合并到 \(x ^ {i \bmod k}\)。快速幂加速即可。 时间复杂度 \(\t…

公司弃用 Nginx,选择这款工具!

Cloudflare 公司宣布弃用 nginx,转用自研的新一代方向代理服务 Pingora,并号称比nginx更快、更高效、更安全,下面通过 Cloudfare 官方网站的一篇文章来了解下 Pingora 比 Nginx 强在哪里?简介今天,我们很高兴有机会在此…

【DPFSP问题】自适应双种群协同鸡群算法ADPCCSO求解分布式置换流水车间调度DPFSP【含Matlab源码 14996期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…

洛谷 P3747 [六省联考 2017] 相逢是问候

题目链接 欧拉降幂最多只会迭代到第 \(k = \text O (\log p)\) 次模数就会变成 \(1\)(证明见这里)。故一个数被操作超过 \(k\) 次就会变为一个定值。 于是用线段树维护出操作还没有满 \(k\) 次的位置,每次暴力修改并…

Gemini 336L - 调试记录(Ubuntu 24.04)

按照Readme安装ROS2 SDK:https://github.com/orbbec/OrbbecSDK_ROS2/tree/v2-main开启ROS2自动补全:eval "$(register-python-argcomplete ros2)" eval "$(register-python-argcomplete colcon)"…

电缆敷设施工机械-哪个品牌的电缆输送机好用

哪个品牌的电缆输送机好用?在电力、通信等基建工程中,电缆输送机的品牌选择,远不止于比较单一参数。这本质上是对设备背后技术可靠性、工程适配性与长期服务价值的综合考量。一个优秀的品牌,意味着其产品能深度融入多样化的施工场…

深入解析:从C++开始的编程生活(16)——继承

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

13.6B参数铸就“世界模型”,美团LongCat-Video搭建5分钟原生视频生成,定义AI视频新标杆

13.6B参数铸就“世界模型”,美团LongCat-Video搭建5分钟原生视频生成,定义AI视频新标杆pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importan…

NodeJS生产环境发布流程

NodeJS生产环境发布流程1、创建宝塔的容器时,先把命令设置为sleep infinity,使用npm将依赖安装完后再改为node /app/server.js2,如果.env不生效,则直接在容器的环境变量里设置3、容器数据库里的端口应该设置为3306…

怎样免费在线把 HEIC 转为 JPG?无需安装软件,也不用上传照片

如果你用 iPhone 拍照,可能已经注意到一个新格式:HEIC。它画质高、文件小,而且在苹果设备上支持良好。但在日常使用中,你可能会遇到不少麻烦。1️⃣ HEIC 的最大问题:兼容性不足 虽然 HEIC 技术先进,但在非苹果环…

2026年趋势全景图:AI重塑技术与翻译行业,这些变化你必须知道!

哈喽,大家好!2026年已至,最近不少机构都发布了年度趋势报告——从IBM聚焦的企业战略,到CSA Research关注的翻译行业,再到BOL News、CSDN拆解的技术革新,每一份报告都在告诉我们:这一年,“不确定性”会是常态,但“机遇”也藏在每一个变革节点里。 今天这篇博客,我就整…

人工智能标注工程师证书:超越标注之框,赋能技能跃迁

在人工智能迅速发展的今天,标注工程师这个职业角色正在悄然发生转变。曾经,我们被称为“数据标注师”,任务是机械地画框、分类、打标签。但人工智能的出现,推动标注工程师职业发生深刻的变化,因此,这也为我…

考完PMP这几件事一定要做!

各位刚查到 PMP 成绩的小伙伴们,恭喜大家顺利通关呀!学长知道你们现在肯定又激动又迷茫,拿到证书只是第一步,怎么让它真正成为职业路上的 “硬通货” 才是关键~ 2026 年各地政策福利又升级了,这 4 件事抓紧…

竞品关键词实战指南:从挖掘到落地,抢占搜索流量高地

在当今的数字营销领域,搜索流量是品牌获取曝光、转化客户的核心阵地之一。而竞品关键词,作为已经在市场中被验证有效的搜索术语,就像一把打开流量宝库的钥匙。它们不仅能帮助我们洞悉用户需求、发现内容漏洞,更能让我们在自然搜索…

应届生找工作选Java后端方向!未来发展路线该如何走?未来职业发展怎么走?

应届生找工作选Java后端方向!未来发展路线该如何走?未来职业发展怎么走? 应届生选择Java后端方向是个明智的选择!以下是我为你梳理的清晰发展路线,分阶段帮你规划职业成长: 一、入门阶段(0-2…

深入解析Excel数组:从基础概念到高阶应用的完全指南

数组是Excel函数进阶的钥匙,掌握数组运算逻辑能让你的数据处理能力提升一个维度。 一、理解数组:Excel中的“数据容器” 数组是Excel中最强大的概念之一,它允许你将多个值作为一个整体来处理。本质上,数组就是一个有序的数据集合…

参考文献怎么找:高效查找参考文献的实用方法与技巧

做科研的第一道坎,往往不是做实验,也不是写论文,而是——找文献。 很多新手科研小白会陷入一个怪圈:在知网、Google Scholar 上不断换关键词,结果要么信息过载,要么完全抓不到重点。今天分享几个长期使用的…

不足4个百分点!华为智驾“逼近”英伟达

智驾计算平台之争,进入白热化阶段。一方面,没有自研芯片的辅助驾驶方案提供商尝试打通市场主流计算平台,从而满足不同车企的需求;另一方面,以自研芯片算法打造全栈方案的玩家,也在争夺市场主动权。去年底&a…