YOLO26 改进 - C2PSA | C2PSA融合MSLA多尺度线性注意力:并行多分支架构融合上下文语义,提升特征判别力 | Arxiv 2025

# 前言

本文介绍了多尺度线性注意力机制MSLA,并将其集成进YOLO26。现有基于CNN和Transformer的医学图像分割方法存在局限性,为解决这些问题,我们提出了MSLAU-Net架构,其中MSLA通过并行多尺度特征提取和低复杂度线性注意力计算,捕获细粒度局部细节与全局长程依赖。我们将MSLA的代码集成到YOLO26中,创建C2PSA_MSLA模块,并在tasks文件中进行注册。实验证明,YOLO26-C2PSA_MSLA在目标检测任务中取得了良好的效果,验证了方法的优越性、有效性和鲁棒性。

 

> **文章目录: [YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总](https://blog.csdn.net/yolochangeworld/article/details/156995579)**

> **专栏链接: [YOLO26改进专栏](https://blog.csdn.net/yolochangeworld/category_13118063.html)**

@[TOC]

 

# 介绍

![image-20251208204106035](https://i-blog.csdnimg.cn/img_convert/c166511f275526460935d3377208706c.png)

 

## 摘要

精准的医学图像分割能够精确勾勒解剖结构和病理区域,这对于治疗规划、手术导航和疾病监测至关重要。基于 CNN(卷积神经网络)和基于 Transformer 的方法在医学图像分割任务中均取得了显著成效。然而,由于卷积运算的固有局限性,基于 CNN 的方法难以有效捕获全局上下文信息;与此同时,基于 Transformer 的方法存在局部特征建模不足的问题,且面临自注意力机制带来的高计算复杂度挑战。为解决这些局限性,我们提出了一种新颖的混合 CNN-Transformer 架构,命名为 MSLAU-Net,该架构融合了两种范式的优势。所提出的 MSLAU-Net 包含两个核心设计:其一,引入多尺度线性注意力(Multi-Scale Linear Attention, MSLA),旨在高效提取医学图像的多尺度特征,同时以低计算复杂度建模长程依赖关系;其二,采用自上而下的特征聚合机制,通过轻量化结构执行多尺度特征聚合并恢复空间分辨率。在涵盖三种成像模态的基准数据集上开展的大量实验表明,MSLAU-Net 在几乎所有评估指标上均优于其他最先进方法,验证了我们方法的优越性、有效性和鲁棒性。相关代码已开源至:https://github.com/Monsoon49/MSLAU-Net

# 文章链接

**论文地址:**[论文地址](https://arxiv.org/pdf/2505.18823)

**代码地址:**[代码地址](https://github.com/Monsoon49/MSLAU-Net)

 

# 基本原理

 

MSLA(Multi-Scale Linear Attention)是专为医学图像分割设计的**多尺度线性注意力机制**,核心是通过“并行多尺度特征提取+低复杂度线性注意力计算”,同时捕获细粒度局部细节与全局长程依赖,计算复杂度仅为O(N),解决了传统注意力“单尺度局限”或“高复杂度”的痛点。

---

### 一、设计目标
1. 弥补现有线性注意力的不足:多数线性注意力仅单尺度运算,无法覆盖医学图像中“微观病灶-宏观器官”的尺度差异。
2. 平衡局部与全局建模:结合CNN的多尺度特征提取能力与线性注意力的全局依赖捕获优势。
3. 控制计算成本:在提升性能的同时,保持低复杂度,适配医学图像(如CT、MRI)的大尺寸输入场景。

---

### 二、核心结构与运算步骤
MSLA的运算流程分为两大核心阶段,整体为并行架构(如图1所示):

#### 1. 多尺度特征提取(Multi-Scale Feature Extraction)
- **输入处理**:先将输入特征图 \(X \in \mathbb{R}^{\sqrt{N} \times \sqrt{N} \times C}\) 沿通道维度(C)拆分为4个等份,每份维度为 \(\mathbb{R}^{\sqrt{N} \times \sqrt{N} \times \frac{C}{4}}\)。
- **并行深度卷积**:4个分支分别采用不同尺寸的深度卷积(depth-wise convolution)提取多尺度特征:
- 小核(3×3):捕捉细粒度细节(如微小病灶、组织边缘)。
- 中核(5×5、7×7):平衡局部结构与区域关联。
- 大核(9×9):捕获宏观轮廓(如器官整体形态)。
- **残差融合**:每个分支的卷积输出与原始输入特征通过残差连接相加,再经过ReLU激活,增强特征表达能力,公式为:
\(\overline{X}_i = f_{k_i \times k_i}^{dwc}(X_i) + X_i\)(\(i=1,2,3,4\),\(k_i=2i+1\) 对应3×3/5×5/7×7/9×9)。

#### 2. 线性注意力计算(Linear Attention Computation)
基于**Efficient Attention**实现低复杂度全局建模,步骤如下:
- **特征重塑**:将每个分支的特征图 \(\overline{X}_i\) 重塑为token形式 \(\overline{X}_i^r \in \mathbb{R}^{N \times \frac{C}{4}}\),适配注意力计算。
- **Q/K/V投影**:通过可学习的线性投影矩阵 \(W_{i,h}^q、W_{i,h}^k、W_{i,h}^v\),将 \(\overline{X}_i^r\) 转化为查询(Q)、键(K)、值(V),维度均为 \(\mathbb{R}^{N \times d}\)(d为每个注意力头的维度)。
- **线性注意力运算**:重构计算顺序(利用矩阵乘法结合律),将传统自注意力的 \((QK)V\) 改为 \(Q(KV)\),复杂度从O(N²)降至O(N);同时通过映射函数 \(\phi(Q) = \sigma_{row}(Q)\)、\(\phi(K) = \sigma_{col}(K)\)(行/列Softmax)保持与Softmax注意力相近的表征能力。
- **多头融合**:每个分支采用多头注意力(multi-head attention),输出通过线性变换 \(W_i^O\) 融合所有头的特征。
- **跨分支融合**:将4个分支的输出特征沿通道维度拼接,再通过1×1卷积压缩通道至原始维度C,最终重塑为token形式 \(O \in \mathbb{R}^{N \times C}\),完成MSLA模块的整体运算。

---

 

# 核心代码

```python
class MSLA(nn.Module):

def __init__(self, dim, num_heads):
super().__init__()
self.dim = dim
self.num_heads = num_heads

self.dw_conv_3x3 = DepthwiseConv(dim // 4, kernel_size=3)
self.dw_conv_5x5 = DepthwiseConv(dim // 4, kernel_size=5)
self.dw_conv_7x7 = DepthwiseConv(dim // 4, kernel_size=7)
self.dw_conv_9x9 = DepthwiseConv(dim // 4, kernel_size=9)

self.linear_attention = LinearAttention(dim = dim // 4, num_heads = num_heads)

self.final_conv = nn.Conv2d(dim, dim, 1)

self.scale_weights = nn.Parameter(torch.ones(4), requires_grad=True)

def forward(self, input_):
b, n, c = input_.shape
h = int(n ** 0.5)
w = int(n ** 0.5)

input_reshaped = input_.view(b, c, h, w)

split_size = c // 4
x_3x3 = input_reshaped[:, :split_size, :, :]
x_5x5 = input_reshaped[:, split_size:2 * split_size, :, :]
x_7x7 = input_reshaped[:, 2 * split_size:3 * split_size:, :, :]
x_9x9 = input_reshaped[:, 3 * split_size:, :, :]

x_3x3 = self.dw_conv_3x3(x_3x3)
x_5x5 = self.dw_conv_5x5(x_5x5)
x_7x7 = self.dw_conv_7x7(x_7x7)
x_9x9 = self.dw_conv_9x9(x_9x9)


att_3x3 = self.linear_attention(x_3x3)
att_5x5 = self.linear_attention(x_5x5)
att_7x7 = self.linear_attention(x_7x7)
att_9x9 = self.linear_attention(x_9x9)


processed_input = torch.cat([
att_3x3 * self.scale_weights[0],
att_5x5 * self.scale_weights[1],
att_7x7 * self.scale_weights[2],
att_9x9 * self.scale_weights[3]
], dim=1)

final_output = self.final_conv(processed_input)

output_reshaped = final_output.reshape(b, n, self.dim)


return output_reshaped
```

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苏州靠谱软件开发公司排行|苏州APP小程序开发公司TOP3|真是案例验证

排在第一的——鹅鹅鹅科技。为啥它能稳坐第一?是实打实的口碑和实力堆出来的。接触过几家开发公司,要么是套模板糊弄人,要么是外地公司远程沟通费劲,只有鹅鹅鹅,不管是定制化能力还是本地化服务,都让人挑不出毛病…

零代码小程序平台测评:2026高性价比的小程序工具平台大盘点

随着数字化转型加速,越来越多的中小企业和个体创业者希望拥有自己的小程序,却常被高昂的开发成本、复杂的技术维护和隐形的持续费用劝退。如果你正在寻找一款低成本、免代码、功能全面的小程序制作工具,那么这份针对…

ctfshow的web入门php特性109-123

php109原生类函数​ error_reporting(0); ​ if(isset($_GET[v1]) && isset($_GET[v2])){ $v1 = $_GET[v1]; $v2 = $_GET[v2]; if(preg_match(/[a-zA-Z]+/, $v1) && preg_match(/[a-zA-Z]+/, $v2)){ /…

执行bs4.BeautifulSoup(html, ‘lxml‘)报错:Couldn‘t find a tree builder with the features you reque...如何解决?

🏆本文收录于 《全栈 Bug 调优(实战版)》 专栏。专栏聚焦真实项目中的各类疑难 Bug,从成因剖析 → 排查路径 → 解决方案 → 预防优化全链路拆解,形成一套可复用、可沉淀的实战知识体系。无论你是初入职场的开发者&…

AI架构实战指南:Agent、Workflow、RAG、Skill如何选择与组合

文章通过AI内容产品实战案例,揭示AI系统护城河在于架构而非单纯模型能力。提出用慢变量(Workflow/RAG)对抗快变量(模型迭代)的架构韧性理念,详解如何通过定位重构(从创造者转向放大器)、架构重构(构建最小完备内核)、交互重构(Agent克制使用)和生态重构(…

让大模型“读懂”你的文档:RAG核心技术——文档切分完全指南

让大模型“读懂”你的文档:RAG核心技术——文档切分完全指南引言:为什么文档切分是智能问答系统的“胜负手”? 嗨!我是你们的AI伙伴狸猫算君。今天我们要聊一个在构建智能问答系统时至关重要,却常常被忽视的环节—…

导师推荐!2026 9款AI论文工具测评:本科生毕业论文必备

导师推荐!2026 9款AI论文工具测评:本科生毕业论文必备 2026年AI论文工具测评:为什么你需要这份榜单? 随着人工智能技术的不断进步,AI写作工具在学术领域的应用越来越广泛。对于本科生而言,撰写毕业论文不…

springboot_ssm803仓库仓储系统出入库模块设计--论文

目录 具体实现截图摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 摘要 随着物流行业和电子商务的快速发展,仓储管理系统在现代企业运营中扮演着关键角色。传统的仓储管理依赖…

图数据库选型

https://www.nebula-graph.com.cn/ 更新中

学霸同款2026 9款一键生成论文工具测评:研究生开题报告必备神器

学霸同款2026 9款一键生成论文工具测评:研究生开题报告必备神器 2026年学术写作工具测评:为何值得一看? 在当前学术研究日益精细化、数据化的大环境下,论文写作已成为研究生阶段的核心任务之一。然而,面对繁重的文献综…

转行大模型开发,难不难?大模型转行指南:适合程序员的4步落地路径与资源(建议收藏)

本文全面解析大模型转行可行性,指出大模型领域正处于技术爆发期,提供了逃离内卷的新机会。针对不同背景人群,文章分析了转行难度,明确了适合人群,并提供了4阶段可落地的转行路径:从建立基础认知到深度实践&…

家庭教育专家智能体发布

家庭教育专家智能体发布相信有孩子的家庭都会感同身受,在要孩子之前,对孩子的直觉标签是“可爱”,“活泼”,在有了孩子之后,在孩子的成长过程中,每个阶段都会遇到不同的烦人的问题,让家长抓耳挠腮,血压升高,对…

springboot_ssm804充电桩综合管理--论文

目录 具体实现截图摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 摘要 随着新能源汽车的普及,充电桩作为基础设施的需求急剧增长。传统充电桩管理系统存在数据分散、运维效率…

springboot_ssm805共享厨房租赁信息系统--论文

目录 具体实现截图摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 摘要 随着共享经济的快速发展,共享厨房作为一种新型餐饮服务模式,逐渐受到创业者和餐饮从业者的…

YOLOv8改进 - 注意力机制 | Triplet Attention (三重注意力) 通过跨维度交互捕捉增强多尺度目标特征表征

前言 本文介绍了三重注意力机制(Triplet Attention),这是一种通过三分支结构捕获跨维度交互以计算注意力权重的轻量化方法。该方法利用旋转操作构建通道与空间维度间的依赖关系,有效编码通道间和空间信息,且计算开销极…

计算机Java毕设实战-基于Java Web的虚拟实验室设备租赁管理系基于springboot的实验设备借用平台的设计与实现 实验室设备租赁系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

springboot_ssm800公司重大停管理系统--论文

目录 具体实现截图摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 摘要 随着企业规模的扩大和业务复杂度的提升,重大停管理成为保障企业稳定运营的关键环节。传统管理方式依赖…

springboot_ssm801二手商品交易系统 积分兑换ntkgh--论文

目录具体实现截图摘要系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 摘要 随着互联网技术的快速发展,二手商品交易平台逐渐成为资源循环利用的重要途径。本研究基于SpringBoot和SSM…

YOLOv8改进 - 注意力机制 | SKAttention:选择性核注意力通过多分支融合与自适应感受野调整优化多尺度目标检测

前言 本文介绍了SKAttention(选择性核注意力)机制,这是一种受生物视觉皮层启发的动态多尺度特征提取方法。该技术通过Split、Fuse和Select三个算子,使神经元能根据输入自适应调整感受野大小,通过不同卷积核分支的软注…

Java毕设项目推荐-基于springboot vue的实验室设备借用管理系统【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…