论文题目:MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation
论文作者:Md Mostafijur Rahman, Radu Marculescu (The University of Texas at Austin)
论文原文 (Paper):https://arxiv.org/abs/2509.18493
官方代码 (Code):https://github.com/SLDGroup/MK-UNet
GitHub 仓库链接:https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0
目录
- 1. 核心思想
- 2. 背景与动机
- 2.1 文本背景与痛点
- 2.2 动机图解分析
- 3. 主要创新点
- 4. 方法细节
- 4.1 整体网络架构
- 4.2 核心创新模块详解
- 4.3 理念与机制总结
- 5. 即插即用模块的作用
- 6. 实验分析
- 7. 获取即插即用代码关注 【AI即插即用】
1. 核心思想
本文提出了一种名为MK-UNet的超轻量级 U 型全卷积神经网络。其核心在于引入了多核深度卷积(Multi-kernel Depth-wise Convolution, MKDC),通过同时使用不同尺寸的卷积核(如 1x1, 3x3, 5x5)来捕捉多尺度的空间特征,从而在不显著增加计算量的情况下获得类似 Transformer 的全局感受野。结合专门设计的多核倒残差模块(MKIR)和分组注意力门(GAG),MK-UNet 仅需0.316M 参数和0.314G FLOPs,就在六个医学图像数据集上超越了庞大的 TransUNet(参数量少333倍)和当红的轻量级 UNeXt。
2. 背景与动机
2.1 文本背景与痛点
在医学图像分割领域,目前的架构设计面临严重的两极分化:
- 重型模型(如 TransUNet, SwinUNet):引入 Transformer 虽然解决了长距离依赖问题,提高了精度,但计算量巨大,显存占用高,难以在医疗现场设备(Point-of-Care devices)上部署。
- 轻量级模型(如 UNeXt, EGE-UNet):虽然计算效率高,但往往通过削减网络深度或宽度来实现,导致在处理形状复杂、纹理多变的病灶(如息肉)时,特征提取能力不足,精度大幅下降。
本文动机:能否设计一个网络,既拥有轻量级 CNN 的极低计算成本,又能具备多尺度特征提取能力,从而在复杂分割任务中达到甚至超越重型模型的精度?
2.2 动机图解分析
看图说话:
坐标轴含义:横轴代表模型复杂度(图1(a)是参数量 #Params,图1(b)是计算量 #FLOPs),纵轴代表分割精度(Average DICE%)。我们希望模型处于“左上角”(参数少、精度高)。
现有方法的局限性:
TransUNet(紫色星号):位于图的上方,精度很高,但处于最右侧,参数量高达 100M+,效率极低。
EGE-UNet / Mobile-based models(浅色点):位于图的左侧,效率很高,但纵坐标较低,说明牺牲了大量精度。
本文 MK-UNet 的突破(红色标记):
MK-UNet(红色五角星)位于图的最左上角。
对比 TransUNet:在精度相当甚至更高的情况下,参数量向左移动了几个数量级(减少 333 倍)。
对比 UNeXt(粉色圆点):在参数量更少(减少 4.7 倍)的情况下,DICE 分数显著提升。
结论:这幅图直观地证明了 MK-UNet 成功突破了“效率-精度”的帕累托前沿(Pareto Frontier),解决了轻量级模型在复杂任务上“有力使不出”的问题。
3. 主要创新点
- 多核深度卷积 (MKDC):在深度卷积层中并行使用不同尺寸的卷积核(如 1, 3, 5),实现了特征提取的“多尺度”与“轻量化”并存。
- 多核倒残差模块 (MKIR):基于 MobileNetV2 的倒残差结构改进,作为编码器的核心组件,高效编码复杂空间特征。
- 多核倒残差注意力模块 (MKIRA):在解码器中引入,结合通道注意力(CA)和空间注意力(SA),不仅恢复分辨率,还能抑制背景噪声。
- 分组注意力门 (GAG):改进了传统的 Skip Connection,利用分组卷积来引导特征融合,比传统 Attention Gate 更轻、更准。
- 极致的轻量化设计:全网无 Transformer 模块,纯 CNN 架构,实现了 0.027M(Tiny版)到 0.316M(标准版)的参数量级。
4. 方法细节
4.1 整体网络架构
数据流详解:
输入 (Input):接收医学图像。
编码器路径 (Encoder):
包含 5 个阶段。每个阶段主要由MKIR(多核倒残差模块)构成。
通过最大池化(Max Pooling)进行下采样。
通道数逐步增加(例如:16 -> 32 -> 64 -> 96 -> 160),以捕获更抽象的语义特征。
跳跃连接 (Skip Connection):
不同于传统的直接拼接(Concat),本文使用了GAG(分组注意力门)。
它接收来自编码器的浅层特征和解码器的深层特征,进行门控融合后,再与解码器特征相加。
解码器路径 (Decoder):
包含对应的上采样阶段。使用双线性插值(Bilinear Interpolation)进行上采样(比转置卷积更省参)。
核心组件是MKIRA(多核倒残差注意力模块),用于恢复细节并增强特征判别力。
深度监督 (Deep Supervision):
在解码器的 p1, p2, p3, p4 四个层级分别输出预测图(Segmentation Heads),计算损失以加速收敛,测试时仅使用 p1 作为最终输出。
4.2 核心创新模块详解
模块 A:多核倒残差模块 (MKIR)
- 设计目的:替代传统的卷积块,作为编码器的基础单元,用于高效提取特征。
- 内部结构拆解:
- 升维 (Expansion):通过 1x1 卷积(PWC1)将通道数翻倍,配合 BN 和 ReLU6。目的是在高维空间解耦特征。
- 核心组件 MKDC (Multi-kernel Depth-wise Convolution):
- 这是灵魂所在。输入特征被送入多个并行的**深度卷积(DWC)**分支。
- 关键点:分支使用了不同的卷积核大小(例如 )。
- 融合:各分支输出相加。这模拟了多感受野,大核看轮廓,小核看细节。
- Channel Shuffle:为了促进不同通道间的信息交流(深度卷积的通病是通道独立),引入了 Channel Shuffle。
- 降维 (Projection):通过 1x1 卷积(PWC2)将通道数降回,并使用残差连接(Residual Add)与输入相加,防止梯度消失。
模块 B:多核倒残差注意力模块 (MKIRA)
- 设计目的:用于解码器。因为解码器需要重建空间细节,单纯的卷积不够,需要注意力机制来“聚焦”病灶。
- 内部结构拆解:
- 通道注意力 (CA):输入特征先经过 CA 模块(包含池化、压缩、激励),以此来筛选哪些通道(Feature Maps)是重要的。
- 空间注意力 (SA):经过 CA 筛选后的特征,进入 SA 模块。SA 通过大核卷积聚合空间信息,生成空间权重图,告诉网络“哪里”是病灶。
- MKIR 增强:经过双重注意力(CA+SA)加权后的特征,最后通过一个 MKIR 模块进行特征融合和变换。
- 这种串联设计(CA -> SA -> MKIR)确保了特征在通道、空间和多尺度表示上都得到了精炼。
模块 C:分组注意力门 (GAG)
- 设计理念:传统的 Attention Gate 参数量还是偏大。
- 工作机制:
- 利用**分组卷积(Group Conv 3x3)**替代标准卷积来处理门控信号(Gating signal)和输入特征。
- 通过 Sigmoid 生成注意力系数,对编码器传来的特征进行加权。
- 作用是抑制背景噪声(如医学图像中常见的组织伪影),只让有用的纹理信息流向解码器。
4.3 理念与机制总结
MK-UNet 的成功在于它并未像 TransUNet 那样暴力堆叠 Transformer 来获取全局信息,而是通过“Multi-kernel” (多核)这一机制,以极低的成本模拟了多尺度感受野。
- 公式解读:。
- 这里 。不同大小的 捕捉了不同范围的上下文。深度卷积(DW)保证了计算量极低。
- 协同工作总结:MKIR 在编码阶段用多核“看”得更全;MKIRA 在解码阶段用注意力“修”得更准;GAG 在跳跃连接处“筛”得更细。这三者配合,完美解决了轻量级模型感受野不足和特征对齐不准的问题。
5. 即插即用模块的作用
论文提出的模块非常独立,适合应用到其他计算机视觉任务中:
- MKIR (Multi-kernel Inverted Residual) 模块:
- 适用场景:任何需要轻量化骨干网络(Backbone)的任务,如移动端的目标检测、人脸识别。
- 应用:可以直接替换 MobileNetV2 中的 Inverted Residual Block,或者替换 ResNet 中的 BasicBlock,能在几乎不增加计算量的情况下提升多尺度特征提取能力。
- MKDC (Multi-kernel Depth-wise Convolution) 算子:
- 适用场景:所有使用标准深度卷积(Depth-wise Conv)的网络。
- 应用:在设计 CNN 时,不要只用 3x3 卷积,尝试将一个 3x3 拆分为 [1x1, 3x3, 5x5] 的并行深度卷积组合,通常能显著提升感受野。
- GAG (Grouped Attention Gate):
- 适用场景:U-Net 及其变体网络。
- 应用:替换掉原本 Skip Connection 中的简单
Concat或标准的Attention Gate,可以进一步降低参数量并提升对小目标的分割效果。
6. 实验分析
数据集多样性:论文在 乳腺癌(BUSI)、皮肤病变(ISIC18)、息肉(ClinicDB/ColonDB)、细胞核(DSB18/EM) 等 6 个差异巨大的数据集上进行了验证,证明了模型的泛化能力。
结果分析:
参数量与FLOPs:MK-UNet 的参数量仅为 0.316M。对比 TransUNet (105M),它是其 1/333。
精度碾压:
在Polyp (息肉)分割这种高难度任务上,MK-UNet 达到了 93.48% (ClinicDB) 的 DICE,比重型的 DeepLabv3+ 还要高。
在Breast (乳腺)分割上,达到 78.04%,优于 TransUNet (78.01%)。
**消融实验 **:
证明了 Kernel 组合 [1, 3, 5] 的效果优于单一的 [3, 3, 3] 或 [5, 5, 5],证实了多尺度融合的必要性。
证明了 Encoder 用 MKIR + Decoder 用 MKIRA 的组合是最佳配置。
总结:MK-UNet 是一篇非常扎实的“以小博大”的论文。它没有盲目跟风 Transformer,而是回归 CNN 的本质,通过精心设计的卷积核组合,证明了纯 CNN 架构在医疗图像分割领域的轻量化潜力依然巨大。
到此,有关的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。