即插即用系列 | CVPR 2025 MK-UNet: 多核深度可分离卷积,重新定义轻量级医学图像分割

论文题目:MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation
论文作者:Md Mostafijur Rahman, Radu Marculescu (The University of Texas at Austin)

论文原文 (Paper):https://arxiv.org/abs/2509.18493
官方代码 (Code):https://github.com/SLDGroup/MK-UNet


GitHub 仓库链接:https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景与痛点
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
      • 5. 即插即用模块的作用
      • 6. 实验分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文提出了一种名为MK-UNet的超轻量级 U 型全卷积神经网络。其核心在于引入了多核深度卷积(Multi-kernel Depth-wise Convolution, MKDC),通过同时使用不同尺寸的卷积核(如 1x1, 3x3, 5x5)来捕捉多尺度的空间特征,从而在不显著增加计算量的情况下获得类似 Transformer 的全局感受野。结合专门设计的多核倒残差模块(MKIR)分组注意力门(GAG),MK-UNet 仅需0.316M 参数0.314G FLOPs,就在六个医学图像数据集上超越了庞大的 TransUNet(参数量少333倍)和当红的轻量级 UNeXt。


2. 背景与动机

2.1 文本背景与痛点

在医学图像分割领域,目前的架构设计面临严重的两极分化:

  • 重型模型(如 TransUNet, SwinUNet):引入 Transformer 虽然解决了长距离依赖问题,提高了精度,但计算量巨大,显存占用高,难以在医疗现场设备(Point-of-Care devices)上部署。
  • 轻量级模型(如 UNeXt, EGE-UNet):虽然计算效率高,但往往通过削减网络深度或宽度来实现,导致在处理形状复杂、纹理多变的病灶(如息肉)时,特征提取能力不足,精度大幅下降。

本文动机:能否设计一个网络,既拥有轻量级 CNN 的极低计算成本,又能具备多尺度特征提取能力,从而在复杂分割任务中达到甚至超越重型模型的精度?

2.2 动机图解分析

看图说话:

  • 坐标轴含义:横轴代表模型复杂度(图1(a)是参数量 #Params,图1(b)是计算量 #FLOPs),纵轴代表分割精度(Average DICE%)。我们希望模型处于“左上角”(参数少、精度高)。

  • 现有方法的局限性

  • TransUNet(紫色星号):位于图的上方,精度很高,但处于最右侧,参数量高达 100M+,效率极低。

  • EGE-UNet / Mobile-based models(浅色点):位于图的左侧,效率很高,但纵坐标较低,说明牺牲了大量精度。

  • 本文 MK-UNet 的突破(红色标记)

  • MK-UNet(红色五角星)位于图的最左上角。

  • 对比 TransUNet:在精度相当甚至更高的情况下,参数量向左移动了几个数量级(减少 333 倍)。

  • 对比 UNeXt(粉色圆点):在参数量更少(减少 4.7 倍)的情况下,DICE 分数显著提升。

  • 结论:这幅图直观地证明了 MK-UNet 成功突破了“效率-精度”的帕累托前沿(Pareto Frontier),解决了轻量级模型在复杂任务上“有力使不出”的问题。


3. 主要创新点

  1. 多核深度卷积 (MKDC):在深度卷积层中并行使用不同尺寸的卷积核(如 1, 3, 5),实现了特征提取的“多尺度”与“轻量化”并存。
  2. 多核倒残差模块 (MKIR):基于 MobileNetV2 的倒残差结构改进,作为编码器的核心组件,高效编码复杂空间特征。
  3. 多核倒残差注意力模块 (MKIRA):在解码器中引入,结合通道注意力(CA)和空间注意力(SA),不仅恢复分辨率,还能抑制背景噪声。
  4. 分组注意力门 (GAG):改进了传统的 Skip Connection,利用分组卷积来引导特征融合,比传统 Attention Gate 更轻、更准。
  5. 极致的轻量化设计:全网无 Transformer 模块,纯 CNN 架构,实现了 0.027M(Tiny版)到 0.316M(标准版)的参数量级。

4. 方法细节

4.1 整体网络架构

数据流详解:

  • 输入 (Input):接收医学图像。

  • 编码器路径 (Encoder)

  • 包含 5 个阶段。每个阶段主要由MKIR(多核倒残差模块)构成。

  • 通过最大池化(Max Pooling)进行下采样。

  • 通道数逐步增加(例如:16 -> 32 -> 64 -> 96 -> 160),以捕获更抽象的语义特征。

  • 跳跃连接 (Skip Connection)

  • 不同于传统的直接拼接(Concat),本文使用了GAG(分组注意力门)

  • 它接收来自编码器的浅层特征和解码器的深层特征,进行门控融合后,再与解码器特征相加。

  • 解码器路径 (Decoder)

  • 包含对应的上采样阶段。使用双线性插值(Bilinear Interpolation)进行上采样(比转置卷积更省参)。

  • 核心组件是MKIRA(多核倒残差注意力模块),用于恢复细节并增强特征判别力。

  • 深度监督 (Deep Supervision)

  • 在解码器的 p1, p2, p3, p4 四个层级分别输出预测图(Segmentation Heads),计算损失以加速收敛,测试时仅使用 p1 作为最终输出。

4.2 核心创新模块详解

模块 A:多核倒残差模块 (MKIR)

  • 设计目的:替代传统的卷积块,作为编码器的基础单元,用于高效提取特征。
  • 内部结构拆解
  1. 升维 (Expansion):通过 1x1 卷积(PWC1)将通道数翻倍,配合 BN 和 ReLU6。目的是在高维空间解耦特征。
  2. 核心组件 MKDC (Multi-kernel Depth-wise Convolution)
  • 这是灵魂所在。输入特征被送入多个并行的**深度卷积(DWC)**分支。
  • 关键点:分支使用了不同的卷积核大小(例如 )。
  • 融合:各分支输出相加。这模拟了多感受野,大核看轮廓,小核看细节。
  • Channel Shuffle:为了促进不同通道间的信息交流(深度卷积的通病是通道独立),引入了 Channel Shuffle。
  1. 降维 (Projection):通过 1x1 卷积(PWC2)将通道数降回,并使用残差连接(Residual Add)与输入相加,防止梯度消失。

模块 B:多核倒残差注意力模块 (MKIRA)

  • 设计目的:用于解码器。因为解码器需要重建空间细节,单纯的卷积不够,需要注意力机制来“聚焦”病灶。
  • 内部结构拆解
  1. 通道注意力 (CA):输入特征先经过 CA 模块(包含池化、压缩、激励),以此来筛选哪些通道(Feature Maps)是重要的。
  2. 空间注意力 (SA):经过 CA 筛选后的特征,进入 SA 模块。SA 通过大核卷积聚合空间信息,生成空间权重图,告诉网络“哪里”是病灶。
  3. MKIR 增强:经过双重注意力(CA+SA)加权后的特征,最后通过一个 MKIR 模块进行特征融合和变换。
  • 这种串联设计(CA -> SA -> MKIR)确保了特征在通道、空间和多尺度表示上都得到了精炼。

模块 C:分组注意力门 (GAG)

  • 设计理念:传统的 Attention Gate 参数量还是偏大。
  • 工作机制
  • 利用**分组卷积(Group Conv 3x3)**替代标准卷积来处理门控信号(Gating signal)和输入特征。
  • 通过 Sigmoid 生成注意力系数,对编码器传来的特征进行加权。
  • 作用是抑制背景噪声(如医学图像中常见的组织伪影),只让有用的纹理信息流向解码器。
4.3 理念与机制总结

MK-UNet 的成功在于它并未像 TransUNet 那样暴力堆叠 Transformer 来获取全局信息,而是通过“Multi-kernel” (多核)这一机制,以极低的成本模拟了多尺度感受野。

  • 公式解读:。
  • 这里 。不同大小的 捕捉了不同范围的上下文。深度卷积(DW)保证了计算量极低。
  • 协同工作总结:MKIR 在编码阶段用多核“看”得更全;MKIRA 在解码阶段用注意力“修”得更准;GAG 在跳跃连接处“筛”得更细。这三者配合,完美解决了轻量级模型感受野不足和特征对齐不准的问题。

5. 即插即用模块的作用

论文提出的模块非常独立,适合应用到其他计算机视觉任务中:

  1. MKIR (Multi-kernel Inverted Residual) 模块
  • 适用场景:任何需要轻量化骨干网络(Backbone)的任务,如移动端的目标检测、人脸识别。
  • 应用:可以直接替换 MobileNetV2 中的 Inverted Residual Block,或者替换 ResNet 中的 BasicBlock,能在几乎不增加计算量的情况下提升多尺度特征提取能力。
  1. MKDC (Multi-kernel Depth-wise Convolution) 算子
  • 适用场景:所有使用标准深度卷积(Depth-wise Conv)的网络。
  • 应用:在设计 CNN 时,不要只用 3x3 卷积,尝试将一个 3x3 拆分为 [1x1, 3x3, 5x5] 的并行深度卷积组合,通常能显著提升感受野。
  1. GAG (Grouped Attention Gate)
  • 适用场景:U-Net 及其变体网络。
  • 应用:替换掉原本 Skip Connection 中的简单Concat或标准的Attention Gate,可以进一步降低参数量并提升对小目标的分割效果。

6. 实验分析

  • 数据集多样性:论文在 乳腺癌(BUSI)、皮肤病变(ISIC18)、息肉(ClinicDB/ColonDB)、细胞核(DSB18/EM) 等 6 个差异巨大的数据集上进行了验证,证明了模型的泛化能力。

  • 结果分析

  • 参数量与FLOPs:MK-UNet 的参数量仅为 0.316M。对比 TransUNet (105M),它是其 1/333。

  • 精度碾压

  • Polyp (息肉)分割这种高难度任务上,MK-UNet 达到了 93.48% (ClinicDB) 的 DICE,比重型的 DeepLabv3+ 还要高。

  • Breast (乳腺)分割上,达到 78.04%,优于 TransUNet (78.01%)。

  • **消融实验 **:

  • 证明了 Kernel 组合 [1, 3, 5] 的效果优于单一的 [3, 3, 3] 或 [5, 5, 5],证实了多尺度融合的必要性。

  • 证明了 Encoder 用 MKIR + Decoder 用 MKIRA 的组合是最佳配置。

总结:MK-UNet 是一篇非常扎实的“以小博大”的论文。它没有盲目跟风 Transformer,而是回归 CNN 的本质,通过精心设计的卷积核组合,证明了纯 CNN 架构在医疗图像分割领域的轻量化潜力依然巨大。

到此,有关的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1195989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AcWing 3714:砍树 ← 线性 DP(北京师范大学考研机试题)

​【题目来源】https://www.acwing.com/problem/content/3717/【题目描述】一共 n 棵树排成一排,初始时,相邻两个树的距离都相等。请你砍掉其中尽可能少的树,使得剩余树的高度构成非递减序列且相邻树木之间的距离都…

爆火技术Agent Skills深度解析:让Claude Code拥有专业技能,打造更美观UI,建议收藏!

文章介绍了Anthropic推出的Agent Skills技术,这是一种让AI助手掌握特定专业技能的方法。通过将技能要求存储在结构化的Markdown文件中,AI可在需要时动态加载这些技能,节省token并提高效率。文章以网站UI设计为例,展示了如何创建、…

刷题必备!2026五大热门执业药师刷题app实测对比,这份靠谱之选请收好!

刷题必备!2026五大热门执业药师刷题app实测对比,这份靠谱之选请收好!一、 开篇:在理性实测中锁定考生的最佳拍档面对众多执业药师刷题APP,宣传各异,让人难以抉择。与其盲从,不如进行一次多维度的理性实测。本文…

伊比利亚・智筑双轨 2026:西班牙展台设计搭建的创新范本

开篇:西班牙会展的三核变革与适配命题 2026 年的西班牙会展业,正由三大事件重塑行业格局:F1 赛事重返马德里,围绕 IFEMA 会展中心打造半城市赛道,催生 “体育 IP + 会展” 融合展示需求;巴塞罗那 ISE 欧洲集成系…

有关MGnify

这段话主要介绍了 MGnify 数据库 2024年4月版 中蛋白质数据的来源、处理方式和文件格式。 为了让你一看就懂,我把它拆解成直译和大白话解释两部分: 1. 直译(学术版) MGnify 蛋白质序列来自对公开宏基因组组装的分析…

导师严选8个AI论文工具,助你轻松搞定本科生论文!

导师严选8个AI论文工具,助你轻松搞定本科生论文! AI 工具如何改变论文写作的未来 在当今这个信息爆炸的时代,本科生面对的学术任务越来越繁重,尤其是在撰写论文的过程中,从选题、资料收集到内容撰写、格式调整&#xf…

2026真实测评对比!执业中药师备考资料口碑排行,这三个推荐最靠谱!

2026真实测评对比!执业中药师备考资料口碑排行,这三个推荐最靠谱!一、 起底:执业中药师备考市场的“资源迷宫”2026年执业中药师备考季来临,考生们首先面临的挑战便是如何穿越备考资料的“资源迷宫”。各类“速通…

2026卫生职称考试备考资源准确选择攻略

前言:考生备战2026卫生职称考试,核心痛点是“时间碎片化、没时间备考、备考了就忘”。这份攻略以“时间拆分+重点聚焦”为核心,搭配阿虎医考便携资源,帮考生利用间隙高效备考,平衡工作与2026卫生职称考试备考。 一…

深圳科心大看失眠怎么样

在深圳市,一家名为“ 深圳科心大失眠抑郁专科”的医疗机构以其专业性、正规的医疗服务以及精良的专家团队,赢得了市民的信赖和好评。创新开展“临床心理门诊+心理咨询中心”医学心理全体系诊疗模式,构建了集医学诊断…

完整教程:DBA 运维 数据库 备份 还原 MSSQL

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

618 大促技术实践:定时任务异常重试的探索与沉淀​

在 618 大促的技术战场上,每一行代码、每一个配置都影响着一线的实实在在的业务。一次看似平常的发版,却意外暴露了我们系统中的定时任务管理短板,这促使我们深入剖析分布式任务调度中异常重试机制的技术细节,并最…

2026执业中药师备考资料看什么?高分考生口碑推荐的五大资源盘点!

2026执业中药师备考资料看什么?高分考生口碑推荐的五大资源盘点!一、 开篇:向高分通过者取经,揭秘高效备考资料在执业中药师备考路上,最宝贵的经验往往来自那些已经成功通关的高分考生。他们的选择,经历了实战检…

专著参编证明怎么开?

专著参编证明怎么开?专著主编、副主编的参编证明模版是怎样的?下面淘淘学术来给大家讲解这个疑问。一、什么情况下需要提供参编证明在评职称的时候,如果出版了专著,那么一般会要求提供相关的证明材料。1如果是独著或者合著的专著&…

深圳百度推广代运营排名前十机构怎么选?昊客网络用技术实力说话!

在深圳这座互联网营销热土上,百度竞价推广早已成为企业获客的核心渠道。面对市面上宣称 “排名前十” 的众多代运营服务商,企业该如何避开 “烧钱不转化” 的坑?其实答案很简单:技术硬、效果实、懂行业的服务商才值…

专著和著作的区别有哪些?

专著和著作的区别有哪些?专著和著作是一回事吗?下面淘淘学术来回答作者的这个疑问。一、专著和著作的定义著作独立的完整性的作品,称之为著作。著作包括:1文字作品:比如小说、散文、随笔、回忆录、人物传记、剧本、学术…

智能混动越野房车:STM32N657L0H3Q

品牌:ST型号:STM32N657L0H3Q容量:4.2MBCPU位数:32 Bit产品类型:单片机(MCU/MPU/SOC)工作电压:1.71V~3.6V封装:BGA-223(10x10)免费样品申请:中国区一级代理商:深圳市贝乐实…

学习进度 5

刚学完机器学习基础,今天试着入门CNN,它主要用来处理图像。作为纯新手,第一天就想大概懂CNN为啥适合图像处理、核心有哪几层,再跟着跑个demo就行,不深究原理。之前学的全连接网络处理图像会浪费像素位置关系,参数…

怎么提高专著的含金量?

怎么提高专著的含金量?怎么出版高质量的学术专著?下面淘淘学术来回答作者的这个疑问。淘淘学术经常会遇到一些作者,他们是完美主义者,或者说是卷王,干什么都要比别人高一档才行。别人发SCI二区论文,他就非得…

基于知识工程JoyAgent双RAG的智能代码评审系统的探索与实践

大促备战中的代码评审困境与破局双十一大促是系统稳定性的终极“大考”。为规避上线风险,技术侧会启动系统封板管控,主动将非紧急需求的发布窗口前置。这一举措在保障系统稳定性的同时,也必然导致研发需求的前置与集…

外贸企业注意!2026年外贸GEO国际社媒推广代运营,这10家深圳公司谁更靠谱?

关键词:外贸出海、GEO精准营销、社媒代运营、深圳服务商、AI营销 2026年开年,不少外贸老板都在问同一个问题: “投了大把广告费,为什么海外客户还是不来?” 独立站没人访问?Facebook内容发了石沉大海?Google关键…