Transformer与UNet的结合已成为图像分割与生成领域的主流架构,虽已广泛应用,但在轻量化设计、跨模态适应、3D与视频扩展、以及可解释性等方面仍具创新潜力。针对数据稀缺、模型效率等实际局限,在具体应用场景中提出改进,仍易于产出高水平论文。
尤其在眼科OCT分割、病理切片分析等数据特征鲜明的垂直领域中,结合任务特点设计方法,能够凸显研究的实用价值与针对性。若你对该方向感兴趣,建议从近期前沿成果入手。我们整理了15篇附代码的经典论文,阅读后有助于快速形成研究思路。
论文一:AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation
关键词: Medical Image Segmentation, Vision Transformer, Deformable Attention, Spatially Dynamic, Multi-scale
研究方法:
针对现有ViT-UNet模型(如SwinUNet)使用固定大小窗口和刚性Patch嵌入,导致难以精确分割大小和形状各异的器官(如狭长的食道或不规则的肿瘤)这一痛点,作者提出了AgileFormer。
该模型的核心在于“Agile(敏捷/灵活)”。它摒弃了传统的刚性网格,构建了一个包含三个关键动态组件的架构:
- 可变形Patch嵌入(Deformable Patch Embedding):不再死板地切分图像,而是根据特征自适应调整采样位置。
- 空间动态自注意力(Spatially Dynamic Self-Attention):结合了可变形多头注意力(DMSA)和邻域多头注意力(NMSA),在捕获长距离依赖的同时保留局部细节。
- 多尺度可变形位置编码:为不规则的采样点提供精确的位置信息。
这使得AgileFormer能够像“变形金刚”一样,根据目标对象的实际形态调整关注区域。
论文创新点:
- 提出/构建了首个“空间敏捷”的纯ViT-UNet架构(AgileFormer),实现了对医学图像中不同尺寸和形状目标的自适应特征提取。
- 创新地引入/设计了可变形Patch嵌入模块,替代了传统的刚性卷积切分,解决了传统ViT在处理非矩形边界物体时的特征丢失问题。
- 通过结合DMSA(可变形注意力)和NMSA(邻域注意力)的方法,将模型在捕捉全局上下文与局部细节之间的能力达到了最佳平衡。
- 创新设计了多尺度可变形位置编码(MS-DePE),解决了在不规则采样网格上进行位置信息编码的难题,显著提升了分割精度。
论文链接: https://arxiv.org/pdf/2404.00122v2.pdf
论文二:HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation
关键词: Medical Image Segmentation, State Space Models (Mamba), Hybrid Architecture, Transformer, Linear Complexity
研究方法:
针对CNN无法捕捉长距离依赖,而Transformer计算复杂度过高(O ( N 2 ) O(N^2)O(N2))的问题,以及纯Mamba模型在视觉任务中可能存在的全局上下文建模能力弱于自注意力机制的缺陷,作者提出了HMT-UNet(Hybrid Mamba-Transformer UNet)。
这是一个混合架构模型,其核心策略是**“博采众长”**。HMT-UNet基于MambaVision设计,采用层级结构:
- 混合编码器/解码器:在Stage 3和Stage 4中,创造性地串联使用MambaVision Mixer模块和Transformer自注意力模块。
- 工作原理:先利用Mamba的SSM(状态空间模型)机制以线性复杂度高效处理视觉序列,捕捉长距离空间依赖;随后紧跟Transformer模块,利用自注意力机制进一步精炼全局语义信息。
这种设计在保持低计算成本的同时,最大化了模型的表达能力。
论文创新点:
- 提出/构建了HMT-UNet,这是首个探索纯粹混合SSM(Mamba)与Transformer用于医学图像分割的模型,实现了性能与效率的双重提升。
- 创新地引入/设计了MambaVision Mixer与Transformer Block的交替串联机制,解决了单一Mamba模型在视觉任务中全局上下文捕捉能力不如ViT的问题。
- 通过引入状态空间模型(SSM)的线性计算特性,将处理高分辨率医学图像特征的计算复杂度有效控制,同时优于纯CNN模型。
- 首次将MambaVision预训练权重迁移至分割任务,并在ISIC(皮肤病变)、Kvasir-SEG(息肉)等多个数据集上验证了该混合架构具有极强的竞争力(SOTA)。
论文链接: https://arxiv.org/pdf/2408.11289v2.pdf