【论文阅读】ASPS: Augmented Segment Anything Model for Polyp Segmentation - 指南

news/2025/10/25 22:58:53/文章来源:https://www.cnblogs.com/lxjshuju/p/19166102

论文链接:https://arxiv.org/abs/2407.00718

Code: https://github.com/HuiqianLi/ASPS

来源: Medical Image Computing and Computer Assisted Intervention – MICCAI 2024

摘要:

背景:息肉分割对于结直肠癌的早期诊断非常关键。最近出现的SAM展现了在大规模数据集预训练基础上的巨大潜力,有望推动息肉分割技术的进步。

挑战:SAM在应用到内窥镜图像时遇到两个主要问题:

  • 结构偏向:作为基于Transformer的模型,偏重于全局和低频信息,可能忽略细节,从而引入偏差。
  • 领域差异:SAM是在自然图像上预训练的,直接应用到内窥镜图像时,表现出较差的out-of-distribution(OOD)性能,导致预测不精准、置信度偏差。

手段:为解决这些困难,本文提出Augmented SAM for Polyp Segmentation(ASPS),包含两个核心模块:

  • Cross-branch Feature Augmentation(CFA):结合可训练的CNN编码器(增强局部和高频信息)与固定的视觉Transformer(ViT)编码器,实现域知识的融合,弥补SAM在细节捕获上的不足。
  • Uncertainty-guided Prediction Regularization(UPR):利用SAM输出的IoU得分OOD信息)的适应能力。就是作为指导,调整训练过程中的预测不确定性,增强模型对不同域素材(尤其

结论:大量实验验证了该方法在提升SAM在息肉分割中的效果和泛化能力方面的有效性。

1. 引言

背景和现状:

引入SAM(Segment Anything Model):

贡献和方案:

总结:

2. 方法

总体架构(Overview):网络结构如图1所示,旨在解决SAM模型存在的领域退化(domain degradation)障碍,即模型在不同数据域(如从自然图片到息肉内窥镜图像)上的表现下降。
在这里插入图片描述

主要目标:

  • 增强特征提取能力:让模型更好地捕捉息肉图像中的关键信息。
  • 提升领域泛化能力:确保模型在不同来源或条件下都能保持良好的分割性能。

引入的两个关键模块:

  • CFA(Cross-branch Feature Augmentation,交叉分支特征增强)模块:
    • 将训练中的 CNN 编码器提取的局部、高频信息与预训练的 ViT(视觉Transformer)全局信息结合。
    • 此种融合实现特征的泛化学习,提高模型对不同材料域的适应性。
    • 具体机制包括:从深层(高抽象)信息帮忙改善浅层(低级)特征,结合浅层的空间位置(通过引入位置编码或浅层特征)以增强边界和细节的表达能力。
  • UPR(Uncertainty-guided Prediction Regularization,不确定性引导的预测正则化)模块:
    • 在训练过程中,旨在减少预测的不确定性,提升模型的信心校准(confidence calibration)。
    • 利用提示(hints),即利用真实的标注信息(ground truth)作为辅助,指导模型更准确地学习。
    • 采用一种基于预测不确定性(如信心值或置信度)的训练策略,让模型在训练中更稳定、可靠。

训练方式:网络采用端到端(end-to-end)训练,不依赖额外的提示(prompt),同时优化这两个模块以完成最优性能。

2.1 跨分支特征增强模块

问题背景:就算SAM在许多图像分割任务取得了成功,但在息肉分割中存在不足,主要原因是其图像编码器(Vision Transformer,ViT)不能充分有效地从未见过的内窥镜图像中提取足够的特征。

改进目标:为了增强特征提取能力,设计了CFA(Cross-branch Feature Augmentation)模块,其作用是学习多尺度和多层次的特征表示。

在这里插入图片描述

模型架构修改:

2.2 不确定性引导的预测正则化模块

为了增强SAM(Segment Anything Model)在特定领域(如内窥镜图像)中的泛化能力,作者提出的训练策略,特别是关于调整归一化层(LayerNorm)以及利用置信度调节进行训练引导的方法。具体内容可能分为以下几个要点:

调整归一化层(LayerNorm)以缓解域转移疑问

  • SAM是在自然图片上训练的,但在特定领域如内窥镜图像上表现不佳,主导因数据分布的差异引起的内部协变量偏移(internal covariate shift)。

  • 依据细调模型的归一化层(LayerNorm),使模型更好地适应目标域(内窥镜材料)中的数据分布,从而提高泛化能力。

  • 具体地,把SAM的Vision Transformer(ViT)编码器中的LayerNorm分成两个部分:

    • Transformer块的归一化(transformer block norm)
    • 颈层归一化(neck layer norm),

    最终只训练“颈层”归一化(靠近输出的层),实现针对性微调,这一做法类似于通过调整归一化参数消除域差异问题。

利用模型输出的不确定性(Confidence)辅助训练

  • SAM提供了一个IoU分数输出,用来表示预测的“置信度”或不确定性。低不确定性对应更高的预测可靠性。
  • 然而,在面向未知或新域数据时,SAM可能在高置信度下给出错误预测,这不利于模型的可靠性和域适应。
  • 为此,在训练过程中减小模型的预测不确定性(即提高置信度),用“ground truth(真实标签)”作为一种“提示”指导模型学习。

利用置信度调节“提示”引入

c = 1 2 ( c i + c p ) c = \frac {1} {2}(c_i + c_p)c=21(ci+cp)

  • c i c_ici:SAM的IoU得分,作为图像层级置信度
  • c p c_pcp:据像素不确定性U p U_pUp计算像素层面置信度,其中U p = 1 − σ ( ∣ P ∣ ) U_p=1-\sigma(|P|)Up=1σ(P)P PP为预测分割结果;

这个信心值决定了是否用ground truth作为“提示”帮助模型:置信度低时,模型需要“提示”以学习正确的掩码(mask)。具体做法是将预测P和真实标签Y通过权重c线性结合:P ′ = c ⋅ P + ( 1 − c ) ⋅ Y P^′ = c · P + (1 − c) · YP=cP+(1c)Y

引入“信心损失”以防模型过度依赖提示

整体损失是分割损失L s = L c e + 0.5 ⋅ L d i c e + L m s e L_s=L_{ce}+0.5 \cdot L_{dice} + L_{mse}Ls=Lce+0.5Ldice+Lmse信心损失L c = − l o g ( c ) L_c = -log(c)Lc=log(c)之和:

L = L s + λ L c L = L_s + \lambda L_cL=Ls+λLc

其中λ是超参数,用于平衡两部分的影响。

  • 要是只最小化分割损失,模型会试图让c趋向0(即总是直接用ground truth),这会导致模型无法自主学习和适应。
  • 因此引入信心损失L c = − l o g ( c ) L_c = -log(c)Lc=log(c),这个损失会在c趋向0时变得很大,从而惩罚模型试图总是用ground truth,促使模型自己学会合理估计置信度。

3. 实验

数据集(Datasets):实验在五个常用的息肉分割内容集上进行:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS、EndoScene。

实现细节(Implementations)

模型组成

评估指标:使用Dice系数和IoU。

结果与分析:将提出的方法与一些领先的分割模型和某些基于SAM的方法进行了对比。

在这里插入图片描述

傅里叶分析:通过傅里叶变换显示,CNN分支比ViT基础模型捕获了更多的高频信号,强调其高频信息提取能力。

在这里插入图片描述

定性的结果:作者的预测结果更接近真实标签。

在这里插入图片描述

消融实验(Ablation Study)

在这里插入图片描述

4. 结论

本文提出的一种新颖的多任务方法,名为ASPS(Augmented Segment Anything Model for Polyp Segmentation),旨在改善原始的SAM模型在息肉分割任务中的不足。具体内容如下:

目标:解决SAM模型在信息捕获方面存在的限制,弥合自然图像与内窥镜图像之间的域差异(域适应障碍)。

核心组件

  • CFA模块(Cross-branch Feature Augmentation):引入一个可训练的卷积神经网络(CNN)编码器分支,用来补充冻结的Vision Transformer(ViT)编码器,从而融合多尺度和多层次的特征,增强模型的特征提取能力。
  • UPR模块(Uncertainty-guided Prediction Regularization):通过引入提示信息(hints)和调节归一化层(Normalization Layer),在训练过程中减少模型的不确定性,促进模型在内窥镜图像领域的适应能力。

验证效果:通过在五个常用的息肉数据集上的实验,验证了所提方法的有效性和优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RuoYi-Cloud 认证实现

RuoYi-Cloud 微服务安全认证体系深度解析 1. 整体架构概览 RuoYi-Cloud 的安全认证体系由以下几个核心组件构成:网关服务(ruoyi-gateway):统一认证入口 认证服务(ruoyi-auth):处理用户登录认证 公共安全模块(r…

CobaltStrike流量分析

CobaltStrike流量分析 1.溯源反制,提交黑客CS服务器的flag.txt内容 使用nmap扫描IP开放端口,发现开放了一个 2357端口 我们看看里面有什么可以看到对方IP开放了一个2375端口,我们看看有没有什么利用的方法 一、端口…

2025年自动上料机厂家权威推荐榜:螺旋上料机/真空上料机/粉末上料机,高效输送系统精准选型指南

2025年自动上料机厂家权威推荐榜:螺旋上料机/真空上料机/粉末上料机,高效输送系统精准选型指南 在工业自动化快速发展的今天,自动上料机作为生产线的重要环节,其性能直接影响生产效率和产品质量。螺旋上料机、真空…

建立VLAN间通信

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

用代码将txt分别转换成列表和字典

txt = """男孩:boy 女孩:girl 姓名:name 年龄:age 性别:sex""" # 转换为字符串列表(每行一个元素) str_list = [line for line in txt.split(\n)] # 创建中-英字典 zh_en_dict =…

AtCoder Beginner Contest 429 ABCDEF 题目解析

A - Too Many Requests 题意 给定正整数 \(N\) 和 \(M\)。 输出 \(N\) 行,对于第 \(i\) 行:如果 \(i\leq M\) ,则输出 OK 否则输出 Too Many Requests代码 void solve() {int n, m;cin >> n >> m;for(i…

2025年提升机厂家推荐排行榜,自动提升机,垂直提升机,物料提升机,工业提升设备公司精选

2025年提升机厂家推荐排行榜:自动提升机、垂直提升机、物料提升机、工业提升设备公司精选 在工业自动化浪潮持续深入的今天,提升设备作为物料输送系统的核心组成部分,正经历着技术革新与产业升级的双重变革。自动提…

刷题日记—数组—布尔数组的应用

前几天刷题碰到了种树,切方块类型的题目,这类题目用布尔类型判断每一个个体的状态,最后根据每个元素对应的布尔值来统计数目:如下: 1.移数问题:解题步骤如下:```plaintext include using namespace std; bool fl…

How to Build an Agent

How to Build an Agent https://www.bilibili.com/video/BV1G2uSzqErU/?spm_id_from=333.788.videopod.sections&vd_source=57e261300f39bf692de396b55bf8c41b https://blog.langchain.com/how-to-build-an-agent…

树状数组 区间加 区间和 小记

树状数组 区间加 & 区间和 小记 考虑差分数组的变化,即 \(d_i=a_i-a_{i-1}\)。 那么区间加时,会使 \(d_l\gets d_l+val,d_{r+1}\gets d_{r+1}-val\)。 考虑求区间和,转化为求前缀的和,即求 \[\begin{aligned} …

if 语句

代码缩进为一个 tab 键,或者四个空格,建议用四个空格。 同级代码必须缩进相同空格,if 和 else 里面缩进不同没关系,比如 if 下面缩进是 4 个空格,else 下面缩进是 2 个空格,是完全没有问题的。 程序示例: weath…

深入解析:ue编辑器视口鼠标消失的问题

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

详细介绍:k8s中的kubelet

详细介绍:k8s中的kubeletpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &…

详细介绍:React Native 中的 useState、Context

详细介绍:React Native 中的 useState、Contextpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", …

【MySQL】Oracle与MySQL,跨库数据转储 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

昨夜雨疏风骤

热爱过分浅薄 习惯劳而不获好像把一切都搞得很糟糕。 每天都在胡思乱想胆战心惊。 我什么时候这么拘泥了? I literally want.... 心虚。空虚。 差不多得了。 把别人想的太复杂。是自己邪恶的表现。 你是一个需要专心…

明天的任务

1、找到目标即所有能想到的让自己念头不通达的问题,然后总结这些领域的”基本现实“ 2、制定相应的解决计划 3、行动,并在行动中不断修正和完善 基本现时 和计划,但是目标不能动,即不能半途而废。 一、 1、如何通过…

Windows SMB权限提升漏洞遭活跃利用

CISA警告Windows SMB权限提升漏洞正被活跃利用,微软发布带外修复补丁。俄罗斯COLDRiver组织快速更新恶意软件库,GlassWorm恶意软件使用隐形Unicode字符隐藏恶意逻辑。欧洲当局捣毁拉脱维亚大型SIM农场运营。安全漏洞…

深度神经网络 —— 使用深度自动编码器进行手写数字的去噪音

深度神经网络 —— 使用深度自动编码器进行手写数字的去噪音代码:训练后的本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏…