南山网站公司石家庄p2p网站开发
news/
2025/9/22 22:00:19/
文章来源:
南山网站公司,石家庄p2p网站开发,做网站每天任务及实训过程,wordpress 3栏 主题1.论文介绍
MAS-SAM: Segment Any Marine Animal with Aggregated Features MAS-SAM#xff1a;利用聚合特征分割任何海洋动物 Paper Code(空的)
2.摘要
最近#xff0c;分割任何模型#xff08;SAM#xff09;在生成高质量的对象掩模和实现零拍摄图像分割方面表现出卓越…1.论文介绍
MAS-SAM: Segment Any Marine Animal with Aggregated Features MAS-SAM利用聚合特征分割任何海洋动物 Paper Code(空的)
2.摘要
最近分割任何模型SAM在生成高质量的对象掩模和实现零拍摄图像分割方面表现出卓越的性能。然而作为一种通用的视觉模型SAM主要是用大规模自然光图像训练的。在水下场景中由于光的散射和吸收它表现出显著的性能下降。同时SAM 解码器的简单性 可能会导致丢失细粒度的对象细节。为了解决上述问题我们提出了一种新的特征学习框架MAS—SAM的海洋动物分割其中包括整合有效的适配器到SAM的编码器和构建一个金字塔解码器。更具体地说首先建立了一个新的SAM的编码器与有效的适配器的水下场景。然后介绍了一个超映射提取模块Hypermap Extraction ModuleHEM以产生多尺度的功能全面的指导。最后提出了一个渐进预测解码器PPD聚合的多尺度特征和预测最终的分割结果。当嫁接融合注意力模块FAM我们的方法能够提取更丰富的海洋信息从全球上下文线索细粒度的局部细节。
Keywords适配器SAM金字塔解码器分割海洋动物LoRA微调
3.Introduction
海洋动物分割MAS是视觉智能和水下机器人领域中的关键和基本任务。它旨在从水下图像或视频中识别和分割海洋动物。从功能上讲海洋动物的准确分割对于包括海洋生物学、生态学和保护在内的各个研究领域都非常重要。但水下环境的特点是复杂的光散射和吸收效应导致图像质量下降对比度降低和物体模糊。此外海洋动物往往表现出伪装的属性这进一步复杂的分割任务。为了应对这些挑战需要先进的感知技术。
最近SAM提出并在一般的分割任务上已显示出巨大的潜力。然而SAM的训练场景主要涉及自然光照条件这限制了其在水下环境中的性能。此外SAM中过于简单的解码器结构缺乏生成细粒度分割结果的能力。
考虑到上述事实在这项工作中本文提出了一种新的基于SAM的特征学习框架命名为MAS-SAM海洋动物分割。更具体地说通过冻结SAM的编码器的预训练参数并引入有效的适配器我们建立了一个Adapter-informed SAM编码器ASE从海洋动物图像中提取特征。此外我们还构造了一个超映射提取模块HEM用于从新SAM的编码器中提取多尺度特征映射。它为后续的掩模预测过程提供了全面的指导。为了改进SAM的解码器我们引入了渐进预测解码器PPD来聚合来自原始提示、ASE和HEM的特征。当与融合注意力模块FAM嫁接时我们的PPD可以优先考虑多粒度特征图的重要性并从全局上下文线索中提取更丰富的海洋信息以获得细粒度的局部细节。
4.网络结构详解 本文提出的框架MAS-SAM的整体结构。它由三个主要部分组成适配器通知SAM编码器ASE、超映射提取模块HEM和渐进预测解码器PPD。
适配器通知SAM编码器Adapter-informed SAM Encoder
保留了原始SAM的核心组件并利用两个参数高效的微调机制来改进预训练的编码器。如上图所示我们将LoRA 和适配器分别输入到每个Transformer块的多头自注意MHSA和前馈网络FFN中。更具体地令Xi ∈ RN×D为第i个Transformer块的输入。这里N是令牌的数量D表示嵌入维数。由LoRA修改的MHSA层可以表示如下 其中Wq、Wk和Wv分别是用于生成原始查询、关键字和值矩阵的三个线性投影层的权重。 W q , v d o w n ∈ R M × D W^{down}_{q,v} ∈ R^{M×D} Wq,vdown∈RM×D和 W q , v u p ∈ R M × D W^{up}_{q,v} ∈ R^{M×D} Wq,vup∈RM×D分别是两个线性投影层的权值用于降低和恢复特征维数其中M是向下映射的维度。通过这种方式可以冻结预训练的权重Wq、Wk和Wv和利用秩分解矩阵来大大减少可训练参数的数量。
此外我们将一个适配器插入到FFN中如下所示 其中LN和MLP代表层归一化LN和多层感知器MLP。σ是ReLURectified Linear Unit。 W a d p t d o w n ∈ R P × D W^{down}_{adpt} ∈ R^{P×D} Wadptdown∈RP×D和 W a d p t u p ∈ R P × D W^{up}_{adpt} ∈ R^{P×D} Wadptup∈RP×D分别是两个线性投影的权值用于降低和恢复特征维数。P是向下投影维度。与LoRA类似通过采用极低的参数P值可以实现参数有效的微调以使预训练的SAM的编码器适应海洋场景。
超地图提取模块
由于复杂的水下环境利用局部的细节和全局的背景下鲁棒性和准确的MAS十分重要。不同的Transformer层捕获不同级别的语义通常浅层保留更多的局部细节深层表达更多的上下文信息。因此为了使我们提出的模型利用更丰富的海洋信息提出了一个超地图提取模块HEM考虑ASE的多尺度特征地图。然后它作为后续掩模预测过程的综合指导。更具体地说我们首先将图像 I ∈ R H × W × 3 I ∈ R^{H×W×3} I∈RH×W×3送入ASE(编码器)并获得不同Transformer层的输出。在这项工作中我们选择了3-6-9-12层并得到多尺度表征特征即Xii 36912。然后我们将它们重塑为空间特征映射 F i ∈ R H / 16 × W / 16 × D F_i ∈ R^{H/16×W/16×D} Fi∈RH/16×W/16×D。为了同时考虑这些多尺度特征图我们执行以下特征聚合 其中ϕ1×1和ϕ3×3分别是具有1×1和3×3核的卷积层。为了提高训练的稳定性在卷积层之后引入了批归一化(BN)和RELU激活函数。[·]是通道中的级联。 然后我们引入通道注意层以生成超映射Hj如下所示 其中GAP是全局平均池(GAP)δ是Sigmoid函数ψ2×2是具有2×2核的反卷积层。这样可以获得多比例尺的超图。这些超地图在提高MAS的性能方面起着至关重要的作用。
渐进预测解码器
由于海洋动物的外观变化很大SAM中简单的解码器设计很难实现准确的分割掩模。为此提出了一种渐进预测解码器(PPD)来有效地提高预测能力。它具有金字塔结构从原始提示、ASE和HEM中逐步聚合多源特征并获得最终的分割预测。 如上图所示提出了一个融合注意力模块FAM来完全聚合多源特征。更具体地说我们开始对来自ASE的特征进行上采样并将输入特征缩放为相同的大小。然后我们将它们融合如下 其中Ui是通过利用双线性插值Φ的上采样特征。Dj是所提出的PPD中的第j个金字塔级的输出。对于FAM我们利用通道注意力来优先考虑多源功能的重要性。还部署了残差结构以加强代表能力。该过程可以表述为 GMP是Global Max PoolingGMP。通道权重可以突出相关特征并抑制不相关特征。同时我们的FAM所采用的注意力机制有助于捕捉不同尺度的特征之间的复杂关系从而产生更连贯和信息量更大的特征表示。因此FAM可以有效地集成和细化多源功能。
最后为了实现渐进式预测我们构建了与FAM嫁接的PPD如下所示 其中Pj是第j个金字塔级的预测掩码。PPD推进原始提示ASE和HEM的无缝聚合从而产生更丰富的海洋信息从全局上下文线索细粒度的局部细节。
为了进一步改善预测结果我们在不同阶段进行所有预测并生成最终预测如下所示 通过金字塔结构和FAM的协同使用我们的MAS-SAM可以有效地利用各种信息并为各种海洋动物形状和大小产生高度精细和详细的分割掩模。
损失函数 从三个层面进行深度监管像素级监督二进制交叉熵损失、区域级监督SSIM损失和全局级监督IoU损失。因此我们将Lf或Lj定义为具有三项的组合损失 其中Lf和Lj分别是最终预测和第j级输出的损失。
问题
代码也没公开中间的cross attention没有提CMP也没有提应该是最后金字塔解码器的每一级输出到最终输出P的过程。 文章提到解码器接收原始提示、ASE编码器和HEM的特征但实际上只接收了HEM的Hi和ASE的Fi进行上采样处理并没有接收原始提示应该是ASE编码器与原始提示也就是默认提示因为文章没有对提示编码器进行更改的最终输出进行cross attention作为D0。
总体来说创新点在于SAM中增加LoRA和适配器微调而冻结原SAM的图像编码器增加了超地图提取模块把编码器的不同层特征提出来进行处理解码器金字塔型增加接收不同层的特征。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/910517.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!