MIM + PEFT + MLP + Q

news/2025/10/31 19:11:34/文章来源:https://www.cnblogs.com/Upwardxx/p/19181050

零样本学习------稳健的语义特征能力----富含语义信息的训练数据集----使用SOS数据集(主要关注语义重要区域内的低频特征)

密集预测任务-----处理高频细节--------擅长密集预测的与训练模型----使用COS模型(善于识别勾勒伪装对象边缘至关重要的高频特征)

SOS数据集 + COS模型,有利于零样本COS方法

image

一、总体思路

我们的图像编码器,

先使用MIM(掩码图像建模)(一种自监督学习方法)进行预训练(MIM在捕捉高频细节方面有优势,提高模型在识别微小、复杂对象边界的精度(提高细节分辨率)),

再使用SOS数据集进行进一步改进(SOS数据通过细粒度对齐强调可辩别的语义对比(增强感知范围))。

上面提到了“SOS数据通过细粒度对齐强调可辩别的语义对比”,所以我们整合了M-LLM提供细粒度对齐的caption(优化模型以捕获密集预测任务的复杂语义特征)。

MIM预先训练的图像编码器生成视觉嵌入M-LLM在图像旁边处理prompt生成文本嵌入

视觉嵌入文本嵌入接着被对齐。

二、相关工作

:论文中提出,ZSCOD(零样本伪装目标检测)和OVCOS(开放词汇伪装目标分割)仍依赖COS数据集进行微调?


1、因为ZSCOD和OVCOS必须用COS数据微调以适配伪装任务特性,通过COS数据微调来 “锚定伪装任务特性”。
2、ZSCOD/OVCOS 需要 COS 数据微调,本质是通过标注样本让模型 “学习伪装任务的规则”(如 “目标与背景无明显边界”)。
3、若仅用 SOS 数据集(目标与背景差异显著)训练,模型会默认 “目标与背景有明显边界”,面对伪装场景时会因 “找不到清晰边界” 而失效
4、而GenSAM不依赖COS数据集,是因为它复用了SAM强大的通用分割能力(通过SA-1B数据集 上千万张图像和分割标注训练过,已具备 识别伪装目标边缘 的能力,无需通过COS数据微调来学习“边缘捕捉”)+ 提示工程引导(如BLIP通过 大规模文本-图像数据 训练过,能理解“伪装目标”的语义概念,不需要再通过COS数据集微调来学习“伪装”)

三、方法

1、PEFT部分

输入一张图片X,被块嵌入分割成块,并投影成图像嵌入E。

最初的Transformer块这样实现(i表示第i层):

image

第i层得到的输出E将作为第i+1层的输入E。

改进:

使用并行Adapter,“输入 -> 下采样(Wdown降维) -> ReLU激活 -> 上采样(Wup升维)”。与传统Adapter相比,移除了层归一化LN,增加了偏置项更精准地学习“通道级别的形状偏向特征”)。

image

image

将Adapter注入到Transformer块的前馈网络FFN分支中,保留分支(能保留MIM预训练学到的基础特征),加入Adapter(让Adapter专注学习SOS数据集的语义信息)。

image

2、多尺度特征变化(简单特征金字塔SFP)

多尺度特征能覆盖不同尺寸的伪装目标 —— 低分辨率特征(如HW/32^2)适合捕捉大尺寸伪装目标的全局轮廓,高分辨率特征(如(H W/4^2))适合定位小尺寸伪装目标的局部细节(如昆虫的触角、鳞片)。
这些多尺度特征后续会与 M-LLM 生成的文本嵌入通过 MFA(多尺度细粒度对齐)模块对齐,为精准分割提供 “视觉细节 + 语义信息” 的双重支撑。

3、M-LLM生成caption嵌入

输入图片X,任务提示T,M-LLM得到对应caption嵌入。

image

4、MFA多尺度细粒度对齐

MFA包含三部分:特征投影仪、文本混合器、多尺度token匹配

多尺度图像嵌入image输入进特征投影仪得到多尺度图像tokenimage

caption嵌入image和可学习查询image输入进文本混合器,得到文本tokenimage查询tokenimage

image

图像token文本token查询token输入进MFA得到:image-grouped caption embeddingsimageimage-grouped queriesimage

image

详细讲一下对齐的操作(计算相似度---归一化----稀疏化):

(1)image得到相似度矩阵;

(2)相似度矩阵中的数值范围差异较大,所以进行归一化;

(3)稀疏化。

image

5、文本混合器与特征投影器

image

image

image

image

image

image

image

image

6、推理阶段使用查询Q替换掉M-LLM。和损失函数

训练阶段掩码解码器的输入是I(N),推理阶段换成Q(N)。

image

image

image

四、实验

1、零样本设置:

(1)EVA提前用MIM预训练,提前用SOS数据集预训练(5个):VST、SINet-V2、CRNet、EVP-Segformer、EVP-EVA02-L
(2)不训练,直接用COS数据集检测成果(4个):CAMO、COD10K、CHAMELEON、NC4K

在零样本策略和弱监督方法中均有很好效果(table 1):

image

2、监督学习设置:

用COS数据集进行训练。效果很好。

image

3、消融实验。

(1)推理阶段:码本 > M-LLM生成caption
(2)文本混合器中:线性投影仪、线性 + 多尺度 、MLP投影仪、MLP + 多尺度
(3)MFA模块中:特征投影仪 和 文本混合器 的频道
(4)PEFT的实现:Adapter > LoRA

image

(5)任务prompt(table 3)

image

我们发现:“伪装动物” > “伪装物体”。所以通过指定伪装对象并详细描述,码本能够学习针对这些特定对象量身定做的更有效地表示,从而提高模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/952145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《程序员修炼之道 - 从小工到专家》阅读笔记2

3 石头汤与煮青蛙 两个方面,一还是软件的熵当中的含义,喜欢书里面的这段话:大多数的项目的拖 延都是一天一天发生的,系统一个特性一个特性的偏离其规范.一个又一个的补丁被打 到某段代码上,直到最初的代码一点没有留下…

《程序员修炼之道 - 从小工到专家》阅读笔记3

5 你的知识资产 关于学习的一个章节,提到了不少如何学习,把学习知识作为投资一样看待,分析的也 很在理.自认为在这方面还是赶上了书中的要求,不然也不会看到这本书了_,学习是 一个过程,不会有立杆见影的效果,当然我们不…

《程序员修炼之道 - 从小工到专家》阅读笔记1

1.我的源码让猫给吃了 不要寻找借口,从自身找原因 2.软件的熵 一句话:不以善小而不为,勿以恶小而为之. 从初期就要做好规范,不要因为是poc这样的前提而放松对代码的规范,现在的项目就有这种问题,初期的时候有人认为(自…

Java流程控制——break,continue,goto

Java流程控制——break,continue,gotobreak,continue语句在任何循环语句的主体部分,都可以使用break语句控制循环流程。 break用于强制退出循环,不执行循环中剩余的语句。(在switch中也使用) continue语句用于在循…

读《代码大全2》第三部分有感

《代码大全2》第三部分“变量”,看似聚焦于软件开发中最基础的“变量”概念,却以极致的细节与深度,打破了我对“变量只是存储数据的容器”的浅层认知。这部分从变量使用的常规问题、命名规则,到基本与不常见数据类…

A History of Large Language Models阅读心得(1)

https://gregorygundersen.com/blog/2025/10/01/large-language-models/ 为什么要word embedding? 如果不对词汇进行embedding,而是直接基于词语去统计自然语言数据的话,会出现数据稀疏的问题(data sparsity)。因为…

20232324 2025-2026-1 《网络与系统攻防技术》实验四实验报告

20232324 2025-2026-1 《网络与系统攻防技术》实验四实验报告1.实验内容 1.1实验目标通过实操掌握恶意代码分析、逆向工程及网络取证的核心方法,理解恶意代码的特性、反分析技术与攻击逻辑,明晰僵尸网络机制及 IRC 协…

【Python 基础】第 2 期:环境搭建

在开始编写 Python 代码前,还需要搭建 Python 的开发环境。电脑是没办法直接读懂 Python 代码的,而是需要一个解释器,实时把代码翻译成字节码,字节码再转换成 0 和 1,电脑就能读懂了。 Python 的运行过程就是翻译…

revit api 对话框taskdialog 和maindialog

revit api 对话框taskdialog 和maindialogpublic Autodesk.Revit.UI.Result Execute(ExternalCommandData commandData,ref string message, Autodesk.Revit.DB.ElementSet elements) {Application app = commandData.…

YOLO算法原理详解系列 第001期-YOLOv1 算法原理详解 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

revit api structure type判断

revit api structure type判断通过StructuralType区分结构柱,结构梁,结构支撑和独立基础public void GetStructuralType(FamilyInstance familyInstance) {string message = "";switch (familyInstance.St…

读《代码大全2》第二部分有感

《代码大全2》的第二部分“高质量的代码”,宛如一位严苛的工匠在传授“打磨技艺”的精髓。如果说第一部分是为软件构建“打地基”,那这部分便是教我们如何用精准的手法,将“砖块”(代码)砌成坚固且美观的“墙体”…

读《代码大全2》第一部分有感

翻开《代码大全2》,第一部分“奠定基础”便像一把精准的钥匙,打开了我对软件构建认知的新大门。这部分没有陷入复杂的代码细节,而是从宏观视角切入,将软件开发的底层逻辑与核心原则娓娓道来,让我对“如何做好软件…

Modbus协议存储区学习笔记

于我而言,风光无限是你,跌落尘埃也是你,重要的是你,而不是怎样的你。——《天官赐福》1️⃣ 核心思想:通信 = 数据交互 首先,我们要明白一个最基本的道理:所有通信的本质,都是在交换数据!在Modbus协议里,设备…

CF1168C And Reachability

比较唐的思路是相同位上相邻为 \(1\) 的数连边,看能否从 \(x\) 走到 \(y\) 即可。 你发现这样不太好做,我们写个 DP,设 \(f_{i, j}\) 表示能到 \(i\) 这个点且 \(< i\) 第 \(j\) 位为 \(1\) 的数是哪一个(最大的…

分布式专题——32 BIO、NIO编程与直接内存、零拷贝深入辨析 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

LuatOS GNSS定位调试步骤解析:一步步实现精准定位

精准的GNSS定位是众多物联网项目的基础。本文将对LuatOS GNSS定位调试的各个步骤进行深度解析,帮助开发者系统性地掌握调试流程,让您的项目能够快速、稳定地实现精准定位需求。 一、GPS 工作原理简介 1.1 GPS 技术的…

AI元人文:从分野到纠缠——一种基于值动力学的统一视角

AI元人文:从分野到纠缠——一种基于值动力学的统一视角 一、 导言:超越分野,探寻谱系 我们习惯于用“模型”来框定理解世界的范式,无论是“主客二值”还是“三值纠缠”,这种命名本身已然暗示了一种分野。然而,智…

《代码大全》读后感:以构建为核心,搭建团队协作的桥梁

从团队管理视角阅读《代码大全 2》第一章,我收获的是 “如何通过规范构建流程提升团队效率” 的启发。书中指出 “软件构建是团队协作的核心环节”,不同角色的工作最终都会汇聚到构建阶段,这让我意识到,团队协作的…

AI大模型提示词攻击防御全景指南 2025:从OWASP Top 10到企业级防护体系

AI大模型提示词攻击防御全景指南 2025:从OWASP Top 10到企业级防护体系一、提示词攻击的威胁升级:从单点攻击到系统性风险 在OWASP大模型安全漏洞排名中,提示词注入攻击(Prompt Injection Attack)已经排到了首位。OWAS…