文章精读篇—

文章精读篇——OMG-Seg

题目：OMG-Seg : Is One Model Good Enough For All Segmentation?

作者：Xiangtai Li1 † Haobo Yuan1 Wei Li1 Henghui Ding1 Size Wu1 Wenwei Zhang1Yining Li2 Kai Chen2 Chen Change Loy1

代码：OMG-Seg

会议：cvpr2024

边读边记：

这里面提到，omg-seg是首个将图像、视频、开放词汇、交互分割，四种结合到一起的模型。之前的unified models是有一个共享的视觉backbone，多个特定任务分枝；而本模型是共享的encoder-decoder架构，所有任务的输出都被统一为一种“查询表示”（Query Representation），通过这种设计，OMG-Seg 能够用一个统一的框架处理多种任务，而无需为每个任务设计单独的分支。

3.1节：定义了图像分割、视频分割、交互分割、开放词汇分割的任务。

其中视频分割提到了tube mask，但是我不太理解tube mask是什么样子的。大概就是每一帧都有mask吧。

interactive segmentation中，编码过程是将每个visual prompt（比如一个点坐标或一个矩形框）转化为一个对象查询向量。

Open-Vocabulary and Multi-Dataset Segmentation中，在视觉任务中使用 CLIP 文本嵌入 （CLIP text embedding）作为掩码分类器（mask classifier）意味着直接用文本嵌入来表示类别。

所以本篇文章是提出了 All the Things are in Queries，通过将所有实体的预测统一到查询机制中，可以实现对多种分割任务的支持。

统一的查询掩码分类框架：

作者提到，通过结合不同的任务设置，可以使用相同的基于查询的掩码分类框架来表示所有的分割实体。

具体来说，每个对象查询（object query）对应三个输出：

mask掩码（mi）：表示预测的分割掩码（即物体的像素级区域）。

label标签（ci）：表示预测的类别标签（如“人”、“车”等）。

ID（di）：表示实例的唯一标识（用于区分同一类别的不同实例，常用于实例分割任务）。

不同的分割任务（如语义分割、实例分割、全景分割等）对 mi、ci、di 的格式和范围有不同的要求。例如：

在语义分割中，di 可能不需要，因为只关心类别标签 ci 和掩码 mi。

在实例分割中，di 是必需的，因为需要区分同一类别的不同实例。

尽管不同任务对 mi、ci、di 的具体要求不同，但它们的格式和范围是相似的，因此可以统一到一个框架中。

3.2 omg-seg的架构

backbone+pixel decoder+mask decoder

backbone：OpenCLIP 中的 ConvNeXt 架构作为视觉编码器（VLM Encoder）。是冻结的

pixel decoder：作为特征适配器，因为VLM Encoder 提取的特征是冻结的，可能不完全适合特定的分割任务。那么Pixel Decoder 通过多阶段的可变形注意力机制，能够动态调整特征，使其更适合生成高质量的分割掩码。它还能够融合多尺度特征，增强模型对物体大小和形状的适应性。

mask decoder：基于高分辨率特征，生成最终的掩码和类别标签。

Combined Object Queries（组合对象查询）：不同任务（如图像、视频、交互式分割）对对象查询的需求不同，图像任务：对象查询关注物体级别的定位和识别；视频任务：对象查询需要考虑时间一致性（如跨帧的物体跟踪）；交互式分割：对象查询需要定位用户指定的特定区域。

语义查询（Semantic Queries, QsobjQsobj）：

用于图像和视频任务。

这些查询负责生成图像掩码（image masks）或跟踪的管状掩码（tracked tube masks），并需要语义标签。

例如，在视频任务中，语义查询需要确保同一物体在不同帧中的掩码具有时间一致性。

位置查询（Location Queries, QlobjQlobj）：

用于交互式分割任务。

这些查询通过 Prompt Encoder 将各种视觉提示（visual prompts）编码为与对象查询相同的形式。

例如，用户可以通过点击或框选指定感兴趣的区域，Prompt Encoder 将这些提示转换为位置查询。

组合对象查询：

将语义查询 QsobjQsobj 和位置查询 QlobjQlobj 组合在一起，共享相同的解码器接口。

Shared Multi-Task Decoder（共享多任务解码器）：核心操作：交叉注意力（cross-attention）。输入：组合对象查询（QsobjQsobj 和 QlobjQlobj）和图像/视频特征 {Fjfuse}{Fjfuse}。输出：精炼后的对象查询（refined object queries）。最终掩码通过精炼后的查询和高分辨率特征 F3fuse的点积得到。

图像任务加入2d位置嵌入，视频任务是要加入3d位置嵌入的：

4 实验

数据集：coco分割的一堆等还有视频分割的Youtube-VIS-2021, ADE-20k [102], and DAVIS-2017 datasets 等

实现细节：

实现框架：基于 MMDetection，使用 32 张 A100 GPU 进行分布式训练。
数据增强：采用大规模抖动方法。
训练步骤：统一训练步数，确保公平比较。
模型初始化：使用 OpenCLIP 初始化 backbone，并替换分类器为文本嵌入。
输入处理：将图像输入视为伪视频，统一图像和视频任务的输入格式。
训练策略：调整采样率平衡数据集，报告冻结和训练 backbone 的结果。

小知识：

分布式训练中，总 Batch Size 是所有 GPU 上样本的总和。每个 GPU 的 Mini-batch Size 是单个 GPU 上处理的样本数量。

在 OMG-Seg 中，每个 GPU 的 Mini-batch Size 为 1，意味着每个 GPU 每次处理 1 张图像，32 个 GPU 一起处理 32 张图像（总 Batch Size = 32）。

---还没写完先发布后面接着写

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/71703.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！