SAM系列论文浅析

news/2025/10/16 0:22:20/文章来源:https://www.cnblogs.com/aaooli/p/19144559

SAM系列演进:从通用分割工具到视觉概念理解模型的进化之路

摘要

SAM(Segment Anything Model)系列代表了计算机视觉基础模型从"专用工具"向"通用感知系统"的演进。本文从视觉语言模型的角度深入分析SAM系列三代模型的技术演进,重点剖析SAM3如何通过引入可提示概念分割任务,实现从视觉提示到概念提示的范式转变,标志着视觉分割模型向真正具备语义理解能力的视觉语言模型迈进。

1. SAM系列演进:从视觉提示到概念理解

1.1 SAM 1(2023年):可提示分割的奠基者

SAM1的核心贡献在于建立了可提示分割(Promptable Segmentation)的基础范式。它采用图像编码器-提示编码器-掩码解码器的三段式架构,其中图像编码器基于预训练的ViT-H,提示编码器处理各种提示类型,轻量级掩码解码器将图像和提示嵌入组合预测输出掩码。

从视觉语言模型角度来看,SAM1虽然在理论上支持文本提示,但其文本处理能力非常有限。论文中明确指出该功能"未被完全开发",文本更多是被映射为一种视觉查询向量,而非真正的概念理解。本质上,SAM1是一个强大的开放词汇实例分割模型,但缺乏对抽象概念的真正理解能力,无法实现基于概念的实例检索与分割。

1.2 SAM 2(2024年):视频时空统一分割的拓展者

SAM2在SAM1基础上将能力扩展至视频领域,实现了统一框架下的图像与视频分割,并引入了记忆机制以保持对象在视频帧间的一致性。其引入的流式推理架构使其能够处理视频序列并保持对象身份的一致性。

从视觉语言模型视角分析,SAM2在概念理解方面并未取得实质性进展。其创新主要体现在时空维度的扩展,而非本质理解能力的提升。尽管引入了记忆机制来保持对象在视频帧间的一致性,但这种一致性是基于视觉特征而非语义概念的。SAM2为视频分割建立了强大的工程技术基础,但未能解决概念级理解这一核心挑战。

1.3 SAM 3(2025年):概念理解时代的开创者

SAM3的突破性在于实现了从"在哪里分割"(视觉提示)到"分割什么"(概念提示)的范式转变。它通过引入可提示概念分割(Promptable Concept Segmentation, PCS)这一新任务,将模型从被动的执行工具转变为具备初步视觉概念理解能力的主动感知系统。

从视觉语言模型角度看,SAM3实现了真正的视觉-语言融合。它不再是简单的视觉分割模型,而是一个具备初步视觉概念理解能力的主动感知系统。通过将视觉编码、语言理解和分割任务进行原生级深度融合,SAM3能够真正理解用户提供的概念提示,并在复杂场景中找出所有匹配该概念的实例。

2. SAM3核心创新:视觉语言模型的深度融合

2.1 可提示概念分割(PCS)任务定义

可提示概念分割(Promptable Concept Segmentation, PCS)是SAM3引入的核心任务,要求模型能够根据抽象概念(而非具体视觉提示)自动分割所有匹配实例。

PCS任务要求模型具备三重能力:

  • 概念理解:将文本或示例图像映射到抽象的视觉概念
  • 实例定位:在复杂场景中找出所有匹配该概念的实例
  • 精准分割:为每个实例生成像素级精度的掩码

数学上,PCS任务可以形式化定义为:

给定图像I或视频序列V,模型接收概念提示C(短名词短语如"红色苹果"、图像范例或两者组合),输出所有满足C的实例掩码集合M,并保持视频中实例的身份一致性。

M = SAM3(I 或 V, C), C ∈ {文本短语, 图像范例, 混合提示}

与传统任务的本质区别:

  • VS SAM1/SAM2的PVS任务:PVS需用户通过点、框明确"指哪里",PCS则允许用户直接定义"分什么"
  • VS 指代分割:指代分割针对单个特定实例,PCS要求找出所有匹配实例,且支持开放词汇

2.2 对齐的感知编码器(Perception Encoder, PE)

SAM3的核心是一个强大的、经过54亿图像-文本对预训练的对齐感知编码器(PE),作为模型的视觉-语言对齐骨干。PE采用窗口注意力与全局注意力混合机制,在保证效率的同时捕获全局上下文信息。

文本编码支持最大32 token的短语,通过跨模态注意力与视觉特征严格对齐,使模型能将"红色"等抽象属性映射到具体像素。这种设计使SAM3不再是简单的分割模型,而成为一个以分割为核心任务的通用视觉语言模型。

2.3 Presence Token机制:识别与定位的解耦设计

SAM3引入了Presence Token(存在性标记),将物体的识别("是什么")与定位("在哪里")任务解耦。这种设计带来两大优势:

  1. 提升识别精度:Presence Token专注于全局上下文,避免局部定位干扰
  2. 减少假阳性:当概念不存在时,Presence Token得分接近0,直接抑制所有无关输出

具体实现上,引入可学习的全局Presence Token,专责预测概念存在的概率p(NP is present);目标查询仅负责在概念存在时定位实例,计算条件概率p(query_i is a match | NP is present);最终实例得分由两者乘积决定:

score_最终 = score_存在 × score_定位

2.4 多专家歧义处理机制

针对PCS任务固有的概念模糊性(如"小窗户"的"小"是主观判断),SAM3内置了多专家歧义处理机制。该机制训练多个并行的"专家",每个专家可以学习对同一名词短语的不同合理解释。推理时采用"赢家通吃"策略选择最优专家输出,有效解决概念歧义。

2.5 视频时空一致性增强

对于视频PCS任务,SAM3在SAM2的记忆机制基础上引入了时序去歧策略增强。针对视频中常见的遮挡、相似目标干扰等问题,SAM3引入了两种关键策略:

  1. 时间歧义消除:计算掩码在时间窗口内与检测结果的匹配一致性
  2. 记忆增强:通过内存库存储历史特征,确保目标即使被短暂遮挡也能恢复正确身份

3. 数据引擎与训练策略

3.1 人机协同数据引擎

SAM3的卓越性能离不开其精心设计的人机协同数据引擎。该系统通过四阶段迭代生成了前所未有的高质量训练数据:

  1. 阶段1:纯人工验证——生成基础数据集
  2. 阶段2:人机协同——引入AI验证器提升标注效率
  3. 阶段3:规模与领域扩展——覆盖多样化数据
  4. 阶段4:视频标注——生成高质量视频数据集

3.2 数据集规模

最终生成的数据集规模令人印象深刻:包含400万独特概念和5200万掩码的高质量数据集,以及包含3800万概念和14亿掩码的合成数据集。SA-Co数据集包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

4. 性能表现与技术优势

4.1 图像PCS任务性能

在LVIS数据集上,SAM3的零样本掩码AP达到47.0,显著超越此前最佳模型的38.5。在新的SA-Co/Gold基准上,SAM3的CGF1分数达到65.0,是最强基线OWLv2(34.3)的1.9倍,且达到人类性能下限的88%。

4.2 视频PCS任务性能

在视频对象分割(VOS)任务上,SAM3相比SAM2有显著提升,能够高质量地完成视频中多目标的长期追踪。在SA-Co/VEval上pHOTA达53.9,接近人类水平(68.0)的79%。

4.3 推理效率

在H200 GPU上,处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。

5. 结论

从技术视角看,SAM3的成功在于将SAM系列的分割精度、DINOv2系列的视觉表征能力和CLIP/GLIP系列的视觉-语言对齐技术进行了深度的、原生的融合。这一融合创造了一个既能"听懂人话"又能"精准勾勒"的通用视觉感知系统,为AI在更广泛场景中理解和交互视觉世界奠定了坚实基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937889.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 ICPC Xian

2023 ICPC Xian ICPC Xian 也是非常坐牢的一场 E 从能力值小的人开始考虑,遍历他能胜利多少次,若他能胜利 \(x\) 次,则必须在交换操作后有一个长度为 \(2^x\) 的区间里面都是比他弱的,从小到大遍历胜利次数,同时维…

2025-10-15 ?

?Kasino game you have 1 coin,determine to join the following game or not. if you have n coins( n is a real number) before this round,you will have 9n w.p. 1/2,and have 0.1n w.p. 1/2 you will play infi…

为什么一部电影,一本书一看就喜欢

为什么一部电影,一本书一看就喜欢,我知道这跟这部作品的,要表达的思想有关,可为什么。。。因为这部电影你还没看完,内容你还不知道,你是怎么喜欢上的呢。真的很奇怪。。。也许,这是很肤浅的认识吧。就现在以前的…

20251015打卡

冒一下泡,我还活着哈哈哈

牛客119232 牛客2025秋季算法编程训练联赛1-提升组 游记

打了大约 $90min$ 离场,$4t$,整体题目较水。省流 打了大约 \(90min\) 离场,\(4t\),整体题目较水。10.15 内含剧透,请vp后再来。 不是题解!!!!!!! 赛前 晚上没吃饭,为了吃饭知道不会打的时间特别长。看到题…

BroadcastChannel跨页签通信复盘总结

BroadcastChannel API 提供了一个简单有效的跨页签通信解决方案,特别适合需要实时同步状态的同源页面场景。虽然存在一些局限性,但在合适的业务场景下,它能够以最小的开发成本实现良好的通信效果。 核心实现代码 //…

02020510 EF Core高级10-构建动态表达式树、不推荐动态构建表达式树、动态构建IQuerable、动态构建字符串

02020510 EF Core高级10-构建动态表达式树、不推荐动态构建表达式树、动态构建IQuerable、动态构建字符串 1. 不用Emit生成IL代码实现select的动态化(视频3-46) 1、Select(b=>new{b.Id,b.Name}) 2、运行时动态设定…

02020601 Web API01-顶级语句、全局using指令、可空类型、record类型(自动重写ToString、Equals)、init和private属性

02020601 Web API01-顶级语句、全局using指令、可空类型、record类型(自动重写ToString、Equals)、init和private属性 1.1 C#新语法01(视频4-1) 1.1 C#新语法 1、C#8.0、C#9.0和C#10.0中增加了很多的新语法,这里讲…

Nginx 之Rewrite 使用详解

Nginx 的 rewrite 模块是处理 HTTP 请求过程中的一个重要功能,它允许基于 Perl 兼容正则表达式(PCRE)对用户请求的 URI 进行重写,并返回 30x 重定向跳转或按条件执行相关配置。 Rewrite 指令 2.1 指令语法 Nginx 中…

libaom 在ubuntu 上用鸿蒙OHOS编译

1) 导入 OHOS 环境(当前会话)export OHOS_SDK=/root/harmony/command-line-tools/sdk/default/openharmony export OHOS_SYSROOT=$OHOS_SDK/native/sysroot export PATH=$OHOS_SDK/native/llvm/bin:$PATH# 确认编译器…

Aexlet-VGG2

使用CUDA 10轮结果显示还是Alex胜出

《膜拜!适合新手入门的卷积神经网络原理详解教程》读书报告

视频从卷积操作的基本概念入手,逐步深入到步长、边缘填充、特征图尺寸计算、参数共享、池化层作用以及整体网络架构等关键知识点,通过可视化的矩阵运算示例,让抽象的算法原理变得通俗易懂。(一)卷积操作:特征提取…

[asm/c]:SYSCALL系统调用的编号(x86_64)

[asm/c]:SYSCALL系统调用的编号(x86_64)[asm/c]:SYSCALL系统调用的编号(x86_64)一、基本说明1.  操作系统信息(ubuntu25.10):  Linux ubuntu 6.17.0-5-generic2.  系统调用编号文件的位置:  /usr/in…

公众号排版用什么好?一次技术视角的系统拆解:效率、兼容与智能协同

一、问题的起点:为什么“排版”成了内容生产的瓶颈? 在自媒体体系中,内容产出流程大致分为三步: 1️⃣ 内容构思与生成; 2️⃣ 视觉包装与排版; 3️⃣ 平台发布与分发。 在这三步中,排版环节的时间成本常常被低…

Linux系统下对拍

可以直接用C++的system函数执行对拍脚本 把造数据的mk.out文件和两个版本的代码文件放在一个文件夹下 void duipai() {//Linux系统下可执行文件后缀为.outwhile (true) {system("mk.out > data.in");syst…

json请求字符串格式化或使用转义字符

json请求字符串格式化或使用转义字符json请求字符串格式化或使用转义字符 测试接口: 通过String字符串类型来接收json字符串 @PostMapping("/wz/wzMqHandle") public void wzMqHandle(@RequestBody S…

Rokid Glasses语音交互特性分析和复刻“乐奇” 唤醒词的方案简述

前言 Rokid Glasses 作为头戴式智能设备的代表,其语音交互系统以 “自然、轻量、抗扰” 为核心设计理念,构建了适配头戴场景的完整交互方案,而 “乐奇” 唤醒词作为交互入口,是这一方案的关键载体。本文将先系统分…