【视觉基础模型-SAM系列-2】SAM2: Segment Anything in Images and Videos

论文链接:SAM 2: Segment Anything in Images and Videos

代码链接:https://github.com/facebookresearch/sam2?tab=readme-ov-file

作者:Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

发表单位:Meta AI Research, FAIR

会议/期刊:Arxiv 2024年10月

相关系列:

【视觉基础模型-SAM系列-1】Segment Anything-CSDN博客文章浏览阅读335次,点赞6次,收藏13次。自然语言处理(NLP)领域的基础模型(如GPT、BERT)通过海量文本训练和prompt方式,展现出强大的零样本、少样本泛化能力。相比之下,计算机视觉领域中的基础模型发展相对滞后,尤其在图像分割任务中,尚缺乏类似“预训练+提示”的通用方法。 https://blog.csdn.net/cjy_colorful0806/article/details/147764385?fromshare=blogdetail&sharetype=blogdetail&sharerId=147764385&sharerefer=PC&sharesource=cjy_colorful0806&sharefrom=from_link

【视觉基础模型-SAM系列-3】Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks-CSDN博客文章浏览阅读4次。ICCV 2023【视觉基础模型-SAM系列-1】Segment Anything-CSDN博客自然语言处理(NLP)领域的基础模型(如GPT、BERT)通过海量文本训练和prompt方式,展现出强大的零样本、少样本泛化能力。相比之下,计算机视觉领域中的基础模型发展相对滞后,尤其在图像分割任务中,尚缺乏类似“预训练+提示”的通用方法。【视觉基础模型-SAM系列-2】SAM2: Segment Anything in Images and Videos-CSDN博客。 https://blog.csdn.net/cjy_colorful0806/article/details/147774458?fromshare=blogdetail&sharetype=blogdetail&sharerId=147774458&sharerefer=PC&sharesource=cjy_colorful0806&sharefrom=from_link

一、研究背景

尽管前作SAM在图像分割任务上有了很好的效果,但是仍然无法处理现实世界中大量存在的视频数据。视频分割面临比图像更复杂的问题,比如目标可能因运动、遮挡、形变、光照等不断变化;视频分辨率低、帧数多,处理成本高;需要跨时间建模,单帧分割能力不足。

任务定义:Promptable Visual Segmentation,即在任意帧通过点、框、mask等提示进行目标分割,并可跨帧传播(形成“masklet”);

模型设计:引入流式记忆机制的 transformer 架构,支持跨帧记忆与交互;

数据引擎:构建全球最大的开放视频分割数据集 SA-V,包括 50.9K 视频与 35.5M mask。

因此,作者提出新的目标:构建一个支持图像与视频统一提示分割任务的视觉基础模型,即 SAM2。

和SAM一样的定义风格

二、整体框架

SAM2 的核心由三部分构成:

  1. 任务定义:Promptable Visual Segmentation(PVS),即在任意帧通过点、框、mask等提示进行目标分割,并可跨帧传播(形成“masklet”);

  2. 模型设计:引入流式记忆机制的 transformer 架构,支持跨帧记忆与交互;

  3. 数据支撑:构建全球最大的开放视频分割数据集 SA-V,包括 50.9K 视频与 35.5M mask。

三、核心方法

3.1 模型结构

Promptable Visual Segmentation:扩展 SAM 在图像上的点击/框提示分割到视频中,模型可以在任意帧接收提示(点/框/mask);接着自动生成该目标在全视频中的掩码序列(称为 masklet);用户可随时补充提示以修正掩码,实现“多轮交互式视频分割”。

SAM2模型框架

图像编码器:采用MAE预训练的Hiera模型(Meta同期工作,SAM用的是普通的ViT),采用FPN多尺度提取高分辨率特征(stride 4、8、16、32);流式处理视频帧,每帧仅需前向一次。

Mask Decoder:双向 Transformer 解码器堆叠组成,对于每一帧,解码器输入当前帧特征 + 历史记忆 + 当前提示;输出多个掩码与其 IoU 分数(支持提示歧义);引入可见性预测头,支持“当前帧是否包含目标”的输出。

记忆机制:记忆编码器融合当前帧图像特征与掩码预测,构造记忆;Memory Bank,保存 N 帧最近记忆 + M 帧提示记忆(FIFO 队列);存储空间特征与目标语义向量(object pointer);采用位置嵌入,建模短期时间运动信息。Memory Attention,当前帧自注意力 + 与记忆帧做交叉注意力,采用FlashAttention 2。

提示编码器:完全继承SAM的工作。支持点、框、掩码;稀疏提示通过位置编码+类型嵌入;掩码提示通过卷积编码后加到图像特征上。

3.2 数据集构造

SAM2 使用 “Model-in-the-loop” 数据引擎创建了新的 SA-V 数据集,流程分三阶段:

阶段1:SAM逐帧辅助

使用原始 SAM 对每帧单独分割;帧率 6FPS,使用画笔/橡皮(PS)精修;每帧需 37.8s,收集 16K masklets。

阶段2:SAM + SAM2 Mask

SAM2(仅接受 mask)进行掩码传播;可反复修改并重新传播;速度提升至 7.4s/frame,5.1×提速。

阶段3:SAM2 完整交互

使用具有记忆与点交互能力的 SAM2;仅需偶尔点击修正;提速至 4.5s/frame,8.4×提速;共采集 197K masklets。

最终构建 SA-V 数据集:共计 50.9K 视频,642.6K masklets(含自动掩码)比已有最大 VOS 数据集多 53× mask 数量;覆盖完整目标与细粒度部件;覆盖不同场景、目标大小、遮挡变化等挑战。

四、总结

SAM2不输出全图所有 instance(如 Mask R-CNN 那样),但可以通过点击/框选择“某个目标”,只分割这个实例,并跨帧追踪。

给出舌头的掩码,其中绿点是正面,红点是负面提示;自动传播到后续帧(即只跟踪这一实例);支持点击纠正(如错过了某一帧的舌头)。

SAM2 用的是一种transformer + memory bank 的记忆机制:

每帧提取 image feature;用户点击提示指明要追踪哪个目标;模型构建一个“object token”(即目标语义表示);后续帧通过注意力在记忆帧与当前帧之间交互 → 输出掩码;若目标不在,模型能预测其“可见性为0”;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/79802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenShift AI - 模型注册管理

《OpenShift / RHEL / DevSecOps 汇总目录》 说明:本文已经在 OpenShift 4.18 OpenShift AI 2.19 的环境中验证 文章目录 启用模型注册管理功能安装管理数据库启用模型注册功能 注册模型部署模型归档模型归档模型和模型版本恢复归档模型 模型注册表访问权限管理参考…

【背包dp----01背包】例题三------(标准的01背包+变种01背包1【恰好装满背包体积 产生的 最大价值】)

【模板】01背包 题目链接 题目描述 : 输入描述: 输出描述: 示例1 输入 3 5 2 10 4 5 1 4输出 14 9说明 装第一个和第三个物品时总价值最大,但是装第二个和第三个物品可以使得背包恰好装满且总价值最大。 示例2 输入 3 8 12 6 11 8 6 8输出 8 0说明 装第三个物…

Node.js 的 child_process 模块详解

Node.js 的 child_process 模块提供了创建子进程的能力,使 Node.js 应用能够执行系统命令、运行其他程序或脚本。这个模块非常强大,可以帮助我们实现很多复杂的功能。 1. exec - 执行 shell 命令 exec 方法用于执行 shell 命令,并缓冲任何产生的输出。 特点 创建 shell 来…

进程与线程详细介绍

目录 一 进程概念 二 进程的组成 2.1 PCB 2.2 数据段 2.3 程序段 三 进程的五大特点 四 进程的创建与销毁 五 线程概念 六 线程特征 七 进程与线程的区别与联系 区别 联系 一 进程概念 进程是程序的一次执行过程,是操作系统进行资源分配和调度的基本单位…

如何在服务器后台运行Python脚本,并配置虚拟环境与GPU支持

使用Conda虚拟环境在服务器后台运行Python脚本,并检查GPU分配 在服务器开发环境中,我们需要确保Python脚本运行在指定的Conda虚拟环境中,并且确认是否正确分配了GPU资源。本文将通过一个完整的start.sh脚本,完成以下功能&#xff…

前端取经路——工程化渡劫:八戒的构建之道

大家好,我是老十三,一名前端开发工程师。前端工程化就像八戒的钉耙,看似简单却能降妖除魔。在本文中,我将带你探索前端工程化的九大难题,从模块化组织到CI/CD流程,从代码规范到自动化测试,揭示这些工具背后的核心原理。无论你是初学者还是资深工程师,这些构建之道都能帮…

Ubuntu 安装 Keepalived

Keepalived 是什么 Keepalived 是一个用于实现高可用性(High Availability, HA)的服务,是一款基于 VRRP 协议的高可用软件,常用于主备切换和虚拟IP漂移,在服务故障时自动实现故障转移。 Keepalived 的核心功能 功能说…

DHCP理解

文章目录 DHCP理解DHCP的核心作用DHCP默认端口DHCP的工作原理(4个步骤)图示说明(含中继代理)DHCP Discover(客户端发现阶段)DHCP Offer(服务器提供阶段)DHCP Request(客户…

云计算-容器云-部署CICD-jenkins连接gitlab

安装 Jenkins 将Jenkins部署到default命名空间下。要求完成离线插件的安装,设置Jenkins的登录信息和授权策略。 上传BlueOcean.tar.gz包 [root@k8s-master-node1 ~]#tar -zxvf BlueOcean.tar.gz [root@k8s-master-node1 ~]#cd BlueOcean/images/ vim /etc/docker/daemon.json…

AI 大模型新浪潮:从 DeepSeek-Prover 到 Qwen3,再到 DeepSeek-R2,迈向自动推理的新时代20250507

🧠 AI 大模型新浪潮:从 DeepSeek-Prover 到 Qwen3,再到 DeepSeek-R2,迈向自动推理的新时代 🚀 引言:大模型,不止是语言处理器,而是思维建构者 在 2025 年春天,我们见证了…

观察者模式(Observer Pattern)详解

文章目录 1. 什么是观察者模式?2. 为什么需要观察者模式?3. 观察者模式的核心概念4. 观察者模式的结构5. 观察者模式的基本实现简单的气象站示例6. 观察者模式的进阶实现推模型 vs 拉模型6.1 推模型(Push Model)6.2 拉模型(Pull Model)7. 观察者模式的复杂实现7.1 在线商…

前端代码规范详细配置

以下是现代前端项目的完整代码规范配置方案,涵盖主流技术栈和自动化工具链配置: 一、基础工程配置 1. 项目结构规范 project/ ├── src/ │ ├── assets/ # 静态资源 │ ├── components/ # 通用组件 │ ├── layouts/ …

Missashe考研日记-day34

Missashe考研日记-day34 1 专业课408 学习时间:3h学习内容: 今天是学习I/O管理第二小节的内容,听了课也做了题,这是操作系统倒数第二节知识了,还差最后一节就完结了。知识点回顾: 1.I/O核心子系统&#x…

Milvus 向量数据库详解与实践指南

一、Milvus 核心介绍 1. 什么是 Milvus? Milvus 是一款开源、高性能、可扩展的向量数据库,专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索(ANN),适用于图像检索、自然语言处理(NLP&am…

算力经济模型研究:从云计算定价到去中心化算力市场设计

引言:算力商品化的双重革命 在H800 GPU集群的算力供给能力突破2.3 EFLOPS的今天,算力定价机制正经历从"资源租赁"到"动态市场"的范式转变。传统云计算定价模型(如AWS按需实例)的静态价格机制已难以适应大模型…

[D1,2] 贪心刷题

文章目录 摆动序列最大子数组合买卖股票跳跃游戏跳跃2 摆动序列 不像是贪心,只要抓住摆动这个点,前一个上升,那下一个就要下降,记录上一次的状态为1的话,那下一次就要更新为-1,如果上一次为1,这…

Spring Boot操作MongoDB的完整示例大全

以下是基于Spring Boot操作MongoDB的完整示例大全&#xff0c;涵盖增删改查、聚合查询、索引、事务等核心功能&#xff1a; 一、基础CRUD操作 1. 环境配置 依赖配置&#xff08;pom.xml&#xff09; <dependency><groupId>org.springframework.boot</groupId…

【实战教程】零基础搭建DeepSeek大模型聊天系统 - Spring Boot+React完整开发指南

&#x1f525; 本文详细讲解如何从零搭建一个完整的DeepSeek AI对话系统&#xff0c;包括Spring Boot后端和React前端&#xff0c;适合AI开发入门者快速上手。即使你是编程萌新&#xff0c;也能轻松搭建自己的AI助手&#xff01; &#x1f4da;博主匠心之作&#xff0c;强推专栏…

Linux系统基本指令和知识指南

一、Linux系统简介 Linux是一种自由和开放源代码的类UNIX操作系统&#xff0c;由林纳斯托瓦兹在1991年首次发布。它以稳定性、安全性和灵活性著称&#xff0c;广泛应用于服务器、嵌入式系统和个人计算机。 Linux主要特点&#xff1a; 开源免费 多用户、多任务 良好的安全性…

【计算机视觉】OpenCV实战项目:Long-Exposure:基于深度学习的长时间曝光合成技术

Long-Exposure&#xff1a;基于深度学习的长时间曝光合成技术 项目概述与技术背景项目核心功能技术原理 环境配置与安装硬件要求建议详细安装步骤可选组件安装 实战应用指南1. 基础使用&#xff1a;视频转长曝光2. 高级模式&#xff1a;自定义光轨合成3. 批量处理模式 技术实现…