ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

news/2025/11/14 16:02:09/文章来源:https://www.cnblogs.com/lab4ai/p/19222421

Part one :论文概述

论文标题: SAM3: Segment Anything with Concepts

作者团队: Anonymous authors

发布时间: ICLR2026

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3在图像和视频PCS任务上实现了2倍的性能提升,同时在交互式视觉分割任务中也改进了前代SAM的能力

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念,但SAM1和SAM2主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄: 仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;

  • 提示类型受限: SAM1、SAM2以视觉提示为主,对文本概念的泛化能力不足;

  • 开放性不足: 难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。为解决上述问题,SAM3扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

03 可提示概念分割(PCS)

PCS任务的核心目标是:给定一张图像或时长≤30秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。 该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小vs大)且边界模糊(有百叶窗vs无百叶窗)。

SAM3研究团队通过三大方式缓解: 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注,允许“多有效解释” ;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释

04 架构设计

SAM3基于SAM2与DETR架构扩展,SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计,核心创新是“解耦识别与定位”,解决传统DETR中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构,核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程,确保视频帧间实例ID的一致性与掩码精度。

简单来说就是,SAM3能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题,研究团队构建了四阶段数据引擎,通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加AI模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段1:人类验证。 该阶段的目标是建立“人工标注基准”,为后续AI标注器训练提供高质量数据。
  • 阶段2:人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2,得到两个AI验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段3:扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”,使用AI模型挖掘日益挑战性的案例,将领域覆盖扩展到15个数据集,通过从可用alt-text中提取NP扩展概念覆盖。
  • 阶段4:视频标注。 该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集,以及包含3800万个短语和14亿个掩码的合成数据集。

06 实验设计与结果分析

应用研究团队在图像/视频PCS、少样本迁移、目标计数、复杂查询分割等任务上验证SAM3性能,详细结果可见论文原文。

Part Two: 论文原文阅读

您可以跳转到Lab4AI平台上去阅读论文原文。

👉Lab4AI大模型实验室论文阅读

目前,SAM3论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800算力作为奖励。

Lab4AI大模型实验室已经提供🔥SAM2论文的一键复现🔥,您无需准备代码、模型、数据、环境,即可一键快速体验:👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/965488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql连接数查看常用sql语句;

SHOW VARIABLES LIKE max_connections; SHOW STATUS LIKE Threads_connected; SHOW STATUS LIKE Max_used_connections; SHOW VARIABLES LIKE wait_timeout;SHOW VARIABLES LIKE interactive_timeout

2025 年升降机械厂家最新推荐榜:液压升降机械,解析供货厂家服务质量与产品性能

在现代物流与工业生产体系中,升降机械作为核心设备,其性能与安全直接影响运营效率与人员安全。当前市场品牌繁杂,劣质设备引发的故障与安全隐患频发,定制响应滞后、售后缺位等问题凸显。为精准筛选优质品牌,本次榜…

pandas strftime 时间错误问题

# 1. 假设原始时间戳是 UTC 时间,转换时显式指定 utc=True fee_field_df[日期] = pd.to_datetime(fee_field_df[日期], unit=ms, utc=True)# 2. 转换为目标时区(如东八区 Asia/Shanghai) fee_field_df[日期] = fee_…

2025年哈尔滨私立高中机构权威推荐榜单:好的私立高中/一对一辅导/河北名师源头机构精选

在哈尔滨教育多元发展的背景下,私立高中凭借其特色教学与精细化管理,已成为众多家庭的重要选择。 据公开数据梳理,2025年哈尔滨中考中等生在志愿选择上呈现多元态势,部分私立高中凭借稳定师资与特色课程保持竞争力…

CF2161

CF2161B Make Connected 赛时看错题了。是只能出现连续两个,又是出现连续三个感觉很不可做啊。 最后的结论是,这个 # 的点要么形成 2 乘 2 的正方形,要么形成一个 L 形。 这种斜着的往往跟 \(x - y\),\(x + y\) 什…

[题解]P11294 [NOISG 2022 Qualification] Tree Cutting

P11294 [NOISG 2022 Qualification] Tree Cutting 删除一条边,会产生两棵树,此时最优就是将两树的直径端点连起来,答案为两树直径之和再\({}+1\)。 因此考虑枚举删除的边 \((u,v)\),不妨令 \(u\) 为父节点。我们需…

2025-11-14 ZYZ28-NOIP模拟赛-Round6 hetao1733837的record

2025-11-14 ZYZ28-NOIP模拟赛-Round6 hetao1733837的record2025-11-14 ZYZ28-NOIP模拟赛-Round6 hetao1733837的record 比赛链接:ZYZ28-NOIP模拟赛-Round6 比赛背景:无 A.teleport 提交链接:teleport 题面 给定一个…

uniapp开发H5避坑指南

1、H5怎么禁用页面整体拖动的弹性效果(bounce效果)?解决:在页面根元素上添加@touchmove.prevent 2、H5怎么获取地理位置经纬度?方案1:使用HTML5原生APInavigator.geolocation.getCurrentPosition(successCallbac…

【连续3届IEEE出版 | 往届均已完成EI检索】第六届智能电网与能源工程国际学术会议(SGEE 2025)

【连续3届IEEE出版 | 往届均已完成EI检索 | 上海海事大学主办-IEEE Fellow 等大咖主讲报告】第六届智能电网与能源工程国际学术会议(SGEE 2025)第六届智能电网与能源工程国际学术会议(SGEE 2025) 2025年11月28-30日…

nginx做tcp代理时的超时时间参数设置和解释

如果你是在配置HTTP代理,可能会更常用到proxy_read_timeout和proxy_send_timeout。而proxy_timeout在TCP/UDP代理中更常见。 总结proxy_connect_timeout:控制连接建立阶段的超时;proxy_timeout:主要用于stream模块…

【往届会后三个月完成EI检索 | IEEE出版】第二届智能机器人与自动控制国际学术会议(IRAC 2025)

【往届会后三个月完成EI检索 | IEEE出版】第二届智能机器人与自动控制国际学术会议(IRAC 2025)第二届智能机器人与自动控制国际学术会议(IRAC 2025) 2025年11月28-30日,中国-湖南省-湘西土家苗族自治州吉首市 截稿…

精准把控VBAT,轻松规避电源设计99%陷阱

电源设计是一个细致而复杂的过程,其中VBAT的精准把控尤为关键。若处理不当,极易陷入各种陷阱。本文将指导您如何精准把控VBAT,从而轻松规避电源设计中高达99%的常见陷阱,让您的设计更加出色。 在物联网开发中,稳定…

RAID(磁盘阵列)技术介绍

RAID(磁盘阵列)技术介绍介绍RAID 使用的技术、类型、重建方式RAID(磁盘阵列)关键技术数据分条技术:把数据分块,分散存放到多个磁盘上,提高读写并行度数据镜像技术:把同一份数据写到多个磁盘,某个盘坏了还能用…

2025年金属保温装饰板最新标杆企业推荐:铝板保温装饰一体板/外墙保温装饰板/金属保温装饰板/浙江欣阳嘉茂控股集团有限公司

随着建筑节能标准持续提升、绿色建筑政策深入推进,以及城市更新与既有建筑外立面改造需求快速增长,保温装饰一体板作为兼具节能、美观与安全性能的新型外墙材料,正加速成为建筑围护系统的重要选择。然而,当前市场产…

Sora2、Nano Banana AI批量生图视频实战,API低价调用和免费批量生成教程

经过这几年Ai模型迭代升级,越来越多好用的模型出现,让电商人和自媒体的人的工作方便多了许多。以前找个美工折腾半天的产品图、文案配图,现在输入几句话就能生成,质量和速度都远超预期。不过实际用起来就会发现,A…

7 款最佳自托管 AI 工具,快速构建业务应用

7 款值得关注的自托管 AI 工具,助你在安全可控的环境中快速搭建具备智能能力的业务系统。原文链接:https://www.nocobase.com/cn/blog/7-self-hosted-ai-tools-build-business-app 过去一年,我们一直在持续关注自托…

2025年果胶裂解酶批发厂家权威推荐榜单:果胶甲酯酶/果胶酶纤维素酶/果胶酶源头厂家精选

在生物制造与食品工业绿色转型的浪潮下,酶制剂作为高效的生物催化剂,其市场需求持续增长。据行业报告显示,全球工业酶制剂市场规模预计将在2025年达到新高度,其中果胶酶类产品因在果汁澄清、植物提取等领域的广泛应…

carl部分书单

carl部分书单货币战争 伟大的博弈 贸易打造的世界 经济学的思维方式 carl 可能的mbti istj or infj

高精度机器人控制的核心——基于 MYD-LT536 开发板的精密运动控制方案

一、背景:机器人迈向“微米级控制时代”随着智能制造和自动化产业的持续升级,工业机器人不再仅仅承担重复搬运,而是被要求在装配、检测、精密加工等高精度场景中完成微米级控制任务。在这些“高精度机器人控制”应用…

鸿蒙应用开发实战:集成农历功能

如何在HarmonyOS应用中实现精准的农历日期计算与显示引言 在现代生活中,农历日期对于许多传统节日、生日纪念具有重要意义。然而,在移动应用开发中,农历功能的集成往往面临算法复杂、数据处理困难等挑战。本文将分享…