顶刊TPAMI!打破SAM交互限制!DC-SAM:基于循环一致性的图像分割框架

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:机器之心

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。

北京邮电大学联合南洋理工大学等机构发表的 IEEE TPAMI 期刊论文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》,不仅为图像和视频的上下文分割建立了统一的高效框架 DC-SAM,还构建了首个视频上下文分割基准 IC-VOS。

研究团队巧妙地提出基于提示微调的 “循环一致性” 机制,通过正负双分支与循环一致性注意力的协同,配合 Mask-Tube 策略,实现了 SAM 与 SAM2 在图像及视频上下文分割任务上的统一与高效适配。

实验结果显示,DC-SAM 在多个基准测试中均取得了 SOTA 性能:在 COCO-20i上达到 55.5 mIoU,在 Pascal-5i上达到 73.0 mIoU;在新建的 IC-VOS 视频基准上,J&F 得分高达 71.52,显著优于现有方法。该篇论文已被 IEEE TPAMI 录用。

  • 论文标题:DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

  • 论文链接:https://arxiv.org/pdf/2504.12080

  • 代码链接:https://github.com/zaplm/DC-SAM

研究背景

近年来,以 SAM 和 SAM2 为代表的视觉基础模型凭借海量训练数据,展现了卓越的交互式分割能力,已成为医学影像、开放词汇分割等下游任务的强大基石。然而,尽管 SAM 在 “分割一切” 上表现出色,却缺乏 “上下文分割”(In-Context Segmentation)的能力 —— 即无法仅凭一张参考示例(Support Image)及其掩码,自动在查询图像(Query Image)中分割出同类目标。

为了弥补这一短板,早期的少样本学习方法多依赖度量学习,但泛化能力有限。虽然 SegGPT 等通用模型通过大规模图文对训练实现了上下文分割,但其计算资源消耗巨大。相比之下,提示微调(Prompt Tuning)提供了一条高效路径。然而,现有的 SAM 适配方法(如 VRP-SAM)主要依赖骨干网络提取的通用特征,忽略了 SAM 自身提示编码器(Prompt Encoder)的特征特性,且往往未能充分利用背景(负样本)信息来约束分割边界,导致生成的提示精度不足。

此外,视频领域的上下文分割研究尚处于空白阶段。现有的视频分割基准(如 DAVIS、MOSE)主要侧重于给定首帧掩码的半监督跟踪任务,缺乏评估 “基于参考示例进行视频分割” 能力的专用基准。

针对上述挑战,研究团队推出了首个视频上下文分割基准 IC-VOS,并同步提出了 DC-SAM 框架。该框架旨在通过提示微调技术,将 SAM 与 SAM2 的能力无缝迁移至这一新任务,实现了统一高效的图像与视频上下文分割。

DC-SAM与现有方法的对比图。 a) 方法对比图,b) 预测可视化对比图,c)得分对比图。

IC-VOS:首个面向上下文视频分割的大规模基准数据集

在研究过程中,研究团队发现该领域缺乏一个专门用于评估 “上下文视频对象分割” 的统一基准。现有的 VOS 数据集大多侧重于第一帧掩码的追踪,而传统的 Few-shot 图像数据集则完全丢失了时间维度。

为了填补这一空白,研究团队推出了 IC-VOS (In-Context Video Object Segmentation) 数据集。这是首个旨在全面衡量模型在视频上下文中学习能力的数据集。IC-VOS 涵盖了极其丰富的场景,包括极小目标分割、快速运动变形以及复杂背景融合等。

IC-VOS 分割基准:a) 数据来源,b) 词云图,c) 类别分布,d) 示例样本。

DC-SAM 框架

DC-SAM 框架由三个核心部分组成:基于 SAM 的特征融合、正负双分支循环一致性提示生成,以及面向视频的 Mask-tube 训练策略。该框架旨在充分利用 SAM 的特征空间,通过显式的正负样本约束和循环校验,生成高精度的视觉提示。

DC-SAM方法概览图。

基于 SAM 的特征融合

现有的上下文分割方法通常仅依赖于预训练骨干网络(如 ResNet 或 DINOv2)提取特征,这导致生成的 Prompt 与 SAM 内部的特征空间存在 “语义鸿沟”。

为了弥补这一差距,研究团队提出了一种特征融合策略。在提取查询和支持图像的骨干特征()的同时,也提取 SAM Image Encoder 的特征 ()。随后,将骨干特征、SAM 特征以及通过参考掩码加权的特征进行拼接与融合:

其中,为参考掩码,为融合后的特征。这种设计确保了特征表示既包含通用的语义信息,又保留了 SAM 特有的视觉模式,为后续的提示生成提供了更适配 SAM 的输入。

基于 SAM 的多源特征融合方法图

正负双分支循环一致性提示生成

正负双分支循环一致性提示生成是 DC-SAM 的核心模块。为了解决单一前景提示带来的边界模糊问题,研究团队设计了正负双分支(Dual-Branch)结构:

  • 正分支利用参考掩码生成正样本提示,聚焦目标主体;

  • 负分支利用背景掩码 1-生成负样本提示,抑制背景噪声。

在每个分支内部,为了防止 “语义漂移”(即错误匹配非目标区域),研究团队引入了循环一致性交叉注意力(Cyclic Consistent Cross-Attention)。其核心思想是:只有当支持图像中的像素 j 与查询图像中的匹配像素 j* 满足语义类别一致时,才保留该注意力权重;否则,通过偏置项 B 将其屏蔽:

基于该偏置项,可以计算经过循环校验的注意力输出,确保生成的 Prompt 仅聚合高度可信的特征:

最终,正负分支生成的 Prompt 分别叠加 SAM 预训练的 Pos/Neg Embeddings,共同指导 Mask Decoder 生成精准掩码。

正负双分支循环一致性提示生成方法图

面向视频的 Mask-tube 训练策略及模型优化

得益于 SAM 与 SAM2 在 Prompt Encoder 上的架构一致性, DC-SAM 可以无缝迁移至视频领域。为了赋予模型处理时空动态的能力,研究团队设计了轻量级的 Mask-tube(掩码管道) 训练策略,通过数据增强将静态图像堆叠为伪视频序列,从而模拟连续帧之间的时序变化。

在优化阶段,无论是图像还是视频流的预测,均由二元交叉熵损失(BCE Loss)和相似度度量损失(Dice Loss) 共同约束。最终的总损失函数定义为两者的加权和,以平衡局部像素分类与整体区域重叠度的优化目标(超参数 λ 经验性地设置为 1):

性能评估与实验分析

核心结果方面,DC-SAM 在图像上下文分割基准 COCO-20i和 Pascal-5i上取得显著性能优势。与基础视觉模型对比,即使面对使用了海量图文对训练的通用模型 SegGPT(56.1 mIoU),基于 DINOv2 的 DC-SAM 依然在 COCO-20i上取得了 62.0 mIoU 的成绩,实现了近 6% 的性能反超,证明了所提出提示微调方法的泛化能力。与 基于 SAM 的方法对比,在同等骨干网络(ResNet50)下,DC-SAM 全面超越现有的 SAM 适配方法,即使对比最强的基准模型 VRP-SAM,也在COCO-20i超越了 1.6%,证明 SAM 特征融合方法以及 Prompt 生成的有效性。

在团队首创的视频基准 IC-VOS 上,DC-SAM 取得了 71.52 的 J&F 得分,以 6.4% 的显著优势超越了 VRP-SAM,并大幅领先 PerSAM。这不仅充分验证了 Mask-tube 策略的有效性,更证明了循环一致性约束能有效抑制视频传播过程中的语义漂移,实现稳健的目标锁定。

为了直观评估模型性能,研究团队对 Pascal-5i和 IC-VOS 上的分割结果进行了可视化分析。在图像任务中,DC-SAM 展现了对复杂结构和细粒度特征的强大捕捉能力。无论是 “瓶子” 的完整轮廓,还是 “鸟类” 的细微纹理,模型均能生成高精度的掩码;特别是在处理 “自行车” 和 “飞机” 等复杂物体时,DC-SAM 有效抑制了背景区域的误检(False Positives),边缘分割清晰锐利。

图像上下文分割效果对比图,黄色的叉表示明显错误。

在更具挑战的视频任务中,DC-SAM 的优势进一步凸显。以 “摩托车” 视频序列为例,基线模型 PFENet 出现了明显的语义漂移现象,不仅漏检了车轮,还错误地将骑手包含在分割目标内。相比之下,DC-SAM 能够精准区分干扰对象(如骑手)与目标主体,在连续帧中实现了稳健的语义锁定与追踪。

视频上下文分割效果对比图。

我们相信,DC-SAM 的提出为视觉大模型的落地应用,尤其是在需要高效、自动处理海量视频数据的工业与科研领域,提供了极具竞争力的解决方案。

作者简介

齐梦实,北京邮电大学计算机学院,教授、博导。博士毕业于北京航空航天大学,美国罗切斯特大学联合培养博士。曾工作于瑞士洛桑联邦理工学院CVLAB担任博士后研究员,百度研究院访问研究员等。入选2021年第七届中国科协青年人才托举工程(中国人工智能学会)、2024年小米青年学者、2025年ACM北京分会新星奖。主要研究方向为人工智能、计算机视觉和多媒体智能计算等。作为主要负责人承担国家自然科学基金(面上/青年)、北京市自然科学基金-小米创新联合基金、腾讯犀牛鸟课题、小米、阿里、微软合作项目等,并作为核心研发人员参与了国家自然科学基金重大/重点项目、科技部重点专项和港澳台科技专项等,发表国际高水平期刊会议论文50余篇,包括顶级学术会议CVPR/ICCV/ECCV/NeurIPS/ACM MM/AAAI和权威学术期刊TPAMI/TIP/TMM/TCSVT/TIFS等,担任顶级会议AAAI、IJCAI的领域主席和TMM的特邀编辑。

毕萧扬,北京邮电大学计算机学院,硕士研究生。主要研究方向为人工智能、计算机视觉和自动驾驶等。作为核心研究人员参与北京市自然科学基金-小米创新联合基金、腾讯犀牛鸟课题等重点科研项目。发表的国际高水平论文成果收录于权威学术期刊TPAMI和顶级学术会议UbiComp。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等

3D视觉硬件

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜)!星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1214376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亲测好用10个AI论文写作软件,继续教育学生轻松搞定论文!

亲测好用10个AI论文写作软件,继续教育学生轻松搞定论文! AI 工具如何成为论文写作的得力助手 在当前继续教育领域,论文写作已成为许多学生必须面对的挑战。随着 AI 技术的不断进步,越来越多的 AI 工具被应用于学术写作中&#xff…

AIGC智能体(本质、结构以及如何构建)

扫描下载文档详情页: https://www.didaidea.com/wenku/16377.html

数据中心整体架构图

扫描下载 文档详情页: https://www.didaidea.com/wenku/16378.html

用SGLang做任务规划?真实项目体验分享来了

用SGLang做任务规划?真实项目体验分享来了 1. 为什么选SGLang来做任务规划? 1.1 不是所有LLM框架都适合“真干活” 你有没有试过让大模型写个Python脚本,结果它生成的代码语法错误、变量名乱飞、还漏了缩进?或者让它规划一个自…

人工智能管理能力成熟度模型及评估方法

扫描下载文档详情页: https://www.didaidea.com/wenku/16379.html

是否该选择cv_unet_image-matting做AI抠图?开源模型优势与局限全面解析

是否该选择cv_unet_image-matting做AI抠图?开源模型优势与局限全面解析 1. 这不是又一个“点开即用”的抠图工具,而是一套真正能落地的AI图像分割方案 你可能已经试过不少在线抠图网站,上传图片、等几秒、下载结果——流程很顺,…

GPEN轻微优化设置建议:自然模式下参数搭配教程

GPEN轻微优化设置建议:自然模式下参数搭配教程 1. 为什么需要“自然模式”的精细调节? 很多人第一次用GPEN时,会直接点开「单图增强」,选个“自然”模式就开干——结果发现:图片好像没怎么变,或者变了但有…

PHP版CKEDITOR如何实现粘贴图片后自动生成URL链接?

企业网站内容编辑器Word/公众号粘贴功能集成方案 需求分析记录 作为四川某集团公司的项目负责人,近期在政府项目中遇到了内容编辑器的功能扩展需求。经过与客户和内部团队的多次沟通,明确了以下核心需求: 内容导入功能: Word粘贴…

开箱即用!CosyVoice2-0.5B镜像省去90%配置时间

开箱即用!CosyVoice2-0.5B镜像省去90%配置时间 你是否经历过这样的场景:花一整天折腾语音克隆环境,装CUDA、配PyTorch、拉模型权重、调依赖版本,最后发现显存不够、端口冲突、Gradio报错……而真正想做的——只是让一段3秒录音变…

国防项目CKEDITOR粘贴地图截图如何加密上传PHP?

企业网站后台管理系统富文本编辑功能扩展开发记录 一、需求确认与目标拆解 作为江苏某网络公司前端开发工程师,近期接到客户在企业网站后台管理系统文章发布模块的功能扩展需求: 核心功能: Word粘贴:支持从Word复制内容&#x…

南京展会设计新风向:2026年度热门公司排行,展览搭建/展台搭建/展台设计/展厅制作/展陈设计,展会设计公司推荐

随着南京作为长三角重要会展城市地位的日益巩固,本地展会设计行业正迎来新一轮的升级与洗牌。企业参展需求从单一的“视觉呈现”向“品牌叙事”、“沉浸体验”与“全球联动”深度转变。在这一背景下,能够提供一体化解…

R.I.P

致踏上征程的我R.I.PRequiescat in Pace 谨以此纪念那些我所热爱的,过去、现在和未来都所热爱的。 Return In Point 谨以此开启我的未来,我相信我终会有光明的未来。一去入苍天 苍天远比海更远本文来自博客园,作者:…

信创环境CKEDITOR图片上传PHP如何兼容国产数据库?

项目需求分析与技术方案 作为西安某高新技术企业项目负责人,针对企业网站后台管理系统新增的富文本编辑器增强功能需求,结合国产化信创环境、多浏览器兼容性、成本控制及长期维护需求,提出以下技术方案: 一、技术选型与架构设计 …

2026年上海外墙防水企业排名,这些靠谱的公司值得关注!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为有防水补漏、外墙防水需求的业主提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:上海大友建设集团有限公司 推荐指数:★★★★★ | 口碑…

CKEDITOR粘贴图片到PHP失败如何排查路径权限问题?

企业网站后台管理系统富文本编辑功能扩展开发记录 一、需求确认与目标拆解 作为江苏某网络公司前端开发工程师,近期接到客户在企业网站后台管理系统文章发布模块的功能扩展需求: 核心功能: Word粘贴:支持从Word复制内容&#x…

2026年有实力的品牌logo设计机构Top10,杭州逸兴品牌设计在列

2026年消费市场竞争进入视觉价值决胜阶段,品牌logo作为企业视觉资产的核心载体,已成为消费者认知品牌、建立信任的第一触点。无论是新消费品牌的logo差异化破圈、传统企业的logo焕新升级,还是大食品赛道的logo场景适…

2026年靠谱的股权激励公司排名揭晓,创锟咨询实力受认可

2026年企业管理升级浪潮下,股权激励已成为企业绑定核心人才、驱动战略落地、提升组织活力的核心工具。无论是拟上市企业的合规性激励设计、科技创新企业的技术人才留存方案,还是跨国企业的跨境激励架构搭建,优质咨询…

长沙代驾平台保障有哪些,三玖驾到代驾靠谱吗?

2026年城市出行需求持续多元化,代驾服务已从单一酒后代驾延伸至旅游代驾、商务代驾、车辆托管等场景,而代驾平台的保障体系、服务专业性、响应效率直接决定用户体验与安全底线。无论是用户关心的代驾平台保障有哪些旅…

说说廊坊有实力的短视频代运营品牌企业,究竟哪家好

随着短视频流量红利的持续释放,越来越多企业意识到短视频营销的重要性,但缺乏专业团队、运营经验不足等问题却让很多企业望而却步。本文围绕企业关心的短视频代运营问题展开解答,结合廊坊哇噻科技有限公司的实战经验…

聊聊长三角碳钢碳工低合金钢供应商,哪家性价比高?

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家碳钢碳工低合金钢领域的标杆企业,为制造、建筑、汽车等行业的企业选型提供客观依据,助力精准匹配适配的材料供应伙伴。 TOP1 推荐:上海津豹金属(集团)有限…