免训练开放词汇分割范式突破!将 SAM 3 零微调适配遥感图像分析领域,17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果,原文链接:SAM3+遥感https://mp.weixin.qq.com/s/2Dq2vhtPjdfGcGbgnvlDag

在之前谈到开放词汇分割方案时,必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类,但前者在精确定位方面常常面临挑战,后者则通常依赖于复杂的多阶段流程。

典型的如遥感图像分析领域,上述问题更为突出。如何在包含成千上万密集小型目标(如车辆、小型建筑)与广阔无定形背景(如农田、水域)的复杂场景中,实现精准的像素级识别?

更棘手的是,真实世界的遥感应用需要处理几乎无限的视觉概念,从突发的灾害损毁到新建的城市设施,模型必须能够理解从未见过的物体类别。

具备可提示概念分割的SAM3非常适配开放词汇分割任务,但直接应用预训练的SAM3模型进行特定任务的处理可行吗?在特定领域中应用SAM3到底需不需要微调呢?

今天给大家介绍的来自西交大的一篇工作,基于 SAM 3 的统一架构提供了一个比复杂的 CLIP 集成方法更强大且更简单的基础模型,用于遥感图像分析,且完全无需额外训练!项目代码已开源、论文链接如下。

# Paper SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images # 论文 https://arxiv.org/pdf/2512.08730 # 代码 https://github.com/earth-insights/SegEarth-OV-3

一、传统方法的双难困境

长期以来,遥感开放词汇语义分割领域被两大技术路线所主导,但它们各自存在明显缺陷:

CLIP 派系:基于CLIP的免训练方法(如MaskCLIP、SCLIP)虽然避免了训练成本,但由于CLIP本身是为图像级分类设计,将其直接用于像素级定位时,往往产生粗糙、模糊的边界。

SAM 辅助派系:RemoteSAM 和 InstructSAM 利用基于SAM的流程将分割与更广泛的解耦任务统一起来。然而,这些方法通常依赖于复杂的多阶段流程需要多个独立模型协同工作,或者需要针对遥感场景仍需专门训练。

二、SAM3:统一架构的降维打击

SAM3 的架构特性与遥感场景完美适配,而且能力都是原生内置的,无需额外的训练或复杂的集成。比如密集小目标、无定形背景、类别稀疏性以及开放词汇需求都是遥感分析面临的四大挑战。

SAM3 将分割、识别、存在性判断统一在一个简洁的框架中。其中三项技术与视觉无限概念的遥感图像场景天然适配。

  • 解耦的三头架构:语义头、实例头、存在性头各司其职;

  • 可提示的概念分割:用户可通过文本描述直接指导模型;

  • 内置前景判断:存在性头能自动判断目标是否存在于场景中;

三、SegEarth-OV3:无需训练的遥感分割

遥感图像中存在两种截然不同的区域:需要像素级语义连续性的无定形物体,以及需要实例级边界精确度的可计数事物。

利用 SAM3 的实例头专门处理可计数对象,保证边界精确,利用其语义头处理无定形区域,保持土地覆盖的完整性。

另外在遥感场景中,一个完整的土地覆盖词汇表可能包含上百个类别,但单个图像块通常只包含其中少数几个。这种高类别稀疏性导致大量不必要的计算和误报。

SAM3 的存在性头提供了完美的解决方案:它能够快速判断某个概念是否存在于当前场景中,从而在早期就过滤掉大量无关类别,将计算资源集中在真正相关的识别任务上。

SegEarth-OV3 的有效性在17个遥感数据集和三个通用场景基准上进行了评估,展示了在多类语义分割和单类提取任务中的最先进性能:

  • 零训练成本:完全使用原始 SAM3 权重,无需任何微调;

  • 边界精度提升:相比 CLIP 基线上边界清晰度提升30%以上;

  • 处理效率优化:存在性过滤减少40%不必要的计算;

  • 通用性强:不仅在遥感场景有效,在自然图像分割基准上也表现优异;

SAM3 的解耦架构本身就能胜任遥感开放词汇分割,复杂流程和领域训练可能不再是必选项

文末有其他几篇遥感领域大模型的文章介绍,小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1020416.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React Native鸿蒙开发实战(一):环境搭建与第一个应用 - 青青子衿-

React Native鸿蒙开发实战(一):环境搭建与第一个应用 一、开发环境准备 在开始React Native鸿蒙开发之前,需要先配置好基础开发环境。以下是必需的软件和工具: 1.1 核心工具安装 Node.js:推荐使用Node.js 18+ LTS版…

【紧急预警】医疗信息系统即将强制升级?PHP开发者必知的6项新合规要求

第一章:医疗信息系统合规升级的紧迫性在数字化转型加速的背景下,医疗信息系统(HIS)正面临前所未有的合规挑战。随着《个人信息保护法》《数据安全法》及《医疗卫生机构网络安全管理办法》等法规的相继实施,医疗机构必须…

CBAM不是合规问题,是企业未来三年“还能不能接欧盟订单”的问题

一、为什么我说:CBAM已经不是“要不要做”的问题了这两年,很多工厂老板对 CBAM 的态度,基本分三类:• 第一类:听说过,但没时间细看• 第二类:知道重要,但觉得还没到时候• 第三类&am…

泛型实例化陷阱频发?资深架构师总结的6大避坑法则

第一章:泛型的实例化泛型的实例化是编程语言中实现类型安全与代码复用的关键机制。通过泛型,开发者可以在不指定具体类型的前提下编写函数、类或接口,并在使用时传入实际类型参数,从而生成特定类型的实例。这种延迟类型绑定的设计…

揭秘Rust与PHP扩展兼容性难题:5个关键步骤实现无缝版本对接

第一章:Rust与PHP扩展兼容性概述Rust 作为一种系统级编程语言,以其内存安全和并发性能优势,正逐步被用于构建高性能的 PHP 扩展。通过将计算密集型任务交由 Rust 实现,开发者可以在不牺牲 PHP 快速开发特性的前提下,显…

Keithley 6517B 静电计在太空实验中的应用

太空环境极其复杂,充满各种高能粒子、电磁辐射和等离子体。准确测量和研究这些因素对于深入理解空间环境、保障航天器安全以及开展空间科学研究至关重要。Keithley 6517B 静电计以其卓越的性能,被广泛应用于各类太空实验中,为科学家们提供了可…

延迟渲染中的阴影难题,如何在复杂场景下保持144FPS不掉帧?

第一章:延迟渲染中的阴影难题,如何在复杂场景下保持144FPS不掉帧?在高帧率游戏和实时渲染应用中,延迟渲染(Deferred Rendering)因其高效的光照处理能力被广泛采用。然而,当引入动态阴影时&#…

第16篇:CreamFL《Multimodal Federated Learning via Contrastive Representation Ensemble》多模态联邦学习

第一部分:收录基本信息 - 论文标题:MULTIMODAL FEDERATED LEARNING VIA CONTRASTIVE REPRESENTATION ENSEMBLE(基于对比表征集成的多模态联邦学习) - 收录会议:ICLR 2023(国际表征学习会议,顶会) - 发布版本:arXiv:2302.08888v3 [cs.LG],2023年5月6日 - 作者及单…

【Laravel 13重大更新揭秘】:多模态数据校验如何重构你的验证逻辑?

第一章:Laravel 13 多模态数据校验概述随着现代 Web 应用对数据输入来源的多样化,单一类型的数据验证已无法满足复杂业务场景的需求。Laravel 13 引入了多模态数据校验机制,支持同时处理表单数据、JSON 载荷、文件上传及查询参数的联合校验&a…

Ollama本地缓存机制对PyTorch模型加载速度的影响

Ollama本地缓存机制对PyTorch模型加载速度的影响 在现代AI开发中,一个看似不起眼的环节——模型加载时间,往往成为拖慢整个迭代流程的关键瓶颈。尤其是在本地调试或边缘部署场景下,每次启动都要花几分钟从远程拉取数GB的大模型,这…

Laravel 13多模态事件监听实战:如何实现高响应性应用架构?

第一章:Laravel 13多模态事件监听概述Laravel 13 引入了对多模态事件监听的增强支持,允许开发者在单一事件触发时,响应多种类型的动作或通知形式,如邮件、短信、WebSocket 推送和日志记录等。这一机制提升了系统的解耦程度与扩展能…

pwnable.kr记录

fd linux fd是一个非负索引值,是文件描述符,打开一个文件时候内核给进程一个文件描述符。后续read write时候只需要提供这个fd。 fd为0是标准输入STDIN_FILENO,1是标准输出STDOIT_FILENO,2是标准错误STDERR_FILENO …

zookeeper基础概念及集群部署

目录 前言: 一.Zookeeper 概述 二.Zookeeper 工作机制 三.Zookeeper 特点 四.Zookeeper 数据结构 五.Zookeeper 应用场景 六.zookeeper选举机制 1.第一次启动选举机制 2.非第一次启动选举机制 七.部署 Zookeeper 集群 1.部署环境ZK 2.安装前准备 3.安装…

GraphQL类型复用陷阱频发?3年踩坑总结出的5条黄金规则

第一章:GraphQL类型复用陷阱频发?3年踩坑总结出的5条黄金规则在构建大型 GraphQL 服务时,类型复用是提升开发效率的关键手段。然而,不当的复用策略常导致 schema 膨胀、耦合度上升和维护成本激增。经过三年在高复杂度项目中的实践…

Qwen3-14B与Codex在代码生成任务上的对比分析

Qwen3-14B与Codex在代码生成任务上的对比分析 在现代软件开发节奏日益加快的背景下,AI驱动的代码生成技术正从“辅助工具”演变为“生产力核心”。无论是初创团队快速搭建原型,还是大型企业重构遗留系统,开发者都希望借助大模型提升编码效率、…

QDK API文档精读实战:快速定位接口问题的黄金法则

第一章:QDK API文档精读实战:快速定位接口问题的黄金法则在量子开发工具包(QDK)的使用过程中,API文档是开发者最直接的技术依据。面对复杂接口调用失败或返回异常的情况,掌握高效阅读和分析API文档的方法至…

Dify部署实战:用Qwen3-8B构建企业级对话机器人

Dify部署实战:用Qwen3-8B构建企业级对话机器人 在智能客服、内部知识助手和自动化办公日益普及的今天,越来越多企业希望拥有一个既懂业务又能“说人话”的AI对话系统。然而,现实往往令人却步:一边是调用大厂API带来的高昂成本与数…

【Q#编程入门指南】:掌握量子计算的5个核心示例与实战技巧

第一章:Q#编程环境搭建与量子计算初探Q# 是微软为量子计算开发推出的专用编程语言,集成于 Quantum Development Kit(QDK)中,支持在经典宿主程序中调用量子操作。搭建 Q# 开发环境是进入量子编程世界的第一步。安装 Qua…

掌握这4种初始化模式,轻松玩转R量子计算模拟包

第一章:掌握R量子计算模拟包的qubit初始化核心概念在R语言的量子计算模拟环境中,正确理解与实现量子比特(qubit)的初始化是构建任何量子算法的基础。qubit作为量子信息的基本单元,其状态可表示为|0⟩和|1⟩的线性叠加。…

农业IoT系统总是掉线?,PHP设备心跳机制设计全解析

第一章:农业IoT系统总是掉线?PHP设备心跳机制设计全解析在农业物联网(IoT)系统中,传感器设备常部署于偏远农田或温室环境,网络稳定性差、供电波动大,导致设备频繁掉线。若缺乏有效的在线状态监控…