【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割


文章:CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance

代码:https://coralsrt.hkustvgd.com/

单位:香港中文大学


一、问题背景:珊瑚的"任性生长"难倒AI

珊瑚的生长受基因、环境变化、生物竞争等多重因素影响,形状、纹理和分布极具随机性,没有固定的结构规律。相比鱼类等可通过局部特征推断整体的生物,珊瑚即使部分遮挡也无法预判完整形态,导致 segmentation 难度陡增。

现有方法存在明显短板:传统数据驱动模型依赖海量标注数据,耗费大量人力和专业知识;基于超像素的稀疏到密集转换方法难以捕捉高层语义;SAM等提示性分割模型常出现"漏标"或"误标"问题,无法适配珊瑚的无规则生长特性。这些问题严重限制了珊瑚礁监测的规模化应用。

二、方法创新:CoralSRT 用自监督校正破解痛点

研究团队提出的 CoralSRT(珊瑚自监督校正训练)方法,以"段"为核心构建分割逻辑,无需额外标注、不微调基础模型,就能实现高效语义分割。

其核心创新在于两点:一是建模段内亲和性,通过SAM 2等基础模型生成密集掩码,迫使同一段内的特征向中心值(均值或中位数)靠拢,强化珊瑚的自我相似性特征;二是借助基础模型的大规模预训练优势,通过特征聚类实现跨段亲和性建模,无需人工定义语义标签。

整个过程通过自监督校正模块 Rec(·) 完成特征优化,仅需利用基础模型已有的特征信息,就能降低珊瑚特征的随机性,让 label 传播更高效。该方法还具有任务和模型无关性,可灵活适配不同基础模型和应用场景。

三、实验结果:多项指标刷新性能上限

研究团队构建了包含264万张无标签图像的 CoralWorld 数据集,以及覆盖10个国家、1109张图像的多场景测试集,从多维度验证效果:

  1. 稀疏到密集转换:在100个标注点下,CoralSRT 结合 CoralSCOP 基础模型,mIoU 达到74.32%,远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%;

  2. 零样本分割:在 Mosaics UCSD 数据集上,50个标注点时 mIoU 达44.66%,优于 HIL、FeatUp 等专业算法;

  3. 语义分割对比:无需训练微调的 CoralSRT‡,在100个标注点下 mIoU 达75.29%,接近甚至超越 DeeplabV3、Mask2Former 等监督学习模型;

  4. 数据适应性:即使使用 COCO-Stuff 通用数据集优化,也能实现有效分割,证明其不依赖领域特定数据。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  • 零额外成本:无需人工标注、不微调基础模型,大幅降低数据收集和模型优化门槛;

  • 高灵活性:支持自定义标签集,适配不同区域的珊瑚研究需求,满足生态探索的本质目的;

  • 强泛化性:不仅适用于珊瑚礁,还能迁移到植物、细胞、生物污垢等无固定结构的分割场景;

  • 高效易实现:目标特征制备速度比同类方法 DVT 快109倍,核心代码修改量少。

现存局限

  • 无法自动生成独立珊瑚掩码,相比 CoralSRT、SAM 系列,在个体珊瑚区分上存在不足;

  • 特征校正效果依赖预训练数据的质量和覆盖度,极端场景下性能可能受影响;

  • 稀疏点选择仍会对结果产生一定影响,虽已优化但未完全消除。

五、一句话总结

CoralSRT 通过自监督特征校正,打破了珊瑚礁语义分割对海量标注和领域数据的依赖,为无固定结构目标的分割提供了高效解决方案,也为生态监测的规模化应用奠定了技术基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1180498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Altium Designer生成Gerber文件从零实现教程

从零搞定Altium Designer导出Gerber文件:工程师实战全指南你有没有遇到过这种情况?花了几周时间精心设计的PCB,布线完美、DRC无报错,信心满满地导出Gerber发给厂家——结果三天后收到回复:“阻焊层反了”、“内电层没连…

一键运行bert-base-chinese:智能客服文本分类实战教程

一键运行bert-base-chinese:智能客服文本分类实战教程 1. 引言 在当前的自然语言处理(NLP)领域,预训练语言模型已成为构建高效文本理解系统的基石。其中,BERT(Bidirectional Encoder Representations fro…

5分钟上手NewBie-image-Exp0.1:零基础玩转高质量动漫生成

5分钟上手NewBie-image-Exp0.1:零基础玩转高质量动漫生成 1. 引言:为什么选择 NewBie-image-Exp0.1? 在当前 AI 图像生成技术快速发展的背景下,高质量动漫图像的生成已成为内容创作、角色设计和艺术研究的重要方向。然而&#x…

零基础也能懂!用万物识别镜像轻松实现中文图像分类

零基础也能懂!用万物识别镜像轻松实现中文图像分类 1. 引言:为什么我们需要中文图像分类? 随着人工智能技术的不断演进,图像识别已从早期的固定类别分类(如猫、狗、汽车)发展到开放词汇识别(O…

Qwen3-Embedding-0.6B教育场景案例:多语言作业自动分类系统实战

Qwen3-Embedding-0.6B教育场景案例:多语言作业自动分类系统实战 1. 背景与挑战:教育场景中的多语言作业管理需求 随着全球化教育的发展,越来越多的在线学习平台需要处理来自不同国家和地区学生的多语言作业提交。这些作业不仅涵盖中文、英文…

Z-Image-Turbo与Flux对比:开源文生图模型性能全面评测

Z-Image-Turbo与Flux对比:开源文生图模型性能全面评测 1. 选型背景与评测目标 随着AI图像生成技术的快速发展,越来越多高质量的开源文生图模型涌现。其中,Z-Image-Turbo作为阿里巴巴通义实验室推出的高效蒸馏模型,凭借其极快的生…

万物识别模型版本升级:从旧版到PyTorch 2.5迁移指南

万物识别模型版本升级:从旧版到PyTorch 2.5迁移指南 1. 背景与升级动机 随着深度学习框架的持续演进,PyTorch 2.5在性能优化、编译器支持和推理效率方面带来了显著提升。万物识别-中文-通用领域模型作为阿里开源的图像识别项目,致力于提供高…

批量处理图片太慢?试试cv_resnet18_ocr-detection提速秘籍

批量处理图片太慢?试试cv_resnet18_ocr-detection提速秘籍 1. 引言:OCR批量处理的性能瓶颈 在实际业务场景中,OCR(光学字符识别)技术广泛应用于文档数字化、票据识别、证件信息提取等任务。然而,当面对成…

Open Interpreter艺术创作辅助:Qwen3-4B生成音乐代码部署教程

Open Interpreter艺术创作辅助:Qwen3-4B生成音乐代码部署教程 1. 引言 在AI与创意融合日益紧密的今天,如何让大语言模型(LLM)真正成为艺术家和开发者的“副驾驶”,是许多创作者关心的问题。Open Interpreter 作为一款…

FRCRN语音降噪-单麦-16k镜像应用|打造全自动离线字幕方案

FRCRN语音降噪-单麦-16k镜像应用|打造全自动离线字幕方案 1. 引言:构建端到端的离线双语字幕生成系统 在视频内容创作日益普及的今天,为视频添加高质量的双语字幕已成为提升传播力和可访问性的关键环节。然而,大多数现有方案依赖…

NotaGen音乐生成全解析|LLM驱动的古典符号化创作

NotaGen音乐生成全解析|LLM驱动的古典符号化创作 1. 引言:AI音乐生成的新范式 近年来,人工智能在艺术创作领域的应用不断深化,尤其是在音乐生成方向取得了突破性进展。传统的音乐生成模型多依赖于循环神经网络(RNN&a…

一键卡通化:DCT-Net WebUI的完整使用教程

一键卡通化:DCT-Net WebUI的完整使用教程 1. 引言 1.1 学习目标 本文将详细介绍如何使用基于 ModelScope 的 DCT-Net 模型构建的人像卡通化服务。通过本教程,您将掌握以下技能: 快速部署并启动 DCT-Net WebUI 服务使用图形化界面完成人像…

DeepSeek-R1-Distill-Qwen-1.5B代码补全:IDE插件开发指南

DeepSeek-R1-Distill-Qwen-1.5B代码补全:IDE插件开发指南 1. 引言 1.1 业务场景描述 在现代软件开发中,代码补全是提升开发者效率的核心功能之一。随着大模型技术的发展,传统的基于语法和模板的补全方式已逐渐被语义级智能补全所取代。Dee…

小白也能懂的通义千问2.5-7B-Instruct部署指南

小白也能懂的通义千问2.5-7B-Instruct部署指南 1. 引言 1.1 学习目标 本文旨在为初学者提供一份清晰、完整且可操作的 Qwen2.5-7B-Instruct 大型语言模型本地部署教程。通过本指南,您将能够: 快速理解 Qwen2.5 系列模型的核心特性在具备基础 GPU 环境…

看完就想试!Qwen3-4B-Instruct打造的商业文案效果展示

看完就想试!Qwen3-4B-Instruct打造的商业文案效果展示 1. 引言:为什么你需要一个“高智商”写作AI? 在内容为王的时代,高质量的商业文案已成为品牌传播、用户转化和市场推广的核心驱动力。然而,撰写一篇逻辑清晰、语…

BGE-M3性能优化:检索速度提升3倍技巧

BGE-M3性能优化:检索速度提升3倍技巧 1. 引言:BGE-M3模型的多模态检索优势与挑战 BGE-M3 是一个专为检索场景设计的三合一“多功能”文本嵌入(embedding)模型,其核心定位是密集稀疏多向量三模态混合检索嵌入模型。作…

5分钟上手AutoGen Studio:零代码搭建Qwen3-4B智能代理

5分钟上手AutoGen Studio:零代码搭建Qwen3-4B智能代理 1. 引言 1.1 业务场景描述 在当前快速发展的AI应用开发中,构建具备自主决策与协作能力的智能代理系统已成为提升自动化水平的关键。然而,传统多代理系统开发往往依赖大量编码工作&…

verl框架文档解读:安装验证全流程步骤详解

verl框架文档解读:安装验证全流程步骤详解 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习(RL)训练框架,专为大型语言模型(LLMs)的后训练设计。它由字节跳动火山引擎团队开源&#xff0c…

没有参考文本能行吗?GLM-TTS留空字段实测

没有参考文本能行吗?GLM-TTS留空字段实测 1. 引言:语音克隆中的参考文本作用与疑问 在当前主流的零样本语音克隆系统中,参考音频和参考文本通常被视为一对关键输入。其中,参考音频用于提取目标说话人的音色特征,而参…

W5500实现PLC联网控制:从零实现教程

用W5500让PLC“上网”:手把手教你打造工业级以太网通信系统当PLC遇上以太网:为什么我们不能再靠RS-485“单打独斗”?在一条自动化生产线上,你有没有遇到过这样的场景?操作员站在HMI屏前焦急等待数据刷新,而…