跨数据与任务的可扩展图像分割技术

news/2025/10/13 11:04:30/文章来源:https://www.cnblogs.com/codeshare1135/p/19137995

跨数据与任务的可扩展图像分割

在2025年计算机视觉与模式识别会议(CVPR)上提出的一篇论文中,我们介绍了一种新的图像分割方法,该方法能够跨不同数据集和任务进行扩展。传统分割模型虽然在孤立任务上有效,但随着新任务或陌生场景数量的增加,往往表现不佳。我们提出的方法使用称为混合查询变换器(MQ-former)的模型,旨在实现跨多个任务和数据集的联合训练和评估。

可扩展分割

图像分割是一种计算机视觉任务,涉及将图像划分为不同的区域或片段。每个片段对应于场景中的不同对象或部分。存在多种类型的分割任务,包括前景/背景分割(区分不同距离的对象)、语义分割(将每个像素标记为属于特定对象类别)和实例分割(识别每个像素属于对象类别的特定实例)。

“可扩展性”意味着分割模型能够随着训练数据集大小的增加、执行任务的多样性或两者的增加而有效改进。大多数先前的研究都集中在其中一个方面——数据或任务多样性。我们同时解决了这两个问题。

两种查询的故事

在我们的论文中,我们展示了阻碍分割模型有效可扩展性的一个问题是对象查询的设计。对象查询是一种表示场景中对象假设的方式——这种假设可以针对图像进行测试。

对象查询主要有两种类型。第一种,我们称之为“可学习查询”,是学习的向量,与图像特征交互并编码有关位置和对象类别的信息。可学习查询在语义分割上往往表现良好,因为它们不包含对象特定的先验。

第二种类型的对象查询,我们称之为条件查询,类似于两阶段对象检测:区域提议由变换器编码器生成,然后将高置信度的提议作为查询馈送到变换器解码器中以生成最终预测。条件查询与对象类别紧密对齐,并且在语义定义明确的对象上的对象检测和实例分割方面表现出色。

我们的方法是结合两种类型的查询,这提高了模型在任务间迁移的能力。我们的MQ-Former模型使用可学习查询和条件查询来表示输入,并且解码器的每一层都具有交叉注意力机制,以便可学习查询的处理可以考虑来自条件查询处理的信息,反之亦然。

利用合成数据

混合查询有助于跨分割任务的可扩展性,但分割模型可扩展性的另一个方面是数据集大小。扩展分割模型的关键挑战之一是高质量标注数据的稀缺。为了克服这一限制,我们建议利用合成数据。

虽然分割数据稀缺,但对象识别数据却很丰富。对象识别数据集通常包括边界框或标识标记对象所在图像区域的矩形。

要求训练好的分割模型仅分割边界框内的对象显著提高了性能;因此,我们能够使用较弱的分割模型将对象识别数据集转换为可用于训练更强分割模型的分割数据集。

边界框还可以将自动字幕生成模型聚焦于图像中的感兴趣区域,以提供训练语义分割和实例分割模型所需的对象分类类型。

实验结果

我们使用涵盖一系列分割任务的15个数据集评估了我们的方法,并发现,使用MQ-Former,同时扩展训练数据量和任务多样性持续增强了模型的分割能力。

例如,在SeginW基准测试中(包括25个用于开放词汇野外分割评估的数据集),将数据和任务从100,000个样本扩展到600,000个,对象掩码的平均精度提高了16%。结合合成数据将性能又提高了14%,建立了新的技术水平。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/935972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:大语言模型LLM解决AI幻觉方法的深度分析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年10月变位机厂家最新推荐排行榜,焊接变位机,机器人变位机,重型变位机,轻型变位机公司推荐!

2025年10月变位机厂家最新推荐排行榜,焊接变位机,机器人变位机,重型变位机,轻型变位机公司推荐!随着工业自动化和智能制造的快速发展,变位机在各个行业中的应用越来越广泛。无论是焊接、装配还是检测,变位机都能…

2025年中国开发者代码管理平台选型全景报告:从本土化适配到全球化协作

2025年中国开发者代码管理平台选型全景报告:从本土化适配到全球化协作 随着数字化转型进程加速,代码管理平台已成为软件开发生态的核心基础设施。在中国特殊的网络环境和开发者生态下,如何选择适配不同发展阶段的技…

ZKsync Baby Alpha里程碑达成:zkEVM技术架构全面解析

本文详细介绍了ZKsync 2.0(现名zkSync Era)达成Baby Alpha里程碑的技术进展,包括zkEVM架构升级、动态费用机制、项目注册系统、证明生成与验证等核心技术特性,以及未来路线图中的Layer3概念验证和去中心化计划。Ba…

【技术干货】Vaadin Flow vs Hilla:你该选择哪个Java Web框架?

在现代Web开发中,前后端分离已成为主流趋势,但对于许多以 Java 为核心技术栈的企业来说,如何高效地构建现代化Web应用依然是一个挑战。今天我们为大家介绍的,是由 Vaadin 平台 提供的两种开源全栈Web框架 —— Vaa…

使用CVX工具箱求解凸优化问题示例

1. 线性规划(LP)示例 问题描述: 最小化目标函数 \(c^Tx\),满足约束 \(Ax≤b\)和 \(x≥0\)。 MATLAB代码: c = [-1; -2]; % 目标函数系数 A = [1, 1; 2, 1; -1, 1]; % 约束矩阵 b = [4; 5; 2]; …

深入解析:【MySQL✨】MySQL 入门之旅 第十一篇:常见错误排查与解决方案

深入解析:【MySQL✨】MySQL 入门之旅 第十一篇:常见错误排查与解决方案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family…

图解直接映射(Direct mapped)、全相联(Fully-associative)和组相联(Set-associative)cache缓存基本原理

图解直接映射(Direct mapped)、全相联(Fully-associative)和组相联(Set-associative)cache缓存基本原理https://blog.csdn.net/luolaihua2018/article/details/132647066

2025年10月家纺摄影公司最新推荐榜单,专业拍摄与创意设计一站式服务首选!

2025年10月家纺摄影公司最新推荐榜单,专业拍摄与创意设计一站式服务首选!随着家纺行业的快速发展,高质量的家纺摄影需求日益增长。优秀的家纺摄影不仅能够提升品牌形象,还能有效促进产品销售。为了帮助筛选家纺摄影…

彩笔运维勇闯机器学习--KNN算法

前言 彩笔运维勇闯机器学习:KNN算法,它也是分类中的一种 开始探索 scikit-learn import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.preproc…

FastReport文本框根据高度缩小字体

我尝试使用报表自带的设置,AutoShrink = FontSize​​ 并设置 AutoShrinkMinSize=10避免字体过小。 但这种方法只会在文本行超出文本框宽度时才会触发字体缩小,无法满足在不触及宽度时,多次换行导致高度不够的情况下…

JAVA工具包

1、JSON数据结构处理 FastJSON、Gson、Jackson工具包 2、在线API接口文档生成 (1)knife4j在线文档 (2)Swagger生成API文档 3、参数校验 (1)Hibernate Validator (2)javax.validation 注解式参数校验 (3)Apac…

2025 年蝶阀厂家最新推荐:全金属 / 高压 / 美标 / 双偏心 / 三偏心等各类蝶阀优质厂家榜单及选择指南

在工业流体控制体系中,蝶阀作为关键的截断与调节设备,其品质直接决定着生产系统的安全与效率。当前蝶阀市场品牌繁杂,部分产品存在密封性能差、抗恶劣工况能力弱等问题,导致企业维修成本攀升、生产频繁中断,甚至引…

基于MATLAB的一维大地电磁反演程序实现

1. 核心方法概述 一维大地电磁反演通过建立地下电性结构与电磁响应的数学关系,从观测数据反演地下电阻率分布。常用方法包括:Bostick反演:基于频域解析解的快速反演方法 Occam反演:以最小模型复杂度为目标的最优化…

DevExpress WPF中文教程:Data Grid - 如何使用虚拟源?(一)

DevExpress WPF中文教程:Data Grid - 如何使用虚拟源?(一)DevExpress WPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程…

Java并发机制的底层实现原理:从CPU到JVM的全面解析

深入理解volatile、synchronized和原子操作的实现机制,掌握高并发编程的核心原理引言:为什么需要了解底层原理? 在日常开发中,我们经常使用volatile、synchronized和原子类来解决并发问题。但仅仅会使用这些工具是…

2025年10月储罐源头厂家最新权威榜单:技术实力与市场口碑深度解析

2025年10月储罐源头厂家最新权威榜单:技术实力与市场口碑深度解析随着工业和化工行业的快速发展,储罐作为关键的储存设备,其质量和性能直接影响到企业的生产效率和安全。为了帮助筛选储罐品牌,特此发布权威推荐榜单…

学习unigui【38】重新认识UUNIGUI--为什么这样快? 站在“架构与性能”层面重新审视

学习unigui【38】重新认识UUNIGUI--为什么这样快? 站在“架构与性能”层面重新审视为什么 UniGUI 这么快、甚至感觉比原生 HTML + JS 框架还灵敏? 答案在于:✅ UniGUI 把「前端交互」和「后端状态」紧密绑定到一个持…

2025 年国内发电机厂家最新推荐排行榜:汽油 / 柴油 / 10KW-200KW 多功率机型精选,全方位解读品牌实力助力精准选购

在 2025 年工业生产、基础设施建设、应急保障等领域对电力供应的依赖度持续攀升的背景下,汽油发电机、柴油发电机及不同功率规格的发电机需求日益增长。然而,当前发电机市场品牌数量繁杂,不同品牌在产品质量、技术水…

wqs二分学习笔记

一般解决问题 你有一个 \(k\),表示最后要变成 \(k\) 个,或者说是选 \(k\)。 形式化地讲,设 \(f(i)\) 表示最后变成 \(i\) 个,或者是选 \(i\) 个的方案。 你一般要求的是 \(f(k)\) 的最大值或者最小值。 问题特征 你…