【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测


文章:WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

代码:https://github.com/WeChatCV/WeDetect

单位:腾讯微信团队


一、问题背景:传统方法的“速度与精度”困局

传统开放词汇目标检测主要分为两类思路,却都存在明显短板:

  • 融合型方法:通过深度跨模态融合层让图像和文字深度交互,精度较高,但计算量极大,导致推理速度慢,且视觉特征无法在不同文字查询间共享,换个描述就得重新计算;

  • 非融合型方法:采用双塔架构,不用复杂融合,速度更快,但过去在精度和泛化能力上始终落后于融合型方法,难以支撑复杂场景需求。

此外,现有模型还存在功能单一的问题:要么只能做基础检测,要么无法处理“左边穿7号球衣的球员”这类复杂指令,要么不能精准检索小物体,难以覆盖多场景实际应用。

二、方法创新:以“检索”为核心,打造全能模型家族

腾讯团队跳出传统思路,将“检索”理念贯穿始终,推出了WeDetect模型家族,通过三大核心创新解决痛点:

1. 核心架构:无融合双塔,兼顾速度与对齐

WeDetect家族统一采用双塔架构,彻底抛弃耗时的跨模态融合层:

  • 文本编码器:将文字描述(如“猫”“心形的锁”)编码成特征向量;

  • 视觉编码器:提取图片中不同尺度的区域特征,采用ConvNeXt backbone,天生适配多尺度物体检测。

  • 识别逻辑:通过计算文本特征与图像区域特征的相似度(点积)完成匹配,就像在“特征字典”里检索目标,无需反复交互,速度自然拉满。

2. 三大模型:各司其职,覆盖全场景需求

  • WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框的高质量数据集(含多粒度标签,如“动物→狗→黄色的狗”),通过分阶段训练,在无融合架构下实现超高精度。

  • WeDetect-Uni(通用候选框生成器):冻结WeDetect的核心参数,仅训练一个“通用物体提示词”,就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性,可直接用于后续分类,还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体(哪怕是烟蒂这样的小物体)的图像,弥补了传统图像检索的细粒度短板。

  • WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制,推理速度提升13倍,还能避免边界框回归不准的问题。

3. 数据与训练:细节拉满,筑牢性能根基

  • 多粒度标签:为每个物体标注层级化标签,训练时随机采样,丰富文本多样性,助力细粒度对齐;

  • 分阶段训练:先预训练视觉和文本编码器,再训练模型头部和颈部,最后端到端微调,充分复用预训练知识;

  • 自动数据引擎:用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注,生成高质量、无遗漏的标注数据,减少人工成本。

三、实验结果:15个基准测试登顶,性能全面碾压

在15个主流 benchmarks 上的测试显示,WeDetect家族实现了“速度与精度”的双重突破:

1. 基础检测:又快又准

  • WeDetect-Tiny(33M参数):在LVIS数据集上实现37.4 AP,比同类快模型YOLO-World-L高2.0 AP,且运行速度达62.5 fps,远超YOLO-World-L的54.6 fps;

  • WeDetect-Large:在LVIS数据集上达到49.4 AP,比此前的SOTA模型LLMDet高7.4 AP,性能断层领先。

2. 物体检索:细粒度优势明显

WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6,比经典模型CLIP高出37.2,能精准定位小物体和局部特征,检索速度远超传统方法。

3. 复杂指令理解:高效碾压大模型

WeDetect-Ref 4B(仅40亿参数)在RefCOCO/+/g数据集上平均准确率达93.2,比Qwen3-VL 4B高6.6个百分点,且推理速度是后者的13倍,甚至比Grounding-DINO-L还快;同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。

四、优势与局限:实际应用的“加分项”与“待优化点”

核心优势

  1. 速度极快:无融合架构+并行推理,WeDetect-Tiny达62.5 fps,WeDetect-Ref比同类大模型快13倍,满足实时部署需求;

  2. 功能全面:统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务,无需多个模型拼接;

  3. 泛化性强:在跨领域数据集(如卡通、素描、纹身图像)和长尾类别上表现稳定,零样本迁移能力突出;

  4. 部署友好:架构简洁,可通过GPU和Flash Attention进一步加速,适配不同硬件环境。

现存局限

  1. 多查询支持不足:WeDetect-Ref是二进制分类模型,单次前向传播只能处理一个查询,多查询需多次推理后合并结果(但因速度足够快,实际影响较小);

  2. 小样本极端场景:在极少数超小众类别或极模糊图像上,检索精度仍有提升空间。

五、一句话总结

WeDetect家族以“检索”为核心,通过无融合双塔架构、多粒度数据训练和功能化模型设计,首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破,为实时智能视觉应用提供了高效可行的解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1123373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cursor Rules实战:从零构建一个智能代码审查工具

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个智能代码审查工具,基于Cursor Rules自动检查代码规范。功能包括:1. 自定义规则集,支持团队特定的编码规范;2. 实时反馈&…

C盘分小了怎么重新分配,记住这几大方法,不走弯路

如果我们遇到电脑C盘(系统盘)空间不足的问题,除了清理磁盘垃圾,还可以通过磁盘管理,重新划分磁盘空间给C盘扩容。注意,此方法的前提在于C盘与被扩容盘在同一块物理硬盘(磁盘)上&…

Keil MDK下载安装指南:手把手教程(从零搭建开发环境)

从零搭建嵌入式开发环境:Keil MDK 安装与实战入门 你是不是也曾在“ keil mdk下载 ”的搜索结果中迷失方向?满屏广告、捆绑软件、失效链接……好不容易点进去,却发现安装失败、驱动不认、编译报错。别急——这几乎是每个嵌入式新手都踩过的…

借鉴GXO合作模式:人形机器人品牌的RaaS落地路径

在推动人形机器人品牌的RaaS落地过程中,明确内容结构和论点显得尤为重要。此文将结合GXO的成功经验,探讨如何通过市场定位和技术整合来优化人形机器人的运营模式。人形机器人在服务行业的应用日益增多,不仅需要关注客户需求,还需落…

学术论文摘要互译:Hunyuan-MT-7B能否胜任

Hunyuan-MT-7B能否胜任学术论文摘要互译? 在人工智能与生命科学等领域,每天都有成百上千篇英文论文上线。对于大量依赖前沿研究的中文科研工作者来说,如何快速、准确地理解这些文献的核心内容,已经成为日常工作中不可回避的挑战。…

ESP32连接阿里云MQTT:新手避坑入门篇

ESP32连接阿里云MQTT:从踩坑到上线的实战指南最近在做一个智能环境监测项目,核心需求是让一个ESP32采集温湿度数据,并实时上传到阿里云物联网平台。听起来不难?但真正动手才发现——“连不上”、“认证失败”、“一会就掉线”&…

把 SAP Launchpad 当成交付物:用 ADT 配置 Pages 与 Spaces 的开发者实践指南

在 SAP BTP 的 ABAP environment 里做应用开发时,很多团队会把注意力放在业务对象、OData 服务、UI5 应用本身,却把用户登录后的 第一眼体验 交给后续的系统配置去补齐。结果常见的场景是:应用已经可用,但业务用户一进 SAP Fiori Launchpad,看见的还是一堆默认分组、找不到…

杨国福:构建支撑全球近7000家门店的数智引擎

在全球规模化扩张中寻求精细化管理连锁餐饮行业在实现全球快速拓店后,普遍面临后端供应链效率、前端加盟商协同与消费者深度运营的复合型管理挑战。作为在全球25个国家运营近7000家门店的著名中式快餐品牌,杨国福麻辣烫在规模化优势下,其持续…

极速开发:基于Web的Navicat克隆原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发一个精简版数据库管理Web应用原型,包含:1. 响应式UI界面 2. 基本CRUD操作 3. 表格数据展示 4. 简单查询构建器 5. 导出功能。使用ReactTypeScriptE…

C盘文件怎么转移到d盘,你不得不看的多种方法高效解决

当你的C盘空间不足时,你需要采取一些措施来释放空间。随着电脑使用时间的增长,C盘可能会逐渐填满。那么,C盘满了怎么转移到D盘里面去?对于不熟悉电脑操作的用户来说,将数据迁移至其他盘可能会有一定的挑战。但是&#…

MCP零信任架构实施全解析(20年架构师亲授实战经验)

第一章:MCP零信任架构实施全解析(20年架构师亲授实战经验)在现代企业安全体系中,MCP(Multi-Cloud Protection)零信任架构已成为抵御高级威胁的核心策略。传统边界防御模型已无法应对云原生环境下的动态访问…

用AI快速开发OPENJDK17应用

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个OPENJDK17应用,利用快马平台的AI辅助功能,展示智能代码生成和优化。点击项目生成按钮,等待项目生成完整后预览效果 最近在尝试用OPENJD…

UltraISO注册码最新版不再需要,用AI翻译工具搞定帮助手册

用AI翻译工具轻松搞定多语言文档,告别注册码时代 在软件开发和产品全球化的今天,技术文档的多语言支持已成为标配。无论是开源项目还是商业软件,用户都期望能获得母语级别的帮助手册。然而长期以来,许多开发者和个人用户仍依赖传统…

MCP云原生开发认证冲刺倒计时:最后30天高效复习规划表免费领

第一章:MCP云原生开发认证概述MCP(Microsoft Certified Professional)云原生开发认证是微软推出的一项面向现代应用开发者的专业资格认证,旨在验证开发者在云原生技术栈下的实际能力,特别是在Azure平台上构建、部署和管…

四川税务官网功能解析:从用户体验看电子政务发展

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个四川税务官网核心功能演示项目,包含:1) 个人所得税年度汇算模拟系统;2) 企业税务登记进度查询工具;3) 税务政策解读知识图谱…

3分钟搞定UNICLOUD服务空间关联:效率提升指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个UNICLOUD效率工具,功能:1. 服务空间快速检索过滤 2. 命令行一键关联(替代右键操作) 3. 关联历史记录 4. 批量操作界面 5. 智能冲突解决。界面显示传…

基于多模态AI分析框架:避险情绪驱动下黄金价格逼近4500美元关键阈值的深度解析

摘要:本文通过AI模型对市场动态数据的多维度分析,结合地缘局势、宏观经济数据及机构研究报告等多元信息源,深入剖析黄金等贵金属价格走势背后的驱动因素。周二(1月11日),基于AI市场情绪分析模型显示&#x…

借鉴乐聚:工业人形机器人品牌的标杆客户打造

乐聚在工业人形机器人领域的成功不仅得益于其品牌策略,还源于对标杆客户的深刻理解。文章将探讨乐聚如何通过维系与标杆客户的关系,推动产品的优化和创新。每一个项目都不仅是产品推出的机会,更是与客户共同成长的过程。乐聚借助真实反馈不断…

实力加冕!浩辰软件再获CMMI三级认证,助力全球工业数字化转型

近日,浩辰软件正式通过CMMI成熟度三级国际评估认证,这标志着浩辰软件在研发过程标准化、项目管理体系化及产品质量管控规范化等方面的核心能力已达到国际公认水准,为更好地服务全球工业领域用户数字化转型奠定了坚实基础。CMMI(Ca…

从安装环境到发布文档,手把手教你掌握OPEN SPEC基础。

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的OPEN SPEC交互式学习应用。功能:1. 基础知识讲解 2. 实时编辑器边学边练 3. 错误检查与提示 4. 示例库 5. 学习进度跟踪。要求界面友好&#xff0…