CVPR 2024 目标检测!开放词汇

news/2025/11/18 15:36:57/文章来源:https://www.cnblogs.com/lab4ai/p/19238069

CVPR 2024 目标检测!开放词汇

01 论文概述

论文名称:YOLO-World: Real-Time Open-Vocabulary Object Detection

会议名称:CVPR (2024)

👉一键直达论文

[👉Lab4AI大模型实验室论文](https://www.lab4ai.cn/paper/detail?utm_source=lab4ai_jssq_bky
_yoloworld&id=a98fb9c1be8445fc88ea1ef4ec73752a&type=paper)

🌟简介

在相当长的一段时间里,目标检测领域存在一个核心的权衡:要么选择像 YOLO 系列那样拥有极致速度但只能识别固定类别的“闭集”检测器,要么选择像 Grounding DINO 那样能够识别任意文本描述但速度较慢的“开放集”检测器。对于需要实时响应和灵活性的现实世界应用(如机器人、自动驾驶),这一直是个难题。

于2024年初发布的 YOLO-World 彻底打破了这一局面。该研究首次成功地将开放词汇(Open-Vocabulary)能力与以速度著称的 YOLO 架构进行了深度融合。YOLO-World 能够在不需要为新类别进行任何训练的情况下,实时地检测由任意文本描述的物体。它的问世,标志着目标检测技术进入了一个兼具速度、灵活性和强大泛化能力的新纪元,并已成为后续实时通用感知系统的关键基石。

🔍 优势

  • 实时开放词汇检测

    YOLO-World 的标志性贡献。它在保持 YOLO 系列无与伦比的推理速度的同时,实现了对任意文本提示的零样本检测能力,完美解决了速度与灵活性的核心矛盾。

  • 强大的零样本性能

    通过在大规模图文数据集上进行预训练,YOLO-World 能够直接检测从未见过的物体类别,表现出卓越的泛化能力,极大地拓宽了其应用场景。

  • 灵活高效的部署

    模型支持“在线”和“离线”两种词汇表模式。在线模式可以动态接收文本提示,灵活性最高;离线模式则可以将词汇表预先编译进模型,实现极致的推理速度,方便生产环境部署。

  • 继承YOLO生态

    建立在成熟的 YOLO 架构之上,使其能够轻松地被社区和行业接受,并方便地集成到现有的、为 YOLO 优化的部署流程和硬件加速方案中。

🛠️ 核心技术

  • 可提示的YOLO架构 (Promptable YOLO Architecture)

    模型的核心是一个经过改造的 YOLO 检测器。它引入了一个轻量级的文本编码器来处理输入文本,并将文本特征高效地注入到检测流程中,使得整个模型可以被语言动态“编程”。

  • 区域-文本对比学习预训练 (Region-Text Contrastive Pre-training)

    YOLO-World 在大规模的视觉定位(Grounding)数据集上进行预训练。其核心目标是让模型学习到将图像中任意一个对象区域的视觉特征,与描述该对象的文本特征进行精确对齐。

  • 视觉-语言路径聚合网络 (Vision-Language Path Aggregation Network - VL-PAN)

    为了在保持速度的同时实现有效的跨模态融合,作者设计了 VL-PAN。它能够在 YOLO 的特征金字塔(FPN/PAN)结构中,以极小的计算开销,将文本特征与多尺度的视觉特征进行深度交互。

  • 解耦的检测头与类别无关嵌入 (Decoupled Head with Class-Agnostic Embedding)

    模型的检测头被设计为类别无关的,它不直接预测固定的类别ID,而是预测一个“物体存在度”和该物体的视觉嵌入向量。最终的分类通过计算此视觉嵌入与用户提供词汇的文本嵌入之间的相似度来完成。

02 论文原文阅读

您可以跳转到Lab4AI.cn上进行查看。[👉Lab4AI大模型实验室论文复现](https://www.lab4ai.cn/paper/detail?utm_source=lab4ai_jssq_bky
_yoloworld&id=a98fb9c1be8445fc88ea1ef4ec73752a&type=paper)

  • Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。

03 一键式论文复现

Lab4AI平台上已上架了此篇复现案例,登录平台即可体验论文复现。

[👉Lab4AI项目复现](https://www.lab4ai.cn/paper/detail?utm_source=lab4ai_jssq_bky
_yoloworld&id=a98fb9c1be8445fc88ea1ef4ec73752a&type=paper)

🛠️ 实验部署

本实验环境已为您精心配置,开箱即用。

  • 💻 代码获取:项目复现代码已存放于 /codelab/YOLO-World/code 文件夹中。
  • 🧠 模型说明:/codelab/YOLO-World/model 文件夹中存放了 YOLO-World 的预训练模型权重。
  • 📊 数据说明:/codelab/YOLO-World/dataset 文件夹中包含了用于实验的示例图像和提示词。
  • 🌐 环境说明:运行所需的所有依赖已预安装在 /envs/yoloworld/ 环境中,您无需进行任何额外的环境配置。

🚀 环境与内核配置

请在终端中执行以下步骤,以确保您的开发环境(如 Jupyter 或 VS Code)能够正确使用预设的 Conda 环境。

1. 在 Jupyter Notebook/Lab 中使用您的环境

  • 为了让Jupyter能够识别并使用您刚刚创建的Conda环境,您需要为其注册一个“内核”。

  • 首先,在您已激活的Conda环境中,安装 ipykernel 包:

    conda activate yoloworld
    pip install ipykernel
    
  • 然后,执行内核注册命令。

    #为名为 yoloworld 的环境注册一个名为 "Python(yoloworld)" 的内核
    kernel_install --name yoloworld --display-name "Python(yoloworld)"
    
  • 完成以上操作后,刷新您项目中的Jupyter Notebook页面。在右上角的内核选择区域,您现在应该就能看到并选择您刚刚创建的 "Python(yoloworld)" 内核了。

2. 在 VS Code 中使用您的环境

  • VS Code 可以自动检测到您新创建的Conda环境,切换过程非常快捷。
  • 第一步: 选择 Python 解释器
    • 确保VS Code中已经安装了官方的 Python 扩展。
    • 使用快捷键 Ctrl+Shift+P (Windows/Linux) 或 Cmd+Shift+P (macOS) 打开命令面板。
    • 输入并选择 Python: Select Interpreter。
  • 第二步: 选择您的 Conda 环境
    • 在弹出的列表中,找到并点击您刚刚创建的环境(名为 yoloworld 的 Conda 环境)。
    • 选择后,VS Code 窗口右下角的状态栏会显示 yoloworld,表示切换成功。此后,当您在 VS Code 中打开 Jupyter Notebook (.ipynb) 文件时,它会自动或推荐您使用此环境的内核。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/969029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国标GB28181算法算力平台EasyGBS如何实现停车场监控系统的高效统一管理?

在智慧城市建设进程中,城市机动车保有量激增,传统停车场管理面临设备管理复杂、安防事件响应滞后、运营效率低下等痛点。本文将深入解析,基于国标GB28181协议的国标GB28181算法算力平台EasyGBS,如何通过 “统一接入…

LiteFlow(规则引擎)

LiteFlow(规则引擎)简介LiteFlow是一款轻量级、组件式的规则引擎框架,支持业务逻辑的编排和热刷新,适用于复杂业务场景的组件化管理。有时间再写……

SCQL:安全协同查询平台的技术解析

SCQL:安全协同查询平台的技术深度解析 在当今数据驱动的时代,跨机构数据协同分析需求日益增长,但数据隐私和合规要求(如GDPR)导致了数据孤岛问题。Secure Multi-Party Computation(MPC)技术为实现安全协同分析提…

linux apache 解析php

在 Linux 系统中,Apache 服务器默认使用 mod_php 模块来解析 .php 文件。以下是一些关于 Apache 解析 PHP 的常见命令和配置方法:一、确认 Apache 是否支持 PHP apache2ctl -t 如果输出中包含 mod_php,说明 Apache …

linux apache 的日志

在 Linux 系统中,Apache 服务器的日志通常位于以下路径: 1. Apache 2 的日志目录错误日志:/var/log/httpd/error_log(对于 Apache 2) 访问日志:/var/log/httpd/access_log(对于 Apache 2)2. Apache 2.4 的日志…

idea中maven转gradle

一、下载gradle包并解压 https://services.gradle.org/distributions/gradle-8.10-bin.zip 二、配置环境变量open -e ~/.zshrcexport GRADLE_HOME=/Users/edy/usr/local/gradle-8.10 export PATH=$GRADLE_HOME/bin:$PA…

linux apache 版本

要查看 Linux 系统中 Apache 服务器的版本,可以使用以下几种常用命令: 方法 1:使用 apache2 -v(适用于 Debian/Ubuntu)或 httpd -v(适用于 CentOS/RHEL) # Debian/Ubuntu apache2 -v# CentOS/RHEL httpd -v 方法…

从0死磕全栈之Next.js 本地开发环境优化最佳实践 - 指南

从0死磕全栈之Next.js 本地开发环境优化最佳实践 - 指南2025-11-18 15:31 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; …

权威发布:2025年度MES系统综合排名,聚焦实用功能与选型避坑指南

在制造业数字化转型浪潮中,制造执行系统(MES)的选型已成为企业提升运营效率的关键决策。然而,面对市场上众多的解决方案,企业常常陷入“功能看似齐全,落地困难重重”的困境。国际知名分析机构IDC的研究显示,制造…

2025年遗产继承咨询律师权威推荐榜单:遗产继承/婚姻诉讼/财产纠纷律师精选

中国每年继承纠纷案件数量已突破50万件,其中涉及房产分割、遗嘱效力认定和财产范围界定的案件占比超过65%,专业遗产继承律师的市场需求持续增长。 遗产继承作为家庭财产传承的重要环节,其法律服务的专业水平直接影响…

【FAQ】HarmonyOS SDK 闭源开放能力 — Account Kit

1.问题描述: 接入微信登录后,还要接华为登录吗? 解决方案: 为了帮助用户省去多次输入不同应用账号登录的繁琐过程,我们为HarmonyOS应用和元服务提供了使用华为账号快捷登录的能力。提交至华为应用市场的HarmonyOS…

2025年11月合肥抗衰老公司排名情况

摘要 随着人口老龄化加剧和健康意识提升,2025年中国抗衰老行业迎来爆发式增长,合肥作为安徽省会,抗衰老公司竞争激烈。本文基于行业数据、用户口碑和技术创新,综合评出2025年11月合肥抗衰老公司排名前五名,并为读…

CentOS Stream 10 : NVIDIA 显卡驱动安装-亲测

CentOS Stream 10 : NVIDIA 显卡驱动安装-亲测前提:如果你使用桌面环境,请更改为CUI登录,需要更改系统运行级别设置好显卡驱动后,可以退回GUI登录。如果你想更改系统运行级别设置如下:[1] 例如,不带图形界面的默…

2025年电泳涂装超滤膜定做厂家权威推荐榜单:电泳漆超滤膜/中空超滤膜/纤维超滤膜源头厂家精选

全球超滤膜和微滤膜市场正以显著速度增长,预计到2031年市场规模将达到数百亿元。在这一背景下,电泳涂装超滤膜作为电泳生产线闭环循环系统的核心部件,其性能直接关系到电泳漆回收率、工艺稳定性和环保效益。 电泳涂…

LINUX在线扩文件系统(/目录)

LINUX在线扩文件系统(/目录)我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页…

18new - when

package componentsimport chisel3._import chisel3.util._import components.Constants._ // 确保导入常量/** * IF/ID流水线寄存器 */class IFIDBundle extends Bundle { val inst = UInt(32.W) val pc = UInt(3…

linux apache 服务器搭建

搭建一个基于 Linux 的 Apache 服务器是一个常见的网络服务部署任务。以下是搭建 Apache 服务器的常见步骤和相关命令,适用于大多数 Linux 发行版(如 Ubuntu、CentOS、Debian 等)。一、安装 Apache 服务器 1. 使用 …

linux apache 域名配置

在 Linux 系统中,Apache 服务器的域名配置通常涉及以下几个方面:一、Apache 服务器的域名配置 1. 配置虚拟主机(Virtual Hosts) Apache 通过 VirtualHost 模块来支持多域名托管。你需要在 Apache 配置文件中添加虚…

2025济南留学中介十大排名

2025济南留学中介十大排名一、济南留学中介怎么选?这些疑问你有吗?作为一位拥有15年经验的国际教育全案规划师,我经常被济南的学生和家长问到类似的问题:在众多留学中介中,哪家更适合自己的需求?申请研究生阶段该…

2025杭州最好的留学中介是哪家公司

2025杭州最好的留学中介是哪家公司一、2025年杭州最好的留学中介是哪家公司?作为拥有12年经验的殿堂级全案规划师,我长期深耕国际教育领域,每年都会收到大量杭州学生和家长的咨询,其中最常见的问题就是:2025年杭州…