YOLO-World: Real-Time Open-Vocabulary Object Detection 简介+安装+运行+训练(持续更新)

前言

YOLO_WORLD太牛了!!众所周知,传统是视觉目标检测一旦训练好后,如果我们需要增加新的识别目标的话,必须得重新训练模型。在生产中如果经常要新增检测目标,对时效性影响很大,而且随着数据量和种类增多,训练时长不可避免增加。
现在YOLO_WORLD提供了一个新玩法。只需修改目标名称,在不重新训练模型的情况下,可以识别到新的物体。并且其识别速度还是YOLOv8的20倍!!!

在这里插入图片描述
备注:以下为个人见解。如有错误,欢迎指出!!Thanks♪(・ω・)ノ

模型简介

一、该模型思路

主干特征网络使用CNN会比Transform架构轻量化许多。YOLO中yolohead的分类器和方框定位中,对分类器进行非常有意思的修改,参考多模态大模型的实现的图文对齐,使其分类器那块不再是每个框的概率,而是变成每个框的特征向量。即每个检测框都有自己的特征向量,通过比对最接近文本类里距离最近的文本特征向量来判断该检测框的类别。

二、大致流程如下:

不用担心文本embedding和图像embedding的问题,大佬们已经对齐啦~~
1、人输入想要检测目标文本(建议不要太口语化)。
2、Text Encoder 切割文本分好类型。
3、文本Embedding把各个类型转成对应特征向量。
4、传入检测图片。
5、YOLO Backbone:模型图片提取特征。
6、Vison-Language:视觉信息和语言信息进行联合处理和分析。
7.1、检测框内图像信息的特征向量通过和文本类向量比对获取相似度最大的。
7.2、检测框坐标数据
在这里插入图片描述

安装流程

为了方便个人建议直接使用ultralytics版本的yolo-world,超级简单。
官方详细教程地址

https://docs.ultralytics.com/models/yolo-world/#set-prompts

下载ultralytics

pip intstall -i https://pypi.tuna.tsinghua.edu.cn/simple  ultralytics

下载权重文件

https://github.com/ultralytics/assets/releases/download/v8.1.0/yolov8l-world.pt

执行以下代码

from ultralytics import YOLO# Initialize a YOLO-World model
model = YOLO('yolov8s-world.pt的路径')  # or choose yolov8m/l-world.pt# Define custom classes
model.set_classes(["person", "bus"])# 你要识别的类写英文哦~~# Execute prediction for specified categories on an image
results = model.predict('图片地址')# Show results
results[0].show()

怎么样是不是超短实现。

注意第一运行可能会有点卡,因为有些包要自动安装,如果网太卡的话,建议全局~~
在这里插入图片描述

训练

待更新~

个人对该模型的展望(纯属个人臆想,不喜勿喷)

问题:虽然模型通过embedding实现文本和检测框,那就会遇到一个问题。如果想要描述的目标受限于我们个人表述能力不足导致模型无法检测到该目标(也就是还不够便利)。
个人思路:相信不少人玩过stable diffusion这个AI生图的软件吧,我们是否可以借鉴那个图生文的思路,让相关embedding模型识别并生成用户框定目标的名称。理论上,这将进一步降低大家的使用门槛~

接下来就看哪些大佬能实现了O(∩_∩)O~

在这里插入图片描述

问题总结

待更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/813208.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.vue文件引入路径正确,但报错

问题描述 使用Vue挂载组件时,导入路径正确,但是一直提示 Already included file name ‘绝对路径/index.vue’ differs from file name ‘绝对路径/Index. vue’ only in casing. The file is in the program because: Imported via ‘./components/ind…

O2OA开发平台如何查看数据表结构?

在访问后端api地址,页面最下方有列示平台的各个服务,点击进入可查看具体的表内容 后端api地址: http://{hostIP}/x_program_center/jest/list.html 其中:{hostIP}为中心服务器所在域名或者IP地址 如下图:

25、链表-环形链表

思路: 这道题就是判断链表中是否有环,首先使用集合肯定可以快速地解决,比如通过一个set集合遍历,如果遍历过程中有节点在set中已经存在那么说明存在环。 第二种方式就是通过快慢指针方式寻找环。具体思路就是一个慢指针每次直走一…

Scala详解(2)

Scala 函数(Function) 概述 将一段逻辑进行封装便于进行重复使用,被封装的这段逻辑就是函数。在Scala中,必须通过def来定义函数 基本语法 def 函数名(参数列表) : 返回值类型 {函数体return 返回值 } 案例 // 案例:定义函数计算两个整数…

博客系统项目测试(selenium+Junit5)

在做完博客系统项目之后,需要对项目的功能、接口进行测试,利用测试的工具:selenium以及Java的单元测试工具Junit进行测试,下面式测试的思维导图,列出该项目需要测试的所有测试用例: 测试结果(全…

Composer 安装与配置

Composer 是 PHP 领域中非常重要的一个工具,它作为 PHP 的依赖管理工具,帮助开发者定义、管理、安装项目所依赖的外部库。Composer 的出现极大地简化了 PHP 项目的构建和管理过程,使得开发者可以更加专注于代码的编写和功能的实现。 Compose…

当年明月在,曾照彩云归

肯定是非常辛苦和疲惫的 感谢一路走来帮助我的人 参考资料 小红书up主 哈嘿哈 孤独的演说家 白菜 run 今天你喝水了吗 HongReee 是个笨蛋呀 北航六人行 极限30天 青辰 懒哥 研究生啦(李珂欣) 林酱 QQ 雨梧桐🍁 Ctrl 林林 什么技术+答辩老师+代码什么作用+准备ppt+系统如何实…

Android12 user版本无法进入recovery问题

1.前言 之前Android9的时候公司自己写了一个简单的OTA在线升级,调用Recovery升级系统。后来Android12的时候想使用AB升级,发现我这套代码AB升级完成了之后,重启却无法切到B,所以造成升级一直是失败的。后来想着要不还是把AB关掉直…

linux下安装nacos2.2.0

1、获取下载地址并下载 1.1、打开nacos官网 1.2、找到对应版本,点进去 ## 1.3、复制地址 1.4下载 # 进入要安装的目录,cd /usr/local/src # 执行wget https://github.com/alibaba/nacos/releases/download/2.2.0/nacos-server-2.2.0.tar.gz2、 安装…

springboot数字化智慧城市管理系统源码

目录 ​系统开发环境 系统功能模块 系统特点 1、智慧城管移动端 2、案件受理 3、AI视频智识别分析 系统应用价值 1、提升案件办理效率 2、提升监管效能 3、提升行政执法水平 4、推进行政执法创新 智慧城管综合执法办案系统功能 现场移动执法 一般程序案件的网上办…

Modern C++:提升开发效率的语法糖详解与实例

引言 Modern C,特指自C11以来的一系列标准更新,引入了大量旨在增强语言表达力、提高代码清晰度与开发效率的新特性。其中,被称为“语法糖”的便捷语法构造尤为引人注目。这些语法糖不仅简化了程序员的日常编码工作,减少了出错几率…

D00178-变压器设备漏油的检测数据集338张含VOC标签

数据集一部分来自真实场景,由于真实场景下样本较少,共338张,采用VOC标注格式 完整链接见文末 完整链接: D00178-变压器设备漏油的检测数据集338张含VOC标签

今日arXiv最热大模型论文:清华大学发布,ChatGML又添新功能,集成“自我批评”,提升数学能力

引言:数学问题解决在大语言模型中的挑战 在当今的人工智能领域,大语言模型(Large Language Models,LLMs)已经在理解和生成人类语言方面取得了显著的进展。这些模型在文本摘要、问答、角色扮演对话等多种语言任务上展现…

现在租一个服务器多少一个月啊?

现在租一个服务器多少一个月?优惠价格低至3.8元1个月,租用一个月云服务器收费价格表:阿里云和腾讯云2核2G3M服务器优惠价格61元一年,折合一个月5元,京东云轻量云主机5.8元一个月,华为云服务器优惠价格3.8元…

CSS设置内外边距

目录 内边距(paddingj): 前言: 设置内边距: 外边距(margin): 前言: 设置外边距: 补充(折叠): 内边距(padding)&#…

数组、数组对象去重

一、纯数组 1. 纯数组 - 利用new Set()集合 Array.from(new Set(arr)); Set是es6新增的数据结构,似于数组,但并非真正的数组,我们可以称之为类数组对象,它的一大特性就是所有元素都是唯一的,没有重复的值。 Array.f…

Spring MVC 文件上传和下载

文章目录 Spring MVC 中文件上传利用 commons-fileupload 文件上传使用 Servlet 3.1 内置的文件上传功能 Spring MVC 中文件下载 Spring MVC 中文件上传 为了能上传文件,必须将 from 表单的 method 设置为 POST,并将 enctype 设置为 multipart/form-data…

阿里云服务器怎么购买价格更便宜?优惠大揭秘!

阿里云服务器租用价格表2024年最新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元,ECS u1服务器2核4G5M固定带宽199元一年,2核4G4M带宽轻量服务器一年165元12个月,2核…

cesium 平滑显示billboard 透明度

描述:加载billboard的时候,要么是显示,要么是隐藏,不能平滑的显示,有个从不显示到显示的过程 解决方案:创建billboard的时候给一个color,颜色为(255,255,255),透明度从0-1 let opaci…

C#:循环中断

任务描述 实现九九乘法表,按照编程要求,使用break跳出循环 测试说明 测试过程: 平台将编译用户补全代码,并根据程序的输出判断程序是否正确。 以下是测试样例: 测试输入: 预期输出: we found…