【计算机视觉】目标检测:yoloV1~yoloV11项目论文及对比

在这里插入图片描述

以下是 YOLO (You Only Look Once) 系列模型从 V1 到 V11 的详细介绍和项目地址(截至2024年7月)。YOLO 是目标检测领域的里程碑模型,以其 实时性高精度 著称,广泛应用于自动驾驶、安防监控、工业检测等领域。


YOLOv1 (2016)

📌 论文: You Only Look Once: Unified, Real-Time Object Detection
📌 代码: Darknet (C 实现)
📌 特点

  • 首个 单阶段(one-stage) 目标检测模型,直接回归边界框和类别。
  • 使用 全卷积网络(FCN),速度快但精度较低。
  • 输入分辨率 448×448,在 Pascal VOC 上 mAP 63.4

YOLOv2 (YOLO9000, 2017)

📌 论文: YOLO9000: Better, Faster, Stronger
📌 代码: Darknet
📌 特点

  • 引入 Batch Normalization,提升训练稳定性。
  • 使用 Anchor Boxes 提高定位精度。
  • 提出 Darknet-19 骨干网络,比 V1 更快更准。
  • 支持 多尺度训练(Multi-Scale Training),输入分辨率可调。
  • 在 Pascal VOC 上 mAP 78.6,可检测 9000+ 类别(YOLO9000)。

YOLOv3 (2018)

📌 论文: YOLOv3: An Incremental Improvement
📌 代码: Darknet
📌 特点

  • 采用 Darknet-53 骨干网络(带残差连接)。
  • 引入 多尺度预测(FPN-like),提升小目标检测能力。
  • 使用 Binary Cross-Entropy (BCE) Loss 替代 Softmax 分类。
  • 在 COCO 上 mAP 33.0,速度 65 FPS(Titan X)。

YOLOv4 (2020)

📌 论文: YOLOv4: Optimal Speed and Accuracy of Object Detection
📌 代码: Darknet
📌 特点

  • 引入 CSPDarknet53 骨干网络,提升特征提取能力。
  • 采用 PANet + SPP 增强多尺度特征融合。
  • 使用 Mosaic Data AugmentationCIoU Loss 提升训练效果。
  • 在 COCO 上 mAP 43.5,速度 62 FPS(Tesla V100)。

YOLOv5 (2020)

📌 论文: 无官方论文(Ultralytics 团队开发)
📌 代码: Ultralytics YOLOv5 (PyTorch)
📌 特点

  • PyTorch 实现,更易部署和训练。
  • 引入 Focus 模块 减少计算量。
  • 支持 Auto Learning Rate & Batch Size
  • 提供 多个预训练模型(YOLOv5s, m, l, x)
  • 在 COCO 上 mAP 50.7(YOLOv5x)。

YOLOv6 (2022)

📌 论文: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
📌 代码: Meituan YOLOv6
📌 特点

  • 美团(Meituan) 团队开发,面向工业应用。
  • 采用 EfficientRep 骨干网络RepVGG 风格 结构。
  • 引入 Anchor-Free + SimOTA 标签分配策略。
  • 在 COCO 上 mAP 52.8(YOLOv6-L)。

YOLOv7 (2022)

📌 论文: YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors
📌 代码: WongKinYiu YOLOv7
📌 特点

  • 提出 Extended Efficient Layer Aggregation Network (E-ELAN)
  • 引入 Model Scaling & Compound Scaling 优化推理速度。
  • 支持 辅助训练头(Auxiliary Head) 提升小目标检测。
  • 在 COCO 上 mAP 56.8(YOLOv7-E6E)。

YOLOv8 (2023)

📌 论文: 无官方论文(Ultralytics 团队开发)
📌 代码: Ultralytics YOLOv8
📌 特点

  • 支持 目标检测 + 实例分割 + 姿态估计
  • 采用 Anchor-Free + Distribution Focal Loss
  • 提供 CLI & Python API,易于部署。
  • 在 COCO 上 mAP 53.9(YOLOv8x)。

YOLOv9 (2024)

📌 论文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
📌 代码: WongKinYiu YOLOv9
📌 特点

  • 提出 PGI (Programmable Gradient Information) 解决信息丢失问题。
  • 采用 GELAN (Generalized Efficient Layer Aggregation Network) 骨干。
  • 在 COCO 上 mAP 63.0(YOLOv9-E),SOTA 性能

YOLOv10 (2024)

📌 论文: YOLOv10: Real-Time End-to-End Object Detection
📌 代码: THU-MIG YOLOv10
📌 特点

  • 清华 MIG 团队 提出,无 NMS(Non-Maximum Suppression)。
  • 采用 Consistent Dual Assignments 提升端到端训练。
  • 在 COCO 上 mAP 56.8(YOLOv10-X),速度更快

YOLOv11 (2024)

📌 论文: 尚未正式发布(社区改进版)
📌 代码: 社区实现
📌 特点

  • 目前 非官方版本,部分改进包括:
    • 更轻量级设计(适合移动端)。
    • 改进的注意力机制(如 EMA、SimAM)。
    • 结合 Diffusion 模型 进行数据增强。

总结

版本年份骨干网络关键改进mAP (COCO)项目地址
YOLOv12016Darknet单阶段检测63.4 (VOC)Darknet
YOLOv22017Darknet-19Anchor Boxes78.6 (VOC)Darknet
YOLOv32018Darknet-53多尺度预测33.0Darknet
YOLOv42020CSPDarknet53PANet + SPP43.5Darknet
YOLOv52020CSPNetPyTorch 实现50.7Ultralytics
YOLOv62022EfficientRepAnchor-Free52.8Meituan
YOLOv72022E-ELAN辅助训练头56.8WongKinYiu
YOLOv82023CSPDarknet多任务支持53.9Ultralytics
YOLOv92024GELANPGI 机制63.0WongKinYiu
YOLOv102024CSPNet无 NMS56.8THU-MIG
YOLOv112024社区改进轻量化-社区

如何选择 YOLO 版本?

  • 工业部署 → YOLOv5 / YOLOv8(PyTorch 生态友好)
  • 最高精度 → YOLOv9 / YOLOv10
  • 移动端/嵌入式 → YOLOv5s / YOLOv8n
  • 学术研究 → YOLOv7 / YOLOv9

YOLO 系列仍在快速发展,建议关注 Ultralytics、Meituan、WongKinYiu 等团队的最新研究! 🚀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐系统架构设计

1.分析用户行为数据​:​ 收集用户的活跃时间、点击行为、浏览历史等数据。​分析用户的活跃模式,确定用户最活跃的时间段。​kafka flink 数据库 分析用户行为并存储 2. 预生成推荐内容​:​ 在用户活跃时间之前,预先生成推荐…

BERT类模型

1. BERT类模型是否需要处理 [CLS] 或池化? 那首先搞懂 [CLS] 和池化 (1)[CLS] 的作用 BERT 的输入格式中,每个序列的开头会添加一个特殊的 [CLS] Token(Classification Token)。它的设计初衷是为分类任务…

我的世界云端服务器具体是指什么?

我的世界云端服务器是指一种基于互联网的多人游戏服务器,将游戏服务器运行在云平台上,而不是在本地计算机中,这使用户不需要考虑自身电脑的性能和网络稳定性,只需要通过网络连接到云端服务器,就可以享受到顺畅的游戏体…

软考(信息系统运行管理员)

第一章 信息系统运维概述 1.1 信息系统概述 信息的含义和类型 信息的含义: 一般:人们关心的事情的消息或知识。香农(信息论创始人):用来减少随机不确定性的东西(标志着信息科学进入定量研究阶段&#xff…

Unity基础学习(九)输入系统全解析:鼠标、键盘与轴控制

目录 一、Input类 1. 鼠标输入 2. 键盘输入 3. 默认轴输入 (1) 基础参数 (2)按键绑定参数 (3)输入响应参数 (4)输入类型与设备参数 (5)不同类型轴的参…

VBA将PDF文档内容逐行写入Excel

VBA是无法直接读取PDF文档的,但结合上期我给大家介绍了PDF转换工具xpdf-tools-4.05,先利用它将PDF文档转换为TXT文档,然后再将TXT的内容写入Excel,这样就间接实现了将PDF文档的内容导入Excel的操作。下面的代码将向大家演示如何实…

Spring Boot之MCP Client开发全介绍

Spring AI MCP(模型上下文协议,Model Context Protocol)客户端启动器为 Spring Boot 应用程序中的 MCP 客户端功能提供了自动配置支持。它支持同步和异步两种客户端实现方式,并提供了多种传输选项。 MCP 客户端启动器提供以下功能: 多客户端实例管理 支持管理多个客户端实…

[题解]2023CCPC黑龙江省赛 - Folder

来源:F.Folder - Codeforces题意:给定由 n ( 1 ≤ n ≤ 1 0 5 ) n(1\le n\le 10^5) n(1≤n≤105)个结点组成的树,每次操作可将一棵子树接到其他结点上。求将树转换为一棵斜树的最小操作次数。关键词:思维(签到)题解:斜…

string[字符串中第一个的唯一字符][蓝桥杯]

使用哈希表解决 class Solution { public:int firstUniqChar(string s) {int arr[26];for(int i0;i<s.size();i){arr[s[i]-a];}for(int i0;i<s.size();i){if(arr[s[i]-a]1)return i;}return -1;} };

【深度学习-Day 8】让数据说话:Python 可视化双雄 Matplotlib 与 Seaborn 教程

Langchain系列文章目录 01-玩转LangChain&#xff1a;从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块&#xff1a;四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain&#xff1a;从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…

Flink 实时数据一致性与 Exactly-Once 语义保障实战

在构建企业级实时数仓的过程中,“数据一致性” 是保障指标准确性的核心能力,尤其是在金融、电商、医疗等对数据敏感度极高的场景中。Flink 作为流批一体的实时计算引擎,其内建的 Exactly-Once 语义为我们提供了强有力的保障机制。本篇将围绕如何实现端到端的数据一致性、如何…

傅利叶十周年,升级核心战略:“有温度”的具身智能蓝图

5月9日&#xff0c;傅利叶十周年庆典暨首届具身智能生态峰会在上海正式召开。本次大会以“十年共创&#xff0c;具身成翼”为主题&#xff0c;汇聚了来自通用机器人与医疗康复领域的顶尖专家学者、合作伙伴与投资机构&#xff0c;共同探索具身智能在未来十年的技术应用与生态发…

Docker中mysql镜像保存与导入

一、Docker中mysql镜像保存 Docker 的 MySQL 镜像保存通常有两种场景&#xff1a;一种是保存镜像本身的修改&#xff08;如配置、初始化数据&#xff09;&#xff0c;另一种是持久化保存容器运行时产生的数据&#xff08;如数据库表、用户数据&#xff09;。以下是具体方法&am…

大模型微调指南之 LLaMA-Factory 篇:一键启动LLaMA系列模型高效微调

文章目录 一、简介二、如何安装2.1 安装2.2 校验 三、开始使用3.1 可视化界面3.2 使用命令行3.2.1 模型微调训练3.2.2 模型合并3.2.3 模型推理3.2.4 模型评估 四、高级功能4.1 分布训练4.2 DeepSpeed4.2.1 单机多卡4.2.2 多机多卡 五、日志分析 一、简介 LLaMA-Factory 是一个…

记录一次window2012r2安装配置oracle11g的过程-出现的错误以及解决方法

Windows server 2012R2安装Oracle11g 出现的错误 同事反馈正常安装oracle后&#xff0c; 使用命令行 sqlplus sys / as sysdba出现“ORA-12560:TNS:协议适配器错误”。 去services.msc服务状态里面 OracleOraDb11g_home1TNSListener服务停止状态&#xff0c;而且无法启动。 …

2003-2020年高铁线路信息数据

2003-2020年高铁线路信息数据 1、时间&#xff1a;2003-2020年 2、来源&#xff1a;Chinese High-speed Rail and Airline Database&#xff0c;CRAD 3、指标&#xff1a;高铁线路名称、起点名、终点名、开通时间、线路长度(km)、设计速度(km/h&#xff09;、沿途主要车站 …

【论文阅读】FreePCA

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis 原文摘要 问题背景 核心挑战&#xff1a; 长视频生成通常依赖在短视频上训练的模型&#xff0c;但由于视频帧数增加会导致数…

Linux:线程同步与互斥

目录 线程互斥 锁 初始化 销毁 加锁 解锁 线程同步 条件变量 初始化 销毁 等待条件满足 唤醒等待 pthread_cond_signal pthread_cond_broadcast 生产者消费者模型 3种关系 2种角色 1个交易场所 POSIX信号量 初始化 销毁 等待 发布 线程互斥 互斥相关…

LeetCode --- 448 周赛

题目列表 3536. 两个数字的最大乘积 3537. 填充特殊网格 3538. 合并得到最小旅行时间 3539. 魔法序列的数组乘积之和 一、两个数字的最大乘积 由于数据都是正数&#xff0c;所以乘积最大的两个数&#xff0c;本质就是找数组中最大的两个数即可&#xff0c;可以排序后直接找到…

Azure Document Intelligence

Azure Document Intelligence(以前称为 Form Recognizer)是一项云服务&#xff0c;可用于从文档中提取文本、键值对、表等信息。下面是一个使用 Python SDK 进行文档转换和提取信息的基本示例。 1. 安装依赖 首先&#xff0c;你需要安装 azure-ai-formrecognizer 库&#xff0c…