深度学习基础--目标检测常见算法简介(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、SSD、YOLO)

在这里插入图片描述

博主简介:努力学习的22级本科生一枚 🌟​;探索AI算法,C++,go语言的世界;在迷茫中寻找光芒​🌸​
博客主页:羊小猪~~-CSDN博客
内容简介:常见目标检测算法简介​😕​​😕​​😕​​😕​​😕​​😕​​😕​​😕​​😕​
往期内容:深度学习基础–目标检测入门简介-CSDN博客

文章目录

  • 1、tow-stage
    • R-CNN
    • Fast R-CNN
    • Faster R-CNN
    • Mask R-CNN
  • 2、one-stage
    • 单发多宽检测(SSD)
    • YOLO
  • 3、参考资料

1、tow-stage

R-CNN

最早的目标检测模型。

在这里插入图片描述

📖 简介

传统目标检测的思路,采用提取框,对每个提取框进行特征提取、图像分类、非极大值抑制四个步骤进行检测。

对于一张图片来说,R-CNN首先会基于启发式搜索算法生成大约2000个候选区域,然后每个区域固定大小,并且传入一个CNN模型中,最后得到一个特征向量,这个向量会传到一个SVM模型中,进行类别计算,进行分类,并且,最后运用 了一个边界框回归模型,通过边框回归模型对框的准确位置进行修正。

📚 解释一些名词

  • 启发式搜索,这个算很难,也包含很多算法,简单理解他的作用是在图片上选取物体可能出现的区域框(锚框);
  • 非极大值抑制:是一种在目标检测中去除冗余边界框的后处理算法,通过保留局部得分最高的检测框并抑制与其重叠度(IoU)超过阈值的低得分框,实现检测结果的唯一性与精确性;这个在上一篇博客中已经简单介绍了(深度学习基础–目标检测入门简介-CSDN博客),就是去除多余的锚框;

🐾 算法步骤

  1. 使用启发式搜索来选择锚框;
  2. 使用预训练模型来对每个锚框抽取特征;
  3. 训练一个SVM来对类别进行分类;
  4. 训练一个线性回归模型来预测边缘框的偏移,这一步就是将锚框来预测他真实的位置(边缘框)偏移;

上面简介中提到每个区域固定大小,但是实际上用启发式算法进行搜索的时候,每次选择的锚框大小是不同的,将不同大小的锚框变成一个统一形状的算法就是Rol pooling;

💁‍♂ Rol pooling,也称感兴趣域池化层,作用是将大小不一的锚框统一形状。

📘 原理

给定一个锚框,先将其均匀地分割成 n * m 块,然后输出每块里的最大值,这样的话,不管锚框有多大,只要给定了 n 和 m 的值,总是输出 nm 个值,达到统一形状的作用。

在这里插入图片描述


缺点:虽然有效提取了特征,但是速度非常慢,因为在第二个步骤用训练好的模型对每个锚框进行特征提取的时候,计算非常大(因为启发式算法大约生成2000个框)。

Fast R-CNN

🐤R-CNN:

  • 对每个锚框分别进行特征提取;
  • R-CNN是前向传播的,而且比如说对一张图片划分了2000张锚框,那么在进行特征提取的时候通常会有重叠部分,故导致了从重复计算。Fast R-CNN就是解决这个问题的;

🥅 Fast R-CNN网络图

在这里插入图片描述

🚂 原理简介,与R-CNN对比着看:

  • 首先由两进行两部计算,分别是锚框生成、图片特征提取,对应着上图中两条分支:

    • 锚框生成:和R-CNN一样;

    • 特征提取(CNN):对于一张图片,首先使用CNN对整张图片进行特征提取;

  • Rol pooling这里有两步:

    • 1️⃣映射:锚框(selective search)按照一定比例映射到特征提取(CNN)的输出上;
    • 2️⃣ Rol pooing:这一步和R-CNN一样,统一锚框大小。
  • 之后采用一个全连接层进行分类(R-CNN用的是SVM),输出类别。


🚅比R-CNN快的原因:最核心的原因就是只需要对整体图片进行一次特征提取就行了,不需要分别对每个锚框进行特征提取。

Faster R-CNN

这个算法的改进是提出来RPN(区域建议网络)来代替selective search

在这里插入图片描述

🔖 RPN简介

这个网络学习的时候理解起来还是有难度的😢

🎡 作用:生成大量很差的锚框,然后进行预测,最终输出比较好的锚框供后面网络使用(预测效果好的会进入Rol Pooing);

😿 原理简介

  • CNN特征提取后,再次运用一次卷积操作,然后用启发式算法搜索来初始化锚框;

  • 然后判断锚框是否包含物体,这里分为两步:

    • 1️⃣ 分类:RPN对每个锚框进行分类,判断他是否包含目标物体,这里输出的是一个概率值;
    • 2️⃣ 回归:调整锚框位置和大小;
  • 最后采用NMS对锚框进行筛选。


🉐 特点:精度高,但是计算量巨大,慢。

Mask R-CNN

这个算法是对Faster R-CNN基础上修改而来,他的作用是:解决传统目标检测,即只输出边界框无法提供像素级分割信息的问题。

像素级分割:生成每个物体的精确轮廓掩码.

在这里插入图片描述

从图像看的话,对比Fast R-CNN,有两个不同:

  • 用Rol align代替Rol pooling;
  • 在Rol align上新增一个分支;

这个难度我学的时候也很蒙,感觉好难😢

在学这个网络前,先学一下什么叫做二值掩码

  • 二值掩码是一种由0和1(或255)组成的二值图像,用于标记原始图像中需要关注或操作的区域。上图的右下部分图。

🔬 难度大,梳理一下网络:

  1. 特征提取
    • 输入图像通过卷积神经网络生成特征图。
  2. 区域建议网络(RPN)
    • 在特征图上生成锚框,通过分类和回归生成候选区域,这部分和Fast R-CNN一样
  3. RoI Align
    • 将候选区域映射到特征图上,使用双线性插值提取固定大小的特征(如 7×77×7 或 14×1414×14),与Rol pooling不同的是映射算法不同。
  4. 分类与回归分支
    • 对每个 RoI 进行分类和边界框修正,这部分和Fast R-CNN一样
  5. 掩码分支
    • 对每个 RoI 生成二值掩码,最终通过阈值化得到像素级分割结果,先理解为对不同物体分别进行不同颜色可视化即可😭,由于是像素级别的,故大概轮廓也能显示出来。
  6. 全连接层
    • 进行图片分类。

2、one-stage

单发多宽检测(SSD)

👀 先看网络结构:

在这里插入图片描述

初看网络结构,可以观察到他也是前向传播的,而且在传播的时候一直进行预测。

👀再看

在这里插入图片描述

👓 特点

  • 对给定的锚框直接进行预测,不需要进行两个阶段,这也是为什么比Faster R-CNN快的原因;

  • SSD 通过做不同分辨率下的预测来提升最终的效果,越到底层的 feature map,就越大,越往上,feature map 越少,因此底层更加有利于小物体的检测,而上层更有利于大物体的检测

😢 缺点

  • 速度快,但是精度不好。

YOLO

用最多的模型

在这里插入图片描述

📚 解释

  • 尽量让锚框不重叠—–》将图片均匀分成S X S个锚框。

  • 每个锚框预测B个边缘框,这个意思是一个锚框可能有多个物体,故在他身边预测多个锚框进行特征提取、分类,如上图中的蓝色圆圈。

YOLO有很多版本,也非常值得学习的。

3、参考资料

  • 【44 物体检测算法:R-CNN,SSD,YOLO【动手学深度学习v2】】https://www.bilibili.com/video/BV1Db4y1C71g?vd_source=1fd424333dd77a7d3e2e741f7d6fd4ee
  • R-CNN_百度百科
  • 李沐动手学深度学习V2-目标检测SSD_深度学习与目标检测 第2版第二版-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/82340.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传输层协议UDP和TCP

传输层协议UDP和TCP 1、UDP2、TCP2.1、TCP协议段格式2.2、确认应答(ACK)机制2.3、超时重传机制2.4、连接管理机制2.5、理解CLOSE_WAIT状态2.6、理解TIME_WAIT状态2.7、流量控制2.8、滑动窗口2.9、拥塞控制2.10、延迟应答2.11、捎带应答2.12、面向字节流2.13、粘包问题2.14、TCP…

PMIC电源管理模块的PCB设计

目录 PMU模块简介 PMU的PCB设计 PMU模块简介 PMIC(电源管理集成电路)是现代电子设备的核心模块,负责高效协调多路电源的转换、分配与监控。它通过集成DC-DC降压/升压、LDO线性稳压、电池充电管理、功耗状态切换等功能,替代传统分…

Ubuntu 配置网络接口端点(静态 IP 地址)详细教程

在 Ubuntu 系统中,配置网络接口端点通常指的是为您的有线或无线网卡设置一个固定的 IP 地址、子网掩码、网关以及 DNS 服务器。这对于服务器或者需要稳定网络标识的设备来说非常重要。 使用 Netplan (Ubuntu 17.10 及更高版本的默认方式)使用 ifupdown (通过 /etc/…

浅聊大模型-有条件的文本生成

大家好我是木木,自从2022年11月30日OpenAI发布ChatGPT后,大模型迅速火热起来,人工智能作为当下最火的行业之一,2025年春节期间DeepSeek R1模型大火。LLM中有很多的技术,今天我们聊聊大模型-有条件的文本生成。 什么是…

华为银河麒麟 V10(ARM)系统软件部署全攻略:Redis、RabbitMQ、MySQL 等集群搭建指南

一、Redis 集群部署(主从 哨兵模式) 1. 环境准备 系统:华为银河麒麟 V10(ARM64)节点:3 台服务器(1 主 2 从 3 哨兵) 2. 安装包下载 bash # 华为镜像站 wget https://update.c…

Mysql数据库进阶

一、Mysql组织架构 连接层 1.验证用户的身份,用户名密码是否匹配 2.提供两种连接方式(TCP/IP连接、socket连接) 3.连接层提供了一个与sql层交互的线程 SQL层 1.接收连接层传过来的SQL语句 2.验证执行的SQL语法 3.验证SQL的语义(DDL,DML,DQL,DCL) 4.解析器:解析SQL语句,生…

系统思考:短期困境与长期收益

最近在项目中,一直有学员会提到一个议题,如何平衡当前困境和长期收益? 我的思考是在商业和人生的路上,我们常常听到“鱼和熊掌不可兼得”的说法,似乎短期利益和长期目标注定是对立的。但事实上,鱼与熊掌是…

Spring Web MVC快速入门

什么是Spring Web MVC Spring Web MVC 是基于 Servlet API 构建的原始 Web 框架,从⼀开始就包含在 Spring 框架中。它的正式名称“Spring Web MVC”来⾃其源模块的名称(Spring-webmvc),但它通常被称为"Spring MVC". View(视图) 指在应⽤程序…

DeepSeek基于注意力模型的可控图像生成

DeepSeek大模型高性能核心技术与多模态融合开发 - 商品搜索 - 京东 图像的加噪与模型训练 在扩散模型的训练过程中,首先需要对输入的信号进行加噪处理,经典的加噪过程是在图像进行向量化处理后在其中添加正态分布,而正态分布的值也是与时间…

第十六届蓝桥杯B组第二题

当时在考场的时候这一道题目 无论我是使用JAVA的大数(BIGTHGER)还是赛后 使用PY 都是没有运行出来 今天也是突发奇想在B站上面搜一搜 看了才知道这也是需要一定的数学思维 通过转换 设X来把运算式精简化 避免运行超时 下面则是代码 public class lanba…

HT71663同步升压2.7V-13V输入10A聚能芯半导体禾润一级代理

在便携式设备飞速发展的今天,电源转换效率与产品尺寸始终是行业难以平衡的难题。但现在,HT71663 高功率全集成升压转换器强势登场,一举打破僵局,为便携式系统带来颠覆性的高效小尺寸解决方案!​ HT71663 的卓越性能&am…

Unity:输入系统(Input System)与持续检测键盘按键(Input.GetKey)

目录 Unity 的两套输入系统: 🔍 Input.GetKey 详解 🎯 对比:常用的输入检测方法 技术底层原理(简化版) 示例:角色移动 为什么会被“新输入系统”替代? Unity 的两套输入系统&…

港大今年开源了哪些SLAM算法?

过去的5个月,香港大学 MaRS 实验室陆续开源了四套面向无人机的在线 SLAM 框架:**FAST-LIVO2 、Point-LIO(grid-map 分支) 、Voxel-SLAM 、Swarm-LIO2 **。这四套框架覆盖了单机三传感器融合、高带宽高速机动、长时间多级地图优化以…

【质量管理】TRIZ因果链分析:解码质量问题的“多米诺效应“

为什么要使用因果链分析 没有发现问题并不等于没有问题。爱因斯坦曾说,如果我只有一个小时的时间来拯救世界,我将花45分钟时间分析问题,10分钟的时间来检查问题,最后5分钟的时间来解决问题。可见问题分析的重要性。 在质量管理实践…

线程中常用的方法

知识点详细说明 Java线程的核心方法集中在Thread类和Object类中,以下是新增整合后的常用方法分类解析: 1. 线程生命周期控制 方法作用注意事项start()启动新线程,JVM调用run()方法多次调用会抛出IllegalThreadStateException(线程状态不可逆)。run()线程的任务逻辑直接调…

c++:迭代器(Iterator)

目录 🚪什么是迭代器? 🔧 迭代器的本质 为什么不用普通数组或下标? STL容器的迭代器并不是共用一个类型! 迭代器的类型(Iterator Categories) 📦 常见容器的迭代器类型 ✅ 迭…

【文件系统—散列结构文件】

文章目录 一、实验目的实验内容设计思路 三、实验代码实现四、总结 一、实验目的 理解linux文件系统的内部技术,掌握linux与文件有关的系统调用命令,并在此基础上建立面向随机检索的散列结构文件;## 二、实验内容与设计思想 实验内容 1.设…

力扣26——删除有序数组中的重复项

目录 1.题目描述: 2.算法分析: 3.代码展示: 1.题目描述: 给你一个 非严格递增排列 的数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度。元素的 相对…

ggplot2 | GO barplot with gene list

1. 效果图 2. 代码 数据是GO的输出结果,本文使用的是 metascape 输出的excel挑选的若干行。 # 1. 读取数据 datread.csv("E:\\research\\scPolyA-seq2\\GO-APA-Timepoint\\test.csv", sep"\t") head(dat)# 2. 选择所需要的列 dat.usedat[, c(…

学习搭子,秘塔AI搜索

什么是秘塔AI搜索 《秘塔AI搜索》的网址:https://metaso.cn/ 功能:AI搜索和知识学习,其中学习部分是亮点,也是主要推荐理由。对应的入口:https://metaso.cn/study 推荐理由 界面细节做工精良《今天学点啥》板块的知…