从代码学习深度学习 - 区域卷积神经网络(R-CNN)系列 PyTorch版

文章目录

  • 前言
  • R-CNN
  • Fast R-CNN
    • 兴趣区域汇聚层 (RoI Pooling)
      • 代码示例:兴趣区域汇聚层 (RoI Pooling) 的计算方法
  • Faster R-CNN
  • Mask R-CNN
    • 双线性插值 (Bilinear Interpolation) 与兴趣区域对齐 (RoI Align)
    • 兴趣区域对齐层的输入输出
    • 全卷积网络 (FCN) 的作用
    • 掩码输出形状
  • 总结


前言

欢迎来到“从代码学习深度学习”系列博客!在计算机视觉领域,目标检测是一个核心任务,它不仅要求我们识别图像中的物体,还需要定位它们的位置。区域卷积神经网络(Region-based Convolutional Neural Networks, R-CNN)及其后续改进版本(Fast R-CNN, Faster R-CNN, Mask R-CNN)是解决这一问题的里程碑式工作。它们逐步提高了目标检测的准确性和效率,并扩展到实例分割等更复杂的任务。

本篇博客将带你回顾 R-CNN 系列模型的发展历程,并通过 PyTorch 代码示例(重点在兴趣区域汇聚层)来理解其核心组件的工作原理。我们将从最初的 R-CNN 开始,逐步探索其改进版本,理解它们是如何解决前代模型的瓶颈,并引入新的创新思想的。

完整代码:下载链接

R-CNN

R-CNN (Regions with CNN features) 是将深度学习应用于目标检测领域的开创性工作之一。它的核心思想是利用卷积神经网络(CNN)提取区域特征,从而进行目标分类和定位。

R-CNN 的第一步是从整张图像中挑选出可能包含物体的小区域,称为“候选区域”或“提议区域”(region proposals)。这些区域是由 Selective Search 这类算法选出来的,不是通过滑动窗口或CNN直接得到的。数量大约为2000个。(注:锚框是Faster R-CNN等后续方法的技术,R-CNN并不使用锚框。)R-CNN通过先选出可能含目标的图像区域,对这些区域单独用CNN提取特征,再用这些特征去判断目标种类和更精准的位置。

在这里插入图片描述

上图展示了R-CNN模型。具体来说,R-CNN包括以下四个步骤:

  1. 对输入图像使用_选择性搜索_(Selective Search)来选取多个高质量的提议区域。这些提议区域通常是在多个尺度下选取的,并具有不同的形状和大小。每个提议区域都将被标注类别和真实边界框。
  2. 选择一个预训练的卷积神经网络,并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸,并通过前向传播输出抽取的提议区域特征。
  3. 将每个提议区域的特征连同其标注的类别作为一个样本。训练多个支持向量机(SVM)对目标分类,其中每个支持向量机用来判断样本是否属于某一个类别。
  4. 将每个提议区域的特征连同其标注的边界框作为一个样本,训练线性回归模型来预测真实边界框。

尽管R-CNN模型通过预训练的卷积神经网络有效地抽取了图像特征,但它的速度很慢。因为可能从一张图像中选出上千个提议区域,这需要上千次的卷积神经网络的前向传播来执行目标检测。这种庞大的计算量使得R-CNN在现实世界中难以被广泛应用。

Fast R-CNN

针对 R-CNN 的速度瓶颈,Fast R-CNN 提出了关键改进。R-CNN的主要性能瓶颈在于,对每个提议区域,卷积神经网络的前向传播是独立的,而没有共享计算。由于这些区域通常有重叠,独立的特征抽取会导致重复的计算。Fast R-CNN 对R-CNN的主要改进之一,是仅在整张图象上执行卷积神经网络的前向传播。

在这里插入图片描述

上图中描述了Fast R-CNN模型。它的主要计算如下:

  1. 与R-CNN相比,Fast R-CNN用来提取特征的卷积神经网络的输入是整个图像,而不是各个提议区域。此外,这个网络通常会参与训练。设输入为一张图像,将卷积神经网络的输出的形状记为1×c×h1×w1。
  2. 假设选择性搜索生成了n个提议区域。这些形状各异的提议区域在卷积神经网络的输出上分别标出了形状各异的兴趣区域。然后,这些感兴趣的区域需要进一步抽取出形状相同的特征(比如指定高度h2和宽度w2),以便于连结后输出。为了实现这一目标,Fast R-CNN引入了_兴趣区域汇聚层_(RoI pooling):将卷积神经网络的输出和提议区域作为输入,输出连结后的各个提议区域抽取的特征,形状为n×c×h2×w2。
  3. 通过全连接层将输出形状变换为n×d,其中超参数d取决于模型设计。
  4. 预测n个提议区域中每个区域的类别和边界框。更具体地说,在预测类别和边界框时,将全连接层的输出分别转换为形状为n×q(q是类别的数量)的输出和形状为n×4的输出。其中预测类别时使用softmax回归。

兴趣区域汇聚层 (RoI Pooling)

在汇聚层中,我们通过设置汇聚窗口、填充和步幅的大小来间接控制输出形状。而兴趣区域汇聚层对每个区域的输出形状是可以直接指定的。

例如,指定每个区域输出的高和宽分别为h2和w2。对于任何形状为h×w的兴趣区域窗口,该窗口将被划分为h2×w2子窗口网格,其中每个子窗口的大小约为(h/h2)×(w/w2)。在实践中,任何子窗口的高度和宽度都应向上取整,其中的最大元素作为该子窗口的输出。因此,兴趣区域汇聚层可从形状各异的兴趣区域中均抽取出形状相同的特征。

代码示例:兴趣区域汇聚层 (RoI Pooling) 的计算方法

下面我们通过一段 PyTorch 代码来演示兴趣区域汇聚层 (RoI Pooling) 的计算方法。

# 演示兴趣区域汇聚层(ROI Pooling)的计算方法
import torch  # 导入PyTorch库
import torchvision  # 导入PyTorch视觉库# 创建一个4×4的特征图张量作为CNN抽取的特征
# torch.arange(16.) 创建一个包含0到15的一维浮点数张量,维度为[16]
# reshape(1, 1, 4, 4) 将张量重塑为4维张量,维度为[1, 1, 4, 4]
#   第一个维度: 批次大小(batch size) = 1
#   第二个维度: 通道数(channels) = 1
#   第三个维度: 高度(height) = 4
#   第四个维度: 宽度(width) = 4
X = torch.arange(16.).reshape(1, 1, 4, 4)
X[:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

18个国内wordpress主题推荐

工厂wordpress中文主题 红蓝色搭配的工厂wordpress中文主题,适合从事生产、加工的工厂官方网站使用。 https://www.jianzhanpress.com/?p8533 Pithy设计师wordpress网站模板 精练简洁的wordpress模板,设计师或设计工作室展示型网站模板。 https://w…

低成本自动化改造技术锚点深度解析

执行摘要 本文旨在深入剖析四项关键的低成本自动化技术,这些技术为工业转型提供了显著的运营和经济效益。文章将提供实用且深入的指导,涵盖老旧设备联网、AGV车队优化、空压机系统智能能耗管控以及此类项目投资回报率(ROI)的严谨…

Oracle — 数据管理

介绍 Oracle数据库作为全球领先的关系型数据库管理系统,其数据管理能力以高效性、安全性和智能化为核心。系统通过多维度技术实现海量数据的存储与实时处理,支持高并发事务操作与复杂分析查询,满足企业关键业务需求。在安全领域,O…

【PhysUnits】3.3 SI 基础量纲单位(units/base.rs)

一、源码 这段代码定义了一系列基础物理量纲的类型别名,并使用标记 trait Canonical 来表示它们是国际单位制(SI)中的基本单位。 use crate::Dimension; use typenum::{P1, Z0};/// 标记特质,表示基础量纲单位 pub trait Canoni…

硬件实操技巧记录

本篇自用,防止自己忘记 焊接技巧 一般都是随机电烙铁锡膏组合。 拆电阻时,电烙铁放在电阻上,加锡膏,这个时候熔点会降低,电阻更容易掉下来,用电烙铁带走;焊电阻时,一端点锡膏&…

13.thinkphp的Session和cookie

一.Session 1. 在使用Session之前,需要开启初始化,在中间件文件middleware.php; // Session 初始化 \think\middleware\SessionInit::class 2. TP6.0不支持原生$_SESSION的获取方式,也不支持session_开头的函数&…

TensorFlow中数据集的创建

目录 前言示例示例1示例2示例3示例4 前言 TensorFlow 的 tf.data.Dataset API 提供了一种灵活且高效的方式来加载和预处理数据。它可以轻松处理大规模数据集,并支持多种数据源格式。 所有数据集相关的内容都在tf.data中,from_tensor_slices:…

第十六章,网络型攻击防范技术

网络攻击介绍 网络攻击 --- 指的是入侵或破坏网络上的服务器 ( 主机 ) ,盗取服务器的敏感数据或占用网络带宽。 网络攻击分类: 流量型攻击 网络层攻击 应用层攻击 单包攻击 畸形报文攻击 --- 向目标主机发送有缺陷的IP报文,使得目标在…

服务器不备案有影响吗

在当今数字化的时代,服务器成为了众多企业和个人开展业务、展示自我的重要工具。然而,有一个问题常常被忽视,那就是服务器不备案到底有没有影响? 答案是肯定的!服务器不备案,影响可不小。据相关数据显示&a…

【LeetCode Solutions】LeetCode 176 ~ 180 题解

CONTENTS LeetCode 176. 第二高的薪水(SQL 中等)LeetCode 177. 第 N 高的薪水(SQL 中等)LeetCode 178. 分数排名(SQL 中等)LeetCode 179. 最大数(中等)LeetCode 180. 连续出现的数字…

D720201 PCIE 转USB HUB

1. 启动时出现了下面错误 [ 4.682595] pcieport 0004:00:00.0: Signaling PME through PCIe PME interrupt [ 4.684939] pci 0004:01:00.0: Signaling PME through PCIe PME interrupt [ 4.691287] pci 0004:01:00.0: enabling device (0000 -> 0002) [ 5.2962…

【愚公系列】《Manus极简入门》028-创业规划顾问:“创业导航仪”

🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! &#x1f…

IBM BAW(原BPM升级版)使用教程第六讲

续前篇! 一、事件:Undercover Agent 在 IBM Business Automation Workflow (BAW) 中,Undercover Agent (UCA) 是一个非常独特和强大的概念,旨在实现跨流程或系统的事件处理和触发机制。Undercover Agent 主要用于 事件驱动的流程…

【强化学习】动态规划(Dynamic Programming, DP)算法

1、动态规划算法解题 LeetCode 931. 下降路径最小和 给你一个 n x n 的 方形 整数数组 matrix ,请你找出并返回通过 matrix 的下降路径 的 最小和 。 下降路径 可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选…

深入探索DSPy:开启模块化AI编程的新篇章

在当今快速发展的AI时代,语言模型(LM)的应用已经渗透到各个领域,从简单的文本生成到复杂的多模态任务,语言模型展现出了强大的能力。然而,随着应用场景的日益复杂,开发者们面临着一个共同的挑战…

List<T>中每次取固定长度的数据

工具类方法 package org.common.util; import java.util.ArrayList; import java.util.Iterator; import java.util.List;/*** 批处理取值组件* param <T>*/ public class BatchIterator<T> implements Iterator<List<T>> {private final List<T&g…

深入理解 Java 代理模式:从基础到实战​

在软件开发的世界里&#xff0c;设计模式是程序员智慧的结晶&#xff0c;它们为解决常见问题提供了经过验证的最佳实践。代理模式作为一种常用的结构型设计模式&#xff0c;在 Java 开发中有着广泛的应用。本文将深入探讨 Java 代理模式&#xff0c;从基本概念、分类、实现原理…

android-ndk开发(11): 安装 repo 命令

1. 长话短说 mkdir ~/soft/bin curl -L https://mirrors.tuna.tsinghua.edu.cn/git/git-repo -o repo chmod x repo~/.pathrc 添加: export PATH$PATH:~/soft/bin2. 短话长说 repo 的官方介绍页面&#xff1a; https://gerrit.googlesource.com/git-repo/ repo 的官方下载地…

45.传导发射整改摸底测试方法

传导发射整改摸底测试方法 1. 正式摸底预测试2. 简易方法预测试3. 分析频谱4. 探查传播路径5. 施加措施 1. 正式摸底预测试 去正式实验室做一次预测试&#xff0c;取得频谱图&#xff0c;确定超标频点和超标量&#xff08;备用&#xff09;。 2. 简易方法预测试 用小电流探头…

【漫话机器学习系列】249.Word2Vec自然语言训练模型

【自然语言处理】用 Word2Vec 将词语映射到向量空间详解 一、背景介绍 在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;我们常常需要将文本信息转化为机器能够理解和处理的形式。传统的方法&#xff0c;如 one-hot编码&#xff0c;虽然简单&#xff0c;但存在严重…