目标检测篇---R-CNN梳理

目标检测系列文章

第一章 R-CNN

目标检测系列文章
📄 论文标题
🧠 论文逻辑梳理
- - 1. 引言部分梳理 (动机与思想)
📝 三句话总结
🔍 方法逻辑梳理
🚀 关键创新点
🔗 方法流程图
补充
- 边界框回归 (BBR)
- - 1. BBR 的目标与核心思想
  - 2. BBR 实现细节
  - - 输入 (Input)
    - 目标变换 (Target Transformation)
    - 模型 (Model)
    - 训练 (Training)
    - 推理/应用 (Inference/Application)
  - 3. 关键疑问解答
  - - Q1: 为什么预测“变换” ( $t_*$ ) 而不是直接预测坐标 ( $G_x, G_y, G_w, G_h$ )？
    - Q2: 边界框回归器权重 $\mathbf{w}_*$ 是什么以及如何工作？
    - Q3: 为什么还要单独训练一个SVM用作分类器呢？直接把CNN网络微调最后一层分类成21类（1类背景）作为分类器不更直接么
  - 一些常见技术：
  - - 难例挖掘 (Hard Negative Mining):
    - 非极大值抑制 Non-Maximum Suppression：

📄 论文标题

R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation (CVPR 2014)
作者：Ross Girshick ；Jeff Donahue；Trevor Darrell；Jitendra Malik
团队：UC Berkeley

🧠 论文逻辑梳理

1. 引言部分梳理 (动机与思想)

Aspect	Description (Motivation / Core Idea)
问题背景 (Problem)	2012 年之前，基于传统手工特征（如 `SIFT`, `HOG`）结合机器学习模型（如 `SVM`, `DPM`）的目标检测方法性能趋于饱和，遇到了瓶颈。
机遇 (Opportunity)	与此同时，深度卷积神经网络 (CNN) 在大规模图像分类任务（如 `ImageNet` `LSVRC`）上取得了突破性进展，展现了强大的特征学习和表达能力。
挑战 (Challenge)	如何将 CNN 强大的分类能力有效地应用于需要精确定位的目标检测任务？CNN 通常处理固定大小的输入图像，而检测需要在图像不同位置识别不同大小的物体。
核心思想 (Core Idea)	“Regions with CNN features” (R-CNN)：将目标检测任务分解为两个阶段：首先使用某种机制（如 `Selective Search`）生成与类别无关的候选区域 (Region Proposals)，然后对每个区域独立地使用 CNN 提取特征并进行分类和位置修正。
核心假设 (Hypothesis)	应用深度 CNN 从候选区域中提取的丰富、有层次的特征，将显著提升目标检测的准确率，远超传统方法。

📝 三句话总结

方面	内容
❓发现的老问题	1、传统特征局限： `HOG`, `SIFT` 等手工特征表达能力不足，难以应对物体外观多样性。 2、性能瓶颈：以 DPM 为代表的传统检测器性能提升缓慢。 3、CNN 应用鸿沟：强大的 CNN 分类模型难于直接有效地应用于需要定位的检测任务。
💡提出的新方法 (R-CNN)	核心框架：提出一个多阶段流程： 1. 区域提议 (`Selective Search`)：生成类别无关的候选区域。 2. 特征提取 (`CNN`)：对每个变形后的区域（227 * 227）用（微调后）`AlexNet` 提取特征。 3. 分类 (`SVM`)：用类别专属的线性 `SVM` 对特征进行分类。 4. 定位精修 (`BBR`)：用类别专属的 `BBR` 修正候选框位置。关键技术：成功应用迁移学习，将在 `ImageNet` 上预训练的知识迁移到检测任务。
⚡新方法的局限性	速度慢：对每个候选区域（~2k/图）独立运行 CNN，计算成本极高。训练复杂：多阶段训练（CNN微调、SVM训练、BBR训练）流程繁琐，非端到端。存储开销大：需要缓存所有区域的特征用于 SVM/BBR 训练，占用大量磁盘空间。

🔍 方法逻辑梳理

R-CNN 本身不是一个单一的端到端模型，而是一个处理流水线 (Pipeline)。

模型输入：
- 一张 RGB 图像。
处理流程：
1. 候选区域生成 (Region Proposal - 外部模块):
  - 输入： 原始图像。
  - 处理： 运行 Selective Search 算法。
  - 输出： 约 2000 个候选区域的坐标 $P_1, P_2, ..., P_{2k}]$ 。
2. 特征提取 (CNN Feature Extractor):
  - 输入： 图像和所有候选区域 $P_i$ 。
  - 处理 (Encoder 角色)：
    - 对每个 $P_i$ ，从原图中裁剪出对应区域的图像块。
    - 将图像块强制变形 (warp) 到 CNN 输入尺寸 (e.g., 227x227)。
    - 将变形后的图像块送入微调后的 AlexNet 进行前向传播。
    - 提取特定层的激活值作为特征（如 pool5 层特征 $\phi_{pool5}(P_i)$ 或 fc7 层 4096 维向量 $\phi_{fc7}(P_i)$ ）。
  - 输出： 每个候选区域 $P_i$ 对应的高维特征向量 $\phi(P_i)$ 。
3. 分类 (Classifier - SVMs):
  - 输入： 特征向量 $\phi_{fc7}(P_i)$ 。
  - 处理： 将特征向量输入到 $N + 1$ 个（N 个物体类别 + 1 个背景类别）独立训练好的线性 SVM 中。
  - 输出： $P_i$ 属于每个类别的置信度得分。
4. 定位精修 (Localizer - BBRs):
  - 输入： pool5 特征向量 $\phi_{pool5}(P_i)$ （对于被 SVM 判为非背景的 $P_i$ ）。
  - 处理： 根据 $P_i$ 被判定的类别 $c$ ，使用该类别专属的 BBR 线性模型，基于 $\phi_{pool5}(P_i)$ 预测一个 $d_x, d_y, d_w, d_h)$ 变换。
  - 输出： 经过变换修正后的更精确的边界框 $\hat{G}_i$ 。
5. 后处理 (Post-processing - NMS):
  - 输入： 所有带有类别、分数和（可能修正后）边界框的候选区域。
  - 处理： 对每个类别，应用非极大值抑制 (NMS) 算法，去除重叠度高且分数较低的冗余检测框。
  - 输出： 最终的检测结果列表，每个结果包含类别、置信度和最终边界框。
模型输出：
- 图像中检测到的物体列表，每个物体包含：类别标签、置信度分数、精修后的边界框坐标。
训练过程 (Multi-stage):
1. CNN 微调 (Fine-tuning)：
  - 使用 ImageNet 预训练的 AlexNet 作为起点。
  - 用目标检测数据集中的 warped region proposals 进行微调。将与真实物体 IoU > 0.5 的 proposal 视为对应类别的正样本，其余视为负样本（背景）。最后一层替换为 N+1 路 Softmax。
2. SVM 训练：
  - 使用微调后的 CNN 提取所有 proposals 的 fc7 特征并存盘。
  - 对每个类别，训练一个二元线性 SVM。使用真实边界框作为正样本，与所有真实物体 IoU < 0.3 的 proposals 作为负样本。使用难例挖掘 (Hard Negative Mining)。
3. BBR 训练：
  - 对每个类别，筛选出与该类某个真实边界框 IoU 较高的 proposals $P$ 。
  - 提取这些 $P$ 的 pool5 特征 $\phi_{pool5}(P)$ 。
  - 训练线性回归模型，预测从 $P$ 到其对应真实边界框 $G$ 的变换参数 $t_x, t_y, t_w, t_h)$ 。

🚀 关键创新点

创新点 1: CNN 特征用于检测 (CNN Features for Detection)
- 为什么要这样做？ 传统手工特征表达能力有限，无法很好地应对物体的多样性。CNN 被证明能学习到更鲁棒、更具判别力的层次化特征。
- 不用它会怎样？ 检测精度会停留在 DPM 等方法的水平，难以大幅提升，无法充分利用深度学习带来的红利。
创新点 2: 区域提议 + CNN 结合 (Region Proposals + CNN)
- 为什么要这样做？ CNN 需要固定尺寸输入，而检测需要在图像各处定位物体。区域提议提供了物体可能位置的“候选”，将检测问题转化为对大量候选区域的“分类”问题，使得 CNN 可以被应用。
- 不用它会怎样？ 如果直接在整图上用 CNN 滑窗，计算量巨大且难以处理不同尺寸和长宽比的物体；如果直接让 CNN 输出坐标，在当时的技术条件下难以实现精确且鲁棒的定位。这种结合是当时应用 CNN 进行检测的关键桥梁。
创新点 3: 迁移学习 (Transfer Learning: Pre-training + Fine-tuning)
- 为什么要这样做？ 目标检测数据集通常比大型分类数据集（如 ImageNet）小得多。直接在小数据集上训练深度 CNN 容易过拟合。预训练让模型学习通用的视觉模式，微调则使其适应特定检测任务。
- 不用它会怎样？ 在有限的检测数据上从头训练深度 CNN 效果会差很多，难以收敛到好的性能，无法有效利用 ImageNet 等大规模数据集蕴含的知识。
创新点 4: 边界框回归 (Bounding Box Regression)
- 为什么要这样做？ Selective Search 等区域提议方法产生的候选框定位通常不够精确。
- 不用它会怎样？ 检测框的定位精度会受限于区域提议的质量，即使分类正确，框的位置也可能不够准，导致在需要高 IoU 匹配的应用或评估指标下性能下降。BBR 进一步提升了定位精度。

总而言之，R-CNN 通过巧妙地结合区域提议和强大的 CNN 特征，并利用迁移学习，成功地将深度学习引入目标检测领域，极大地提升了检测精度，开启了后续一系列基于深度学习的检测算法（Fast R-CNN, Faster R-CNN 等）的发展。

🔗 方法流程图

在这里插入图片描述

补充

边界框回归 (BBR)

在这里插入图片描述

1. BBR 的目标与核心思想

目标： 解决由 Selective Search 等方法产生的候选区域框 $P$ (Proposal) 定位不够精确的问题。【相当于有了先验候选区域P，进一步利用先验】
核心思想： 学习一个映射关系，根据从候选区域 $P$ 提取的 CNN 特征，预测出将 $P$ 调整到更接近真实边界框 $G$ (Ground Truth) 所需的变换参数，从而得到一个更精确的预测框 $\hat{G}$

2. BBR 实现细节

输入 (Input)

候选区域框 $P = (P_x, P_y, P_w, P_h)$ ，其中 $P_x, P_y)$ 是中心坐标， $P_w, P_h$ 是宽高。
从该区域提取的 CNN 特征向量，R-CNN 中特指 pool5 层特征 $\phi_5(P)$ 。

目标变换 (Target Transformation)

BBR 不直接预测 $G$ 的坐标，而是预测从 $P$ 到 $G$ 的相对变换量 $t_*$ ( $*$ 代表 $x, y, w, h$ )：

$t_x = (G_x - P_x) / P_w$ (中心 x 平移量，宽度归一化)
$t_y = (G_y - P_y) / P_h$ (中心 y 平移量，高度归一化)
$t_w = \log(G_w / P_w)$ (宽度对数缩放)
$t_h = \log(G_h / P_h)$ (高度对数缩放)

这些 $t_*$ 是模型训练时的真实标签。

模型 (Model)

对每个物体类别训练一组独立的线性回归模型。
模型以 pool5 特征 $\phi_5(P)$ 为输入，预测变换参数 $d_*(P)$ ：
$d_*(P) = \mathbf{w}_*^T \phi_5(P)$
其中 $\mathbf{w}_*$ 是对应类别、对应变换维度 $(*)$ 的学习到的权重向量。

训练 (Training)

数据选择： 只选用与某个真实框 $G$ 重叠度高 (e.g., $\ge 0.6$ ) 的候选框 $P$ 进行训练。
标签计算： 对每个训练样本 $P^i, G^i)$ ，计算真实的变换目标 $t_*^i$ 。
模型学习： 使用带 $L_2$ 正则化的最小二乘法 (岭回归) 寻找最优权重 $\mathbf{w}_*$ ，最小化预测误差：
$\mathbf{w}_* = \arg\min_{\hat{\mathbf{w}}_*} \sum_{i=1}^N (t_*^i - \hat{\mathbf{w}}_*^T \phi_5(P^i))^2 + \lambda \|\hat{\mathbf{w}}_*\|^2$

推理/应用 (Inference/Application)

对于一个通过 SVM 分类器判定为某类别 $c$ 的候选框 $P$ ，提取其 $\phi_5(P)$ 特征。
使用该类别 $c$ 对应的已训练好的权重 $\mathbf{w}_*^c$ 预测变换参数 $d_*(P)$ ：
$d_x(P) = (\mathbf{w}_x^c)^T \phi_5(P)$ , $d_y(P) = (\mathbf{w}_y^c)^T \phi_5(P)$ , …
将预测的变换 $d_*(P)$ 应用于原始框 $P$ ，得到修正后的预测框 $\hat{G} = (\hat{G}_x, \hat{G}_y, \hat{G}_w, \hat{G}_h)$ ：
- $\hat{G}_x = P_w d_x(P) + P_x$
- $\hat{G}_y = P_h d_y(P) + P_y$
- $\hat{G}_w = P_w \exp(d_w(P))$
- $\hat{G}_h = P_h \exp(d_h(P))$

3. 关键疑问解答

Q1: 为什么预测“变换” ( $t_*$ ) 而不是直接预测坐标 ( $G_x, G_y, G_w, G_h$ )？

简化学习任务： 预测相对的、归一化的“微调量”比预测绝对坐标更容易学习，尤其是对于线性模型。模型只需关注如何根据特征修正当前的 $P$ 。
尺度不变性： 变换 $t_*$ 的定义（归一化平移、对数缩放）使得学习目标对物体的大小和位置不敏感，模型更鲁棒。例如，无论 $P$ 大小如何，只要物体中心在 $P$ 中心右侧 10% 宽度处， $t_x$ 就大约是 0.1。
避免困难的绝对映射： 直接预测绝对坐标需要模型处理非常大的输出范围，对输入特征的微小变化可能导致输出剧烈变化，学习不稳定。预测变换将问题约束在一个更合理、更易于学习的空间。
利用 P 的信息： 预测变换显式地利用了候选框 $P$ 作为“起点”或“参考点”。【先验】
再提一点，预测“变换” ($t_*$) 是根据损失函数来定义的：
$\mathbf{w}_* = \arg\min_{\hat{\mathbf{w}}_*} \sum_{i=1}^N (t_*^i - \hat{\mathbf{w}}_*^T \phi_5(P^i))^2 + \lambda \|\hat{\mathbf{w}}_*\|^2$

Q2: 边界框回归器权重 $\mathbf{w}_*$ 是什么以及如何工作？

来源： 权重向量 $\mathbf{w}_*$ 不是预设的，而是通过监督学习训练得到的。训练过程通过最小化预测变换 $d_*$ 与真实目标变换 $t_*$ 之间的误差（如上述岭回归损失函数），找到最优的 $\mathbf{w}_*$ 数值。
本质： $\mathbf{w}_*$ 是线性回归模型的核心参数。对于特定类别、特定变换维度（如“猫”类别的 x 变换），就有一组对应的权重 $\mathbf{w}_x^{cat}$ 。
作用机制： 通过点积运算 ( $d_*(P) = \mathbf{w}_*^T \phi_5(P)$ ) 实现。这个运算本质上是一个加权求和：
$d_*(P) = \sum_{j=1}^K w_j f_j$
其中 $f_j$ 是 $\phi_5(P)$ 特征向量的第 $j$ 维， $w_j$ 是 $\mathbf{w}_*$ 向量的第 $j$ 个权重。
意义： 每个权重 $w_j$ 代表了第 $j$ 个 CNN 特征 $f_j$ 对于预测该特定变换 $d_*$ 的重要性和影响方向。训练好的 $\mathbf{w}_*$ 编码了从数据中学到的知识：即哪些视觉特征模式（体现在 $\phi_5(P)$ 中）指示了需要对边界框进行何种几何调整。它将高维的特征向量“翻译”成一个代表调整量的标量值。

Q3: 为什么还要单独训练一个SVM用作分类器呢？直接把CNN网络微调最后一层分类成21类（1类背景）作为分类器不更直接么

实证性能提升： R-CNN 论文的实验结果表明，在提取了 CNN 特征（特别是 fc7 特征）之后，使用线性 SVM 进行分类，其 mAP (mean Average Precision) 结果显著优于直接使用微调后的 CNN 的 Softmax 输出。
训练策略和样本定义的差异：
CNN微调通常相对宽松。例如，与真实边界框 IoU 大于 0.5 的候选区域就被视为对应类别的正样本，用于微调 Softmax。负样本（背景）的选择也相对简单。
SVM 训练，只有真实边界框本身被视为对应类别的正样本。对于负样本，作者采用了难例挖掘 (Hard Negative Mining) 策略

一些常见技术：

难例挖掘 (Hard Negative Mining):

先用一部分负样本训练 SVM，然后将训练好的 SVM 应用到大量的、与任何真实物体 IoU 都很低的候选区域（这些都是“简单”或“潜在困难”的背景样本）上。找出那些被 SVM 错误地分为前景（即“难例” Hard Negatives）的背景样本，将这些难例加入负样本集中，重新训练 SVM。 这个过程使得 SVM 特别擅长区分那些容易与真实物体混淆的背景区域，从而提高了分类的准确性。而 CNN 微调阶段的 Softmax 通常没有经过这样专门针对难例的优化。