目录
1.常见图像目标检测网络模型
2.基于深度学习的图像目标检测学习路线
欢迎订阅FPGA/MATLAB/Simulink系列教程
《★教程1:matlab入门100例》
《★教程2:fpga入门100例》
《★教程3:simulink入门60例》
《★教程4:FPGA/MATLAB/Simulink联合开发入门与进阶X例》
《★专题3:人工智能基础应用研究》
1.常见图像目标检测网络模型
目前,常见的用于图像分类的深度学习模型,可以使用下图来表示:
1. R-CNN(2013.11)
R-CNN将深度学习引入目标检测,开创“候选区域提取+CNN特征提取+SVM分类+边框回归”四阶段范式。R-CNN首次证明CNN在目标检测上的有效性,大幅超越传统手工特征方法。R-CNN训练分阶段、速度慢、重复计算特征。
2.OverFeat(ICLR 2014)
OverFeat用单一CNN同时完成目标定位、检测和分类,实现端到端的多任务学习。OverFeat提出滑动窗口检测,启发后续单阶段检测思路,是R-CNN之后的重要探索。
3.SPP-Net
提出空间金字塔池化(SPP)层,解决CNN对输入图像尺寸固定的限制,实现任意尺寸输入输出固定维度特征。避免图像缩放失真,大幅减少R-CNN的重复计算,提升检测速度。
4. AttentionNet(ICCV 2015)
AttentionNet引入注意力机制,让网络自动关注图像中更重要的区域,提升复杂场景检测鲁棒性。
5.Fast R-CNN(ICCV 2015)
Fast R-CNN在SPP-Net基础上,提出RoI池化层,实现单阶段训练(将分类与边框回归整合到一个网络),并共享卷积特征。大幅提升训练和测试速度,检测精度也显著提高。
6.Faster R-CNN(NIPS 2015)
Faster R-CNN引入RPN(Region Proposal Network),实现端到端的候选框生成与检测,真正统一检测流程。Faster R-CNN是目标检测里程碑,成为两阶段检测的基准框架,后续大量模型在此基础上改进。
7.OHEM(CVPR 2016)
OHEM在线难例挖掘(Online Hard Example Mining),动态选择难例样本进行训练,解决正负样本不平衡问题。提升检测模型对复杂场景的鲁棒性,被广泛应用于Fast/Faster R-CNN等框架。
8.YOLO v1(CVPR 2016)
You Only Look Once,将目标检测视为回归问题,单阶段直接预测边界框和类别概率。YOLO速度极快(实时检测),开创单阶段检测新范式,但对小目标和密集目标检测效果较差。
9. SSD(ECCV 2016)
Single Shot MultiBox Detector,在多尺度特征图上预设锚框,直接回归边框和类别。SSD兼顾速度与精度,比YOLO v1更准,比Faster R-CNN更快,成为单阶段检测的经典模型。
10.R-FCN(NIPS 2016)
Region-based Fully Convolutional Networks,引入位置敏感得分图,实现全卷积检测,解决 Faster R-CNN中RoI池化的计算瓶颈。R-FCN检测速度接近实时,精度与 Faster R-CNN 相当。
11. YOLO v2(CVPR 2017)
YOLO v2引入锚框机制、多尺度训练和Darknet-19骨干网络,大幅提升精度和速度。YOLO v2成为实时检测的主流模型,支持多尺度输入,对小目标检测效果显著改善。
12. Feature Pyramid Net(FPN, CVPR 2017)
FPN构建自上而下的特征金字塔,融合多尺度特征,提升小目标检测能力。成为后续检测模型(如 RetinaNet、Mask R-CNN)的标准组件。
13. RetinaNet(ICCV 2017)
RetinaNet提出Focal Loss,解决单阶段检测中正负样本不平衡问题,结合FPN实现高精度单阶段检测。RetinaNet单阶段检测精度首次超越两阶段模型,成为单阶段检测的新基准。
14. Mask R-CNN(ICCV 2017)
Mask R-CNN在 Faster R-CNN基础上增加掩码(Mask)分支,实现目标检测与实例分割的统一框架。其实例分割的里程碑,同时提升检测精度,成为多任务视觉任务的基准。
15. YOLO v3(arXiv 2018)
YOLO v3引入Darknet-53骨干网络、多尺度检测和分类器替换为逻辑回归,进一步提升精度和速度。实时检测的标杆模型,在工业界广泛应用。
15.RefineDet(CVPR 2018)
RefineDet两阶段单阶段检测框架,先粗糙预测再精细修正,提升检测精度。
16.M2Det(AAAI 2019)
M2Det是多尺度多特征检测网络,构建更精细的特征金字塔,提升小目标检测能力。
2.基于深度学习的图像目标检测学习路线
面对这么多模型,不用全部硬啃,在本章节,我们可以按 “技术脉络→核心模型→实战落地” 的思路高效学习,具体可执行的步骤:
1.R-CNN系列
从R-CNN→Fast R-CNN→Faster R-CNN→Mask R-CNN,这是两阶段检测的完整演进链,理解它就能掌握目标检测的基础范式。
2.YOLO系列
YOLO v1→v2→......,是单阶段实时检测的标杆,工业界应用最广。单阶段回归思想、锚框设计、多尺度检测、Darknet网络结构。
3.SSD & RetinaNet
SSD是单阶段检测的经典之作,RetinaNet用Focal Loss解决了正负样本不平衡问题,是单阶段检测精度的突破。其多尺度特征融合、锚框匹配策略、Focal Loss原理。
4.FPN & Cascade R-CNN
FPN是多尺度检测的标配组件,Cascade R-CNN是两阶段检测的精度天花板。其重点为特征金字塔构建、级联边框回归、难例挖掘。
在后续章节的具体学习过程中,我们将基于上述四个主线,重点学习其中的经典网络,并对四个主线的一些重要分支网络做补充学习。