多尺度特征图就是 “同一张输入图,在网络不同深度得到的一组空间分辨率不同、语义级别不同的特征图”。
为什么需要它
-
小目标 → 需要高分辨率特征(细节多)
-
大目标 → 需要大感受野、高语义特征(上下文多)
单尺度图只能顾一头,多尺度才能同时抓大和小。
怎么来的(以 CNN 为例)
-
下采样自然产生
224×224 → 112×112 → 56×56 → 28×28 → 14×14 → 7×7
每步 stride=2,“金字塔”自动出现。 -
额外加强
-
FPN:把深层的强语义上采样 → 与浅层的高分辨率相加,得到 {P2, P3, P4, P5}
-
SSD:直接拿 {38×38, 19×19, 10×10, 5×5, 3×3, 1×1} 六层特征图分别预测
-
U-Net/DeepLab:编码器下采样 → 解码器上采样跳跃连接,恢复多尺度掩码
-
长什么样(形状)
表格
| 层级 | 尺寸(例) | 通道 | 特点 |
|---|---|---|---|
| C2 / P2 | 128×128×256 | 高分辨率,低语义 → 检小目标 | |
| C3 / P3 | 64×64×512 | ||
| C4 / P4 | 32×32×1024 | ||
| C5 / P5 | 16×16×2048 | 低分辨率,高语义 → 检大目标 |