多尺度特征图

多尺度特征图就是 “同一张输入图,在网络不同深度得到的一组空间分辨率不同、语义级别不同的特征图”。

为什么需要它
  • 小目标 → 需要高分辨率特征(细节多)
  • 大目标 → 需要大感受野、高语义特征(上下文多)
    单尺度图只能顾一头,多尺度才能同时抓大和小。

怎么来的(以 CNN 为例)
  1. 下采样自然产生
    224×224 → 112×112 → 56×56 → 28×28 → 14×14 → 7×7
    每步 stride=2,“金字塔”自动出现。
  2. 额外加强
    • FPN:把深层的强语义上采样 → 与浅层的高分辨率相加,得到 {P2, P3, P4, P5}
    • SSD:直接拿 {38×38, 19×19, 10×10, 5×5, 3×3, 1×1} 六层特征图分别预测
    • U-Net/DeepLab:编码器下采样 → 解码器上采样跳跃连接,恢复多尺度掩码

长什么样(形状)
表格
复制
层级尺寸(例)通道特点
C2 / P2 128×128×256 高分辨率,低语义 → 检小目标
C3 / P3 64×64×512
C4 / P4 32×32×1024
C5 / P5 16×16×2048 低分辨率,高语义 → 检大目标
posted @ 2025-11-23 19:10  yinghualeihenmei  阅读(14)  评论(0)    收藏  举报