YOLO进阶提升 · 2YOLOv3 改进

进阶提升 · 2YOLOv3 改进

核心概念

  • YOLOv3:YOLO 系列的第三代版本,核心目标是提升检测效果(尤其是小目标),同时保持较快速度。
  • Darknet-53:主干网络,基于残差连接(ResNet 思想),深度更深但训练更稳定。
  • 多尺度预测 (Feature Pyramid):在三个不同尺度的特征图(13×13、26×26、52×52)上分别检测大、中、小目标。
  • 改进的先验框设计:聚类生成 9 个 anchor,按大小分配给不同尺度的特征图。
  • Softmax 改进:采用独立的多标签二分类(sigmoid),替代单一 softmax,多标签场景更合理。

提出问题

  • YOLOv1/YOLOv2 在小目标检测上效果不足。
  • 单一尺度特征图难以同时兼顾大目标与小目标。
  • Softmax 分类假设互斥标签,不适合多标签检测任务。

论点与解决方案

  • 引入多尺度预测
    • 大目标用 13×13 特征图预测。
    • 中目标用 26×26 特征图预测。
    • 小目标用 52×52 特征图预测。
    • 每个尺度预测 3 种候选框,共 9 个 anchor。
  • 残差网络
    • Darknet-53 使用残差连接,使深层网络可训练,提取更丰富特征。
    • 避免了 VGG 式单纯堆叠卷积导致的退化问题。
  • 先验框优化
    • 不再是固定分配,而是聚类得到 9 个更合理的候选框,并分配到对应尺度。
  • 分类方式改进
    • Softmax → Sigmoid 多标签分类。
    • 每个类别独立判断(是否属于该类),支持一目标多标签。

关键机制 / 细节

  • 特征融合
    • 上采样(Upsampling)+ 融合高层与低层特征 → 提高小目标检测效果。
  • Darknet-53 网络结构
    • 完全卷积网络,无全连接与池化层。
    • 下采样通过 stride=2 的卷积完成。
    • 重复残差模块构成深层结构。
  • 输出层维度
    • 例如:13×13×(3×85),其中 85 = 4(边框偏移)+1(置信度)+80(类别数,COCO)。
  • 性能特点
    • 速度比 Faster R-CNN 快得多。
    • mAP 较 YOLOv2 有明显提升,尤其在小目标上表现更佳。

总结

  • YOLOv3 的主要提升
    • 多尺度预测 → 解决小目标问题。
    • Darknet-53 主干网络 → 更强特征提取能力。
    • Anchor 分配更科学 → 检测更稳定。
    • Sigmoid 多标签分类 → 更贴合实际场景。
  • 意义:在保持实时性的同时,显著提升了检测精度,特别是小目标检测性能,使 YOLO 系列更加实用。
posted @ 2025-09-20 11:42  s1332177151  阅读(21)  评论(0)    收藏  举报