进阶提升 · 2YOLOv3 改进
核心概念
- YOLOv3:YOLO 系列的第三代版本,核心目标是提升检测效果(尤其是小目标),同时保持较快速度。
- Darknet-53:主干网络,基于残差连接(ResNet 思想),深度更深但训练更稳定。
- 多尺度预测 (Feature Pyramid):在三个不同尺度的特征图(13×13、26×26、52×52)上分别检测大、中、小目标。
- 改进的先验框设计:聚类生成 9 个 anchor,按大小分配给不同尺度的特征图。
- Softmax 改进:采用独立的多标签二分类(sigmoid),替代单一 softmax,多标签场景更合理。
提出问题
- YOLOv1/YOLOv2 在小目标检测上效果不足。
- 单一尺度特征图难以同时兼顾大目标与小目标。
- Softmax 分类假设互斥标签,不适合多标签检测任务。
论点与解决方案
- 引入多尺度预测:
- 大目标用 13×13 特征图预测。
- 中目标用 26×26 特征图预测。
- 小目标用 52×52 特征图预测。
- 每个尺度预测 3 种候选框,共 9 个 anchor。
- 残差网络:
- Darknet-53 使用残差连接,使深层网络可训练,提取更丰富特征。
- 避免了 VGG 式单纯堆叠卷积导致的退化问题。
- 先验框优化:
- 不再是固定分配,而是聚类得到 9 个更合理的候选框,并分配到对应尺度。
- 分类方式改进:
- Softmax → Sigmoid 多标签分类。
- 每个类别独立判断(是否属于该类),支持一目标多标签。
关键机制 / 细节
- 特征融合:
- 上采样(Upsampling)+ 融合高层与低层特征 → 提高小目标检测效果。
- Darknet-53 网络结构:
- 完全卷积网络,无全连接与池化层。
- 下采样通过 stride=2 的卷积完成。
- 重复残差模块构成深层结构。
- 输出层维度:
- 例如:13×13×(3×85),其中 85 = 4(边框偏移)+1(置信度)+80(类别数,COCO)。
- 性能特点:
- 速度比 Faster R-CNN 快得多。
- mAP 较 YOLOv2 有明显提升,尤其在小目标上表现更佳。
总结
- YOLOv3 的主要提升:
- 多尺度预测 → 解决小目标问题。
- Darknet-53 主干网络 → 更强特征提取能力。
- Anchor 分配更科学 → 检测更稳定。
- Sigmoid 多标签分类 → 更贴合实际场景。
- 意义:在保持实时性的同时,显著提升了检测精度,特别是小目标检测性能,使 YOLO 系列更加实用。
posted @
2025-09-20 11:42
s1332177151
阅读(
21)
评论()
收藏
举报