Yolo系列简单汇总一(yolov1至yolov5)

Yolo系列简单汇总二(yolox yolo6 yolo7)见：https://www.cnblogs.com/xiaxuexiaoab/p/16643821.html

一、YoloV1

pdf: https://arxiv.org/pdf/1506.02640.pdf
code: https://pjreddie.com/darknet/yolo/ https://github.com/abeardear/pytorch-YOLO-v1
参考链接：https://zhuanlan.zhihu.com/p/183261974

1.1 基本思想

目标检测可以采用滑窗，然后加分类器来判断是否是需要检测的目标，yolo把分类问题变成回归问题，将图片分成SxS个网络，如果object的中心落在网格A中，则网络A就负责预测这个object，
每个网格预测B个box(x, y, w, h, confidence)和C个类别，所以输出维度为

\[S*S*(B*5 + C) \]

其中confidence计算如下：

每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box预测某一类的confidence:

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS处理，就得到最终的检测结果

1.2 网络结构

参考GoogLeNet

1.3 损失函数

1.4 不足

1.YOLOv1采用了7x7的网格划分模式，每个网格只能预测两个同类别的目标框，那么就无法预测密集场景下的目标位置，如：拥挤人群；
2.YOLOv1的网格划分方式会影响每个目标的边界定位准确度，因为目标一般是跨网格区域的，如果目标只有一小部分在某个网格，那么可能就会被忽略；
3.NMS本身漏洞，NMS会将相邻的目标框去重
4.固定分辨率，由于YOLOv1中存在全连接层，所以输入的分辨率必须固定

二、YoloV2

pdf: https://arxiv.org/pdf/1612.08242.pdf
code: https://pjreddie.com/darknet/yolo/ https://github.com/longcw/yolo2-pytorch
参考链接： https://zhuanlan.zhihu.com/p/47575929

YOLOv2相对v1版本，在继续保持处理速度的基础上，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger）这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测9000种不同对象，称之为YOLO9000。

2.1 Better

BN层
在所有的卷积层都加入了BN（局部正则化），有助于解决反向传播过程中的梯度消失和梯度爆炸问题，降低对一些超参数（比如学习率、网络参数的大小范围、激活函数的选择）的敏感性，并且每个batch分别进行归一化的时候，起到了一定的正则化效果。准确率提高了2% mAP，在加入BN之后，移除了dropout。
High Resolution Classiﬁer
输入图片由yoloV1的224×224调整至448×448，准确率提高了4% mAP。
Anchor Boxes
借鉴Faster RCNN的做法，YOLOV2也尝试采用anchor，在每个grid预先设定一组不同大小和宽高比的边框，来覆盖整个图像的不同位置和多种尺度。
先验框采用聚类方法获得
边框位置约束
YOLO v1直接预测x,y,w,h，范围比较大, 因此训练早期不容易稳定，YOLOV2预测偏移量并将预测框的中心约束在特定的grid网格内

其中\(b_x,b_y,b_w,b_h\)是最终预测边框的中心和宽高, \(c_x,c_y\)是当前网格左上角到图像左上角的距离（要先将网格大小归一化）, \(p_w,p_h\)是先验框的宽和高。 \(\sigma\)是sigmoid函数。 \(t_x,t_y,t_w,t_h\)是要学习的参数，分别用于预测边框的中心和宽高。参考上图，由于\(\sigma\)函数将\(t_x,t_y\)约束在(0,1)范围内，所以根据上面的计算公式，预测边框的蓝色中心点被约束在蓝色背景的网格内,约束边框位置使得模型更容易学习，且预测更为稳定。注意YoloV2在位置上不使用Anchor框，宽高上使用Anchor框
passthrough
YOLOV2引入一种称为passthrough层的方法在特征图中保留一些细节信息。具体来说，就是在最后一个pooling之前，特征图的大小是2626512，将其1拆4，直接传递（passthrough）到pooling后（并且又经过一组卷积）的特征图，两者叠加到一起作为输出的特征图。
引用自 https://zhuanlan.zhihu.com/p/47575929
多尺度训练
为了让网络能适应不同分辨率的输入，在训练过程中，每个10个batches会随机选择一种分辨率输入，即利用图像插值对图像进行放缩，由于训练速度的要求以及分辨率必须是32倍数，所以训练过程中选择的分辨率分别为：320, 352, ..., 608。

2.2 Faster

网络结构
YOLOV2提出了Darknet-19（有19个卷积层和5个MaxPooling层）网络结构。DarkNet-19比VGG-16小一些，精度不弱于VGG-16，但浮点运算量减少到约1/5，以保证更快的运算速度。
网格大小变化
由7 * 7 变成 13 * 13，输出相应由【N * 7 * 7 * 30】变为 [N * 13 * 13 * 125]。
30 = 2 * 5 + 20 (B * 5 + C)
125 = 5 * 5 + 5 * 20 5个Anchor box

2.2 Stronger

识别的对象更多，YOLO2于是根据WordNet，将ImageNet和COCO中的名词对象一起构建了一个WordTree，以physical object为根节点，各名词依据相互间的关系构建树枝、树叶，节点间的连接表达了对象概念之间的蕴含关系（上位/下位关系）

2.4 损失函数

引用知乎用户：https://zhuanlan.zhihu.com/p/47575929

2.5 不足

小目标仍然是个问题
引入Anchor box带来正负样本不均衡问题

三、YoloV3

pdf: https://arxiv.org/pdf/1804.02767.pdf
code: https://github.com/ultralytics/yolov3
参考链接： https://zhuanlan.zhihu.com/p/183781646

在yolov2的基础上持续改进，这里引用知乎用户江大白的一张网络结构图

3.1 backBone

由yolov2的DarkNet19变成DarkNet53, 引入残差结构并加深网络

3.2 多尺度头

利用不同尺度的特征图进行预测，解决部分小目标问题

3.3 AnchorBox采用绝对大小

忽略掉与GT_BOX的IOU>0.5但不是最大的anchor box, 减少样本不均衡的情况
正样本：与GT的IOU最大的框。
负样本：与GT的IOU<0.5 的框。
忽略的样本：与GT的IOU>0.5 但不是最大的框。
使用 tx 和ty （而不是 bx 和by ）来计算损失。

3.4 损失函数

引用自知乎用户([科技猛兽]（https://www.zhihu.com/people/wang-jia-hao-53-3）)

四、YoloV4

在yolov3的基础上进一步优化
pdf: https://arxiv.org/pdf/2004.10934.pdf
code: https://github.com/Tianxiaomo/pytorch-YOLOv4
参考链接：https://zhuanlan.zhihu.com/p/143747206 https://zhuanlan.zhihu.com/p/183781646

4.1 Yolov4的五个基本组件

CBM：Yolov4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成。

CBL：由Conv+Bn+Leaky_relu激活函数三者组成。

Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深。

CSPX：借鉴CSPNet网络结构，由三个卷积层和X个Res unint模块Concate组成。

SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。

4.2 输入端优化

数据增强
CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。其优点如下：
丰富数据集：随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。
减少GPU：Mosaic增强训练时可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

4.3 BackBone优化

CSP
借鉴(CSPNet)[https://arxiv.org/pdf/1911.11929.pdf]，引入CSP结构，即骨架网络采用CSPDarkNet。其优点如下：
增强CNN的学习能力，使得在轻量化的同时保持准确性。
降低计算瓶颈。
降低内存成本 。
Mish激活函数
Yolov4的Backbone中都使用了Mish激活函数，而后面的网络则还是使用leaky_relu函数。
Dropblock
yolov4采用Dropblock，对网络的正则化过程进行了全面的升级改进，可进一步减少过拟合情况。
Dropblock的研究者与Cutout进行对比验证时，发现有几个优点：
Dropblock的效果优于Cutout。
Cutout只能作用于输入层，而Dropblock则是将Cutout应用到网络中的每一个特征图上。
Dropblock可以定制各种组合，在训练的不同阶段可以修改删减的概率，从空间层面和时间层面，和Cutout相比都有更精细的改进。

4.4 Neck优化

SPP
采用SPP模块的方式，比单纯的使用k*k最大池化的方式，更有效的增加主干特征的接收范围，显著的分离了最重要的上下文特征。
FPN + PAN
FPN+PAN借鉴的是18年CVPR的PANet,进一步提高特征提取的能力。
,
注意点是原本的PANet网络的PAN结构中，两个特征图结合是采用shortcut操作，而Yolov4中则采用concat（route）操作，特征图融合后的尺寸发生了变化

4.5 其他优化

多个Anchor负责GT_Box
相比于yolov3一个anchor负责一个GT, yolov4依据Iou大于一定阈值的anchor都负责该GT，在Anchor box数量不变的情况下，进一步减少正负样本均衡问题。
grid边界

在yolov3中预测值是\(t_x, t_y, t_w, t_h\)，会通过上图中公式进行转换为\(b_x, b_y, b_w, b_h\)，按理说\(b_x, b_y\)能达到grid的任意位置，但由于sigmod激活函数的取值范围是\((0，1)\)，所以加入一个略大于1的系数\(\alpha\)计算\(b_x, b_y\)

\[b_x = \alpha \sigma (t_x) + c_x \]

\[b_y = \alpha \sigma (t_y) + c_y \]

Loss
训练采用CIou_Loss代替位置预测部分的MSE_Loss
预测时nms变为DIOU_nms， Iou loss发展流程可见下方内容。

4.6 IOU Loss发展流程

Iou_Loss(不能反应距离，无交集时没有梯度返回) ==> GIouLoss（引入两个框的最小包围框，解决距离问题，但训练存在发散情况） ==> DIouLoss(引入和GT中心点欧式距离，以及外围包围框的对角线距离) ==> CIoutLoss（加入惩罚项，彻底解决框包含的问题）

IOU_Loss：主要考虑检测框和目标框重叠面积。

GIOU_Loss：在IOU的基础上，解决边界框不重合时的问题。

DIOU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。

CIOU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。

五、YoloV5

在前面系列基础上继续优化，代码先开源，开源后发现里面很多trick已经被发表，就没有发论文了(只能吃帽子了 hhh)。
code: https://github.com/ultralytics/yolov5
参考链接： https://zhuanlan.zhihu.com/p/172121380

5.1 输入端优化

Data Aug
Mosaic数据增强方法
自适应anchor
在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框groundtruth进行比对，计算两者差距，再反向更新，迭代网络参数。
在Yolov3、Yolov4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的。但Yolov5在每次训练时，会自适应的计算不同训练集中的最佳锚框值。
自适应图片缩放
预测时，减少黑边填充，加快预测速度
如： 800 * 600 ==> 416 * 416
缩放后变成 416 * 320
流程
416 / 800 = 0.52 < 0.69 = 416 / 600，按小的比例0.52进行缩放得到 416 * 312
416 - 312 = 104, 差对32取余后为8， 312 + 8 = 320，这里取32，是因为Yolov5的网络经过5次下采样，而2的5次方，等于32。所以至少要去掉32的倍数，再进行取余

5.2 BackBone优化

引入Fcous， Fcous + CSP + DarkNet

5.3 Neck

yolov4中的普通卷积替换为CSP2结构

5.4 提供不同大小版本

提供不同大小版本应对不同场景，由width和depth参数控制网络的宽度及深度。
Yolov5s、Yolov5m、Yolov5l、Yolov5x

posted @ 2022-08-31 17:11 半夜打老虎阅读(1206) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

半夜打老虎