YOLO V1、V2、V3算法精要解说

前言

　　之前无论是传统目标检测，还是RCNN，亦或是SPP NET，Faste Rcnn，Faster Rcnn，都是二阶段目标检测方法，即分为“定位目标区域”与“检测目标”两步，而YOLO V1,V2,V3都是一阶段的目标检测。

　　从R-CNN到FasterR-CNN网络的发展中，都是基于proposal+分类的方式来进行目标检测的，检测精度比较高，但是检测速度不行，YOLO提供了一种更加直接的思路：

　　直接在输出层回归boundingbox的位置和boundingbox所属类别的置信度，相比于R-CNN体系的目标检测，YOLO将目标检测从分类问题转换为回归问题。其主要特点是：

　　•速度快，能够达到实时的要求，在TitanX的GPU上达到45fps；

　　•使用全图Context信息，背景错误(把背景当做物体)比较少；

　　•泛化能力强；

YOLO V1

UnifiedDetection(统一检测)核心思想:

1.将输入图像划分为S*S个gridcell(网格单元)；如果一个object物体的中心是位于这个gridcell内，那么这个gridcell就负责检测这个物体；如下图

2.每一个gridcell需要预测B个boundingboxes坐标信息(x,y,w,h)以及这些boundingboxes的置信度confidence。

YOLOv1中的坐标信息(x,y,w,h)表示的是boxes中心点坐标相对于当前图像宽度、高度的比值，w、h是boxes的宽度、高度和实际图像的宽度、高度的比值；

置信度confidence反映的是模型对于这个预测的boundingbox中包含物体的可能性大小。

3.每个gridcell还需要预测C个类别的概率(conditionalclassprobability)，以判断当前cell属于哪个类别C。

•NOTE：Confidence置信度表示的是boundingboxes包含物体的概率值，而conditionalclassprobability表示的是每个gridcell属于某个类别的概率值。

4.每个gridcell的class信息和每个boundingbox预测的confidence信息相乘，就可以得到每个boundingbox的class-specificconfidencescore。

论文建议：S=7,B=2，在PASCALVOC数据集中，最终预测值形状为7x7x30的Tensor对象，C=20（该数据集的类别）

这个30的维度是这样的：S*S(B*5+C),5的意思是两个边框的x、y、w、h、confidence。（confidence 代表了所预测的 box 中含有 object 的置信度和这个 box 预测的有多准这两重信息）

主干网络：

　　其主干网络是Googlenet

其想做的事如此看来很清晰，先判断是目标还是背景，若是目标，则再判断是属于这20个类别的哪个类（此VOC数据集是20个类别，别的数据集就是别的类别）

因为论文建议了我们一个grid cell最好是承载着两个边框，即bounding box,那么，这幅7*7个cell的图就有98个边框了，如下图

每个边框都是上面公式计算来的，我有写的，即背景还是物体的概率*20个类哪个类别的概率，如下图

然后呢，就是处理这98个框框，如下图

这总共是20个类别，一行行的这么处理，直到20行处理完毕

然后对结果遍历，如果置信度的评分大于0，那这个框就可以代表此物体，如果得分小于0，就不行，如下图

来看一下损失函数吧，我把它分成了三类

总结一下，并分析一下优缺点：

优点：

•运行速度快，因为是一阶段的；

•背景预测错误的情况比较少；

缺点：

•对于实际物体的效果没有FasterR-CNN效果好；

•如果一个gridcell中包含多个相同类别的小物体，那么YOLOv1每个单元格最多可以检测出两个物体(论文的建议设置导致的，因为它建议一个grid cell 里面最好只是两个边框，如果不是两个边框，效果不会好)。如下图

YOLO V2

　　算法的增强正是有了对原来的基础不断改进才得来的，YOLO V2相对于V1主要有三方面变化。

Better,Faster,Stronger：

•1.Better：从精度方面进行改进，让效果从YOLOv1的63.4%mAP上升到YOLOv2的78.6%mAP，基本和FasterR-CNN以及SSD持平。

•2.Faster：网络结构方面做了更改，让模型速度更快；

•3.Stronger：对这个损失函数做一个变化；

•BatchNormalization：

•在每一个卷积层后加入BatchNormalization，mAP提升2%，BatchNormalization有助于规范化模型，防止过拟合。

•HighResolutionClassifier：

•一般的目标检测方法中，基本上会使用ImageNet预训练的模型来提取特征，比如使用AlexNet或者VGG网络，那么输入的图片会被resize到不足256*256的大小，这样会导致分辨率不够高，目标检测比较困难；在YOLOv2中自定义了darknet分类网络，将图像的输入分辨率更改为448*448，然后在ImageNet上训练10轮，训练后的网络可以适应高分辨率的输入；应用到检测的时候，对检测部分网络进行finetune，mAP提升4%。

ConvolutionalwithAnchorBoxes：

•借鉴FasterR-CNN中的anchor思想，产生多个boundingboxes先验框，通过这种方式可以提升模型的recall召回率。

•删除全部的全连接层，去掉最后一个池化层，以确保输出的特征图具有更高的分辨率，然后通过缩减网络让图片输入分辨率为416*416，这样最终输出的特征图为13*13；

•DimensionCluster(维度聚类):

相当于考试时你偷看了一眼答案是BADDCDDD，但你不知道是第几道题是这些答案，于是你尽量遇到不会的时候多选D.

这里是基于训练数据的真实框的大小来做的密度的聚类

•AnchorBoxes的宽高纬度通常需要通过精选的先验框来给定，然后通过网络学习转换系数，最终得到准确的boundingbox候选框；如果可以通过维度聚类一开始就给定更具有代表性的boxes维度，那么网络就会更容易预测位置。

•使用K-Means聚类方法来训练boundingboxes；采用IoU作为KMeans聚类的距离公式。

下图是聚类的不同标准下的平均IOU值

DirectLocationPrediction(直接位置预测)：

•在AnchorBoxes中，模型不是特别稳定，原因是：模型的位置预测值为偏移量的值(在整个图像上的)，在模型中相当于anchor可以检测很远目标的box的情况，范围太大，反向传播的就会很慢，这样就会导致模型收敛比较慢。

•YOLOv2中不采用直接的offset方法，使用了预测相对于grid cell的坐标位置的方法，并且将ground truth通过logistic函数限制在0~1之间，这样的范围更小，有利于反向传播的速度，。

•通过DimensionCluster+DirectLocationPrediction的改进，mAP提升5%。

具体做法如下：

　　其沿用了Faster RCNN中Anchor box（锚点框）的思想，通过kmeans方法在VOC数据集（COCO数据集）上对检测物体的宽高进行了聚类分析，得出了5个聚类中心，因此选取5个anchor的宽高： (聚类时衡量指标distance = 1-IOU(bbox, cluster))

COCO: (0.57273, 0.677385), (1.87446, 2.06253), (3.33843, 5.47434), (7.88282, 3.52778), (9.77052, 9.16828)
VOC: (1.3221, 1.73145), (3.19275, 4.00944), (5.05587, 8.09892), (9.47112, 4.84053), (11.2364, 10.0071)

　　这样每个grid cell将对应5个不同宽高的anchor，如下图所示：(上面给出的宽高是相对于grid cell，对应的实际宽高还需要乘以32（2的5次方），因为这里给出的原图大小是416*416大小的，经过卷积啊池化啊下采样了5次后变成了13*13大小的)

关于预测的bbox的计算：(416*416-------13*13 为例)，卷积池化等经历了5次下采样，缩小了2的5次方倍（看下面这三段话的时候，记得看此行往上数第9到12行字，相信你会明白的）

　　　　(1) 输入图片尺寸为416*416, 最后输出结果为13*13*125，这里的125指5*（5 + 20），5表示5个anchor，25表示[x, y, w, h, confidence ] + 20 class ）,即每一个anchor预测一组值。

　　　　(2) 对于每一anchor预测的25个值， x, y是相对于该grid cell左上角的偏移值，需要通过logistic函数将其处理到0-1之间。如13*13大小的grid，对于index为（6, 6）的cell，预测的x, y通过logistic计算为xoffset, yoffset, 则对应的实际x = 6 + xoffset, y = 6+yoffset，由于0<xoffset<1, 0<yoffset<1, 预测的实际x， y总是在（6,6）的cell内。对于预测的w, h是相对于anchor的宽高，还需乘以anchor的(w, h), 就得到相应的宽高

　　　　(3) 由于上述尺度是在13*13下的，需要还原为实际的图片对应大小，还需乘以缩放倍数32

Fine-GrainedFeatures(细粒度特征)：

•在FasterR-CNN和SSD中，通过不同的方式获得了多尺度的适应性，FasterR-CNN中使用不同的scale，SSD直接从不同大小的featuremap上来提取ROI区域；为了提升对小尺度物体的检测，在YOLOv2中加入了转移层(passthroughlayer)，这个层次的功能就是将浅层特征图(26*26*256)连接到深层特征图(13*13*512)中，类似ResNet的残差网络结构。

•对于26*26*512的特征图按行、按列隔一个进行采样，产生4个13*13*512维度的新特征图，然后concat合并得到13*13*2048的特征图，最后将其连接到深层特征图上。相当于做了特征融合，对于小目标检测比较有效。

•通过这种结构，mAP提升了1%。

即如下图这样提取特征，范围更大，最后再融合到一起

Multi-ScaleTraining：

•由于YOLOv2中仅存在卷积层和池化层，所以可以进行动态调整，每经过10个epoch，随机选择新的图片尺寸进行训练。由于YOLOv2中降采样的参数为32，所以以32个像素为增量值设置不同大小的图像来进行训练，最小尺寸320，最大尺寸608，尺寸可选值{320,352,....,608}总共十个不同尺寸的的图像。

•这种设计让YOLO在低性能的GPU、高帧率视频等场景的应用更加适合。

下面是一个对比，YOLO V2的map在高分辨率时最高，40帧率也满足实时性的要求

Faster：

　　为了改善YOLO模型的检测速度，YOLOv2在Faster方面也做了一些改进。

•大多数神经网络依赖于VGGNet来提取特征，VGG-16特征提取功能是非常强大的，但是复杂度有点高，对于224*224的图像，前向计算高达306.9亿次浮点数运算。

•YOLOv2中使用基于GoogleNet的定制网络DarkNet，一次前向传播仅需要85.2亿次浮点数计算。精度相比来降低2%(88%/90%)

DarkNet-19：

•大量使用3*3的卷积；

•在3*3卷积前使用1*1卷积来压缩通道；

•在每一个卷积后加入BN，稳定模型；

•使用GlobalAveragePooling；

•使用MaxPooling。

模型训练细节：

•分类模型训练；使用下列参数及数据处理方式，将Darknet-19在标准的1000类ImageNet上训练160epoch；

•随机梯度下降

•startinglearningrate:0.1，初始学习率

•polynomialratedecay:4，线性的学习率下降

•weightdecay:0.0005，权重衰减的质数，权重的偏移，移动平均数形式

•momentum:0.9 动量

•输入数据大小:224*224

•数据增强：randomcrops（随机裁剪）、rotations（旋转）、hue/saturation/exposureshifts（调整色度）.

分类模型训练：

当初始224*244的训练完成后(160epochs)

进行更高分辨率下的图像分类训练(训练10epochs)：•learning_rate:0.001 •输入数据大小:448*448

目标检测网络的训练：

将分类网络的最后一个卷积层去掉，更改为三个3*3*1024的卷积层，并且每个卷积层后跟一个1*1的卷积层，输出维度为检测需要的数目；比如在VOC数据集中，需要预测5个框，每个框4个坐标值(偏移值)+1个置信度+20个类别概率值，也就是输出为125维。同时将转移层(passthroughlayer)从倒数第二层做一个连接的操作。

•训练方式以及Loss的定义和YOLOv1类似。

YOLO V3

先来观摩一下效果和速度的对比，如下图