YOLO v1 论文精读

YOLO的特点：使用来自整张图像的特征来预测每个bounding box

首先，将整张图分成S*S的网格，如果一个物体的中心落在某个网格中，就用该网格检测这个物体。

每个网格预测B个bounding box，以及对应的置信度。

置信度的含义：

模型确定这个box包含有物体的程度
模型认为box属于预测出来的物体的准确程度

置信度的定义：

也就是，cell里边没有物体时，等于零，否则，等于IOU

每个bounding box包括五个预测值：xywh+confidence

(x, y)代表box的中心相对于网格边界的坐标

宽w和高h根据整个图像进行预测

置信度confidence代表预测框和GT之间的IOU

每个网格还预测了C个条件概率：

无论每个网格预测的bounding box数目B是多少，我们都只为一个网格预测一组类别概率

在test阶段，将条件概率和每个box的confidence相乘：

得到每个box的每个类别的置信度confidence

这个得分反映了：

对应类别在该box中出现的概率
预测的box拟合物体位置的程度

对于VOC数据集：

S=7

B=2

C=20

最终预测7*7*30 tensor（30 = 20类的条件概率+(x+y+w+h+confidence)*B）

网络设计

24卷积+2全连接

交替的1*1卷积层：减少特征空间

在ImageNet-1000类上预训练（使用一半的分辨率224*224input），在detection阶段使用448*448

网络的最终输出为7*7*30张量

Fast YOLO：

使用9卷积层而不是24，每层卷积核也更少，其他一样

训练

预训练：

使用前20个卷积层，接平均值池化，最后接全连接

训了大约一个星期，在ImageNet 2012 val set上top-5 acc是88%

训练和推断使用darknet框架

依据文献[29]，向预训练网络增加卷积层和连接层可以增强performance

[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015. 3, 7

接下来转换模型，用于目标检测：

跟据[29]，增加四个卷积层和两个全连接层（随机权重）

detection需要细粒度的视觉信息，因此把输入分辨率从224*224提高到448*448

关于bounding boxd 宽高wh：根据图像宽高，normalize to [0, 1]

关于坐标xy：参数化成相对于某一个网格的偏置，也归一到[0, 1]

结合代码理解：

关于predict_boxes的输出，我们知道predict_boxes的输出是网络前向传播后预测的候选框。固定思维让我们认为，predict_boxes的值就是类似gt_box坐标那样的（x,y,d,h）坐标。错！保持这个固有的思维，这段代码就无法看懂了，我也是不断推测的，才知道实际上道predict_boxes各个坐标的含义。

predict_boxes中心坐标真实含义

其实predict_boxes中的前两位，就是中心点坐标（x,y）代表的含义如上图，是predict_boxes中心坐标离所属格子（response）左上角的坐标。而predict_boxes中的后两位，其实并不是predict_boxes的宽度高度，而是predict_boxes的宽度高度相对于图片的大小（归一化后）的开方。

那么我们所说的输入predict中包含的坐标信息，就不是

（中心横坐标，

中心纵坐标，

宽，

高）

而是

（中心横坐标离所属方格左上角坐标的横向距离（假设每个方格宽度为1），

中心纵坐标离所属方格左上角坐标的纵向距离（假设每个方格高度为1），

宽度（归一化）的开方，

高度（归一化）的开方）

这里理解了，后面理解起来就很easy了。