初识YOLO

什么是YOLO2算法

“You Only Look Once”

YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。
Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测,整个系统如图5所示:首先将输入图片resize到448x448,然后送入CNN网络,最后处理网络预测结果得到检测的目标。相比R-CNN算法,其是一个统一的框架,其速度更快,而且Yolo的训练过程也是end-to-end的。

YOLO算法的原理

具体来说,Yolo的CNN网络将输入的图片分割成S×S网格,然后每个单元格负责去检测那些中心点落在该格子内的目标,如图6所示,可以看到狗这个目标的中心落在左下角一个单元格内,那么该单元格负责预测这个狗。每个单元格会预测B个边界框(bounding box)以及边界框的置信度(confidence score)。所谓置信度其实包含两个方面,一是这个边界框含有目标的可能性大小,二是这个边界框的准确度。前者记为Pr(object),当该边界框是背景时(即不包含目标),此时Pr(object)=0。而当该边界框包含目标时,Pr(object)=1。

YOLO2在街景环境的物体识别

YOLO算法的缺点/优点

缺点

YOLO各个单元格仅仅预测两个边界框,且属于一个类别。对于小物体,YOLO的表现不佳。这方面的改进可以看SSD,其采用多尺度单元格。也可以看Faster R-CNN,其采用了anchor boxes。Yolo对于在物体的宽高比方面泛化率低,就是无法定位不寻常比例的物体。并且YOLO的定位不准确也是很大的问题。

优点

i YOLO 全程end-to-end,故而快且简洁。
iiYolo是对整张图片做卷积,所以拥有更大的视野,不容易对背景误判

参考博客:yolo算法详解

posted @ 2021-02-01 10:30  琦桢  阅读(241)  评论(0编辑  收藏  举报