YOLO V1（2015）阅读笔记4 误差分析、与RCNN及其变体的融合效果、结论

为了对比YOLO和其他检测器之间的差异，我们查看了VOC2007的详细结果分类，我们将其与Faster RCNN进行比较，因为在当时，Faster RCNN是PASCAL上最好的检测器，并且其检测结果公开可见。

我们使用Hoiem等人的方法和工具。在测试时，我们查看了该类别的前N个预测。每个预测要么是正确的，要么根据误差类型进行分类：

Correct:correct class and IOU >0.5
Localization: correct class, 0.1<IOU<0.5
Similar: class is similar, IOU>0.1
Other: class is wrong, IOU>0.1
Background: IOU<0.1 for any object

上图展示了所有20个类中平均每种错误类型的细分

YOLO定位obj不太准确，定位误差比YOLO其他所有误差加起来都更多，Faster RCNN有很少定位误差，但是很多背景误差，高达13.6%反例误报，将近YOLO的3倍。

Combining Fast RCNN and YOLO:

YOLO的背景误差比Faster RCNN少得多。通过使用YOLO消除Faster RCNN中的背景误差，我们的性能得到了显著提升。每一个RCNN预测的b-box，我们会check一下YOLO是否做了同样的预测框，如果是，我们会根据YOLO预测的概率和两个框叠加率来提高预测效果。

Faster RCNN模型在VOC 2007上实现了71.8%的mAP。当与YOLO结合时，其mAP增加了3.2%达到了75%，我们还尝试了使用最好的Faster RCNN版本与其他别的Faster RCNN版本结合，增加了mAP0.3%-0.6%的微小提升。如下图。

融合不同版本的Faster RCNN没什么好处，可见YOLO对性能的提升不仅仅是模型整合的功劳。相反，是YOLO会在测试时犯下不同类型的错误，才使得Faster RCNN的性能提升。

unluckly，YOLO和Faster RCNN的结合并没有因为YOLO速度快而得到好处，因为我们是分别运行每个模型然后将其结果结合起来。however，由于YOLO速度很快，所以不会对Faster RCNN的计算速度有什么影响。

在VOC 2012上的结果：

YOLO在VOC 2012测试集上的mAP得分是57.9%，低于当时最好模型，接近最初的RCNN使用VGG16的分数，如下图：

我们的系统与最近的系统相比，更难以处理小物体。在某些类别（categories）像”瓶子、绵羊、tv或显示器（monitor）“上YOLO得分比RCNN或者Feature Edit（特征编辑？？）低了8%-10%，然而在一些”猫、火车“上YOLO的效果更好。

我们将Faster RCNN和YOLO模型结合是最高性能的检测方法，Faster RCNN与YOLO结合时，其性能提高了2.3%，在公开排行榜上的排名上升了5位。（boosting it 5 spots up on the public leaderboard）

Generalizability : Person Detection in Artwork：

目标检测中的学术数据集的训练集和测试集均来自相同的分布，在现实生活中应用，很难预测所有可能的用例，测试数据可能偏离系统之前预测的，我们将YOLO和在Picasso、People-Art这两个（用于检测人的）数据集上的其他目标检测系统进行了比较，下图展示了YOLO和他们的性能比较：作为参考，我们给出了在VOC2007上训练的YOLO在检测时所有”人“的AP，在Picasso上测试的是在VOC2012上训练的，在People-Art上测试的是在VOC2010上训练的。

YOLO在VOC2007上有很好的性能表现，当用于artwork时，YOLO的AP分数（degrades）少于其他模型。像DPM一样，YOLO对obj的形状和大小，obj之间的关系以及obj通常出现的地方进行建模。artwork和自然图像虽然在像素级别上非常不同，但在obj的形状大小上非常相似，因此YOLO仍然可以predict到很好的b-box和检测。

Real-time Detection In The Wild：

YOLO是一个快速又精准的目标检测器，十分适合用于机器视觉，我们将YOLO连接到云（webcam）并验证其能维持实时检测的性能，包括从摄像机中获取图像和显示检测的时间花费。

由此产生的系统很好玩，可以类似于跟踪监测，检测移动中的obj并且会有变化。

demo代码：http://pjreddie.com/yolo/

Conclusion结论：

本文中我们介绍了YOLO，一个用于目标检测的统一模型。模型构造简单，可以直接在全图像上训练。不像一些基于分类器的方法，YOLO是在相当于检测性能的损失函数上训练的，并且整个模型是一起训练的，Fast YOLO是文献中最快的多功能目标检测模型，YOLO推动了实时目标检测的最新发展，YOLO还可以推广到新领域，使其成为依赖快速、鲁棒目标检测的好选择。

posted on 2022-09-16 08:48 Jolyne123 阅读(127) 评论(0) 收藏举报