• 局限性:

1.

YOLO对b-box对预测框施加了强大的空间约束,因为对每个cell只predict 2个b-box并且只能有一个类别,这样,限制了模型对相邻数量多的obj的预测效果,如“成群的鸟”。

2.

YOLO难以泛化到新的或非寻常比例的objs上

3.

当YOLO在接近检测性能的损失函数上进行训练时,损失函数对小box和大box中的error处理相同。但大box中的小错误通常比小box中的一个小错误对IOU的影响要大得多。

 

  • 与其他网络的比较:

1.

DPM(deformable parts models):

【原文】

DPM使用滑动窗口进行目标检测,

  1. 对输入图像,提取其DPM特征图像
  2. 将原始图像进行高斯金字塔做上采用(放大),提取其DPM特征图像

然后,

  1. 将原始图像的DPM特征图和训练好的root filter做卷积
  2. 将2倍DPM(就是放大后提取的DPM特征图像)与训练好的part filter做卷积

然后将第二个卷积好的结果做下采样,这样其精细度和第一个相同,接着将二者加权平均得到最终响应图

 

与DPM相比,YOLO使用单个卷积神经网络替换掉这些不同的各个部分,使其同时进行特征提取、b-box预测、非最大值抑制、上下文推理(contextual reasoning)等步骤

 

2.

R-CNN:

 

 

 RCNN及其变体使用region proposal代替slide windows。使用选择性搜索生成潜在的b-box。

使用卷积神经网络提取特征,SVM对boxes进行评分,线性模型调整框,以及NMS消除重复检测。

这个过程每个部分都要独立准确地自己调整,结果非常慢,一张图要约40秒。

 

YOLO与其有相似之处,每个cell预测b-box并评分,但YOLO因其空间约束,去掉多余框对象的重复检测并且减少了很多b-box,最后将各单独模块组合起来。

 

3.

other fast detectors:

 

 

 

FastRCNN和FasterRCNN都致力于用共享卷积、region propossal取代选择性搜索,提高RCNN的速度。虽然它们改善提高了RCNN的效果和速度,但仍然达不到实时检测的标准。

其他search致力于提高DPM速度,比如提高HOG计算速度、使用级联方式、使用GPUs,然而,在实时状态下DPM只有30Hz。

而YOLO不选择继续优化DPM,而是直接抛弃掉这个结构,人、人脸因其必须处理的变化很小,所以更容易优化,YOLO泛化能力较好,可以同时识别多种物体。

 

4.

Deep MultiBox(了解即可):

 

 

 

5.

Overfeat:

 

 

 

6.

MultiGrasp: 

 

 

 

  • Experiments:

 

 

 最初我们将YOLO与PASCAL VOC上其他的实时监测系统进行比较,为了理解YOLO和RCNN之间的差异,我们分析YOLO和RCNN(当时表现最好的版本)在VOC2007上的误差分布,根据不同的误差分布我们发现YOLO可用于重新计算Fast RCNN检测,并减少背景误差,从而显著提高性能。我们还报告了VOC2012结果,并将mAP与当时最先进的方法作了比较,最后证明了YOLO在两个artwork数据集上的对新领域的泛化效果优于其他检测网络。

 

  • Comparison to Other Real-time Systems:

 

 

 

 

 

大多数目标检测方法都致力于让标准的检测管道更快??

“Many research efforts in object detection focus on making standard detection pipelines fast.”

然而,只有Sadwghi et al产出了一个实时检测系统(每秒30帧以上),我们将YOLO和他们在30Hz或100Hz的DPM的GPU实现做比较,虽然没有达到里程碑的那种效果,但我们也比较了他们的相对速度和mAP,以衡量他们在实时监测时的准确性和性能。

Fast YOLO是PASCAL VOC上检测最快的方法,据我们所知,这是目前最快的检测器,mAP高达52.7%,准确度超过原先检测工作的两倍,YOLO在保持实时监测性能的前提下,将mAP提高到63.7%。

我们还用VGG-16训练过YOLO,模型更加准确但也明显慢于YOLO,和其他检测系统比较,他是可用的。

Fastest DPM 不会牺牲太多mAP且加快了DPM的速度,但他仍然无法胜任2倍实时状态,和神经网络相比,其也被DPM的检测精度限制了。

RCNN minus R使用static b-box proposal代替选择性搜索,虽然他比RCNN快得多,但其仍然缺乏实时性,并且没有好的建议的时候准确性很受影响。

Fast RCNN加快了RCNN中分类部分的速度,但其仍然依赖选择性搜索,每张图大约需要2秒时间去获得b-box proposal。因此其虽然有很高的mAP但0.5fps仍然和实时监测相差很远。

而Faster RCNN采用一个Region Proposal Network(RPN)代替选择性搜索获得b-box。在我们的测试中,他们最精确的模型达到7fps,更小、不够精确的模型能达到18fps,Faster RCNN的VGG16版本mAP达到10,但仍然比YOLO慢6倍,而Zeiler-Fergus的Faster RCNN损失了精确度,也比YOLO慢2.5倍。

 

posted on 2022-09-15 11:22  Jolyne123  阅读(179)  评论(0)    收藏  举报