YOLO V1（2015）阅读笔记3 局限性及与其他网络的比较

局限性：

YOLO对b-box对预测框施加了强大的空间约束，因为对每个cell只predict 2个b-box并且只能有一个类别，这样，限制了模型对相邻数量多的obj的预测效果，如“成群的鸟”。

YOLO难以泛化到新的或非寻常比例的objs上

当YOLO在接近检测性能的损失函数上进行训练时，损失函数对小box和大box中的error处理相同。但大box中的小错误通常比小box中的一个小错误对IOU的影响要大得多。

与其他网络的比较：

DPM（deformable parts models）：

【原文】

DPM使用滑动窗口进行目标检测，

对输入图像，提取其DPM特征图像
将原始图像进行高斯金字塔做上采用（放大），提取其DPM特征图像

然后，

将原始图像的DPM特征图和训练好的root filter做卷积
将2倍DPM（就是放大后提取的DPM特征图像）与训练好的part filter做卷积

然后将第二个卷积好的结果做下采样，这样其精细度和第一个相同，接着将二者加权平均得到最终响应图

与DPM相比，YOLO使用单个卷积神经网络替换掉这些不同的各个部分，使其同时进行特征提取、b-box预测、非最大值抑制、上下文推理（contextual reasoning）等步骤

R-CNN：

RCNN及其变体使用region proposal代替slide windows。使用选择性搜索生成潜在的b-box。

使用卷积神经网络提取特征，SVM对boxes进行评分，线性模型调整框，以及NMS消除重复检测。

这个过程每个部分都要独立准确地自己调整，结果非常慢，一张图要约40秒。

YOLO与其有相似之处，每个cell预测b-box并评分，但YOLO因其空间约束，去掉多余框对象的重复检测并且减少了很多b-box，最后将各单独模块组合起来。

other fast detectors：

FastRCNN和FasterRCNN都致力于用共享卷积、region propossal取代选择性搜索，提高RCNN的速度。虽然它们改善提高了RCNN的效果和速度，但仍然达不到实时检测的标准。

其他search致力于提高DPM速度，比如提高HOG计算速度、使用级联方式、使用GPUs，然而，在实时状态下DPM只有30Hz。

而YOLO不选择继续优化DPM，而是直接抛弃掉这个结构，人、人脸因其必须处理的变化很小，所以更容易优化，YOLO泛化能力较好，可以同时识别多种物体。

Deep MultiBox（了解即可）：

Overfeat：

MultiGrasp：

Experiments：

最初我们将YOLO与PASCAL VOC上其他的实时监测系统进行比较，为了理解YOLO和RCNN之间的差异，我们分析YOLO和RCNN（当时表现最好的版本）在VOC2007上的误差分布，根据不同的误差分布我们发现YOLO可用于重新计算Fast RCNN检测，并减少背景误差，从而显著提高性能。我们还报告了VOC2012结果，并将mAP与当时最先进的方法作了比较，最后证明了YOLO在两个artwork数据集上的对新领域的泛化效果优于其他检测网络。

Comparison to Other Real-time Systems：

大多数目标检测方法都致力于让标准的检测管道更快？？

“Many research efforts in object detection focus on making standard detection pipelines fast.”

然而，只有Sadwghi et al产出了一个实时检测系统（每秒30帧以上），我们将YOLO和他们在30Hz或100Hz的DPM的GPU实现做比较，虽然没有达到里程碑的那种效果，但我们也比较了他们的相对速度和mAP，以衡量他们在实时监测时的准确性和性能。

Fast YOLO是PASCAL VOC上检测最快的方法，据我们所知，这是目前最快的检测器，mAP高达52.7%，准确度超过原先检测工作的两倍，YOLO在保持实时监测性能的前提下，将mAP提高到63.7%。

我们还用VGG-16训练过YOLO，模型更加准确但也明显慢于YOLO，和其他检测系统比较，他是可用的。

Fastest DPM 不会牺牲太多mAP且加快了DPM的速度，但他仍然无法胜任2倍实时状态，和神经网络相比，其也被DPM的检测精度限制了。

RCNN minus R使用static b-box proposal代替选择性搜索，虽然他比RCNN快得多，但其仍然缺乏实时性，并且没有好的建议的时候准确性很受影响。

Fast RCNN加快了RCNN中分类部分的速度，但其仍然依赖选择性搜索，每张图大约需要2秒时间去获得b-box proposal。因此其虽然有很高的mAP但0.5fps仍然和实时监测相差很远。

而Faster RCNN采用一个Region Proposal Network（RPN）代替选择性搜索获得b-box。在我们的测试中，他们最精确的模型达到7fps，更小、不够精确的模型能达到18fps，Faster RCNN的VGG16版本mAP达到10，但仍然比YOLO慢6倍，而Zeiler-Fergus的Faster RCNN损失了精确度，也比YOLO慢2.5倍。

posted on 2022-09-15 11:22 Jolyne123 阅读(179) 评论(0) 收藏举报