参考博文《论文笔记(一)》、《CVPR阅读》、《Rich feature hierarchies for accurate object detection and semantic segmentation(阅读翻译)》
摘要
目标检测方法中最好的方法是结合多个低层次的图片特征和高层的上下文。该论文有两个关键点(1)将能力很强的CNNS应用到region proposal。(2)当有标签数据缺乏时,监督预训练产生显著的性能提升。
Introduce
CNN处理物体定位和分类需要解决2个问题:(1)用深度网络定位物体(2)用少量的带标签数据训练高容量模型。
和分类问题不同检测问题需要目标物体的位置。一种方式是把定位问题看成是回归问题。《Deep neural networks for object detection》和本文都证明效果不好。另外一个替代方式是使用滑动窗口,CNNS使用这种方式至少20年了,本文也采用了这种方式,共有5个卷积层,有很大的感受野(195x195)和步长(32x32)。在滑动窗口模式下的物体精确定位具有一定的挑战性。
我们使用2009年论文《Recognition using regions》采用的“recognition using regions”模式。测试阶段产生2000个类别独立的region proposals,使用CNN抽取固定长度的特征向量。然后使用SVMs进行分类。下图是模型概览

第二个挑战是带标签的数据不足问题。传统的解决方式是 2013年论文《Pedestrian detection with unsupervised multi-stage feature learning》中提到的无监督预训练的方式。本文的贡献之二是:在大规模辅助数据集进行有监督预训练,然后在具体领域的小数据集微调的模式。
类似HOG这样的特征描述符的优势是简单、易理解表达的信息。CNN不易理解,因为它含有大量的参数而且稍微调低一下准确率可能会去除90%的参数。但是卷积层确实能学习到丰富的特征。
理解方法失败的原理是改进的关键,2012的论文《Diagnosing error in object detectors》提供了分析工具。简单的讲,使用简单的bounding box回归来减少错误率是不正确的观点。
2.Object detection with R-CNN
系统分3部分:(1)生成Region proposals (2)卷积神经网络 (3)SVM分类器
2.1Module design
Region proposal。有大量的论文描述生成Region proposal的方法,本文使用selec'tive search的方法,参考论文2013年的《Selective search for object recognition》和2013年的《Regionlets for generic object detection》
Feature Extraction。实现论文2012《ImageNet classification with deep convolutional neural networks》的网络结构,每个Region Proposal提取了4096维特征向量。使用去均值的227x227RGB图像,通过5个卷积层,2个全连接层。
2.2Test-time detection
测试阶段使用大约2000个region proposal,2个属性使性能很好,一是CNN参数被所以类别共享,二是特征向量是低维的。
2.3Training
Supervised pre-training。实际上是使用Alexnet抽取特征值
Domain-specific fine-tuning。使用抽取得特征值,按照20个目标物体分类+1个背景共21个分类重新进行训练
Object category classifiers。很明显紧紧框住汽车的是正样本,其余的是负样本。但不清楚部分框住汽车的如何判断,使用IoU进行判断。这里IoU的阈值需要仔细选择。
浙公网安备 33010602011771号