Hypernet

HyperNet:Towards Accurate Region Proposal Generation and Joint Object Detection .Tao Kong Anbang Yao 03.04.2016

摘要

目前在图像检测方面有很好表现的神经网络几乎都是使用候选区域算法(region proposals)来提取目标。然而候选区域算法往往是牺牲检测精度(detection efficiency)来得到高的召回率(recall)。尽管最新的Region Proposal Network(RPN)方法仅仅通过几百个候选区域已经得到了很好的检测精度,但是由于其特征图(feature maps)丢失了很多图像的底层信息,在小目标检测和精确目标定位(例如:设置较大的IoU 阈值)方面仍存在很大的问题。在这篇文章,我们展示了一个深度的分层网络,名叫HyperNet,来处理候选区域生成(region proposal generation)和多目标检测问题(object detection jointly)。HyperNet首先集合了多层的特征图,把这些不同层的特征图压缩到一个统一的空间,我们称这个空间为超特征(Hyper Feature)。这个超特征把深层的高语义的特征,中间的有补充性质的特征和浅层的高分辨率的图像特征结合在一起,这样可以使我们通过在生成候选区域和目标检测时共享这些特征,建立一个HyperNet。对于VGG16模型,PASCAL VOC 2007和2012数据集,我们的模型有很高的召回率,而且每个图片只需要100个候选区域就可以达到先进的目标检测精度。速度上来说,在GPU上跑所有的过程可以达到5fps,这在实时目标检测过程方面有很大的潜力。

1.introduction

目标检测方法改变密集的滑动窗口方法(dense sliding window)为稀疏的候选区域方法(sparse region proposal)。高质量和独立于类别的候选区域减少了每个分类器需要验证的窗口,这促进了目标检测的发展。现在很多先进的目标检测算法都是通过这样的方法实现的。

R-CNN:

利用selective search方法提取出大概2k个候选区域;

用一个事先训练好的CNN网络对候选区域进行分类;

利用深度的CNN模型(VGG16),在PASCAL VOC2012数据集上的结果比之前最好的结果有30%的提升。

R-CNN的成功有两个很关键的点:

利用CNN网络训练的特征替代了人工提取的特征HOG 或 SIFT,CNN提取的特征对多样性的图像有更好的表现;

利用少量的独立于类别的候选区域来减少产生的冗余窗口;

 

posted @ 2017-04-12 16:49  zhoulixue  阅读(1610)  评论(1编辑  收藏  举报