Fast R-CNN（理解）

扫码关注下方公众号："Python编程与深度学习"，领取配套学习资源，并有不定时深度学习相关文章及代码分享。

　　经典的R-CNN存在以下几个问题：

训练分多步骤（先在分类数据集上预训练，再进行fine-tune训练，然后再针对每个类别都训练一个线性SVM分类器，最后再用regressors对bounding box进行回归，并且bounding box还需要通过selective search生成）
时间和空间开销大（在训练SVM和回归的时候需要用网络训练的特征作为输入，特征保存在磁盘上再读入的时间开销较大）
测试比较慢（每张图片的每个region proposal都要做卷积，重复操作太多）

　　在Fast RCNN之前提出过SPPnet来解决R-CNN中重复卷积问题，但SPPnet仍然存在与R-CNN类似的缺陷：

　　因此，该文提出的Fast RCNN便是解决上述不足，在保证效果的同时提高效率。基于VGG16的Fast RCNN模型在训练速度上比R-CNN快大约9倍，比SPPnet快大约3倍；测试速度比R-CNN快大约213倍，比SPPnet快大约10倍，在VOC2012数据集上的mAP大约为66%。

　　fast R-CNN模型的流程图如下：

　　由于region proposal的尺度各不相同，而期望提取出来的特征向量维度相同，因此需要某种特殊的技术来做保证。ROIPooling的提出便是为了解决这一问题的。其思路如下：

　　训练过程中每个mini-batch包含2张图像和128个region proposal（即ROI，64个ROI/张），其中大约25%的ROI和ground truth的IOU值大于0.5（即正样本），且只通过随机水平翻转进行数据增强。

　　多损失融合（分类损失和回归损失融合），分类采用log loss（即对真实分类的概率取负log，分类输出K+1维），回归的loss和R-CNN基本一样。

　　总的损失函数如下：

$$L(p,u,t^u,v)=L_{cls}(p,u)+\lambda [u\geqslant 1]L_{loc}(t^u,v)$$

　　分类损失函数如下：

$$L_{cls}(p,u)=-log\ p_u$$

　　回归损失函数如下：

$$L_{loc}(t^u,v)=\sum_{i\epsilon \{x,y,w,h\}}smooth_{L_1}(t_i^u-v_i)$$

　　其中有：

$$smooth_{L_1}(x)=\left\{\begin{matrix}0.5x^2\ \ \ \ \ \ if\ |x|< 1\\|x|-0.5\ \ otherwise\end{matrix}\right.$$

　　由于卷积层计算针对的是一整张图片，而全连接层需要对每一个region proposal都作用一次，所以全连接层的计算占网络计算的将近一半（如下图）。作者采用SVD来简化全连接层计算。

　　图片引用自博客。

　　图片引用自博客。

卷积不再是重复对每一个region proposal，而是对于整张图像先提取了泛化特征，这样子减少了大量的计算量（注意到，R-CNN中对于每一个region proposal做卷积会有很多重复计算）
ROIPooling的提出，巧妙的解决了尺度放缩的问题
将regressor放进网络一起训练，同时用softmax代替SVM分类器，更加简单高效