空间金字塔池化 ssp-net

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》，这篇paper提出了空间金字塔池化。

　　之前学习的RCNN，虽然使用了建议候选区域使得速度大大降低，但是对于超大容量的数据，计算速度还有待提高。对RCNN来说，计算冗余很大一部分来自于：对每一个proposal region提取一次特征，而不同region之间有很多的交集，这就导致很大的计算冗余。因此fast-rcnn提出了，先对图片进行一次总体的特征提取，然后再提取每个proposal region的特征。

　　说跑题了，回归正题。先说说ssp-net的优点，在ssp-net之前，使用卷积神经网络需要统一图片的输入大小，那我们自己思考一下为什么需要固定输入大小呢？

　　cnn包括三个部分：卷积池化和全连接。那到底哪一个部分需要固定输入呢？

　　先说卷积，卷积操作对图片的输入大小要求吗？貌似固定卷积核大小，给定输入图片，卷积核都能进行计算，然后输入特征值，任意大小的图片都可以进行卷积。

　　再说池化，池化是更加不需要要求输入大小的，池化只需要根据池化大小，进行平均或者最大池化就可以了。

　　那最后就是全连接喽，分析一下为什么全连接需要固定输入大小。又要拿出之前随笔中的那张图了：

看看全连接是怎么进行计算的，x是输入，根据矩阵运算的规则，不同的输入x对应这不同的w，因此要进行全连接，首先要固定下来输入x。因此罪魁祸首找到了，传统cnn之所以要固定输入，是因为全连接层的存在。原博客地址：http://www.cnblogs.com/smartwhite/p/8601477.html。因此空间金字塔池化层要做的就是卷积层到全连接层的过度，把卷积层不固定的输出，通过空间金字塔池化层，固定下来，作为全连接层的输入。

算法过程：

输入层：一张任意大小的图片

输出层：21维向量

如上图所示，当我们输入一张图片的时候，我们利用不同大小的刻度，对一张图片进行了划分。上面示意图中，利用了三种不同大小的刻度，对一张输入的图片进行了划分，最后总共可以得到16+4+1=21个块，我们即将从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。

第一张图片,我们把一张完整的图片，分成了16个块，也就是每个块的大小就是(w/4,h/4);

第二张图片，划分了4个块，每个块的大小就是(w/2,h/2);

第三张图片，把一整张图片作为了一个块，也就是块的大小为(w,h)

空间金字塔最大池化的过程，其实就是从这21个图片块中，分别计算每个块的最大值，从而得到一个输出神经元。最后把一张任意大小的图片转换成了一个固定大小的21维特征（当然你可以设计其它维数的输出，增加金字塔的层数，或者改变划分网格的大小）。上面的三种不同刻度的划分，每一种刻度我们称之为：金字塔的一层，每一个图片块大小我们称之为：windows size了。如果你希望，金字塔的某一层输出n*n个特征，那么你就要用windows size大小为：(w/n,h/n)进行池化了。

当我们有很多层网络的时候，当网络输入的是一张任意大小的图片，这个时候我们可以一直进行卷积、池化，直到网络的倒数几层的时候，也就是我们即将与全连接层连接的时候，就要使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的奥义（多尺度特征提取出固定大小的特征向量）。具体的流程图如下：

此处直接复制粘贴原作者，因为是在讲得太清晰了，算法概述的原博客地址：https://blog.csdn.net/hjimce/article/details/50187655

posted @ 2018-04-11 10:26 在下小白阅读(3885) 评论(0) 收藏举报

刷新页面返回顶部

在下小白

空间金字塔池化 ssp-net

公告