Deep Learning（深度学习）-番外-CNN2

ps：http://www.xuebuyuan.com/2191146.html

深度卷积网络

涉及问题：

1.每个图如何卷积：

（1）一个图如何变成几个？

（2）卷积核如何选择？

2.节点之间如何连接？

3.S2-C3如何进行分配？

4.16-120全连接如何连接？

5.最后output输出什么形式？

问题解答：

第1个问题：

（1）输入-C1

用6个5*5大小的patch（即权值，训练得到，随机初始化，在训练过程中调节）对32*32图片进行卷积，得到6个特征图。

（2）S2-C3

C3那16张10*10大小的特征图是怎么来？

将S2的特征图用1个输入层为150（=5*5*6，不是5*5）个节点，输出层为16个节点的网络进行convolution。

该第3号特征图的值（假设为H3）是怎么得到的呢？

首先我们把网络150-16（以后这样表示，表面输入层节点为150，隐含层节点为16）中输入的150个节点分成6个部分，每个部分为连续的25个节点。取出倒数第3个部分的节点（为25个），且同时是与隐含层16个节点中的第4（因为对应的是3号，从0开始计数的）个相连的那25个值，reshape为5*5大小，用这个5*5大小的特征patch去convolution S2网络中的倒数第3个特征图，假设得到的结果特征图为h1。

同理，取出网络150-16中输入的倒数第2个部分的节点（为25个），且同时是与隐含层16个节点中的第5个相连的那25个值，reshape为5*5大小，用这个5*5大小的特征patch去convolution S2网络中的倒数第2个特征图，假设得到的结果特征图为h2。

最后，取出网络150-16中输入的最后1个部分的节点（为25个），且同时是与隐含层16个节点中的第5个相连的那25个值，reshape为5*5大小，用这个5*5大小的特征patch去convolution S2网络中的最后1个特征图，假设得到的结果特征图为h3。

最后将h1，h2，h3这3个矩阵相加得到新矩阵h，并且对h中每个元素加上一个偏移量b，且通过sigmoid的激发函数，即可得到我们要的特征图H3了。

第二个问题:

上图S2中为什么是150个节点？（涉及到权值共享和参数减少）

CNN一个牛逼的地方就在于通过感受野和权值共享减少了神经网络需要训练的参数的个数。

下图左：如果我们有1000x1000像素的图像，有1百万个隐层神经元，那么他们全连接的话（每个隐层神经元都连接图像的每一个像素点），就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。然而图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来就可以得到全局的信息了。这样，我们就可以减少连接的数目，也就是减少神经网络需要训练的权值参数的个数了。如下图右：假如局部感受野是10x10，隐层每个感受野只需要和这10x10的局部图像相连接，所以1百万个隐层神经元就只有一亿个连接，即10^8个参数。比原来减少了四个0（数量级），这样训练起来就没那么费力了，但还是感觉很多的啊，那还有啥办法没？

我们知道，隐含层的每一个神经元都连接10x10个图像区域，也就是说每一个神经元存在10x10=100个连接权值参数。那如果我们每个神经元这100个参数是相同的呢？也就是说每个神经元用的是同一个卷积核去卷积图像。这样我们就只有多少个参数？？只有100个参数啊！！！亲！不管你隐层的神经元个数有多少，两层间的连接我只有100个参数啊！亲！这就是权值共享啊！亲！这就是卷积神经网络的主打卖点啊！亲！（有点烦了，呵呵）也许你会问，这样做靠谱吗？为什么可行呢？这个……共同学习。

好了，你就会想，这样提取特征也忒不靠谱吧，这样你只提取了一种特征啊？对了，真聪明，我们需要提取多种特征对不？假如一种滤波器，也就是一种卷积核就是提出图像的一种特征，例如某个方向的边缘。那么我们需要提取不同的特征，怎么办，加多几种滤波器不就行了吗？对了。所以假设我们加到100种滤波器，每种滤波器的参数不一样，表示它提出输入图像的不同特征，例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映，我们称之为Feature
Map。所以100种卷积核就有100个Feature Map。这100个Feature Map就组成了一层神经元。到这个时候明了了吧。我们这一层有多少个参数了？100种卷积核x每种卷积核共享100个参数=100x100=10K，也就是1万个参数。才1万个参数啊！亲！（又来了，受不了了！）见下图右：不同的颜色表达不同的滤波器。

嘿哟，遗漏一个问题了。刚才说隐层的参数个数和隐层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关。那么隐层的神经元个数怎么确定呢？它和原图像，也就是输入的大小（神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关！例如，我的图像是1000x1000像素，而滤波器大小是10x10，假设滤波器没有重叠，也就是步长为10，这样隐层的神经元个数就是(1000x1000
)/ (10x10)=100x100个神经元了，假设步长是8，也就是卷积核会重叠两个像素，那么……我就不算了，思想懂了就好。注意了，这只是一种滤波器，也就是一个Feature Map的神经元个数哦，如果100个Feature Map就是100倍了。由此可见，图像越大，神经元个数和需要训练的权值参数个数的贫富差距就越大。

所以这里可以知道刚刚14*14的图像计算它的节点，按步长为3计算，则一幅图可得5*5个神经元个数，乘以6得到150个神经元个数。

需要注意的一点是，上面的讨论都没有考虑每个神经元的偏置部分。所以权值个数需要加1 。这个也是同一种滤波器共享的。

总之，卷积网络的核心思想是将：局部感受野、权值共享（或者权值复制）以及时间或空间亚采样这三种结构思想结合起来获得了某种程度的位移、尺度、形变不变性。

第三个问题：

如果C1层减少为4个特征图，同样的S2也减少为4个特征图，与之对应的C3和S4减少为11个特征图，则C3和S2连接情况如图：

第四个问题：

全连接：

C5对C4层进行卷积操作，采用全连接方式，即每个C5中的卷积核均在S4所有16个特征图上进行卷积操作。

第五个问题：

采用one-of-c的方式，在输出结果的1*10的向量中最大分量对应位置极为网络输出的分类结果。对于训练集的标签也采用同样的方式编码，例如1000000000，则表明是数字0的分类。

简化的LeNet-5系统

简化的LeNet-5系统把下采样层和卷积层结合起来，避免了下采样层过多的参数学习过程，同样保留了对图像位移，扭曲的鲁棒性。其网络结构图如下所示：

简化的LeNet-5系统包括输入层的话，只有5层结构，而原始LeNet-5结构不包含输入层就已经是7层网络结构了。它实现下采样非常简单，直接取其第一个位置节点上的值可以了。

1、输入层。MNIST手写数字图像的大小是28x28的，这里通过补零扩展为29x29的大小。这样输入层神经节点个数为29x29等于841个。

2、第一层。由6张不同的特征映射图组成。每一张特征图的大小是13x13. 注意，由于卷积窗大小为5x5，加上下采样过程，易得其大小为13x13. 所以, 第二层共有6x13x13等于1014个神经元节点。每一张特征图加上偏置共有5x5+1等于26个权值需要训练，总共有6x26等于156个不同的权值。即总共有1014x156等于26364条连接线。

3、第二层。由50张不同的特征映射图组成。每一张特征图的大小是5x5. 注意，由于卷积窗大小为5x5，加上下采样过程，易得其大小为5x5. 由于上一层是由多个特征映射图组成，那么，如何组合这些特征形成下一层特征映射图的节点呢？简化的LeNet-5系统采用全部所有上层特征图的组合。也就是原始LeNet-5 特征映射组合图的最后一列的组合方式。因此，总共有5x5x50等于1250 个神经元节点，有(5x5+1)x6x50等于7800 个权值，总共有1250x26等于32500条连接线。

4、第三层。这一层是一个一维线性排布的网络节点,与前一层是全连接的网络，其节点个数设为为100，故而总共有100x(1250+1)等于125100个不同的权值，同时，也有相同数目的连接线。

5、第四层。这一层是网络的输出层，如果要识别0-9数字的话，就是10个节点。该层与前一层是全连接的，故而，总共有10x(100+1)等于1010个权值，有相同数目的连接线。

参考：http://blog.csdn.net/nan355655600/article/details/17690029

http://blog.csdn.net/zouxy09/article/details/8782018

posted on 2015-04-08 23:06 会敲键盘的猩猩阅读(326) 评论(0) 收藏举报