Dropout学习总结
1.Dropout简介
在许多机器学习的模型中,如果模型的参数太多,而且训练的样本又太少,训练出来a数据上损失函数比较大,预测的准确率较低。
过拟合是许多机器学习的通病。如果模型过拟合,那么得到的模型几乎不可用。为了解决过拟合问题,一般会采用模型集成的方法,即训练多个模型进行组合。此时,训练模型费时就成为一个很大的问题,不仅训练多个模型费时,测试多个模型同时也很费时。
综上所述,训练深度神经网络的时候,总是会遇到两个大缺点:(1)容易过拟合;(2)费时
在2012年,Hinton在其论文《Improving neural networks by preventing coadaptation of feature detectors》中提出Dropout。当一个复杂的前馈神经网络被训练在较小的数据集时,容易造成过拟合。为了防止过拟合,可以通过阻止特征检测器的共同作用来提高神经网络的性能。在2012年,Alex、Hinton在其论文《ImageNet Classification with Deep Convolutional Neural Networks》中用到了Dropout算法,用于防止过拟合。并且这篇论文提到的AlexNet网络模型引爆了神经网络应用热潮,并赢得了2012年图像识别大赛的冠军,使得CNN成为图像分类上的核心算法模型。在随后,又有一些关于Dropout的文章《Dropout:A Simple Way to Prevent Neural Networks from Over fitting》、《Improving Neural Networks with Dropout》、《Dropout as data augmentation》从上面的论文中,我们可以感受到Dropout在深度学习中的重要性。那么什么是Dropout呢?
Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器以来其他检测器才能发挥作用。Dropout说简单一点就是:在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型的泛化性更强,因为他不会太依赖某些局部的特征,如图一所示:

图1 使用Dropout的神经网络模型
2.Dropout工作流程及使用
假设有这样一个神经网络,如图2所示。

图2 标准的神经网络
输入是x,输出是y,正常的流程是:首先把通过网络前向传播;然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后,过程变为如下:
(1) 首先随机删掉网络中一半的神经元,输入和输出神经元保持不变(图3中虚线为部分临时被删除的神经元)

图3 部分被临时删除的神经元
(2)然后把输入x通过修改后的网络前向传播,然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个结果后,在没有被删除的神经元上按照随机梯度下降法更新对应的参数(w,b)
(3)然后继续重复这一过程:
回复被删除的神经元(此时被删除的神经元保持原样,而没有被删除的神经元已经有所更新)
从隐藏神经元中随机选择一个一半大小的子集临时删除掉(备份被删除神经元的参数)
对一小批训练样本,先前向传播后反向传播损失并根据随机梯度下降法更新参数(w,b)(没有被删除的那一部分参数得到更新,删除的神经元参数保持被删除前的结果)。
不断地重复这一过程。
那么怎样具体的让Dropout某些神经元以一定的概率停止工作呢?代码层面如何实现的呢?下面我们具体的讲解一下Dropout代码层面的一些公式推导及代码实现的思路。
(1)在训练模型阶段
无可避免的,在训练网络的每个单元都要添加一道概率流程。

图4 标准网络和带有Dropout网络的比较
*没有Dropout的网络计算公式:

*采用Dropout的网络计算公式:

上面的公式中Bernoulli函数是为了生成概率r向量,也就剩随产生一个0、1的向量。
代码层面的实现让某个神经元以概率p停止工作,其实就是让它的激活函数值以概率p变为0,比如我们某一层网络神经元的个数为1000个,其激活函数的输出值为y1,y2,......,y1000,我们Dropout比率选择0.4,那么这一层神经元经过Dropout后,1000个神经元中大约有400个的值被置为0。
《注意》:经过上面屏蔽掉的某些神经元,使其激活值为0以后,我们还需要对向量y1,......,y1000进行缩放,就是乘以1/(1-p)。如果你在训练的时候,经过置0后,没有对y1,......,y1000进行rescale,那么在测试的时候,就需要对权重进行缩放,操作如下:
(2)模型测试阶段
预测模型时,每一个神经元的权重参数要乘以概率p。

图5 预测模型时Dropout的操作
测试阶段的Dropout公式:

3.为什么Dropout可以解决过拟合问题?
(1)取平均的作用:先回到标准的模型即没有Dropout
(2)减少神经元之间复杂的共适应关系:
(3)Dropout类似于性别在生物进化中的角色:

浙公网安备 33010602011771号