Dropout学习总结

1.Dropout简介

在许多机器学习的模型中，如果模型的参数太多，而且训练的样本又太少，训练出来a数据上损失函数比较大，预测的准确率较低。

过拟合是许多机器学习的通病。如果模型过拟合，那么得到的模型几乎不可用。为了解决过拟合问题，一般会采用模型集成的方法，即训练多个模型进行组合。此时，训练模型费时就成为一个很大的问题，不仅训练多个模型费时，测试多个模型同时也很费时。

综上所述，训练深度神经网络的时候，总是会遇到两个大缺点：（1）容易过拟合；（2）费时

在2012年，Hinton在其论文《Improving neural networks by preventing coadaptation of feature detectors》中提出Dropout。当一个复杂的前馈神经网络被训练在较小的数据集时，容易造成过拟合。为了防止过拟合，可以通过阻止特征检测器的共同作用来提高神经网络的性能。在2012年，Alex、Hinton在其论文《ImageNet Classification with Deep Convolutional Neural Networks》中用到了Dropout算法，用于防止过拟合。并且这篇论文提到的AlexNet网络模型引爆了神经网络应用热潮，并赢得了2012年图像识别大赛的冠军，使得CNN成为图像分类上的核心算法模型。在随后，又有一些关于Dropout的文章《Dropout：A Simple Way to Prevent Neural Networks from Over fitting》、《Improving Neural Networks with Dropout》、《Dropout as data augmentation》从上面的论文中，我们可以感受到Dropout在深度学习中的重要性。那么什么是Dropout呢？

Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器（隐层节点）间的相互作用，检测器相互作用是指某些检测器以来其他检测器才能发挥作用。Dropout说简单一点就是：在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型的泛化性更强，因为他不会太依赖某些局部的特征，如图一所示：

图1 使用Dropout的神经网络模型

2.Dropout工作流程及使用

假设有这样一个神经网络，如图2所示。

图2 标准的神经网络

输入是x，输出是y，正常的流程是：首先把通过网络前向传播；然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后，过程变为如下：

（1）首先随机删掉网络中一半的神经元，输入和输出神经元保持不变（图3中虚线为部分临时被删除的神经元）

图3 部分被临时删除的神经元

（2）然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个结果后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）

（3）然后继续重复这一过程：

　　回复被删除的神经元（此时被删除的神经元保持原样，而没有被删除的神经元已经有所更新）

　　从隐藏神经元中随机选择一个一半大小的子集临时删除掉（备份被删除神经元的参数）

　　对一小批训练样本，先前向传播后反向传播损失并根据随机梯度下降法更新参数（w，b）（没有被删除的那一部分参数得到更新，删除的神经元参数保持被删除前的结果）。

不断地重复这一过程。

那么怎样具体的让Dropout某些神经元以一定的概率停止工作呢?代码层面如何实现的呢？下面我们具体的讲解一下Dropout代码层面的一些公式推导及代码实现的思路。

（1）在训练模型阶段

无可避免的，在训练网络的每个单元都要添加一道概率流程。

图4 标准网络和带有Dropout网络的比较

*没有Dropout的网络计算公式：

*采用Dropout的网络计算公式：

上面的公式中Bernoulli函数是为了生成概率r向量，也就剩随产生一个0、1的向量。

代码层面的实现让某个神经元以概率p停止工作，其实就是让它的激活函数值以概率p变为0，比如我们某一层网络神经元的个数为1000个，其激活函数的输出值为y1,y2,......,y1000，我们Dropout比率选择0.4，那么这一层神经元经过Dropout后，1000个神经元中大约有400个的值被置为0。

《注意》：经过上面屏蔽掉的某些神经元，使其激活值为0以后，我们还需要对向量y1,......,y1000进行缩放，就是乘以1/(1-p)。如果你在训练的时候，经过置0后，没有对y1,......,y1000进行rescale，那么在测试的时候，就需要对权重进行缩放，操作如下：

（2）模型测试阶段

预测模型时，每一个神经元的权重参数要乘以概率p。

图5 预测模型时Dropout的操作

测试阶段的Dropout公式：

3.为什么Dropout可以解决过拟合问题？

（1）取平均的作用：先回到标准的模型即没有Dropout

（2）减少神经元之间复杂的共适应关系：

（3）Dropout类似于性别在生物进化中的角色：

posted @ 2021-09-24 00:55 hongnal 阅读(325) 评论(0) 收藏举报

刷新页面返回顶部

hongnal

Dropout学习总结

公告