Drop-out 正则化

Drop-out 是一种专门针对神经网络设计的正则化技术，亦称随机失活，它是一种非常有效且广泛使用的防止过拟合的方法。它由 Geoffrey Hinton 及其团队在 2012 年提出。

Drop-out 的核心思想非常直观：在训练过程中，随机地“关闭”（失活）一部分神经元。

想象一个大型的神经网络，在每一次训练迭代中，我们会随机选择一些神经元，暂时将它们从网络中移除（包括它们的输入连接和输出连接），使得它们在该次迭代中不参与前向传播和反向传播。

1）训练阶段：

- 设定一个失活概率 p（通常设置为 0.5）。
- 在每次训练迭代（mini-batch）开始时，每个神经元都有 p 的概率被“丢弃”，有 (1-p) 的概率被保留。
- 这个过程是随机的，所以每次迭代使用的网络结构都是不同的。

2）测试/预测阶段：

- 不使用 Drop-out。在预测时，会使用网络中所有的神经元。
- 为了补偿训练时神经元被随机关闭导致整体激活值降低的问题，我们需要对测试阶段的激活值进行缩放（Scale）。通常的做法是在训练阶段将保留的神经元激活值除以 (1-p)，这样可以保证训练和测试阶段的输出期望值保持一致。

Drop-out 之所以有效，可以从以下几个角度来理解：

1）. 强制学习冗余特征（鲁棒性）

每次迭代网络都在一个“残缺”的结构下学习，这迫使网络不能过度依赖任何一个特定的神经元或特征组合。它必须开发出更鲁棒（健壮）的特征，因为任何特征都可能在下一轮被随机关闭。

2.）集成学习的思想（Ensemble Learning）

Drop-out 可以看作是在训练过程中同时训练了无数个拥有不同结构的“子网络”。最终的测试阶段使用的是完整的网络，其效果类似于将所有这些子网络的预测结果平均起来，而集成学习通常比单一模型表现更好。

3）. 打破神经元之间的共适应性

如果没有 Drop-out，神经元之间可能会形成复杂的依赖关系（Co-adaptation），互相依赖以纠正彼此的错误。Drop-out 打破了这种依赖，迫使每个神经元必须独立地学习有用的特征。

Drop-out 是一种强大的正则化技术，通过在训练过程中随机失活神经元来增加模型的鲁棒性、降低模型复杂度，并有效缓解神经网络的过拟合问题。

posted @ 2025-11-12 17:22 PKICA 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部