深度学习——Dropout

内容

Dropout 是深度学习中一种常用的 正则化技术，由 Geoffrey Hinton 等人在 2012 年提出，核心目的是 防止神经网络过拟合。其核心思想是：在训练过程中随机“关闭”一部分神经元，迫使网络不依赖某些特定神经元，从而提升模型的泛化能力。

训练阶段：
每次前向传播时，每个神经元以概率 p（如 p=0.5）被临时丢弃（输出置零），未被丢弃的神经元输出值会被放大 1/(1-p) 倍（保持总体激活值的期望不变）。
示意图：
```
原始网络： [A] → [B] → [C] → [D]
Dropout后： [A] → [0] → [C] → [D]  （B被随机丢弃）
```
测试阶段：
所有神经元保持激活，但每个神经元的权重需乘以保留概率 1-p（或直接在训练时对权重做缩放，如 PyTorch 默认行为）。

import torch.nn as nn

model = nn.Sequential(
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Dropout(p=0.5),  # 添加 Dropout 层
    nn.Linear(256, 10)
)

丢弃概率 p：通常设为 0.5（全连接层），卷积层可能更低（如 0.2）。
与 BatchNorm 的协同：
若网络包含批量归一化（BatchNorm），Dropout 可能削弱其效果，需谨慎调整顺序或概率。
变体改进：
- Spatial Dropout：对卷积层按通道（Channel）随机丢弃（如丢弃整个特征图）。
- DropPath：随机丢弃网络中的分支（常用于残差网络）。

通过随机“破坏”网络结构，Dropout 强制模型学习冗余特征，是提升深度学习泛化能力的经典方法。

posted @ 2025-04-07 22:56 Gold_stein 阅读(353) 评论(0) 收藏举报

刷新页面返回顶部