【正则化】策略
一、参数权重正则化(惩罚参数大小)
核心思路:给损失函数加惩罚项,限制权重变得过大,抑制模型学习噪声。
-
L1 正则化(Lasso)
- 公式:损失 \(+\lambda\sum|w|\)
- 效果:容易让部分权重变为 0,自动稀疏化、做特征筛选。
- 特点:对异常值更敏感,适合特征多、希望精简参数的场景。
-
L2 正则化(Ridge / 权重衰减 Weight Decay)
- 公式:损失 \(+\lambda\sum w^2\)
- 效果:让所有权重整体趋向变小,不会置零,是神经网络最常用的正则。
- 特点:平滑权重,抑制过拟合,PyTorch/TensorFlow 里的
weight_decay就是它。
-
弹性网络 Elastic Net
- 结合 L1+L2,兼顾特征筛选与权重平滑,一般传统机器学习用得多,深度学习较少。
二、网络结构正则化(修改网络结构 / 前向传播)
-
Dropout
-
训练时随机临时关闭一部分神经元(权重不更新),测试时恢复全部。
-
原理:避免神经元之间过度协同、互相依赖,防止单一神经元 “死记” 特征。
-
变体:
- DropConnect:随机屏蔽权重而非神经元;
- Spatial Dropout:针对图像卷积层使用。
-
-
早停 Early Stopping
- 不属于数学正则,属于训练策略。
- 做法:拆分训练集 / 验证集,监控验证集 loss,当验证集效果不再提升、开始变差,立刻停止训练。
- 原理:模型继续训练就会开始拟合噪声,提前终止锁住泛化能力,工程首选、零开销。
三、数据层面正则化(从源头增加数据多样性)
数据越多、分布越全,过拟合概率越低,属于最根本方案。
-
数据增强 Data Augmentation
- 图像:翻转、裁剪、旋转、缩放、加噪声、混合拼接(Mixup/CutMix)。
- 文本:随机替换同义词、语序调整、回译。
- 表格 / 结构化数据:加高斯噪声、样本扰动。
-
样本重采样 / 数据集拆分
- 划分训练 / 验证 / 测试集,杜绝用测试集参与训练;
- K 折交叉验证:充分利用少量数据,同时评估模型稳定性。
四、归一化类正则(间接抑制过拟合,加速训练 + 稳分布)
这类主要作用是标准化特征分布,间接减少过拟合、梯度消失。
-
Batch Normalization(BN 批量归一化)
- 对每一批数据做均值、方差归一化,放在卷积 / 全连接层之后、激活函数前。
- 效果:弱化参数剧烈变化,自带轻微正则效果,搭配 Dropout 效果更佳。
-
Layer Normalization(LN)
- 按单一样本做归一化,多用于 Transformer、NLP 大模型。
-
Group Normalization(GN)
- 分组归一化,小 batch 场景下替代 BN(比如检测、分割模型)。
五、其他高级正则策略
-
标签平滑 Label Smoothing
- 不再使用 0/1 硬标签,把标签改成软概率(如 0.9、0.1)。
- 作用:降低模型对训练标签的绝对置信度,避免过度自信、拟合标签噪声,分类任务常用。
-
权重噪声 / 输入噪声
- 训练时给权重、输入特征添加微小高斯噪声,增加扰动,提升鲁棒性。
-
模型集成(Ensemble)
- 训练多个不同初始化 / 不同数据子集的模型,最终结果投票 / 加权融合。
- 典型:Bagging、Boosting。单个模型易过拟合,集成后泛化能力大幅提升。
-
知识蒸馏 Knowledge Distillation
- 用训练好的大模型(教师)指导小模型(学生)学习,小模型继承泛化能力,同时降低过拟合。

浙公网安备 33010602011771号