【正则化】策略

一、参数权重正则化(惩罚参数大小)

核心思路:给损失函数加惩罚项,限制权重变得过大,抑制模型学习噪声。

  1. L1 正则化(Lasso)

    • 公式:损失 \(+\lambda\sum|w|\)
    • 效果:容易让部分权重变为 0,自动稀疏化、做特征筛选
    • 特点:对异常值更敏感,适合特征多、希望精简参数的场景。
  2. L2 正则化(Ridge / 权重衰减 Weight Decay)

    • 公式:损失 \(+\lambda\sum w^2\)
    • 效果:让所有权重整体趋向变小,不会置零,是神经网络最常用的正则。
    • 特点:平滑权重,抑制过拟合,PyTorch/TensorFlow 里的 weight_decay 就是它。
  3. 弹性网络 Elastic Net

    • 结合 L1+L2,兼顾特征筛选与权重平滑,一般传统机器学习用得多,深度学习较少。

二、网络结构正则化(修改网络结构 / 前向传播)

  1. Dropout

    • 训练时随机临时关闭一部分神经元(权重不更新),测试时恢复全部。

    • 原理:避免神经元之间过度协同、互相依赖,防止单一神经元 “死记” 特征。

    • 变体:

      • DropConnect:随机屏蔽权重而非神经元;
      • Spatial Dropout:针对图像卷积层使用。
  2. 早停 Early Stopping

    • 不属于数学正则,属于训练策略
    • 做法:拆分训练集 / 验证集,监控验证集 loss,当验证集效果不再提升、开始变差,立刻停止训练。
    • 原理:模型继续训练就会开始拟合噪声,提前终止锁住泛化能力,工程首选、零开销

三、数据层面正则化(从源头增加数据多样性)

数据越多、分布越全,过拟合概率越低,属于最根本方案

  1. 数据增强 Data Augmentation

    • 图像:翻转、裁剪、旋转、缩放、加噪声、混合拼接(Mixup/CutMix)。
    • 文本:随机替换同义词、语序调整、回译。
    • 表格 / 结构化数据:加高斯噪声、样本扰动。
  2. 样本重采样 / 数据集拆分

    • 划分训练 / 验证 / 测试集,杜绝用测试集参与训练;
    • K 折交叉验证:充分利用少量数据,同时评估模型稳定性。

四、归一化类正则(间接抑制过拟合,加速训练 + 稳分布)

这类主要作用是标准化特征分布,间接减少过拟合、梯度消失。

  1. Batch Normalization(BN 批量归一化)

    • 对每一批数据做均值、方差归一化,放在卷积 / 全连接层之后、激活函数前。
    • 效果:弱化参数剧烈变化,自带轻微正则效果,搭配 Dropout 效果更佳。
  2. Layer Normalization(LN)

    • 按单一样本做归一化,多用于 Transformer、NLP 大模型
  3. Group Normalization(GN)

    • 分组归一化,小 batch 场景下替代 BN(比如检测、分割模型)。

五、其他高级正则策略

  1. 标签平滑 Label Smoothing

    • 不再使用 0/1 硬标签,把标签改成软概率(如 0.9、0.1)。
    • 作用:降低模型对训练标签的绝对置信度,避免过度自信、拟合标签噪声,分类任务常用。
  2. 权重噪声 / 输入噪声

    • 训练时给权重、输入特征添加微小高斯噪声,增加扰动,提升鲁棒性。
  3. 模型集成(Ensemble)

    • 训练多个不同初始化 / 不同数据子集的模型,最终结果投票 / 加权融合。
    • 典型:Bagging、Boosting。单个模型易过拟合,集成后泛化能力大幅提升。
  4. 知识蒸馏 Knowledge Distillation

    • 用训练好的大模型(教师)指导小模型(学生)学习,小模型继承泛化能力,同时降低过拟合。
posted @ 2026-06-10 15:53  静心笃行。  阅读(14)  评论(0)    收藏  举报