【正则化】策略

一、参数权重正则化（惩罚参数大小）

核心思路：给损失函数加惩罚项，限制权重变得过大，抑制模型学习噪声。

L1 正则化（Lasso）
- 公式：损失 \(+\lambda\sum|w|\)
- 效果：容易让部分权重变为 0，自动稀疏化、做特征筛选。
- 特点：对异常值更敏感，适合特征多、希望精简参数的场景。
L2 正则化（Ridge / 权重衰减 Weight Decay）
- 公式：损失 \(+\lambda\sum w^2\)
- 效果：让所有权重整体趋向变小，不会置零，是神经网络最常用的正则。
- 特点：平滑权重，抑制过拟合，PyTorch/TensorFlow 里的 weight_decay 就是它。
弹性网络 Elastic Net
- 结合 L1+L2，兼顾特征筛选与权重平滑，一般传统机器学习用得多，深度学习较少。

二、网络结构正则化（修改网络结构 / 前向传播）

Dropout
- 训练时随机临时关闭一部分神经元（权重不更新），测试时恢复全部。
- 原理：避免神经元之间过度协同、互相依赖，防止单一神经元 “死记” 特征。
- 变体：
  - DropConnect：随机屏蔽权重而非神经元；
  - Spatial Dropout：针对图像卷积层使用。
早停 Early Stopping
- 不属于数学正则，属于训练策略。
- 做法：拆分训练集 / 验证集，监控验证集 loss，当验证集效果不再提升、开始变差，立刻停止训练。
- 原理：模型继续训练就会开始拟合噪声，提前终止锁住泛化能力，工程首选、零开销。

三、数据层面正则化（从源头增加数据多样性）

数据越多、分布越全，过拟合概率越低，属于最根本方案。

数据增强 Data Augmentation
- 图像：翻转、裁剪、旋转、缩放、加噪声、混合拼接（Mixup/CutMix）。
- 文本：随机替换同义词、语序调整、回译。
- 表格 / 结构化数据：加高斯噪声、样本扰动。
样本重采样 / 数据集拆分
- 划分训练 / 验证 / 测试集，杜绝用测试集参与训练；
- K 折交叉验证：充分利用少量数据，同时评估模型稳定性。

四、归一化类正则（间接抑制过拟合，加速训练 + 稳分布）

这类主要作用是标准化特征分布，间接减少过拟合、梯度消失。

Batch Normalization（BN 批量归一化）
- 对每一批数据做均值、方差归一化，放在卷积 / 全连接层之后、激活函数前。
- 效果：弱化参数剧烈变化，自带轻微正则效果，搭配 Dropout 效果更佳。
Layer Normalization（LN）
- 按单一样本做归一化，多用于 Transformer、NLP 大模型。
Group Normalization（GN）
- 分组归一化，小 batch 场景下替代 BN（比如检测、分割模型）。

五、其他高级正则策略

标签平滑 Label Smoothing
- 不再使用 0/1 硬标签，把标签改成软概率（如 0.9、0.1）。
- 作用：降低模型对训练标签的绝对置信度，避免过度自信、拟合标签噪声，分类任务常用。
权重噪声 / 输入噪声
- 训练时给权重、输入特征添加微小高斯噪声，增加扰动，提升鲁棒性。
模型集成（Ensemble）
- 训练多个不同初始化 / 不同数据子集的模型，最终结果投票 / 加权融合。
- 典型：Bagging、Boosting。单个模型易过拟合，集成后泛化能力大幅提升。
知识蒸馏 Knowledge Distillation
- 用训练好的大模型（教师）指导小模型（学生）学习，小模型继承泛化能力，同时降低过拟合。

posted @ 2026-06-10 15:53 静心笃行。阅读(14) 评论(0) 收藏举报

刷新页面返回顶部