机器学习（4）：正则化 - 详解

正则化(Regularization)

过拟合

过拟合指机器学习模型在训练数据上表现完美，但在新内容（测试数据）上表现很差的现象。

原因：机器没有学习到数据背后的规律，而是把训练数据中的特例、噪声甚至随机波动都当成了规律来学习，导致模型变得过于麻烦和专门化，失去了泛化到新数据的能力。
对策：
- 舍弃无关特征，或对某些特征进行算法处理（降维、聚类等）
- 减少参数的大小就是正则化：保留所有的特征，但

正则化

核心思想：凭借向模型的损失函数添加一个“惩罚项”，来限制模型的复杂度，从而防止过拟合。
数学公式：

没有正则化的目标：最小化损失函数 Minimize(Loss)
有正则化的目标：最小化 【损失函数 + λ * 惩罚项】，即 Minimize(Loss + λ * Penalty)
- 惩罚项 (Penalty)：通常与模型权重参数（w）的大小直接相关。权重越大，惩罚项越大。它惩罚那些“特别大”的权重值。
  - 权重值大，意味着模型非常“看重”对应的那个特征，即使该特征发生微小的变化，也会导致输出的巨大波动,这通常是模型拟合了噪声和异常点的标志。
  - 通过限制权重值的大小，模型会变得更平滑、更稳定，泛化能力更强。
- λ (Lambda)：正则化强度，是一个超参数。它控制你有多重视“保持模型简单”该目标。
  - λ = 0：正则化失效，退回到原模型。
  - λ → 非常大：模型会变得非常非常简单（比如所有权重趋近于0），可能导致欠拟合。
  - 我们需要选择一个合适的 λ，在“拟合训练数据”和“保持模型简单”之间找到最佳平衡。

正则化类型：

特性对比维度	L2正则化 (岭回归, Ridge)	L1正则化 (套索回归, Lasso)
核心思想	惩罚大的权重，使所有特征系数都均匀变小，但不消除任何特征。	惩罚权重的绝对值，倾向于将不重要的特征系数完全压缩至零。
目标函数示例	`Minimize( Loss + λ * ∑wᵢ² )`	`Minimize( Loss + λ * ∑\\|wᵢ\\| )`
解的性质	非稀疏解 (Non-sparse)	稀疏解 (Sparse)
权重趋势	权重渐进地趋近于0，但永远不会等于0。	产生精确的0值权重，从而完全忽略某些特征。
核心能力	抑制模型复杂度，防止过拟合，提高模型稳定性。	自动进行特征选择，生成更简单、可解释性更强的模型。
几何约束形状	圆形（2D） / 球体（高维）	菱形（2D） / 菱形体（高维）
计算与优化	惩罚项可微，易于进行基于梯度下降的优化。	惩罚项在0点不可微，需使用次梯度等特殊方法优化。
典型适用场景	当资料中存在大量特征，且你认为所有特征都可能与结果相关时。	当你认为许多特征是无关或冗余的，并希望得到一个简洁的模型时

L2正则化（岭回归）
- 核心思想：通过惩罚模型权重的平方大小，来限制模型的复杂度。它致力于让所有特征的权重都变得“小一点”，避免任何单一特征对预测结果产生过大的影响，使模型更加稳定和平滑。
- 数学公式：优化后的目标函数为：

特点：
- 收缩效应：随着 λ增大，所有权重都会被均匀地收缩，趋近于零但永远不会真正等于零。
- 保留所有特征：即使某个特征不核心，它的权重也只会变得很小，而不会被完全移除。因此，最终模型会含有所有输入特征。
- 稳定性：对于资料中的微小扰动（噪声）不敏感，模型方差更低，泛化能力更强。
适用范围：
- 数据特征：当资料中存在大量特征，且这些特征都对因变量有影响（只是重要性不同）
- 主要目的：防止过拟合，提高模型的泛化能力，而不关心特征选择。
L1正则化（套索回归）
- 核心思想：通过惩罚模型权重（系数）的绝对值大小，来限制模型的复杂度。它不仅致力于降低权重，更拥有一种“选择”能力，可能将不重要特征的权重彻底设置为零。
- 数学公式：优化后的目标函数为：

- 特点：
  - 稀疏化效应：这是Lasso最核心的特点。随着λ增大，它会将不重要特征的权重精确地压缩至零。
  - 特征选择：由于会产生稀疏权重向量，Lasso本质上完成了一次特征选择。最终模型只保留那些对预测目标最重要的特征，模型变得非常简单和可解释。
- 适用范围：
  - 素材特征：数据中许多特征是完全无关、冗余或共线性的
  - 关键目的：自动进行特征选择，得到一个更简单、更易于解释的模型。

posted @ 2025-09-12 22:36 wzzkaifa 阅读(107) 评论(0) 收藏举报

刷新页面返回顶部