《动手学习深度学习》4.5. 权重衰减的笔记

笔记

使用均方范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

\[\min_{w,b} L(w,b) \quad \text{s.t.} \quad \|w\|^2_2 \leq \theta \]

  • 通常不限制偏移\(b\)(限不限制都差不多)
  • 小的\(\theta\)意味着更强的正则项
  • 这里的正则项是\(\|w\|^2_2 \leq \theta\) 约束条件本身
  • 正则化强 (\(\theta\) 很小) 意味着:
  1. 搜索空间极小化

    • 参数 \(w\) 只能在一个很小的球体内取值
    • 优化算法几乎没有选择余地
  2. 权重被强力压缩

    \[\|w\|^2_2 \leq \theta \quad \text{且} \quad \theta \to 0 \]

    • 每个 \(w_j\) 必须非常接近 0
    • 模型几乎退化为常数模型\(f(x) ≈ b\)
  3. 模型极度简化

    • 几乎所有特征都被忽略
    • 预测只依赖于偏移项 \(b\)
    • 函数成为高度平滑的常数

使用均方范数作为柔性限制

  • 对每个\(\theta\)都可以找到

\[\min_{w,b} \left[ L(w,b) + \frac{\lambda}{2} \|w\|^2_2 \right] \]

  • 可以通过拉格朗日乘子来证明

  • 超参数\(\lambda\)控制了正则项的重要程度

    • \(\lambda = 0\):无作用
    • \(\lambda \to \infty\) 时,\(w* \to 0\)λ→∞ 等价于 θ→0 的数学证明

目标函数是什么?

目标函数 \(L(w,b)\) 通常是损失函数,具体取决于任务:

1. 回归问题(均方误差)

\[L(w,b) = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2 \]

其中 \(f(x_i) = w^T x_i + b\)

2. 二分类问题(对数损失/交叉熵)

\[L(w,b) = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log \sigma(f(x_i)) + (1-y_i) \log (1 - \sigma(f(x_i))) \right] \]

其中 \(\sigma(z) = \frac{1}{1+e^{-z}}\) 是sigmoid函数

3. 支持向量机(Hinge损失)

\[L(w,b) = \frac{1}{n} \sum_{i=1}^n \max(0, 1 - y_i f(x_i)) \]

4. 一般形式

\[L(w,b) = \frac{1}{n} \sum_{i=1}^n \ell(y_i, f(x_i)) \]


参数更新法则

  • 计算梯度

\[\frac{\partial}{\partial w} \left( \ell(w, b) + \frac{\lambda}{2} \|w\|^2 \right) = \frac{\partial \ell(w, b)}{\partial w} + \lambda w \]

  • 时间 \(t\) 更新参数

\[w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\partial \ell(w_t, b_t)}{\partial w_t} \]

  • 通常 \(\eta \lambda < 1\),在深度学习中通常叫做权重衰退

参数更新法则的数学理解

更新公式:

\[w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\partial \ell(w_t, b_t)}{\partial w_t} \]

1. 偏导数符号不固定

偏导数:

\[\frac{\partial \ell(w_t, b_t)}{\partial w_t} \quad \text{可以是} \quad >0, \ <0, \ \text{或} \ =0 \]

其符号取决于当前位置 \((w_t, b_t)\) 和损失函数 \(\ell\) 的形状。

2. 梯度项的作用

梯度项:

\[-\eta \frac{\partial \ell(w_t, b_t)}{\partial w_t} \]

  • 正梯度 \(\left(\frac{\partial \ell}{\partial w_t} > 0\right)\)\(-\eta \frac{\partial \ell}{\partial w_t} < 0\) → 推动权重 减小
  • 负梯度 \(\left(\frac{\partial \ell}{\partial w_t} < 0\right)\)\(-\eta \frac{\partial \ell}{\partial w_t} > 0\) → 推动权重 增加

3. 权重衰退项的作用

权重衰退项:

\[(1 - \eta \lambda)w_t \]

其中 \(0 < 1 - \eta \lambda < 1\)(通常 \(\eta \lambda < 1\)

  • 总是使权重向 0 收缩(乘以小于1的系数)
  • 收缩比例\(1 - \eta \lambda\)
  • 收缩量\(\eta \lambda w_t\)(与当前权重 \(w_t\) 成正比)

4. 总效果:两种力量的平衡

\[w_{t+1} = \underbrace{(1 - \eta \lambda)w_t}_{\text{向原点收缩}} + \underbrace{\left(-\eta \frac{\partial \ell}{\partial w_t}\right)}_{\text{向损失最小点移动}} \]

平衡点:梯度下降方向与权重衰退方向的合力点


更多注释与总结

3C052A3A47F52B49AF210C2E952C25F1

D576D1476B2CEAA706078F379C46F898

posted @ 2026-01-14 23:31  haokunnnnn  阅读(0)  评论(0)    收藏  举报