《动手学习深度学习》4.5. 权重衰减的笔记
笔记
使用均方范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
\[\min_{w,b} L(w,b) \quad \text{s.t.} \quad \|w\|^2_2 \leq \theta
\]
- 通常不限制偏移\(b\)(限不限制都差不多)
- 小的\(\theta\)意味着更强的正则项
- 这里的正则项是:\(\|w\|^2_2 \leq \theta\) 约束条件本身
- 正则化强 (\(\theta\) 很小) 意味着:
-
搜索空间极小化:
- 参数 \(w\) 只能在一个很小的球体内取值
- 优化算法几乎没有选择余地
-
权重被强力压缩:
\[\|w\|^2_2 \leq \theta \quad \text{且} \quad \theta \to 0 \]- 每个 \(w_j\) 必须非常接近 0
- 模型几乎退化为常数模型:\(f(x) ≈ b\)
-
模型极度简化:
- 几乎所有特征都被忽略
- 预测只依赖于偏移项 \(b\)
- 函数成为高度平滑的常数
使用均方范数作为柔性限制
- 对每个\(\theta\)都可以找到
\[\min_{w,b} \left[ L(w,b) + \frac{\lambda}{2} \|w\|^2_2 \right]
\]
-
可以通过拉格朗日乘子来证明
-
超参数\(\lambda\)控制了正则项的重要程度
- \(\lambda = 0\):无作用
- \(\lambda \to \infty\) 时,\(w* \to 0\),λ→∞ 等价于 θ→0 的数学证明
目标函数是什么?
目标函数 \(L(w,b)\) 通常是损失函数,具体取决于任务:
1. 回归问题(均方误差)
\[L(w,b) = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2
\]
其中 \(f(x_i) = w^T x_i + b\)
2. 二分类问题(对数损失/交叉熵)
\[L(w,b) = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log \sigma(f(x_i)) + (1-y_i) \log (1 - \sigma(f(x_i))) \right]
\]
其中 \(\sigma(z) = \frac{1}{1+e^{-z}}\) 是sigmoid函数
3. 支持向量机(Hinge损失)
\[L(w,b) = \frac{1}{n} \sum_{i=1}^n \max(0, 1 - y_i f(x_i))
\]
4. 一般形式
\[L(w,b) = \frac{1}{n} \sum_{i=1}^n \ell(y_i, f(x_i))
\]
参数更新法则
- 计算梯度
\[\frac{\partial}{\partial w} \left( \ell(w, b) + \frac{\lambda}{2} \|w\|^2 \right) = \frac{\partial \ell(w, b)}{\partial w} + \lambda w
\]
- 时间 \(t\) 更新参数
\[w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\partial \ell(w_t, b_t)}{\partial w_t}
\]
- 通常 \(\eta \lambda < 1\),在深度学习中通常叫做权重衰退
参数更新法则的数学理解
更新公式:
\[w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\partial \ell(w_t, b_t)}{\partial w_t}
\]
1. 偏导数符号不固定
偏导数:
\[\frac{\partial \ell(w_t, b_t)}{\partial w_t} \quad \text{可以是} \quad >0, \ <0, \ \text{或} \ =0
\]
其符号取决于当前位置 \((w_t, b_t)\) 和损失函数 \(\ell\) 的形状。
2. 梯度项的作用
梯度项:
\[-\eta \frac{\partial \ell(w_t, b_t)}{\partial w_t}
\]
- 正梯度 \(\left(\frac{\partial \ell}{\partial w_t} > 0\right)\):\(-\eta \frac{\partial \ell}{\partial w_t} < 0\) → 推动权重 减小
- 负梯度 \(\left(\frac{\partial \ell}{\partial w_t} < 0\right)\):\(-\eta \frac{\partial \ell}{\partial w_t} > 0\) → 推动权重 增加
3. 权重衰退项的作用
权重衰退项:
\[(1 - \eta \lambda)w_t
\]
其中 \(0 < 1 - \eta \lambda < 1\)(通常 \(\eta \lambda < 1\))
- 总是使权重向 0 收缩(乘以小于1的系数)
- 收缩比例:\(1 - \eta \lambda\)
- 收缩量:\(\eta \lambda w_t\)(与当前权重 \(w_t\) 成正比)
4. 总效果:两种力量的平衡
\[w_{t+1} = \underbrace{(1 - \eta \lambda)w_t}_{\text{向原点收缩}} + \underbrace{\left(-\eta \frac{\partial \ell}{\partial w_t}\right)}_{\text{向损失最小点移动}}
\]
平衡点:梯度下降方向与权重衰退方向的合力点
更多注释与总结



浙公网安备 33010602011771号