【统计学习】L1&L2正则化

定义

正则化时结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则项值越大。
L2范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + \frac{\lambda}{2}||w||^2$$
L1范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + {\lambda}||w||$$

奥卡姆剃刀原理

在所有可能选择的模型中,能够很好解释已知数据,并且十分简单才是最好的模型。

正则化为什么能防止过拟合?

训练数据用于计算梯度,更新权重,而验证数据能确定超参,测试数据给出Accurancy,判断模型好坏。
L2正则化(权重衰减)

\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}w^2\\ =>\frac{\partial C}{\partial w} = \frac{\partial {C}_0}{\partial w} + \frac{\lambda}{n} w\\ =>w = w- \eta \frac{\partial C}{\partial w} = w -\eta (\frac{\partial C_0}{\partial w} +\frac{\lambda}{n} w) = w(1- \frac{\lambda \eta}{n}) - \eta\frac{\partial C_o}{\partial w} \]

因为\(1 - \frac{\lambda \eta}{n} < 1\),所以w逐步减小,这就是权重衰减的由来。更小的权重,表示模型复杂度更低,符合奥卡姆剃刀原理。
L1正则化(权重衰减)

\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}|w|\\ =>\frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} + sign(w)\frac{\lambda}{n}\\ =>w = w - \eta * \frac{\partial C}{\partial w} \\ => w = w - \eta * sign(w)\frac{\lambda}{n} - \eta * \frac{\partial C_0}{\partial w} \]

当 sign(w) > 0时,更新后的w变小,当sign(w) < 0时,更新后的w变大。这两者情况都让w向0靠近,使得模型权重尽可能为0,减少模型复杂度。

posted @ 2021-02-01 11:35  逆风飞扬pro  阅读(182)  评论(0)    收藏  举报