【统计学习】L1&L2正则化

定义

正则化时结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则项值越大。
L2范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + \frac{\lambda}{2}||w||^2$$
L1范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + {\lambda}||w||$$

奥卡姆剃刀原理

在所有可能选择的模型中，能够很好解释已知数据，并且十分简单才是最好的模型。

正则化为什么能防止过拟合？

训练数据用于计算梯度，更新权重，而验证数据能确定超参，测试数据给出Accurancy，判断模型好坏。
L2正则化(权重衰减)

\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}w^2\\ =>\frac{\partial C}{\partial w} = \frac{\partial {C}_0}{\partial w} + \frac{\lambda}{n} w\\ =>w = w- \eta \frac{\partial C}{\partial w} = w -\eta (\frac{\partial C_0}{\partial w} +\frac{\lambda}{n} w) = w(1- \frac{\lambda \eta}{n}) - \eta\frac{\partial C_o}{\partial w} \]

因为$1 - \frac{\lambda \eta}{n} < 1$，所以w逐步减小，这就是权重衰减的由来。更小的权重，表示模型复杂度更低，符合奥卡姆剃刀原理。
L1正则化(权重衰减)

\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}|w|\\ =>\frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} + sign(w)\frac{\lambda}{n}\\ =>w = w - \eta * \frac{\partial C}{\partial w} \\ => w = w - \eta * sign(w)\frac{\lambda}{n} - \eta * \frac{\partial C_0}{\partial w} \]

当 sign(w) > 0时，更新后的w变小，当sign(w) < 0时，更新后的w变大。这两者情况都让w向0靠近，使得模型权重尽可能为0，减少模型复杂度。

posted @ 2021-02-01 11:35 逆风飞扬pro 阅读(182) 评论(0) 收藏举报

刷新页面返回顶部

逆风飞扬pro

【统计学习】L1&L2正则化

定义

奥卡姆剃刀原理

正则化为什么能防止过拟合？

公告