【统计学习】L1&L2正则化
定义
正则化时结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则项值越大。
L2范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + \frac{\lambda}{2}||w||^2$$
L1范数$$\frac{1}{N}\sum_{i=1}^N(f(x_{i},w - y_{i})^2 + {\lambda}||w||$$
奥卡姆剃刀原理
在所有可能选择的模型中,能够很好解释已知数据,并且十分简单才是最好的模型。
正则化为什么能防止过拟合?
训练数据用于计算梯度,更新权重,而验证数据能确定超参,测试数据给出Accurancy,判断模型好坏。
L2正则化(权重衰减)
\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}w^2\\
=>\frac{\partial C}{\partial w} = \frac{\partial {C}_0}{\partial w} + \frac{\lambda}{n} w\\
=>w = w- \eta \frac{\partial C}{\partial w} = w -\eta (\frac{\partial C_0}{\partial w} +\frac{\lambda}{n} w) = w(1- \frac{\lambda \eta}{n}) - \eta\frac{\partial C_o}{\partial w}
\]
因为\(1 - \frac{\lambda \eta}{n} < 1\),所以w逐步减小,这就是权重衰减的由来。更小的权重,表示模型复杂度更低,符合奥卡姆剃刀原理。
L1正则化(权重衰减)
\[C = C_0 + \frac{\lambda}{2n}\sum_{i=1}^{N}|w|\\
=>\frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} + sign(w)\frac{\lambda}{n}\\
=>w = w - \eta * \frac{\partial C}{\partial w} \\
=> w = w - \eta * sign(w)\frac{\lambda}{n} - \eta * \frac{\partial C_0}{\partial w}
\]
当 sign(w) > 0时,更新后的w变小,当sign(w) < 0时,更新后的w变大。这两者情况都让w向0靠近,使得模型权重尽可能为0,减少模型复杂度。
精通大数据技术栈、以及机器学习算法(包括数学公式推导)以及算法代码实现(Python以及Spark ML)

浙公网安备 33010602011771号