正则化

转自：https://2018august.github.io/2.%20lr%E6%AD%A3%E5%88%99%E5%8C%96%E7%9A%84%E7%9B%B4%E8%A7%82%E7%90%86%E8%A7%A3/

三种优化问题

通常我们求解的最优化问题可以分为以下三类：

无约束的优化问题：

$m i n f (X)$

这是最简单的情况，解决方法通常是 $f (X)$

其几何含义是：
有等式约束的优化问题

$m i n f (X)$

$s . t . g (X) = 0$

注： $s . t .$

常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier ) ，即写成 $L (λ, X) = f (X) + λ g (X)$
- 其几何含义是：
- 等式和不等式约束的优化问题
  
  $m i n f (X)$
  
  $s . t . g (X) = 0$
  
  $h (X) \leq 0$
注： $s . t .$

常常使用的方法就是 KKT 条件。 $L (μ, λ, X) = f (X) + λ g (X) + μ h (X)$
- $L (μ, λ, X)$
- $g (X) = 0$
- $μ h (X) = 0$
求取这些等式之后就能得到候选最优值。其中第三个式子非常有趣，因为 $h (X) \leq 0$

那么 KTT 的几何含义是什么呢？
L1 正则化和 L2 正则化的几何含义

L1 正则化通常称为 Lasso 正则化：

$J (θ) = - \sum_{i = 1}^{m} (y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))) + \frac{λ}{m} \sum_{j = 1}^{n} | θ_{j} |$

L2 正则化通常称为 Ridge 正则化：

$J (θ) = - \sum_{i = 1}^{m} (y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$

我们可以写成统一的形式：

$J (θ, μ) = f (θ) + μ h (θ) \Leftrightarrow J (θ, μ) = f (θ) + μ (h (θ) - η)$

其中 $η$

可以还原为：

$m i n f (θ)$

$s . t . h (θ) - η \leq 0$

那么他们的几何含义是：

对于 L1 正则化 ( Lasso 正则化)： $h (θ) = \sum_{j = 1}^{n} | θ_{j} |$

对于 L2 正则化 ( Ridge 正则化)： $h (θ) = \sum_{j = 1}^{n} θ_{j}^{2}$

Q：以下哪个图形是 L1 正则化，哪个图形是 L2 正则化？

左边的图为 L1 正则化，右图为 L2 正则化。

因为对于 L1 正则化而言 $h (θ) = | w_{1} | + | w_{2} | \leq η$

对于 L2 正则化而言 $h (θ) = w_{1}^{2} + w_{2}^{2} \leq η$

Q1：为什么L1 正则化可以获得稀疏特征？

不同的维度系数一般都是不一样的，因此常见的损失函数图像是一个椭圆形，调整参数 $λ$

Q2： $λ$

$λ$

Q3：为什么 L2 正则化比 L1 正则化应用更加广泛？

因为 L2 正则化的约束边界光滑且可导，便于采用梯度下降法，而L1正则化不可导，只能采用坐标轴下降法或最小角回归法，计算量大。而且，L1 正则化的效果并不会比 L2 正则化好（自己的见解）。

L1 正则化和 L2 正则化正则化的推广

逻辑回归正则化可以写成统一的形式 $L_{q}$

$J (θ) = - \sum_{i = 1}^{m} (y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))) + \frac{λ}{2 m} \sum_{j = 1}^{n} | θ_{j} |^{q}$

其中 $q \geq 0$

从上图可以看出，
- $q = 1$
- 而当 $q < 1$
- 当 $q \leq 1$
- 对于 $q \in (1, 2)$
- 实践表明，对于 $q > 2$
- Zou 和 Hastie (2005) 引入了 Elastic Net 正则化，可以通过参数 $α$
  
  即：
  $λ 2 m \sum j = 1 n ( α θ 2 + ( 1 - α ) | θ j | )$
  如下图为 $q = 1.2$

posted on 2018-08-06 10:38 离云1 阅读(255) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

离云1

正则化

三种优化问题

L1 正则化和 L2 正则化的几何含义

L1 正则化和 L2 正则化正则化的推广

导航

公告