线性回归的变种--岭回归与Lasso回归

1.线性回归的一般形式

2.一般线性回归出现的问题及解决方法

　　2.1问题

　　2.2解决方法

3.正则化

4.岭回归与Lasso回归

　　4.1岭回归与lasso回归的异同

1.线性回归的一般形式

2.一般线性回归出现的过拟合问题及解决方法

　　2.1过拟合问题

数据少特征多容易发生过拟合问题

在统计学和机器学习中，overfitting一般在描述统计学模型随机误差或噪音时用到。它通常发生在模型过于复杂的情况下，如参数过多等。overfitting会使得模型的预测性能变弱，并且增加数据的波动性。
Overfitting的概念在机器学习中很重要。通常一个学习算法是借由训练样本来训练的，在训练时会伴随着训练误差training error。当把该模型用到未知数据的测试时，就会相应的带来一个validation error。下面通过训练误差和验证误差来详细分析一下overfitting。如下图：

在上图中，蓝色表示训练误差training error，红色表示validation error。当训练误差达到中间的那条垂直线的点时，模型应该是最优的，如果继续减少模型的训练误差，这时就会发生过拟合。

　　第一个模型欠拟合，第二个模型刚好拟合，第三个过拟合。

　　2.2解决方法

丢弃一些对我们最终预测结果影响不大的特征，具体哪些特征需要丢弃可以通过PCA算法来实现；
使用正则化技术，保留所有特征，但是减少特征前面的参数θ的大小，具体就是修改线性回归中的损失函数形式即可，岭回归以及Lasso回归就是这么做的。

3.正则化

　　3.1为何引入正则化（正则化的基本思想）（引用这位大神的文章）

$min\left\{ \frac{1}{N}\sum_{i=1}^{N}{(y_{i} - f(x_{i} ))^{2} + r(d)} \right\}$ , 其中，r(d)可以理解为有d的参数进行约束，或者 D 向量有d个维度

咱们可以令: f( $x_{i}$ ) = $w_{0}x_{0} + w_{1} x_{1} + w_{2}x_{2} + w_{3}x_{3} + ..... + w_{n}x_{n}$ .

如何去防止过拟合

　　　　1.显而易见，我们应该从【过拟合】出现的特征去判别，才能规避吧？
　　　　显而易见，我们应该、而且只能去看【过拟合】的f(x)形式吧？
　　　　显而易见，我们从【过拟合】的图形可以看出f(x)的涉及到的特征项一定很多吧，即 $x_{0},x_{1},x_{2},x_{3}....x_{N}$ 等等很多吧？
　　　　显而易见，N很大的时候， $w_{0} ,w_{1} ,w_{2} ,w_{3} ,...w_{N}$ 是等数量增长的吧？
　　　　显而易见，w系数都是学习来的吧？

　　　　2.现在知道这些信息之后，如何去防止过拟合，我们首先想到的就是控制N的数量吧，即让N最小化吧，而让N最小化，其实就是让W向量中项的个数最小化吧？其中，W=( $w_{0} ,w_{1} ,w_{2} ,w_{3} ,...w_{N}$ )

　　　　PS: 可能有人会问，为什么是考虑W，而不是考虑X?很简单，你不知道下一个样本想x输入的是什么，所以你怎么知道如何去考虑x呢？相对而言，在下一次输入 $x^{(k)}$ ,即第k个样本之前，我们已经根据 $x^{(1)} ,x^{(2)} ,....x^{(k-1)}$ 次测试样本的输入，计算(学习)出了W.就是这么个道理，很简单。

　　　　3.所以为了防止过拟合，咱们除了需要前面的相加项最小，即

最小，我们还需要让r(d)= $\left| W \right| _{0}$ 最小，所以，为了同时满足两项都最小化，咱们可以求解让 $R_{emp}(f)$ 和r(d)之和最小，这样不就同时满足两者了吗？如果r(d) 过大， $R_{emp}(f)$ 再小也没用；相反r(d)再小， $R_{emp}(f)$ 太大也失去了问题的意义。

　　3.2线性回归的正则化