L2正则化解释之多项式曲线拟合

本文通过多项式曲线拟合的问题来解释L2正则化的数学含义，既为何选择w*较小的模型。详细内容如下：

1.数据生成

有一组数据，按照的函数生成，同事有一写随机噪声。

2. 模型

3. 误差函数

E(w)是w的二次函数，故而存在最小值（当取w*时有最小值），当M取不同的值的时候，可以得到不同的模型，而这些模型有不同的泛化能力，如下图所示。

选择阶数M也是一个问题，这个问题叫模型选择。当M=0,1时，模型过于简单，多项式对数据的拟合效果较差，很难表示模型。当M=3时，多项式很好的拟合了函数，M=9时，E(w*) = 0，但是且过拟合了。目标是通过对新数据的预测，使的测试集上E(w*)尽可能的小。

当M取不同的值时，训练误差与测试误差如下图所示，由下图可值，当M=3,4,5,6,7,8时，模型具有很好的泛化能力。

当M取不同的值时，不同阶数的系数如下图：

由上图可知，随着M的增加，w*剧烈的增大了。当M=9时，w*取了很大的值，并且此时，训练误差与测试误差有很大的差距，说明模型过拟合了。当M=9时，让w取相当大的正数或是相当大的负数，多项式可以精确的与数据匹配，即：更大的M值，更灵活的多项式被过分的调参，使得多项式被调成了与目标值的随机噪声相符合，既模型过于复杂。

考察模型的行为随着训练集规模的变化情况，当数据集的规模变大的时候，过拟合的问题变得不那么严重。如下图：

对于M=9的多项式，M=15(左图)，M=100(右图)通过最小化平方和误差函数得到的解，显示，训练集的增大可以减小过拟合的问题。

4. L2正则化

w₀通常从正则化中省略，因为包含w₀ 会使得结果依赖于目标变量原点的选择。w₀也可以包含在正则化中，但是必须有自己的正则化系数。

5. L2正则化的含义之总结

L2正则化的含义，选择具有较小的值的w*,因为w*过大，则表明模型被过分的调参，过分的拟合了训练集，甚至拟合了训练集中的随机噪声，因此导致模型的过拟合。

posted @ 2019-01-09 15:07 ordi 阅读(1016) 评论(0) 收藏举报

刷新页面返回顶部

L2正则化解释之多项式曲线拟合

公告