机器学习正则化参数的学习(l_0/l_1/l_2范数等)

  特此申明:本博客引用链接: 机器学习中的范数规则化之(一)L0、L1与L2范数

  我们都知道在优化问题上,我们除了需要最小化训练误差,例如通过square loss,log loss,exp loss等,我们还需要同事兼顾模型的泛化性能,因此我们需要通过添加正则项来进行提高模型的泛化性能,同时添加上的正则项也能够帮助我们来减少测试上的误差,从而提高推荐上的效果(precision)。

1 L0范数与L1范数:

  L0范数是指向量中非0的元素个数,其主要作用是用来稀疏我们的目标参数(一般表示为W)的,不言而喻,当我们的参数矩阵W如果基本上都是为0的话,是不是就意味着我们不用考虑到输入矩阵(一般表示为X)上很多的特征,是不是就以为着在这一过程中进行了特征的自动选择,但是很多时候我们所看到的正则项往往是L1范数更多,而很少看到L0范数,没错,由于L0范数的求解释个NP-hard的问题,一般我们都会采用近似的方法来求算,正好L1范数是L0范数很好的凸近似优化,因此更多的paper上的方法采用的是L1范数。

  所以现在让我们来讨论一下L1范数:L1范数是指向量中各个元素绝对值之和,另外有个称呼"稀疏规则算子"(Lasso Regularization),因为上面我们提及到了L1范数是L0范数的凸近似,因此自然有了一些关于L0范数的特征(使稀疏)。

2 L2范数

  L2范数不逊色于L1范数,L2范数的回归被称为"岭回归"(Ridge Regression),也有被叫做"权值衰减"(weight decay),主要是来解决过拟合的问题,过拟合指的是:模型在训练的时候能够很好地减小训练误差,但是在预测阶段却是发现模型的测试误差很差,即在推荐系统中表示的状况是:模型的推荐效果并不让人满意。具体图示参照链接上(CSDN博客大佬)的图示:欠拟合/合适的拟合/过拟合,L2范数是指向量中个元素的平方和再求平方根。

posted @ 2017-11-24 11:03  Go_now  阅读(1059)  评论(0编辑  收藏  举报