正则化笔记

    吉谱斯现象Gibbs(又叫吉谱斯效应): 用有限项傅里叶级数表示有间断点的信号时,在间断点附近不可避免的会出现振荡和超量。超量的幅度不会随所取项数的增加而减小。只是随着项数的增多,振荡频率变高,并向间断点处压缩,从而使它所占有的能量减少。当选取项数趋于无穷时,超量趋于一个常数,约占9%,这种现象称为吉普斯现象。
正则化的理解:
    正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。
约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
    同时正则化,解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。
   为什么我们要得到稀疏性的特征表示呢?当然是为了防止过拟合,提高泛化能力,更好地解释模型....其实,从生物学的角度,人脑中的大量神经元,当受到外界刺激(图像或者声音)时,只有少量的神经元被激活,大部分神经元处于抑制状态。
正则化项可以是模型参数向量的范数。不同的正则化项对参数w的约束不同,取得的效果也不同,常见的正则化项:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。
    L2范数可以防止过拟合,提升模型的泛化能力;从优化或者数值计算的角度来说,L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。
    L1范数是指向量中各个元素绝对值之和,又叫“稀疏规则算子”(Lasso regularization)。

posted @ 2017-05-17 23:28  如蛆附骨  阅读(159)  评论(0编辑  收藏  举报