机器学习中的范数规则化

机器学习的目标：在规则化参数的同时最小化误差

对于第一项Loss函数，如果是Square loss，那就是最小二乘了；如果是Hinge Loss，那就是著名的SVM了；如果是exp-Loss，那就是牛逼的 Boosting了；如果是log-Loss，那就是Logistic Regression了。

yi时候正确的输出，wx+b是预测值，只有当他们符号相同时，loss为0，否则loss function就会变大。loss function是不能微分的，只能求它的次梯度subgradient：

对于第二项

L0范数是指向量中非0的元素的个数
L1范数是指向量中各个元素绝对值之和，是L0范数的最优凸近似，任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。
好处：特征选择，可解释性
L2范数：它的回归叫“岭回归”，也叫它“权值衰减”，可以防止过拟合。 L2范数是指向量各元素的平方和然后求平方根。
好处：防止过拟合，优化计算（有助于处理 condition number不好的情况下矩阵求逆很困难的问题）
L1和L2的区别：

核范数||W||*是指矩阵奇异值的和。矩阵奇异值是矩阵奇异值分解后中间的对角矩阵的对角线上的元素。
假如rank (X)远小于m和n，则我们称X是低秩矩阵。低秩矩阵每行或每列都可以用其他的行或列线性表出，可见它包含大量的冗余信息。
rank(w)的凸近似就是核范数||W||*。
应用：

posted on 2017-06-25 19:29 yingtaomj 阅读(636) 评论(0) 收藏举报