摘要:
支持向量机1、与Logistic回归做比较Logistic回归下,模型的优劣准则即是的值;而该值正相关于“样本离的距离”,我们期望距离尽可能大。如图所示。距离已经很远的样本,它们离直线是否再远一点已经meaningless(例如和几乎没区别),而本身距离就很小的样本,使它们离直线再远一点就很有价值。而Logistic回归是简单的将所有样本与的距离相加。这样便可能发生,以很近的样本减小距离为代价,换取远处的样本增加距离。这不科学。支持向量机(SVM)就是因此引出的,它只考虑离分界面(即分界线,高维情况下这是个超平面)最近的样本;如果该样本都可以表现良好,那其它样本更不用说,这样便有理由认为模型很 阅读全文
posted @ 2013-04-25 20:35
Sunshine1991
阅读(303)
评论(0)
推荐(0)
摘要:
线性回归、Logistic回归、高斯判别分析1、线性回归估计函数为:损失函数(误差函数)为:它用于评估模型即、也就是的优劣。线性关系的表达能力很强大:①特征的每一维对结果影响的强弱,可由系数体现;②特征的每一维可以先映射到一个函数,再参与线性计算,这样就达到了非线性的效果。线性回归下,求解模型等价于使误差函数最小,即。常用方法有最小二乘法&梯度下降&牛顿迭代法。2、梯度下降为何选择“误差的平方和”作为损失函数将误差记作,即。假设符合正态分布,那么向量和结果值的条件概率为:这是样本i的条件概率。我们希望在所有样本上达到最佳预测效果,采用最大似然估计如下:因此,为了使达到最大,必须 阅读全文
posted @ 2013-04-25 20:04
Sunshine1991
阅读(307)
评论(0)
推荐(0)
摘要:
经验风险最小化、交叉验证、特征选择(提取)1、经验风险最小化经验风险最小化(Empirical Risk Minimization)是机器学习的一个原则,它可以给出学习算法的性能边界。机器学习的目的,就是根据一些训练样本寻找最优函数,使得函数对输入的预测与真实值之间的期望风险(类似于“误差”的概念)最小。期望风险依赖于输入和输出的映射关系,而这个映射却是未知的;我们所掌握的,只有有限的训练样本及其输出。因此很自然的想到,用有限样本的期望值来代替理想的期望值。训练样本已知,因此称作“经验数据”;由它计算出的误差,被称为“经验风险”;通过使经验风险最小来逼近期望风险最小的目标,就是“经验风险最小化 阅读全文
posted @ 2013-04-25 00:57
Sunshine1991
阅读(449)
评论(0)
推荐(0)
浙公网安备 33010602011771号