《机器学习》读书笔记二
第二章 模型与评估
2.1 经验误差与过拟合
错误率
通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在 m mm 个样本中有 a aa 个样本分类错误,则错误率 E = a / m E = a/mE=a/m; 相应的,1 − a / m 1 - a/m1−a/m 称为“精度”(accuracy),即 “精度 = 1 - 错误率”。更一般地,我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)。显然,我们希望得到泛化误差小的学习器。然而,我们事先并不知道样本是什么样,实际能做的是努力使经验误差最小化。
过拟合
当学习器把训练样本学习得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有一般性质,这样就会导致泛化性能下降,这种现场在机器学习中,称为“过拟合”。
过拟合是机器学习面临的关键障碍,且过拟合无法避免,我们所能做的只是“缓解”,或者说减小其风险。关于这一点,可以大致这样理解:机器学习面临的问题通常是NP难甚至更难,而有效的学习算法必然是多项式时间内运行完成,若可彻底避免过拟合,则通过经验误差最小化就能获得最优解,这就是意味着我们构造性地证明了P = N P P = NPP=NP;因此,只要相信P ≠ N P P \ne NPP
=NP,过拟合就不可避免。
NP 问题(完全多项式非确定性问题,Non-Deterministic Polynomial Complete Problems)
NP 问题是指一个复杂问题不能确定是否多项式时间内找到答案,但是可以在多项式时间内验证答案是否正确。
2.2 评估方法
通常,我们可以通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此,我们需要使用一个“测试集”(testing error) 来测试学习器对新样本的判别能力,然后以测试集上的"测试误差"(testing error)作为泛化误差的近似。通常我们假设测试样本也是从样本真实分布中独立同分步采样而得,但需要注意的是,测试集应该与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。
独立同分布(iid, independently identically distribution)
在概率论理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且相互独立,那么这些随机变量是独立同分布。
如果随机变量X 1 X_1X
1
和 X 2 X_2X
2
相互独立,是指X 1 X_1X
1
的取值不影响X 2 X_2X
2
的取值,X 2 X_2X
2
的取值也不影响X 1 X_1X
1
的取值且随机变量X 1 X_1X
1
和 X 2 X_2X
2
服从 同一分布,这意味着X 1 X_1X
1
和 X 2 X_2X
2
具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。
示例——掷骰子

浙公网安备 33010602011771号