‘西瓜书’--第二章模型评估与选择
2.1 经验误差与过拟合
错误率 = a(分类错误的样本个数)/ m(样本个数)
精度 = 1 - 错误率
误差:实际预测输出与样本的真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
注:我们希望得到泛化误差小的学习器
过拟合:学习器的学习能力过于强大,把样本中所包含的不太一般的特性学到了,导致的结果是训练误差很小但泛化误差较大。
欠拟合:学习器的学习能力低下,没有很好的学习样本的特性(即包含的数据点太少)。
注:1.在选择参数时,越简单越好。
2.过拟合无法彻底避免
2.2 评估方法
前提:通常我们需要通过实验测试来对学习器的泛化误差进行评估并进而做出选择,为此我们需要一个测试集来测试学习器对样本的辨别能力,同时以测试误差来近似表示泛化误差
主要方法有:
1.留出法:直接将数据集分成互斥的两个集合,一个作为训练集一个作为测试集。
注意:为了避免因数据划分过程引入的额外偏差而对最终结果产生影响,我们需要保证数据分布的一致性。
一般采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。
存在问题:如果训练集S包含大多数样本,则训练出的模型更接近用D训练出的模型,而相应的评估结果就有可能降低准确性。因此我们常用将大约2/3~4/5的样本用于训练,剩余的用于测试。
2.交叉验证法:先将数据集划分为k个大小相似的互斥子集,并尽可能保证数据分布的一致性。然后每次使用k-1个子集用于训练,剩余一个用于测试,重复进行k次,最终返回k次的均值,也常将此方法成为“k折交叉验证”。(k常取10)
弊端:受样本划分不同引入的误差影响较大
解决:随即使用不同的划分重复p次,最终的评测结果是这p次k这交叉验证的均值
特例:留一法----当k作为样本个数时,称为留一法,此法的评估结果大多数情况下是比较准确的,
但当数据集比较大时,计算开销就无法接受了。
3.自助法:以自主采样法为基础,从m 个样本的数据集D中随机抽取m次,并重组成新的数据集D’,始终不被采集到的概率为0.368,也即我们有1/3的数据没有出现的训练集上,也成为外包估计。
利弊:在数据集较小、难以有效划分训练集/测试集的时候很有用;但自助法产生的数据集改变了初始数据集的分布,引入了偏差。
4.调参与最终模型
首先选择合适的算法,然后对算法的参数按照一定规则进行调整。为了加以区分,我们将模型评估与选择中用于评估测试的数据集常称作:验证集
2.3 性能度量
对于回归任务最常用的是均方误差:

对于数据分布D和概率密度函数p(.) ,均方误差可以描述为:

2.3.1 错误率和精度
错误率:分类错误的样本数占样本总数的比例。


浙公网安备 33010602011771号