自用学习笔记:机器学习入门 速览【第二章】
机器学习入门 速览【第二章】
2.1 & 2.2 泛化能力
泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”
过拟合 vs 欠拟合
可以说算法用于缓解overfitting
2.3 模型评估
三个关键问题:
- 如何获得测试结果?(评估方法)
- 如何评估性能差异?(性能度量)
- 如何判断实质差别?(比较检测)
2.4 评估方法
留出法

K-折交叉检验法
留出法的不足:随机抽取可能出现使得训练集部分数据并没有用到

自助法
虽然用到了全部的训练集,但改变了样本的分布

2.5 调参与验证集
超参数:一般由人工设定,算法的参数
参数:一般由学习确定,模型的参数
验证集≠测试集 :
-
验证集用于参数的调定,一般从训练集中划分一部分得来
-
算法参数选定后,要用“训练集+验证集”重新训练最终模型
-
测试集一定与训练集“互斥”
2.6 性能度量
性能度量是衡量模型泛化能力的评价标准
回归任务常用于均方误差
分类任务:
- 错误率 精度
- 查准率 查全率
- F1度量 有偏好的F1度量


2.7 比较检验
评估结果不能直接判断模型优劣
因为:
- 测试性能不等于泛化性能
- 测试性能随着测试集的变化而变化
- 算法本身具有一定随机性
统计假设检验为学习器性能的比较提供了重要依据
两学习器比较:
- 交叉验证t检验(成对t检验)
- McNemar检验(基于列联表 类似于上方表2.1,卡方检验)

浙公网安备 33010602011771号