自用学习笔记：机器学习入门速览【第二章】

机器学习入门速览【第二章】

2.1 & 2.2 泛化能力

泛化误差：在“未来”样本上的误差

经验误差：在训练集上的误差，亦称“训练误差”

过拟合 vs 欠拟合

可以说算法用于缓解overfitting

2.3 模型评估

三个关键问题：

如何获得测试结果？（评估方法）
如何评估性能差异？（性能度量）
如何判断实质差别？（比较检测）

2.4 评估方法

留出法

K-折交叉检验法

留出法的不足：随机抽取可能出现使得训练集部分数据并没有用到

自助法

虽然用到了全部的训练集，但改变了样本的分布

2.5 调参与验证集

超参数：一般由人工设定，算法的参数

参数：一般由学习确定，模型的参数

验证集≠测试集：

验证集用于参数的调定，一般从训练集中划分一部分得来
算法参数选定后，要用“训练集+验证集”重新训练最终模型
测试集一定与训练集“互斥”

2.6 性能度量

性能度量是衡量模型泛化能力的评价标准

回归任务常用于均方误差

分类任务：

错误率精度
查准率查全率
F1度量有偏好的F1度量

2.7 比较检验

评估结果不能直接判断模型优劣

因为：

测试性能不等于泛化性能
测试性能随着测试集的变化而变化
算法本身具有一定随机性

统计假设检验为学习器性能的比较提供了重要依据

两学习器比较：

交叉验证t检验（成对t检验）
McNemar检验（基于列联表类似于上方表2.1，卡方检验）

posted @ 2025-07-24 16:20 phurad 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

phurad

自用学习笔记：机器学习入门 速览【第二章】

机器学习入门 速览【第二章】