自用学习笔记:机器学习入门 速览【第二章】

机器学习入门 速览【第二章】

2.1 & 2.2 泛化能力

泛化误差:在“未来”样本上的误差

经验误差:在训练集上的误差,亦称“训练误差”

过拟合 vs 欠拟合

可以说算法用于缓解overfitting

2.3 模型评估

三个关键问题:

  • 如何获得测试结果?(评估方法)
  • 如何评估性能差异?(性能度量)
  • 如何判断实质差别?(比较检测)

2.4 评估方法

留出法

image-20250724153614087

K-折交叉检验法

留出法的不足:随机抽取可能出现使得训练集部分数据并没有用到

image-20250724153943922

自助法

虽然用到了全部的训练集,但改变了样本的分布

image-20250724154309909

2.5 调参与验证集

超参数:一般由人工设定,算法的参数

参数:一般由学习确定,模型的参数

验证集≠测试集 :

  • 验证集用于参数的调定,一般从训练集中划分一部分得来

  • 算法参数选定后,要用“训练集+验证集”重新训练最终模型

  • 测试集一定与训练集“互斥”

2.6 性能度量

性能度量是衡量模型泛化能力的评价标准

回归任务常用于均方误差

分类任务:

  • 错误率 精度
  • 查准率 查全率
  • F1度量 有偏好的F1度量

image-20250724155042113

image-20250724155252285

2.7 比较检验

评估结果不能直接判断模型优劣

因为:

  • 测试性能不等于泛化性能
  • 测试性能随着测试集的变化而变化
  • 算法本身具有一定随机性

统计假设检验为学习器性能的比较提供了重要依据

两学习器比较:

  • 交叉验证t检验(成对t检验)
  • McNemar检验(基于列联表 类似于上方表2.1,卡方检验)
posted @ 2025-07-24 16:20  phurad  阅读(16)  评论(0)    收藏  举报