诸论与模型评估与选择
诸论及模型评估与选择
基本术语
数据集(data set)
实例(instance)、样本(sample):每条记录是关于一个事件或者要给对象的描述
属性(attribute)、特征(feature):反映事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间(attribute space)、样本空间(sample space)、输入空间:以样本的属性为坐标轴张成的多维空间
特征向量(feature vector)):属性空间内每个点对应的一个坐标向量
从数据中学得模型的过程称为"学习" (learning) 或"训练" (training)
样例(example):拥有了标记信息的示例
分类:欲预测的是离散值
回归:欲预测的是连续值
二分类任务:正类 负类
聚类:物以类聚,人以群分
监督学习:分类和回归
无监督学习:聚类(训练机器使用既未分类也未标记的数据的方法)
泛化:模型适用于新样本的能力
演绎:从基础原理推演 出具体状况
归纳:从具体的事实归结出一般性规律
假设空间:可以生成的所有函数的集合
机械学习(死记硬背式学习):把外界输入的信息全部记录下来,在需要时原封不动地取出来使用
归纳学习(从样例中学习):从训练样例中归纳出学习结果
模型评估与选择
经验误差与过拟合
过拟合:巳经把训练样本自身的一些特点当作了所有潜在样本都 会具有的一般性质,这样就会导致泛化性能下
欠拟合:指对训练样本的一般性质尚未学好
模型选择:对候选模型的泛化误差进行评估 然后选择泛化误差最小的那个模型
评估方法
留出法
直接将数据集发分为两个互斥的集合,其中一个做训练集,一个做测试集
⚠️ 训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响
⚠️因为原始数据集存在多种分割划分方式,所以不同的划分将导致模型评估的结果也会有误差,单次使用留出法得到的估计结果往往不够稳定可靠
👉解决办法:采用若干次随机划分,重复进行实验评估后去平均值作为留出发的评估结果
👉由于留出法的划分方式多种多样,考虑到原始数据集训练出的模型性能,常见做法将大约 2/3 ~ 4/5 样本用于训练,剩余样本用测试.
交叉验证法
把数据集划分为k个大小相似的互斥子集,每次用 k-1 子集的并集作为训练集,剩余的那个子集作 试集
交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,所以也把这个方法叫做“K折交叉验证(k-fold cross validation)”
⚠️跟留出法相似,也有多个划分数据集的方法
👉留一法(Leave-One-Out,LOO):每个子集包含一个样本(数据集大时缺陷极大)
自组法
以自主采样法为基础
包外估计:用未在训练集中出现的测试数据来作出决策的方法
自助法在数据集较小、难以有效划分训练/测试集时很有用
调参与最终模型
验证集(validation set):,模型评估与选择中用于评估测试的数据集
测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.
性能度量
模型的好坏却决于算法和数据,还决定于任务需求
回归任务最常用的性能度量是“均方误差”
错误率与精度
查准率、查全率与F1
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划 分为真正例(true positive) 、假正例 (false positive) 、真反倒(true negative) 假反例 (false negative) 四种情形
P-R曲线:以查准率为纵轴、查全率为横轴作图 ,就得到 了查准率 查全率曲线
⚠️若一个学习器的P-R 曲线被另一个学习器的曲线完全"包住 则可断言 后者的性能优于前者
平衡点: 查准率 = 查全率

浙公网安备 33010602011771号