机器学习基本概念
标记(label)
关于示例结果的信息,例如“好瓜”,称为“标记”
样例(example)
拥有了标记的示例,称为“样例”
分类(classification)
若我们欲预测的是离散值,此类学习任务称为“分类”
二分类(binary classification)
只涉及两个类别的分类任务,分为正类(positive class)和 反类(negative class)
多分类(multi-class classification)
涉及多个类别的分类任务
回归(regression)
若欲预测的是连续值,此类学习任务称为“回归”
泛化(generalization)能力
学得的模型适用于新样本的能力,称为“泛化”能力
过拟合(overfitting)
学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象就叫“过拟合”。
过拟合无法避免,只能缓解。
欠拟合(underfitting)
指对训练样本的一般性质尚未学好。
留出法(hold-out)
直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。
交叉验证(cross validation)
TODO:另一种评估方法
自助法(bootstraping)
TODO:另一种评估方法

浙公网安备 33010602011771号