西瓜书学习笔记01-CH1/2
摘自西瓜书:
例如描述一个西瓜,可以从色泽、根蒂、敲声来进行描述,
其中:
“色泽” = {青绿,乌黑,...}
“根蒂” = {蜷缩,硬挺,...}
“敲声” = {清脆,浑浊,...}
假设瓜农老王有100个瓜。
这100个瓜的不同记录构成了一个数据集(data set),其中每条记录(也就对应每一个瓜)成为一个实例(instance)/样本(sample)。
而“色泽”、“根蒂”、“敲声”则是每个瓜的属性(attribute)/特征(feature)。
而每个属性都有不同的表现,例如色泽可以是“青绿”、“乌黑”等,对应称为属性值(attribute value)。
将描述1个示例的所有特征值都放入向量,我们会得到一个1×d的一维向量,其中d是属性/特征的个数,也是样本的维数(dimensionality)。
数据集又分为训练集(training set)和测试集(testing set)。
训练集是用于训练模型;
测试集则是在训练完成之后用于测试模型的优良。
一般训练集大于测试集。
我们将拥有着特定属性的瓜判定为“好瓜”,反之则判定为“坏瓜”,这个过程叫标记(label)。
我们通过学习数据,得到结论,如果想要预测的是离散值,比如“好瓜”、“坏瓜”,则为分类算法;
如果预测的是连续值,比如西瓜成熟度为0.9、0.8,则为回归算法。
此类有标记信息(也就是知道最终要达成的结果的集合)的学习任务称为“监督学习”,没有的称为“无监督学习”。
假设空间:通过学习之后得到的模型可以理解为“判断西瓜的好坏标准”,而假设空间则是这些所有标准可能性的集合;
版本空间:能够拟合训练集的那一些假设,是一个“假设集合”,是关于该问题的假设空间的某个子集;
奥卡姆剃刀:“若有多个假设与观察值一致,则选择最简单的那个”
换言之,直接基于模型在训练集上的表现进行预测即可。
“没有免费的午餐”定理(No Free Lunch Theorem,NFL):哪个算法训练出来的模型在测试集上表现得好就选哪个模型!
@datawhale-吃瓜教程