西瓜书学习笔记01-CH1/2

摘自西瓜书:

例如描述一个西瓜,可以从色泽、根蒂、敲声来进行描述,

其中:

“色泽” = {青绿,乌黑,...}

“根蒂” = {蜷缩,硬挺,...}

“敲声” = {清脆,浑浊,...}

假设瓜农老王有100个瓜。

这100个瓜的不同记录构成了一个数据集(data set),其中每条记录(也就对应每一个瓜)成为一个实例(instance)/样本(sample)

而“色泽”、“根蒂”、“敲声”则是每个瓜的属性(attribute)/特征(feature)

而每个属性都有不同的表现,例如色泽可以是“青绿”、“乌黑”等,对应称为属性值(attribute value)

 

将描述1个示例的所有特征值都放入向量,我们会得到一个1×d的一维向量,其中d是属性/特征的个数,也是样本的维数(dimensionality)

 

数据集又分为训练集(training set)测试集(testing set)

训练集是用于训练模型;

测试集则是在训练完成之后用于测试模型的优良。

一般训练集大于测试集。

 

我们将拥有着特定属性的瓜判定为“好瓜”,反之则判定为“坏瓜”,这个过程叫标记(label)

我们通过学习数据,得到结论,如果想要预测的是离散值,比如“好瓜”、“坏瓜”,则为分类算法;

如果预测的是连续值,比如西瓜成熟度为0.9、0.8,则为回归算法。

此类有标记信息(也就是知道最终要达成的结果的集合)的学习任务称为“监督学习”,没有的称为“无监督学习”

 

假设空间:通过学习之后得到的模型可以理解为“判断西瓜的好坏标准”,而假设空间则是这些所有标准可能性的集合;

版本空间:能够拟合训练集的那一些假设,是一个“假设集合”,是关于该问题的假设空间的某个子集;

 

奥卡姆剃刀:“若有多个假设与观察值一致,则选择最简单的那个”

换言之,直接基于模型在训练集上的表现进行预测即可。

 

“没有免费的午餐”定理(No Free Lunch Theorem,NFL):哪个算法训练出来的模型在测试集上表现得好就选哪个模型!

 

@datawhale-吃瓜教程

 

posted @ 2023-10-17 22:54  ve-2021  阅读(8)  评论(0编辑  收藏  举报