西瓜书学习笔记01-CH1/2

摘自西瓜书：

例如描述一个西瓜，可以从色泽、根蒂、敲声来进行描述，

其中：

“色泽” = {青绿，乌黑，...}

“根蒂” = {蜷缩，硬挺，...}

“敲声” = {清脆，浑浊，...}

假设瓜农老王有100个瓜。

这100个瓜的不同记录构成了一个数据集（data set），其中每条记录（也就对应每一个瓜）成为一个实例（instance）/样本（sample）。

而“色泽”、“根蒂”、“敲声”则是每个瓜的属性（attribute）/特征（feature）。

而每个属性都有不同的表现，例如色泽可以是“青绿”、“乌黑”等，对应称为属性值（attribute value）。

将描述1个示例的所有特征值都放入向量，我们会得到一个1×d的一维向量，其中d是属性/特征的个数，也是样本的维数（dimensionality）。

数据集又分为训练集（training set）和测试集（testing set）。

训练集是用于训练模型；

测试集则是在训练完成之后用于测试模型的优良。

一般训练集大于测试集。

我们将拥有着特定属性的瓜判定为“好瓜”，反之则判定为“坏瓜”，这个过程叫标记（label）。

我们通过学习数据，得到结论，如果想要预测的是离散值，比如“好瓜”、“坏瓜”，则为分类算法；

如果预测的是连续值，比如西瓜成熟度为0.9、0.8，则为回归算法。

此类有标记信息（也就是知道最终要达成的结果的集合）的学习任务称为“监督学习”，没有的称为“无监督学习”。

假设空间：通过学习之后得到的模型可以理解为“判断西瓜的好坏标准”，而假设空间则是这些所有标准可能性的集合；

版本空间：能够拟合训练集的那一些假设，是一个“假设集合”，是关于该问题的假设空间的某个子集；

奥卡姆剃刀：“若有多个假设与观察值一致，则选择最简单的那个”

换言之，直接基于模型在训练集上的表现进行预测即可。

“没有免费的午餐”定理（No Free Lunch Theorem，NFL）：哪个算法训练出来的模型在测试集上表现得好就选哪个模型！

@datawhale-吃瓜教程

posted @ 2023-10-17 22:54 ve-2021 阅读(8) 评论(0) 编辑收藏举报

刷新页面返回顶部

ve