随笔分类 - 机器学习系统设计
摘要:通过少量训练数据及其对应类别,我们训练出了能对未来数据分类的模型,这种方法叫做有监督学习,这是因为这个学习过程是在老师的监督下完成的,这个老师就是数据的正确类别。当我们没有标签可以让分类模型去学习时,我们将使用聚类来实现这个目标。聚类使得相同数据处于同一簇中,不相似数据在不同簇中。然而在寻找相似帖子
阅读全文
摘要:数据给出的是小麦的特征数据以及类型。每一个样本由7个特征属性组成,即可以看做7维空间的一个点。我们通过计算两个样本的距离来度量样品间的相似度。在分类时,采用一个简单的规则:对于一个新的样本,我们在数据集中找到最接近它的点,然后将该样本归为和它最近点的同一标签。并采用10折交叉验证。 结果得到: th
阅读全文
摘要:在建立分类模型时,交叉验证(Cross Validation)简称为CV,CV是用来验证分类器的性能。它的主体思想是将原始数据进行分组,一部分作为训练集,一部分作为验证集。利用训练集训练出模型,利用验证集来测试模型,以评估分类模型的性能。 训练数据上的误差叫做训练误差,它对算法模型的评价过于乐观。利
阅读全文
摘要:一 lris 数据集 lris数据集是经典的机器学习数据集,它源自于20世界30年代对花朵特征的统计数据。测量的每个花的特征数据如下: 1 花萼长度 sepal length (cm) 2 花萼宽度 sepal width (cm) 3 花瓣长度 petal length (cm) 4 花瓣宽度 p
阅读全文
摘要:现在给出一个Web统计信息,他们存储着每小时的访问次数。每一行包含连续的小时和信息,以及该小时Web的访问次数。现在要解决的问题是,估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。 1.读取数据: 其中,x表示小时,y表示访问量。 2.预处理和清洗数据: 结果显示含有8个控值
阅读全文