随笔分类 - 机器学习
主要是一些spark的机器学习的应用小实践,数据理想化,主要反映数据的应用概念。
摘要:1.range()方法: 迭代一个数字序列的话,可以使用range()函数,range()函数可以生成等差级数。 xrange和range相比,不同点就在于xrange生成的不是一个数组,而是一个生成器 2.python enumerate函数 同时需要index和value值的时候可以使用 enu
阅读全文
摘要:聚类算法就是通过一个固定的准则将若干个数据分成不同的类,而这个准则就是算法,即分类的标准。 1.样本: 数据是这样的,300个数据点: 这些数据显示成图形,如下图: 如上图,这是三百个数据点,单凭肉眼看,我无法分别点和点,那个和哪个是同一类,这些点很没有规律,但是请看下图: 如上图:我便可以看清楚这
阅读全文
摘要:K近邻应用-异常检测应用 原理: 根据数据样本进行KMeans机器学习模型的建立,获取簇心点,以簇为单位,离簇心最远的第五个点的距离为阈值,大于这个值的为异常点,即获得数据异常。 如图: 数据样本: 数据样本的数据格式为:标号,特征值1,特征值2(没有具体含义,自动生成的数据只为能够简单的说明异常检
阅读全文