随笔分类 -  机器学习

主要是一些spark的机器学习的应用小实践,数据理想化,主要反映数据的应用概念。
摘要:1.range()方法: 迭代一个数字序列的话,可以使用range()函数,range()函数可以生成等差级数。 xrange和range相比,不同点就在于xrange生成的不是一个数组,而是一个生成器 2.python enumerate函数 同时需要index和value值的时候可以使用 enu 阅读全文
posted @ 2017-04-09 12:20 阅读(178) 评论(0) 推荐(0) 编辑
摘要:聚类算法就是通过一个固定的准则将若干个数据分成不同的类,而这个准则就是算法,即分类的标准。 1.样本: 数据是这样的,300个数据点: 这些数据显示成图形,如下图: 如上图,这是三百个数据点,单凭肉眼看,我无法分别点和点,那个和哪个是同一类,这些点很没有规律,但是请看下图: 如上图:我便可以看清楚这 阅读全文
posted @ 2017-04-03 18:53 阅读(834) 评论(0) 推荐(0) 编辑
摘要:K近邻应用-异常检测应用 原理: 根据数据样本进行KMeans机器学习模型的建立,获取簇心点,以簇为单位,离簇心最远的第五个点的距离为阈值,大于这个值的为异常点,即获得数据异常。 如图: 数据样本: 数据样本的数据格式为:标号,特征值1,特征值2(没有具体含义,自动生成的数据只为能够简单的说明异常检 阅读全文
posted @ 2016-09-18 21:57 阅读(1195) 评论(0) 推荐(0) 编辑