2016年1月6日

摘要: 1、Pearson皮尔森相关系数皮尔森相关系数也叫皮尔森积差相关系数,用来反映两个变量之间相似程度的统计量。或者说用来表示两个向量的相似度。皮尔森相关系数计算公式如下: 分子是协方差,分母两个向量的标准差的乘积。显然是要求两个向量的标准差不为零。当两个向量的线性关系增强时,相关系数趋于1(正相关)... 阅读全文
posted @ 2016-01-06 14:53 ljy2013 阅读(3261) 评论(0) 推荐(0) 编辑
 
摘要: Spark MLlib提供了一些基本的统计学的算法,下面主要说明一下:1、Summary statistics对于RDD[Vector]类型,Spark MLlib提供了colStats的统计方法,该方法返回一个MultivariateStatisticalSummary的实例。他封装了列的最大值,... 阅读全文
posted @ 2016-01-06 14:43 ljy2013 阅读(1350) 评论(0) 推荐(0) 编辑