使用Spark下的corr计算皮尔森相似度Pearson时,报错Can only zip RDDs with same number of elements in each partition....
摘要:
实现代码如上,因为Statistics.corr(RDD[Double],RDD[Double]),所以SparkSQL读取后的数据生成的dataFrame必须转换,第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据,这里也转换过多次才成功,最后百度得到可以先.cast(Doub 阅读全文
posted @ 2017-08-07 10:36
WuLei吴磊
阅读(529)
评论(0)
推荐(0)
浙公网安备 33010602011771号