随笔档案「2017年8月7日」：使用Spark下的corr计算皮尔森相似度Pearson... - WuLei吴磊

使用Spark下的corr计算皮尔森相似度Pearson时，报错Can only zip RDDs with same number of elements in each partition....

摘要：实现代码如上，因为Statistics.corr（RDD[Double],RDD[Double]）,所以SparkSQL读取后的数据生成的dataFrame必须转换，第一步是转换成RDD[Row],Row就相当于sql查询出来的一条数据，这里也转换过多次才成功，最后百度得到可以先.cast(Doub 阅读全文

posted @ 2017-08-07 10:36 WuLei吴磊阅读(532) 评论(0) 推荐(0)

2017年8月7日

公告