随笔分类 -  spark

摘要:需求:将rdd数据中相同班级的学生分到一个partition中,并根据分数降序排序。 此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行排序,建议直接使用repartition 阅读全文
posted @ 2016-06-17 17:45 suinlove 阅读(6768) 评论(0) 推荐(0)
摘要:本文用到的测试数据person.txt lijing 29 guodegang 45 heyunwei 30 yueyunpeng 100 rdd的分区数量,读取hdfs文件,默认是文件个数 rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame的基础操作,详见官方AP 阅读全文
posted @ 2016-06-12 10:25 suinlove 阅读(382) 评论(0) 推荐(0)