随笔分类 - spark
摘要:需求:将rdd数据中相同班级的学生分到一个partition中,并根据分数降序排序。 此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行排序,建议直接使用repartition
阅读全文
摘要:本文用到的测试数据person.txt lijing 29 guodegang 45 heyunwei 30 yueyunpeng 100 rdd的分区数量,读取hdfs文件,默认是文件个数 rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame的基础操作,详见官方AP
阅读全文

浙公网安备 33010602011771号