随笔分类 - spark

RDD 重新分区，排序 repartitionAndSortWithinPartitions

摘要：需求：将rdd数据中相同班级的学生分到一个partition中，并根据分数降序排序。此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议，如果需要在repartition重分区之后，还要进行排序，建议直接使用repartition 阅读全文

posted @ 2016-06-17 17:45 suinlove 阅读(6768) 评论(0) 推荐(0)

spark-sql

摘要：本文用到的测试数据person.txt lijing 29 guodegang 45 heyunwei 30 yueyunpeng 100 rdd的分区数量，读取hdfs文件，默认是文件个数 rdd生成方式： 1) 并行化 2) 通过读取文件api方法生成 DataFrame的基础操作，详见官方AP 阅读全文

posted @ 2016-06-12 10:25 suinlove 阅读(382) 评论(0) 推荐(0)

suinlove

随笔分类 - spark

公告