摘要: partitionBy 重新分区, repartition默认采用HashPartitioner分区,自己设计合理的分区方法(比如数量比较大的key 加个随机数 随机分到更多的分区, 这样处理数据倾斜更彻底一些) 这里的分区方法可以选择, 默认的分区就是HashPartition分区,注意如果多次使 阅读全文
posted @ 2018-10-25 23:57 大葱拌豆腐 阅读(5532) 评论(0) 推荐(0)
摘要: repartition 和 partitionBy 都是对数据进行重新分区,默认都是使用 HashPartitioner,区别在于partitionBy 只能用于 PairRDD,但是当它们同时都用于 PairRDD时,结果却不一样: 不难发现,其实 partitionBy 的结果才是我们所预期的, 阅读全文
posted @ 2018-10-25 23:21 大葱拌豆腐 阅读(10134) 评论(0) 推荐(0)