摘要:
partitionBy 重新分区, repartition默认采用HashPartitioner分区,自己设计合理的分区方法(比如数量比较大的key 加个随机数 随机分到更多的分区, 这样处理数据倾斜更彻底一些) 这里的分区方法可以选择, 默认的分区就是HashPartition分区,注意如果多次使 阅读全文
posted @ 2018-10-25 23:57
大葱拌豆腐
阅读(5532)
评论(0)
推荐(0)
摘要:
repartition 和 partitionBy 都是对数据进行重新分区,默认都是使用 HashPartitioner,区别在于partitionBy 只能用于 PairRDD,但是当它们同时都用于 PairRDD时,结果却不一样: 不难发现,其实 partitionBy 的结果才是我们所预期的, 阅读全文
posted @ 2018-10-25 23:21
大葱拌豆腐
阅读(10134)
评论(0)
推荐(0)
浙公网安备 33010602011771号