摘要:
默认采用的是Hash分区 缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据 Ranger分区 要求RDD中的KEY类型必须可以排序 自定义分区 根据需求,自定义分区 阅读全文
posted @ 2022-01-24 23:18
Zhbeii
阅读(47)
评论(0)
推荐(0)
摘要:
**窄依赖:**窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用 **宽依赖:**宽依赖表示同一个父(上游)RDD 的 Partition 被多个子(下游)RDD 的 Partition 依赖,会引起 Shuffle 阅读全文
posted @ 2022-01-24 23:13
Zhbeii
阅读(90)
评论(0)
推荐(0)

浙公网安备 33010602011771号