Loading

摘要: 默认采用的是Hash分区 缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据 Ranger分区 要求RDD中的KEY类型必须可以排序 自定义分区 根据需求,自定义分区 阅读全文
posted @ 2022-01-24 23:18 Zhbeii 阅读(47) 评论(0) 推荐(0)
摘要: **窄依赖:**窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用 **宽依赖:**宽依赖表示同一个父(上游)RDD 的 Partition 被多个子(下游)RDD 的 Partition 依赖,会引起 Shuffle 阅读全文
posted @ 2022-01-24 23:13 Zhbeii 阅读(90) 评论(0) 推荐(0)