摘要:
在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于 阅读全文
posted @ 2020-02-28 11:23
Tanglement
阅读(1471)
评论(0)
推荐(0)
浙公网安备 33010602011771号