摘要:
一:Shuffle 在宽依赖关系中,RDD会根据每条记录的key进行不同分区的数据聚集,数据聚集的过程称为Shuffle。例如,对一个RDD进行reduceByKey()操作,RDD中相同key的所有记录将进行聚合,而key相同的所有记录可能不在同一个分区中,甚至不在同一个节点上,但是该操作必须将这 阅读全文
posted @ 2024-01-16 13:09
田攀攀的博客
阅读(69)
评论(0)
推荐(0)
摘要:
在Spark中,对RDD进行的每一次转化操作都会生成一个新的RDD,由于RDD的懒加载特性,新的RDD会依赖原有RDD,因此RDD之间存在类似流水线的前后依赖关系。这种依赖关系分为两种:窄依赖和宽依赖。 一:窄依赖 窄依赖是指父RDD的一个分区最多被子RDD的一个分区所用。例如map()、filte 阅读全文
posted @ 2024-01-16 12:51
田攀攀的博客
阅读(852)
评论(0)
推荐(0)