摘要:
一、Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1、将尽可能多的窄依赖关系的RDD划为同一个stage阶段。 2、当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始 关于RDD中的分区,在默认情况下(也就是未指明分区数的情况) 1、如果 阅读全文
posted @ 2017-03-24 17:22
凌-风
阅读(967)
评论(0)
推荐(0)
摘要:
一、RDD算子补充 1、mapPartitions mapPartitions的输入函数作用于每个分区, 也就是把每个分区中的内容作为整体来处理。 (map是把每一行) mapPartitions一次处理一个分区的所有数据,而map算子一次处理分区中的一条数据,所以mapPartitions处理数据 阅读全文
posted @ 2017-03-24 12:04
凌-风
阅读(925)
评论(0)
推荐(0)

浙公网安备 33010602011771号