摘要:
程序员->IDEA编写代码->jar包->放到集群计算-> 提交spark应用程序的机器->shell中spark-submit脚本提交程序->运行Driver进程(client模式和提交机器相同)->new sparkContext对象->sparkContext在初始化的时候,会启动UI,设置s 阅读全文
posted @ 2017-07-27 17:19
书灯
阅读(7)
评论(0)
推荐(0)
摘要:
1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖,否则为宽依赖(只要是shuffle操作)。 2.spark根据算子判断宽窄依赖: 窄依赖:map,filter,union 宽依赖:groupByKey,join 3.宽窄依赖用于切割 action算子生成的 阅读全文
posted @ 2017-07-27 17:17
书灯
阅读(30)
评论(0)
推荐(0)
摘要:
1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing e 阅读全文
posted @ 2017-07-27 17:12
书灯
阅读(6)
评论(0)
推荐(0)

浙公网安备 33010602011771号