Fork me on GitHub
摘要: 一、前述 Spark内存管理 Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等。Executor负责task的计算任务,并将结果返回给Driver。同时需要为需要持久化的RDD提 阅读全文
posted @ 2018-02-07 02:15 L先生AI课堂 阅读(752) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle。 SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一 阅读全文
posted @ 2018-02-07 01:50 L先生AI课堂 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 一、前述 本节讲述Spark Master的HA的搭建,为的是防止单点故障。 Spark-UI 的使用介绍,可以更好的监控Spark应用程序的执行。 二、具体细节 1、Master HA 1、Master的高可用原理 Standalone集群只有一个Master,如果Master挂了就无法提交应用程 阅读全文
posted @ 2018-02-07 01:08 L先生AI课堂 阅读(1233) 评论(0) 推荐(0) 编辑