摘要:
SparkUI界面介绍 可以指定提交Application的名称 ./spark-shell --master spark://node1:7077 --name myapp 配置historyServer 临时配置,对本次提交的应用程序起作用 ./spark-shell --master spar 阅读全文
摘要:
广播变量理解图: 广播变量使用: val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new SparkContext(conf) val list = List("hello xasxt 阅读全文
摘要:
SparkShuffle概念: reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。 问题:聚合之前,每一个key对应的value不一定都是在一 阅读全文
摘要:
首先来了解几个概念: 1) MapOutputTracker MapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。 MapOutputTrackerMaster是主对象,存在于Driver中。 MapOutputTrackerWorker是从对象,存在 阅读全文
摘要:
Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等。Executor负责task的计算任务,并将结果返回给Driver。同时需要为需要持久化的RDD提供储存。Driver端的内存管 阅读全文