上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 40 下一页
摘要: 一、源码分析###入口###org.apache.spark.scheduler/DAGScheduler.scala// 最后,针对stage的task,创建TaskSet对象,调用taskScheduler的submitTasks()方法,提交taskSet // 默认情况下,我们的standalone模式,是使用的TaskSchedulerImpl,TaskScheduler只是一... 阅读全文
posted @ 2019-07-23 18:13 米兰的小铁將 阅读(481) 评论(0) 推荐(0)
摘要: 一、stage划分算法原理 1、图解 Job->Stage->Task 开发完一个应用以后,把这个应用提交到Spark集群,这个应用叫Application。这个应用里面开发了很多代码,这些代码里面凡是遇到一个action操作,就会产生一个job任务。 一个Application有一个或多个job任 阅读全文
posted @ 2019-07-22 15:49 米兰的小铁將 阅读(656) 评论(0) 推荐(0)
摘要: 一、以Wordcount为例来分析1、Wordcountval lines = sc.textFile()val words = lines.flatMap(line => line.split(" "))val pairs = words.map(word => (word, 1))val counts = pairs.reduceByKey(_ + _)counts.foreach(count... 阅读全文
posted @ 2019-07-19 14:15 米兰的小铁將 阅读(316) 评论(0) 推荐(0)
摘要: 一、Work原理 1、图解 Worker启动Driver的一个基本原理,就是Worker内部会启动一个线程,这个线程可以理解为,就是DriverRunner,然后DriverRunner就会去负责启动Driver进程, 并在之后对Driver进程进行管理; Worker启动Executor,其实和D 阅读全文
posted @ 2019-07-19 11:15 米兰的小铁將 阅读(413) 评论(0) 推荐(0)
摘要: 一、主备切换机制原理剖析 1、图解 Master实际上可以配置两个,那么Spark原生的standalone模式是支持Master主备切换的。也就是说,当Active Master节点挂掉时,可以将StandBy master节点切换为Active Master。 Spark Master主备切换可 阅读全文
posted @ 2019-07-18 11:40 米兰的小铁將 阅读(590) 评论(0) 推荐(0)
摘要: 一、SparkContext原理 1、图解 1、当driver启动后会去运行我们的application,在运行application的时候,所有spark程序的第一行都是先创建SparkContext,在创建SparkContext的时候,它的内部创建 两个非常重要的东西DAGSchedule和T 阅读全文
posted @ 2019-07-17 15:12 米兰的小铁將 阅读(1114) 评论(0) 推荐(0)
摘要: 一、三种提交模式 1、Spark内核架构,其实就是第一种模式,standalone模式,基于Spark自己的Master-Worker集群。 2、第二种,是基于YARN的yarn-cluster模式。 3、第三种,是基于YARN的yarn-client模式。 4、如果,你要切换到第二种和第三种模式, 阅读全文
posted @ 2019-07-17 09:25 米兰的小铁將 阅读(300) 评论(0) 推荐(0)
摘要: 一、内核剖析 1、内核模块 1、Application 2、spark-submit 3、Driver 4、SparkContext 5、Master 6、Worker 7、Executor 8、Job 9、DAGScheduler 10、TaskScheduler 11、ShuffleMapTas 阅读全文
posted @ 2019-07-16 16:47 米兰的小铁將 阅读(294) 评论(0) 推荐(0)
摘要: 一、基于排序机制的wordcount程序 1、要求 1、对文本文件内的每个单词都统计出其出现的次数。 2、按照每个单词出现次数的数量,降序排序。 2、代码实现 java实现 package cn.spark.study.core; import java.util.Arrays; import or 阅读全文
posted @ 2019-07-16 11:27 米兰的小铁將 阅读(441) 评论(0) 推荐(0)
摘要: 一、共享变量 1、共享变量工作原理 Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想 要共享某个变量,那么这种方式是做不到的。 Spark为此 阅读全文
posted @ 2019-07-09 10:59 米兰的小铁將 阅读(1139) 评论(0) 推荐(0)
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 40 下一页