随笔分类 - Spark
分布式计算框架,参考官网:spark.apache.org
摘要:一、SparkStreaming的核心原理 将连续的流数据通过时间间隔的形式划分为离散的流数据,即为某段时间的数据。 二、SparkStreaming框架的核心思想 1、流的输入:InputStreams --> 源数据 2、流的输出:outputDStreams --> 要计算的结果数据 三、整体
阅读全文
摘要:一、stage 的处理过程 1、从下图可以看出stage是通过递归的形式,从开始依次提交每个stage,直到ResultStage。 2、生成task的主要代码 3、提交到taskScheduler 4、 二、每个stage生成的task的个数 从以上的几幅图不难发现task的数量其实只与rdd的p
阅读全文
摘要:1、partitions 2、compute 3、dependencies 二、RDD的执行Job的流程 RDD: 这些方法是判断这个Job结束的标志,然后开始执行Job。 SparkContext: DAGScheduler: 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、1
阅读全文

浙公网安备 33010602011771号