Spark - 随笔分类 - I'm_kylin

SparkStreaming源码解读

摘要：一、SparkStreaming的核心原理将连续的流数据通过时间间隔的形式划分为离散的流数据，即为某段时间的数据。二、SparkStreaming框架的核心思想 1、流的输入：InputStreams --> 源数据 2、流的输出：outputDStreams --> 要计算的结果数据三、整体阅读全文

posted @ 2017-06-23 14:00 I'm_kylin 阅读(1043) 评论(0) 推荐(0)

Stage生成Task

摘要：一、stage 的处理过程 1、从下图可以看出stage是通过递归的形式，从开始依次提交每个stage，直到ResultStage。 2、生成task的主要代码 3、提交到taskScheduler 4、二、每个stage生成的task的个数从以上的几幅图不难发现task的数量其实只与rdd的p 阅读全文

posted @ 2017-05-10 13:26 I'm_kylin 阅读(562) 评论(0) 推荐(0)

Spark RDD源码阅读01

摘要：1、partitions 2、compute 3、dependencies 二、RDD的执行Job的流程 RDD: 这些方法是判断这个Job结束的标志，然后开始执行Job。 SparkContext： DAGScheduler: 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、1 阅读全文

posted @ 2017-05-09 14:42 I'm_kylin 阅读(558) 评论(0) 推荐(0)

指尖上的精彩

随笔分类 - Spark

公告