2016年5月23日

第10课:Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

摘要: 特别说明: 在上一遍文章中有详细的叙述Receiver启动的过程,如果不清楚的朋友,请您查看上一篇博客,这里我们就基于上篇的结论,继续往下说。 博文的目标是: Spark Streaming在接收数据的全生命周期贯通 组织思路如下: a) 接收数据的架构模式的设计 b) 然后再具体源码分析 接收数据 阅读全文

posted @ 2016-05-23 11:44 l_time 阅读(725) 评论(0) 推荐(0)

第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

摘要: 一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动 阅读全文

posted @ 2016-05-23 11:25 l_time 阅读(270) 评论(0) 推荐(0)

第8课:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

摘要: 本篇博客将详细探讨DStream模板下的RDD是如何被创建,然后被执行的。在开始叙述之前,先来思考几个问题,本篇文章也就是基于此问题构建的。 1. RDD是谁产生的? 2. 如何产生RDD? 带着这两个问题开启我们的探索之旅。 一:实战WordCount源码如下: 至此,我们就知道了,RDD是DSt 阅读全文

posted @ 2016-05-23 11:15 l_time 阅读(274) 评论(0) 推荐(0)

第7课:Spark Streaming源码解读之JobScheduler内幕实现和深度思考

摘要: 一:JobSheduler的源码解析 1. JobScheduler是Spark Streaming整个调度的核心,相当于Spark Core上的DAGScheduler. 2. Spark Streaming为啥要设置两条线程? setMaster指定的两条线程是指程序运行的时候至少需要两条线程。 阅读全文

posted @ 2016-05-23 11:05 l_time 阅读(213) 评论(0) 推荐(0)

导航