2016 年 5月 23 日随笔档案 - l_time

第10课：Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

摘要：特别说明：在上一遍文章中有详细的叙述Receiver启动的过程，如果不清楚的朋友，请您查看上一篇博客，这里我们就基于上篇的结论，继续往下说。博文的目标是： Spark Streaming在接收数据的全生命周期贯通组织思路如下： a) 接收数据的架构模式的设计 b) 然后再具体源码分析接收数据阅读全文

posted @ 2016-05-23 11:44 l_time 阅读(725) 评论(0) 推荐(0)

第9课：Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

摘要：一：Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据，并把数据汇报给Driver端，由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动阅读全文

posted @ 2016-05-23 11:25 l_time 阅读(270) 评论(0) 推荐(0)

第8课：Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

摘要：本篇博客将详细探讨DStream模板下的RDD是如何被创建，然后被执行的。在开始叙述之前，先来思考几个问题，本篇文章也就是基于此问题构建的。 1. RDD是谁产生的？ 2. 如何产生RDD？带着这两个问题开启我们的探索之旅。一：实战WordCount源码如下：至此，我们就知道了，RDD是DSt 阅读全文

posted @ 2016-05-23 11:15 l_time 阅读(274) 评论(0) 推荐(0)

第7课：Spark Streaming源码解读之JobScheduler内幕实现和深度思考

摘要：一：JobSheduler的源码解析 1. JobScheduler是Spark Streaming整个调度的核心，相当于Spark Core上的DAGScheduler. 2. Spark Streaming为啥要设置两条线程？ setMaster指定的两条线程是指程序运行的时候至少需要两条线程。阅读全文

posted @ 2016-05-23 11:05 l_time 阅读(213) 评论(0) 推荐(0)

l_time

第10课：Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

第9课：Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

第8课：Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

第7课：Spark Streaming源码解读之JobScheduler内幕实现和深度思考

导航

公告