2016年7月28日

Spark 定制版:017~Spark Streaming资源动态申请和动态控制消费速率原理剖析

摘要: 本讲内容: a. Spark Streaming资源动态分配 b. Spark Streaming动态控制消费速率 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解 上节回顾 上一讲中,我们要给大家解密Spark Streaming中数据清理的流程,主要从背 阅读全文

posted @ 2016-07-28 12:53 l_time 阅读(571) 评论(0) 推荐(0)

Spark 定制版:016~Spark Streaming源码解读之数据清理内幕彻底解密

摘要: 本讲内容: a. Spark Streaming数据清理原因和现象 b. Spark Streaming数据清理代码解析 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。 上节回顾 上一讲中,我们之所以用一节课来讲No Receivers,是因为企业级Sp 阅读全文

posted @ 2016-07-28 12:52 l_time 阅读(168) 评论(0) 推荐(0)

Spark 定制版:015~Spark Streaming源码解读之No Receivers彻底思考

摘要: 本讲内容: a. Direct Acess b. Kafka 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。 上节回顾 上一讲中,我们讲Spark Streaming中一个非常重要的内容:State状态管理 a. 为了说明state状态管理,拿两个非常具 阅读全文

posted @ 2016-07-28 12:48 l_time 阅读(244) 评论(0) 推荐(0)

Spark 定制版:014~Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

摘要: 本讲内容: a. updateStateByKey解密 b. mapWithState解密 注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。 上节回顾 上一讲中,我们从Spark Streaming源码解读Driver容错安全性:那么什么是Driver容错 阅读全文

posted @ 2016-07-28 12:46 l_time 阅读(451) 评论(0) 推荐(0)

2016年5月25日

第13课:Spark Streaming源码解读之Driver容错安全性

摘要: 本篇博文的目标如下: 1. ReceiverBlockTracker容错安全性 2. DStream和JobGenerator容错安全性 文章的组织思路如下: 考虑Driver容错安全性,我们要思考什么? 再详细分析ReceiverBlockTracker,DStream和JobGenerator容 阅读全文

posted @ 2016-05-25 07:40 l_time 阅读(189) 评论(0) 推荐(0)

第12课:Spark Streaming源码解读之Executor容错安全性

摘要: 本篇博文的目标是 1. Executor的WAL机制详解 2. 消息重放Kafka 数据安全性的考虑: Executor容错方式: 1. 最简单的容错是副本方式,基于底层BlockManager副本容错,也是默认的容错方式。 2. 接收到数据之后不做副本,支持数据重放,所谓重放就是支持反复读取数据。 阅读全文

posted @ 2016-05-25 07:35 l_time 阅读(207) 评论(0) 推荐(0)

第11课:Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究

摘要: Driver的ReceiverTracker接收到数据之后,下一步对数据是如何进行管理 一:ReceiverTracker的架构设计 1. Driver在Executor启动Receiver方式,每个Receiver都封装成一个Task,此时一个Job中就一个Task,而Task中就一条数据,也就是 阅读全文

posted @ 2016-05-25 07:29 l_time 阅读(195) 评论(0) 推荐(0)

2016年5月23日

第10课:Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

摘要: 特别说明: 在上一遍文章中有详细的叙述Receiver启动的过程,如果不清楚的朋友,请您查看上一篇博客,这里我们就基于上篇的结论,继续往下说。 博文的目标是: Spark Streaming在接收数据的全生命周期贯通 组织思路如下: a) 接收数据的架构模式的设计 b) 然后再具体源码分析 接收数据 阅读全文

posted @ 2016-05-23 11:44 l_time 阅读(725) 评论(0) 推荐(0)

第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

摘要: 一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动 阅读全文

posted @ 2016-05-23 11:25 l_time 阅读(270) 评论(0) 推荐(0)

第8课:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

摘要: 本篇博客将详细探讨DStream模板下的RDD是如何被创建,然后被执行的。在开始叙述之前,先来思考几个问题,本篇文章也就是基于此问题构建的。 1. RDD是谁产生的? 2. 如何产生RDD? 带着这两个问题开启我们的探索之旅。 一:实战WordCount源码如下: 至此,我们就知道了,RDD是DSt 阅读全文

posted @ 2016-05-23 11:15 l_time 阅读(274) 评论(0) 推荐(0)

导航