xuanlin的专栏
居士人生
摘要: 本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如:join操作和普通Map操作的处理数据的时间消耗是否会呈现出一致的线性规律呢,也就是说,并非数据量规 阅读全文
posted @ 2016-06-07 12:39 xuanlin的专栏 阅读(3066) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Direct Acess Kafka Spark Streaming接收数据现在支持的两种方式: 01、 Receiver的方式来接收数据,及输入数据的控制 02、 No Receiver的方式 以上两种方式中,No Receiver的方式更符合读取、操作数据的思路,Spark作为一个 阅读全文
posted @ 2016-05-30 07:17 xuanlin的专栏 阅读(354) 评论(0) 推荐(1) 编辑
摘要: 本期内容 : Spark Streaming中的架构设计和运行机制 Spark Streaming深度思考 Spark Streaming的本质就是在RDD基础之上加上Time ,由Time不断的运行触发周而复始的接收数据及产生Job处理数据。 一、 ReceiverTracker : Receiv 阅读全文
posted @ 2016-06-07 05:12 xuanlin的专栏 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断 阅读全文
posted @ 2016-06-06 22:07 xuanlin的专栏 阅读(5350) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : UpdateStateByKey解密 MapWithState解密 Spark Streaming是实现State状态管理因素: 01、 Spark Streaming是按照整个BachDuration划分Job的,每个BachDuration都会产生一个Job,为了符合业务操作的需求 阅读全文
posted @ 2016-05-30 13:20 xuanlin的专栏 阅读(3990) 评论(2) 推荐(1) 编辑
摘要: 本期内容 : Spark Streaming资源动态分配 Spark Streaming动态控制消费速率 为什么需要动态处理 : Spark 属于粗粒度资源分配,也就是在默认情况下是先分配好资源然后再进行计算,粗粒度有个好处,因为资源是提前给你分配好,当有计算任务的时候直接使用就可以了, 粗粒度不好 阅读全文
posted @ 2016-05-30 13:19 xuanlin的专栏 阅读(1126) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Spark Streaming数据清理原理和现象 Spark Streaming数据清理代码解析 Spark Streaming一直在运行的,在计算的过程中会不断的产生RDD ,如每秒钟产生一个BachDuration同时也会产生RDD, 在这个过程中除了基本的RDD外还有累加器、广播 阅读全文
posted @ 2016-05-30 07:18 xuanlin的专栏 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : ReceivedBlockTracker容错安全性 DStreamGraph和JobGenerator容错安全性 Driver的安全性主要从Spark Streaming自己运行机制的角度考虑的,如对源数据保存方面使用了WAL方式,驱动层面的容错安全主要使用的是CheckPoint , 阅读全文
posted @ 2016-05-24 18:57 xuanlin的专栏 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Executor的WAL 消息重放 数据安全的角度来考虑整个Spark Streaming : 1、 Spark Streaming会不断次序的接收数据并不断的产生Job ,不断的提交Job到集群运行,至关重要的问题接收数据安全性 2、 由于Spark Streaming是基于Spar 阅读全文
posted @ 2016-05-24 18:55 xuanlin的专栏 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : ReceiverTracker的架构设计 消息循环系统 ReceiverTracker具体实现 一、 ReceiverTracker的架构设计 1、 ReceiverTracker可以以Driver中的具体自己的算法来在具体的Execute中启动Receiver,启动Receiver的 阅读全文
posted @ 2016-05-24 18:54 xuanlin的专栏 阅读(267) 评论(0) 推荐(0) 编辑