摘要:本期内容: 1、DStream与RDD关系彻底研究 2、Streaming中RDD的生成彻底研究 一、DStream与RDD关系彻底研究 课前思考: RDD是怎么生成的? RDD依靠什么生成?根据DStream来的 RDD生成的依据是什么? Spark Streaming中RDD的执行是否和Spar
阅读全文
摘要:本期内容: 1,JobScheduler内幕实现 2,JobScheduler深度思考 摘要:JobScheduler是Spark Streaming整个调度的核心,其地位相当于Spark Core上的调度中心中的DAGScheduler! 一、JobScheduler内幕实现 问:JobSched
阅读全文
摘要:本期内容: 1、Spark Streaming Job生成深度思考 2、Spark Streaming Job生成源码解析 一、Spark Streaming Job生成深度思考 源码解析: 1. 在大数据处理场景中,如果不是流处理的话,一般会有定时任务。例如10分钟触发一次,1个小时触发一次,这就
阅读全文
摘要:本期内容: 1、在线动态计算分类最热门商品案例回顾与演示 2、基于案例贯通Spark Streaming的运行源码 一、在线动态计算分类最热门商品案例回顾与演示 案例回顾: package com.dt.spark.sparkstreaming import com.robinspark.utils
阅读全文
摘要:本期内容: 1、Exactly once 2、输出不重复 事务概念:比如银行转账,数据一定会被处理,且只被处理一次,能够输出,且只能输出一次,A转账给B只输出一次,B接收且只接收一次,双方要么同时成功或者同时失败! 一、Exactly once Spark Core是怎么处理一个Job的?具体过程如
阅读全文
摘要:本期内容: 1、解密Spark Streaming Job架构和运行机制 2、解密Spark Streaming 容错架构和运行机制 一、解密Spark Streaming Job架构和运行机制 通过代码洞察Job的执行过程: 通过观察Job在Spark集群上运行的Log和结合源代码分析出如下流程:
阅读全文
摘要:本期内容: 1、解密Spark Streaming运行机制 2、解密Spark Streaming架构 上期回顾: 1、技术界的寻龙点穴,每个领域都有自己的龙脉,Spark就是大数据界的龙脉,Spark Streaming就是Spark的龙血; 2、采用了降维(把时间Batch Interval放大
阅读全文
摘要:本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质 本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质 问:为什么从Spark Streaming来切入spark源码版本订制? Spark
阅读全文