05 2016 档案
摘要:本篇从二个方面讲解: 高级特性: 1、Spark Streaming资源动态分配 2、Spark Streaming动态控制消费速率 原理剖析,动态控制消费速率其后面存在一套理论,资源动态分配也有一套理论。 先讲理论,后面讨论。 为什么要动态资源分配和动态控制速率? Spark默认是先分配资源,然后
阅读全文
摘要:本讲从二个方面阐述: 数据清理原因和现象 数据清理代码解析 Spark Core从技术研究的角度讲 对Spark Streaming研究的彻底,没有你搞不定的Spark应用程序。 Spark Streaming一直在运行,不断计算,每一秒中在不断运行都会产生大量的累加器、广播变量,所以需要对对象及
阅读全文
摘要:数据接入Spark Streaming的二种方式:Receiver和no receivers方式 建议企业级采用no receivers方式开发Spark Streaming应用程序,好处: 1、更优秀的自由度控制 2、语义一致性 no receivers更符合数据读取和数据操作,Spark 计算框
阅读全文
摘要:本篇从二个方面进行源码分析: 一、updateStateByKey解密 二、mapWithState解密 通过对Spark研究角度来研究jvm、分布式、图计算、架构设计、软件工程思想,可以学到很多东西。 进行黑名单动态生成和过滤例子中会用到updateStateByKey方法,此方法在DStream
阅读全文
摘要:本节的主要内容: 一、ReceivedBlockTracker容错安全性 二、DStreamGraph和JobGenerator容错安全性 从数据层面,ReceivedBlockTracker为整个Spark Streaming应用程序记录元数据信息。 从调度层面,DStreamGraph和JobG
阅读全文
摘要:本节主要内容: 一、SparkStreaming Job生成深度思考 二、SparkStreaming Job生成源码解析 JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们要花重点在J
阅读全文
摘要:本节主要考虑:Executor的安全性 主要是数据的安全容错,计算是借助Spark Core的计算容错,本次暂不考虑。 数据容错天然方式就是数据副本,当前数据有问题就读取另外一份;十秒数据出问题,再次读取,支持数据重放。 天然借助BlockManager做数据备份,参照Spark Core,有不同的
阅读全文
摘要:本节的主要内容: 一、ReceiverTracker的架构设计 二、消息循环系统 三、ReceiverTracker具体实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的ReceiverTracker接收到数据之后,具体该怎么进行数据处理呢?看源码Rec
阅读全文
摘要:本节的主要内容: 一、数据接受架构和设计模式 二、接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑。 Receiver和Driver在不同进程,Receiver接收数据后要不断给Deriver汇报。 因为Driver负责调度,Re
阅读全文
摘要:本节的主要内容: 一、Receiver启动的方式设想 二、Receiver启动源码彻底分析 Receiver的设计是非常巧妙和出色的,非常值得我们去学习、研究、借鉴。 在深入认识Receiver之前,我们有必要思考一下,如果没有Spark、Spark Streaming,我们怎么实现Reciver?
阅读全文
摘要:本节主要内容: 一、DStream与RDD关系的彻底的研究 二、StreamingRDD的生成彻底研究 Spark Streaming RDD思考三个关键的问题: RDD本身是基本对象,根据一定时间定时产生RDD的对象,随着时间的积累,不对其管理的话会导致内存会溢出,所以在BatchDuration
阅读全文
摘要:本节主要内如如下: 一、spark streaming job生成深度思考 二、spark streaming job生成源码解析 输入的ds有很多来源Kafka、Socket、Flume,输出的DStream其实是逻辑级别的Action,是Spark Streaming框架提出的,其底层翻译成为物
阅读全文
摘要:本章节内容: 一、在线动态计算分类最热门商品案例回顾 二、基于案例贯通Spark Streaming的运行源码 先看代码(源码场景:用户、用户的商品、商品的点击量排名,按商品、其点击量排名前三): package com.dt.spark.sparkstreaming import org.apac
阅读全文
摘要:本课将从二方面阐述: 一、解密SparkStreaming Job架构和运行机制 二、解密SparkStreaming容错架构和运行机制 一切不能进行实时流处理的数据都将是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,加上Spark的生态系统及各个子框架,SparkStrea
阅读全文
摘要:本节课主要从以下二个方面来解密SparkStreaming: 一、解密SparkStreaming运行机制 二、解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntva
阅读全文
摘要:本节课通过二个部分阐述SparkStreaming的理解: 一、解密SparkStreaming另类在线实验 二、瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版、自己动手改进Spark源码,通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务,如果Sprak
阅读全文
摘要:本篇文章主要从二个方面展开: 一、Exactly Once 二、输出不重复 事务: 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务视角解密SparkStreaming架构: SparkStre
阅读全文

浙公网安备 33010602011771号