摘要: 一、StreamingContext源码分析###入口 org.apache.spark.streaming/StreamingContext.scala/** * 在创建和完成StreamContext的初始化之后,创建了DStreamGraph、JobScheduler等关联组件之后,就会调用StreamContext的socketTextStream等方法, * 来创建输入DStream... 阅读全文
posted @ 2019-08-20 15:31 米兰的小铁將 阅读(471) 评论(0) 推荐(0)
摘要: 一、架构原理深度剖析StreamingContext初始化时,会创建一些内部的关键组件,DStreamGraph,ReceiverTracker,JobGenerator,JobScheduler,DStreamGraph,我们程序中定义很多DStream,中间用很多操作把这些DStream给串起来,这些DStream之间的依赖关系,就是所谓的DStreamGraph,然后调用StreamingC... 阅读全文
posted @ 2019-08-20 14:27 米兰的小铁將 阅读(350) 评论(0) 推荐(0)
摘要: 一、 容错机制1、背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:1、RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val lines = sc.textFile(hdfs file); val words = lines.f... 阅读全文
posted @ 2019-08-20 13:58 米兰的小铁將 阅读(642) 评论(0) 推荐(0)