随笔分类 -  spark

spark相关的内容。
摘要:在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。 和基于Receiver接收数据不 阅读全文
posted @ 2016-04-25 13:36 吉日木图 阅读(410) 评论(0) 推荐(0)
摘要:Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct 阅读全文
posted @ 2016-04-25 13:25 吉日木图 阅读(274) 评论(0) 推荐(0)
摘要:作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整 阅读全文
posted @ 2016-04-06 17:22 吉日木图 阅读(329) 评论(0) 推荐(0)
摘要:下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们 阅读全文
posted @ 2016-03-15 12:50 吉日木图 阅读(325) 评论(0) 推荐(0)
摘要:Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了。那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Spark内存管理模型的神秘面纱。         我们在《Spark源码分析之七:Task运行(一)》 阅读全文
posted @ 2016-03-14 07:56 吉日木图 阅读(400) 评论(0) 推荐(1)
摘要:在《Spark源码分析之七:Task运行(一)》一文中,我们详细叙述了Task运行的整体流程,最终Task被传输到Executor上,启动一个对应的TaskRunner线程,并且在线程池中被调度执行。继而,我们对TaskRunner的run()方法进行了详细的分析,总结出了其内Task执行的三个主要 阅读全文
posted @ 2016-03-14 07:55 吉日木图 阅读(271) 评论(0) 推荐(0)
摘要:在Task调度相关的两篇文章《Spark源码分析之五:Task调度(一)》与《Spark源码分析之六:Task调度(二)》中,我们大致了解了Task调度相关的主要逻辑,并且在Task调度逻辑的最后,CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的ma 阅读全文
posted @ 2016-03-14 07:54 吉日木图 阅读(353) 评论(0) 推荐(0)
摘要:话说在《Spark源码分析之五:Task调度(一)》一文中,我们对Task调度分析到了DriverEndpoint的makeOffers()方法。这个方法针对接收到的ReviveOffers事件进行处理。代码如下:           代码逻辑很简单,一共分为三步:           第一,从ex 阅读全文
posted @ 2016-03-14 07:53 吉日木图 阅读(421) 评论(0) 推荐(0)
摘要:在前四篇博文中,我们分析了Job提交运行总流程的第一阶段Stage划分与提交,它又被细化为三个分阶段:         1、Job的调度模型与运行反馈;         2、Stage划分;         3、Stage提交:对应TaskSet的生成。         Stage划分与提交阶段主要 阅读全文
posted @ 2016-03-14 07:52 吉日木图 阅读(390) 评论(0) 推荐(0)
摘要: 各位看官,上一篇《Spark源码分析之Stage划分》详细讲述了Spark中Stage的划分,下面,我们进入第三个阶段--Stage提交。         Stage提交阶段的主要目的就一个,就是将每个Stage生成一组Task,即TaskSet,其处理流程如下图所示:         与Stag 阅读全文
posted @ 2016-03-14 07:51 吉日木图 阅读(264) 评论(0) 推荐(0)
摘要:继上篇《Spark源码分析之Job的调度模型与运行反馈》之后,我们继续来看第二阶段--Stage划分。         Stage划分的大体流程如下图所示:         前面提到,对于JobSubmitted事件,我们通过调用DAGScheduler的handleJobSubmitted()方法 阅读全文
posted @ 2016-03-14 07:50 吉日木图 阅读(367) 评论(0) 推荐(0)
摘要: 在《Spark源码分析之Job提交运行总流程概述》一文中,我们提到了,Job提交与运行的第一阶段Stage划分与提交,可以分为三个阶段:         1、Job的调度模型与运行反馈;         2、Stage划分;         3、Stage提交:对应TaskSet的生成。     阅读全文
posted @ 2016-03-14 07:48 吉日木图 阅读(266) 评论(0) 推荐(0)
摘要:Spark是一个基于内存的分布式计算框架,运行在其上的应用程序,按照Action被划分为一个个Job,而Job提交运行的总流程,大致分为两个阶段:         1、Stage划分与提交         (1)Job按照RDD之间的依赖关系是否为宽依赖,由DAGScheduler划分为一个个Sta 阅读全文
posted @ 2016-03-14 07:45 吉日木图 阅读(237) 评论(0) 推荐(1)
摘要:spark在yarn模式下配置history server 1、建立hdfs文件– hadoop fs -mkdir /user/spark– hadoop fs -mkdir /user/spark/eventlog– hdfs hadoop fs -chown -R spark:spark /u 阅读全文
posted @ 2016-03-09 16:25 吉日木图 阅读(1206) 评论(0) 推荐(1)