spark - 随笔分类 - 吉日木图

Spark Streaming和Kafka整合开发指南(二)

摘要：在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。和基于Receiver接收数据不阅读全文

posted @ 2016-04-25 13:36 吉日木图阅读(410) 评论(0) 推荐(0)

Spark Streaming和Kafka整合开发指南(一)

摘要：Apache Kafka是一个分布式的消息发布-订阅系统。可以说，任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据，这里将会介绍两种方法：（1）、使用Receivers和Kafka高层次的API；（2）、使用Direct 阅读全文

posted @ 2016-04-25 13:25 吉日木图阅读(274) 评论(0) 推荐(0)

整合Kafka到Spark Streaming——代码示例和挑战

摘要：作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整阅读全文

posted @ 2016-04-06 17:22 吉日木图阅读(329) 评论(0) 推荐(0)

Spark的性能调优

摘要：下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们阅读全文

posted @ 2016-03-15 12:50 吉日木图阅读(325) 评论(0) 推荐(0)

Spark源码分析之九：内存管理模型

摘要：Spark是现在很流行的一个基于内存的分布式计算框架，既然是基于内存，那么自然而然的，内存的管理就是Spark存储管理的重中之重了。那么，Spark究竟采用什么样的内存管理模型呢？本文就为大家揭开Spark内存管理模型的神秘面纱。我们在《Spark源码分析之七：Task运行（一）》阅读全文

posted @ 2016-03-14 07:56 吉日木图阅读(400) 评论(0) 推荐(1)

Spark源码分析之八：Task运行（二）

摘要：在《Spark源码分析之七：Task运行（一）》一文中，我们详细叙述了Task运行的整体流程，最终Task被传输到Executor上，启动一个对应的TaskRunner线程，并且在线程池中被调度执行。继而，我们对TaskRunner的run()方法进行了详细的分析，总结出了其内Task执行的三个主要阅读全文

posted @ 2016-03-14 07:55 吉日木图阅读(271) 评论(0) 推荐(0)

Spark源码分析之七：Task运行（一）

摘要：在Task调度相关的两篇文章《Spark源码分析之五：Task调度（一）》与《Spark源码分析之六：Task调度（二）》中，我们大致了解了Task调度相关的主要逻辑，并且在Task调度逻辑的最后，CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的ma 阅读全文

posted @ 2016-03-14 07:54 吉日木图阅读(353) 评论(0) 推荐(0)

Spark源码分析之六：Task调度（二）

摘要：话说在《Spark源码分析之五：Task调度（一）》一文中，我们对Task调度分析到了DriverEndpoint的makeOffers()方法。这个方法针对接收到的ReviveOffers事件进行处理。代码如下：代码逻辑很简单，一共分为三步：第一，从ex 阅读全文

posted @ 2016-03-14 07:53 吉日木图阅读(421) 评论(0) 推荐(0)

Spark源码分析之五：Task调度（一）

摘要：在前四篇博文中，我们分析了Job提交运行总流程的第一阶段Stage划分与提交，它又被细化为三个分阶段： 1、Job的调度模型与运行反馈； 2、Stage划分； 3、Stage提交：对应TaskSet的生成。 Stage划分与提交阶段主要阅读全文

posted @ 2016-03-14 07:52 吉日木图阅读(390) 评论(0) 推荐(0)

Spark源码分析之四：Stage提交

摘要：各位看官，上一篇《Spark源码分析之Stage划分》详细讲述了Spark中Stage的划分，下面，我们进入第三个阶段--Stage提交。 Stage提交阶段的主要目的就一个，就是将每个Stage生成一组Task，即TaskSet，其处理流程如下图所示：与Stag 阅读全文

posted @ 2016-03-14 07:51 吉日木图阅读(264) 评论(0) 推荐(0)

Spark源码分析之三：Stage划分

摘要：继上篇《Spark源码分析之Job的调度模型与运行反馈》之后，我们继续来看第二阶段--Stage划分。 Stage划分的大体流程如下图所示：前面提到，对于JobSubmitted事件，我们通过调用DAGScheduler的handleJobSubmitted()方法阅读全文

posted @ 2016-03-14 07:50 吉日木图阅读(367) 评论(0) 推荐(0)

Spark源码分析之二：Job的调度模型与运行反馈

摘要：在《Spark源码分析之Job提交运行总流程概述》一文中，我们提到了，Job提交与运行的第一阶段Stage划分与提交，可以分为三个阶段： 1、Job的调度模型与运行反馈； 2、Stage划分； 3、Stage提交：对应TaskSet的生成。阅读全文

posted @ 2016-03-14 07:48 吉日木图阅读(266) 评论(0) 推荐(0)

Spark源码分析之一：Job提交运行总流程概述

摘要：Spark是一个基于内存的分布式计算框架，运行在其上的应用程序，按照Action被划分为一个个Job，而Job提交运行的总流程，大致分为两个阶段： 1、Stage划分与提交（1）Job按照RDD之间的依赖关系是否为宽依赖，由DAGScheduler划分为一个个Sta 阅读全文

posted @ 2016-03-14 07:45 吉日木图阅读(237) 评论(0) 推荐(1)

spark on yarn 配置history server

摘要：spark在yarn模式下配置history server 1、建立hdfs文件– hadoop fs -mkdir /user/spark– hadoop fs -mkdir /user/spark/eventlog– hdfs hadoop fs -chown -R spark:spark /u 阅读全文

posted @ 2016-03-09 16:25 吉日木图阅读(1206) 评论(0) 推荐(1)

吉日木图

随笔分类 - spark

公告