spark - 随笔分类 - masic

Spark异步job

摘要：What if we want to execute 2 actions concurrently on different RDD’s, Spark actions are always synchronous. Like if we perform two actions one after o... 阅读全文

posted @ 2016-01-21 15:56 masic 阅读(1072) 评论(0) 推荐(0)

Spark Streaming 源码详解

摘要：原地址本系列内容适用范围：* 2015.12.05 update, Spark 1.6 全系列 √ (1.6.0-preview，尚未正式发布)* 2015.11.09 update, Spark 1.5 全系列 √ (1.5.0, 1.5.1, 1.5.2)* 2015.07.15 update,... 阅读全文

posted @ 2015-12-13 12:09 masic 阅读(479) 评论(0) 推荐(0)

spark基本概念

摘要：我们知道Spark总是以集群的方式运行的，Standalone的部署方式是集群方式中最为精简的一种（另外的是Mesos和Yarn）。Standalone模式中，资源调度是自己实现的，是MS架构的集群模式，故存在单点故障问题。下面提出几个问题并解决：1、Standalone部署方式下包含哪些节点？由不... 阅读全文

posted @ 2015-09-20 11:06 masic 阅读(5066) 评论(0) 推荐(0)

Avoid GroupByKey

摘要：source linkLet's look at two different ways to compute word counts, one usingreduceByKeyand the other usinggroupByKey:val words = Array("one", "two", ... 阅读全文

posted @ 2015-08-17 15:41 masic 阅读(231) 评论(0) 推荐(0)

(转)Spark 从作业调度到任务调度解析

摘要：原文链接引言这一小节我们将就之前写的几篇博文，从提交Job，到Stage划分，到任务分发，再到任务的执行，这一完整过程做一系统的回顾。在这一过程中理清思路，明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程上面这个图摘自张包峰的csdn博客，这个图很清晰的描述了作业提交执行的整个... 阅读全文

posted @ 2015-07-27 14:23 masic 阅读(337) 评论(0) 推荐(0)

(转)Spark Schedule 相关配置

摘要：原文链接调度相关的参数设置，大多数内容都很直白，其实无须过多的额外解释，不过基于这些参数的常用性（大概会是你针对自己的集群第一步就会配置的参数），这里多少就其内部机制做一些解释。spark.cores.max一个集群最重要的参数之一，当然就是CPU计算资源的数量。spark.cores.max 这个... 阅读全文

posted @ 2015-07-24 17:14 masic 阅读(638) 评论(0) 推荐(0)

Spark关键类

摘要：sparkEnv(D:\Spark\SourceCode\spark\core\src\main\scala\org\apache\spark\SparkEnv.scala)Holds all the runtime environment objects for a running Spark i... 阅读全文

posted @ 2015-07-23 20:31 masic 阅读(203) 评论(0) 推荐(0)

（转）Sort-based shuffle 探究

摘要：原文链接概要Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制，本文就该处理机制的实现进行初步的分析。Sort-based Shuffle之初体验通过一个小的实验来直观的感受一下sort-based shuffle算法会产生哪些中间文件，具... 阅读全文

posted @ 2015-07-21 18:01 masic 阅读(462) 评论(0) 推荐(0)

（转）spark shuffle 性能分析及参数配置详解

摘要：作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,在Spark的官方文档http://spark.apache.... 阅读全文

posted @ 2015-07-21 17:34 masic 阅读(740) 评论(0) 推荐(0)

partitioner

摘要：我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只需要扩展Partition... 阅读全文

posted @ 2015-07-14 20:57 masic 阅读(296) 评论(0) 推荐(0)

spark 笔记

摘要：分布式计算，数据尽量在本地计算，减少网络I/O如果操作之间相互关系不大，则尽量采用分布式计算。spark采用分布式计算中的master-slave模型，master对应含有master进程的节点，slave对应含有worker进程的节点。Client 负责提交应用，driver负责控制应用的执行。基... 阅读全文

posted @ 2015-07-01 22:20 masic 阅读(583) 评论(0) 推荐(0)

Coder's Timeline

随笔分类 - spark