随笔分类 -  spark

摘要:What if we want to execute 2 actions concurrently on different RDD’s, Spark actions are always synchronous. Like if we perform two actions one after o... 阅读全文
posted @ 2016-01-21 15:56 masic 阅读(1070) 评论(0) 推荐(0)
摘要:原地址本系列内容适用范围:* 2015.12.05 update, Spark 1.6 全系列 √ (1.6.0-preview,尚未正式发布)* 2015.11.09 update, Spark 1.5 全系列 √ (1.5.0, 1.5.1, 1.5.2)* 2015.07.15 update,... 阅读全文
posted @ 2015-12-13 12:09 masic 阅读(479) 评论(0) 推荐(0)
摘要:我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问题。下面提出几个问题并解决:1、Standalone部署方式下包含哪些节点?由不... 阅读全文
posted @ 2015-09-20 11:06 masic 阅读(5064) 评论(0) 推荐(0)
摘要:source linkLet's look at two different ways to compute word counts, one usingreduceByKeyand the other usinggroupByKey:val words = Array("one", "two", ... 阅读全文
posted @ 2015-08-17 15:41 masic 阅读(228) 评论(0) 推荐(0)
摘要:原文链接引言这一小节我们将就之前写的几篇博文,从提交Job,到Stage划分,到任务分发,再到任务的执行,这一完整过程做一系统的回顾。在这一过程中理清思路,明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程上面这个图摘自张包峰的csdn博客,这个图很清晰的描述了作业提交执行的整个... 阅读全文
posted @ 2015-07-27 14:23 masic 阅读(337) 评论(0) 推荐(0)
摘要:原文链接调度相关的参数设置,大多数内容都很直白,其实无须过多的额外解释,不过基于这些参数的常用性(大概会是你针对自己的集群第一步就会配置的参数),这里多少就其内部机制做一些解释。spark.cores.max一个集群最重要的参数之一,当然就是CPU计算资源的数量。spark.cores.max 这个... 阅读全文
posted @ 2015-07-24 17:14 masic 阅读(636) 评论(0) 推荐(0)
摘要:sparkEnv(D:\Spark\SourceCode\spark\core\src\main\scala\org\apache\spark\SparkEnv.scala)Holds all the runtime environment objects for a running Spark i... 阅读全文
posted @ 2015-07-23 20:31 masic 阅读(202) 评论(0) 推荐(0)
摘要:原文链接概要Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析。Sort-based Shuffle之初体验通过一个小的实验来直观的感受一下sort-based shuffle算法会产生哪些中间文件,具... 阅读全文
posted @ 2015-07-21 18:01 masic 阅读(462) 评论(0) 推荐(0)
摘要:作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,在Spark的官方文档http://spark.apache.... 阅读全文
posted @ 2015-07-21 17:34 masic 阅读(739) 评论(0) 推荐(0)
摘要:我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partition... 阅读全文
posted @ 2015-07-14 20:57 masic 阅读(296) 评论(0) 推荐(0)
摘要:分布式计算,数据尽量在本地计算,减少网络I/O如果操作之间相互关系不大,则尽量采用分布式计算。spark采用分布式计算中的master-slave模型,master对应含有master进程的节点,slave对应含有worker进程的节点。Client 负责提交应用,driver负责控制应用的执行。基... 阅读全文
posted @ 2015-07-01 22:20 masic 阅读(583) 评论(0) 推荐(0)