2015年6月15日

摘要:一、partition的划分问题 如何划分partition对block数据的收集有很大影响。如果需要根据block来加速task的执行,partition应该满足什么条件?参考思路1:range partition1、出处: IBM DB2 BLU;Google PowerDrill;Shar... 阅读全文
posted @ 2015-06-15 08:51 zx学习玩玩 阅读 (2461) 评论 (1) 编辑
 

2015年5月28日

摘要:一、本文的目的 Straggler是目前研究的热点,Spark中也存在Straggler的问题。GC问题是总所周知的导致Straggler的重要因素之一,为了了解GC导致的Straggler问题,首先需要学习GC问题以及如何监控Spark的GC。GC问题的讨论比较多了,推荐一篇系列文章用于学习:成... 阅读全文
posted @ 2015-05-28 18:03 zx学习玩玩 阅读 (794) 评论 (0) 编辑
 

2015年3月31日

摘要:在一个集群中,尽管是多用户,但是端口是公用的,存在冲突的可能。如果另一个用户已经采用默认配置安装了hadoop,那么当前用户再安装hadoop时,必然会产生端口的冲突。在配置自己的hadoop时,可以自己配置datanode,namenode所需要的端口,避免冲突。下述方法也可以用来解决一类因为端... 阅读全文
posted @ 2015-03-31 19:20 zx学习玩玩 阅读 (3237) 评论 (0) 编辑
 

2015年3月25日

摘要:shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager。shuffle文件有三个特性:shuffleId,整个shuffle stage所具有的唯一Id;bucketId,输出的partition的Id;fileId,标志着这一组文件... 阅读全文
posted @ 2015-03-25 22:00 zx学习玩玩 阅读 (155) 评论 (0) 编辑
 
摘要:master第一步是加载系统定义的环境变量,如worker的超时时间、系统保留的Application数目等;第二步,加载worker的信 息,地址、id等;第三步,加载Application的信息,例如运行地址、等待的Application、完成的Application等;第四步, 加载驱动的信息... 阅读全文
posted @ 2015-03-25 21:59 zx学习玩玩 阅读 (107) 评论 (0) 编辑
 

2015年3月16日

摘要:Executor.scala一、Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地。如果不是本地执行,需要启动一个handler来监控所有的executor进程,避免阻塞。然后,初始化Spark执行环境。向Spark... 阅读全文
posted @ 2015-03-16 11:46 zx学习玩玩 阅读 (301) 评论 (0) 编辑
 

2015年3月5日

摘要:一、BlockResult类该类用来表示返回的匹配的block及其相关的参数。共有三个参数:data:Iterator [Any]。readMethod: DataReadMethod.Value。bytes: Long。实例化InputMetrics类。二、BlockManager类关系的参数有e... 阅读全文
posted @ 2015-03-05 20:14 zx学习玩玩 阅读 (272) 评论 (0) 编辑
 
摘要:相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracker extends MapOutputTrackerMessage,MapOutputTracker... 阅读全文
posted @ 2015-03-05 20:14 zx学习玩玩 阅读 (909) 评论 (0) 编辑
 
摘要:TaskSetManager.scalaTaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition。TaskSetManager通过一个TaskSchedulerImpl实体来对TaskSet进行管理。该方法定义了以下参数:EXECUTOR_TASK_BLACKL... 阅读全文
posted @ 2015-03-05 15:50 zx学习玩玩 阅读 (623) 评论 (0) 编辑
 
摘要:许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了。这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是Task调度的实际操作。1、检测推测执行间隔,最大响应时间,每个task的CPU数。2、指定调度模式S... 阅读全文
posted @ 2015-03-05 15:48 zx学习玩玩 阅读 (258) 评论 (0) 编辑