Elwin.Y

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2013年3月6日

摘要: map数的计算计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))totalSize是一个JOB的所有map总的输入大小,即Map input bytes。参数mapred.map.tasks的默认值是2,我们可以更改这个参数的值。计算好了goalSize之后还要确定上限和下限。下限是max {mapred.min.split.size 阅读全文
posted @ 2013-03-06 16:56 Elwin.Y 阅读(358) 评论(0) 推荐(0)

摘要: Map-Reduce工作模式 阅读全文
posted @ 2013-03-06 16:53 Elwin.Y 阅读(294) 评论(0) 推荐(0)

摘要: Map-Reduce工作原理1 client run job2 get new job ID3 copy job resources4 submit job5 initialize job6 retrieve input splits7 heartbeat (return task)8 retrieve job resource9 lunch10 runJobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后,runJob()将每秒轮询作业的进度,如果发现与上一个记录不同,便把报告显示到控制台。作业完成后,如果成功,就显示作业计数器 阅读全文
posted @ 2013-03-06 16:48 Elwin.Y 阅读(493) 评论(0) 推荐(0)