Hadoop mapreduce执行过程涉及api

资源的申请，分配过程略过，从开始执行开始。

mapper阶段： 首先调用默认的PathFilter进行文件过滤，确定哪些输入文件是需要的哪些是不需要的，然后调用inputFormat的getSplits方法进行文件的分割，返回inputSplit列表，每个inputSplit会分到对应的mapper执行。之后调用默认的createRecordReader（）方法，确定传给map函数处理的key和value。map函数执行的结果先存到缓存中，默认大小是100M，当达到阀值0.8也就是80M时会写入磁盘文件，写入磁盘之前会进行分区，不同区的数据会给不用的reduce处理。调用默认Partitioner的getPartition()方法进行分区，分区之后进行key默认的排序，也可以让自定义的key实现WriteableComparable接口进行自定义排序规则。排序后进行分组，分组的目的时key值相同的，value会放到一个集合中，可以让key值继承RowComparator实现自定义分组。分组后看用户是否自定义了Combine（可以说是本地reduce程序），如果定义了则执行Combine函数进行合并数据，合并后写入本地磁盘。当map任务结束之前会进行一次全部文件的合并，因为在map的执行过程达到80M会进行写一次文件，可能存在多个文件，所以需要进行一次合并。过程是一样的，会进行分区，排序，分组，如果有Combine则进行Combine，不同分区的结果存放在一个文件中，通过索引进行区分不同的分区。当然对于map的结果可以进行可选性压缩，需要进行手动的设置。

reduce阶段： 从各个map节点获取自己对应的分区，map的完成时间时不同的，reduce会周期性的询问是否有完成的map需要copy，reduce存在5个copy线程（可以通过mapreduce.reduce.shuffle.parallelcopies配置），一旦有属于自己的那部分分区的map执行完，就会将其copy过来。map端不会立即删除数据，因为可能出现reduce失败重做。
如果map输出的数据足够小，则会被拷贝到reduce任务的JVM内存中（可以通过mapreduce.reduce.shuffle.input.buffer.percent配置JVM堆内存的多少比例可以用于存放map任务的输出结果）。如果数据太大容不下，则被拷贝到reduce的机器磁盘上。当达到缓冲区的阀值时，会写入磁盘，后台的一个线程会对写入磁盘的文件进行合并和排序，如果有Combine同时也进行Combine较少占用存储大小。最后会形成一个排序后的文件，作为reduce的输入。执行结果保存到hdfs。

posted on 2018-10-10 14:47 天生一对阅读(197) 评论(0) 收藏举报

刷新页面返回顶部

Hadoop mapreduce执行过程涉及api

导航

公告