摘要:
优化 Map阶段 增大环形缓冲区大小。由100m扩大到200m 增大环形缓冲区溢写的比例。由80%扩大到90% 减少对溢写文件的merge次数。(10个文件,一次20个merge) 不影响实际业务的前提下,采用Combiner提前合并,减少 I/O。 Reduce阶段 合理设置Map和Reduce数 阅读全文
posted @ 2021-09-24 20:05
钟心意
阅读(285)
评论(0)
推荐(0)
摘要:
MR执行过程-map阶段 map任务处理 框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,默认,每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个 Inpu 阅读全文
posted @ 2021-09-24 19:58
钟心意
阅读(188)
评论(0)
推荐(0)

浙公网安备 33010602011771号