11 2018 档案

摘要:在MapReduce程序的运行中,并不是MapTask越多就越好。需要考虑数据量的多少及机器的配置。如果数据量很少,可能任务启动的时间都远远超过数据的处理时间。同样可不是越少越好。 MapTask的数量根据数据分片来决定,那么该如何切分呢? 假如我们有一个300M的文件,它会在HDFS中被切成3块。 阅读全文
posted @ 2018-11-03 00:32 陈迪伽 阅读(977) 评论(0) 推荐(0)