会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
陈迪伽
博客园
首页
新随笔
联系
订阅
管理
11 2018 档案
Hadoop中MapTask的并行度的决定机制
摘要:在MapReduce程序的运行中,并不是MapTask越多就越好。需要考虑数据量的多少及机器的配置。如果数据量很少,可能任务启动的时间都远远超过数据的处理时间。同样可不是越少越好。 MapTask的数量根据数据分片来决定,那么该如何切分呢? 假如我们有一个300M的文件,它会在HDFS中被切成3块。
阅读全文
posted @
2018-11-03 00:32
陈迪伽
阅读(977)
评论(0)
推荐(0)
公告