MapTask 并行度决定机制

1、区分

数据块: 物理
数据切片: 逻辑

2、决定机制

1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定
2、一个切片对应一个MapTask
3、默认情况下,切片大小==BlockSize(128M)
4、切片时不考虑数据集整体性,而是针对每个文件单独切片

总结:MapTask的数量,由客户端逻辑切片的数量决定,切片的大小默认为128M,
每个文件的切片是独立的。不用考虑整体数据

posted @ 2020-09-03 17:09  市丸银  阅读(351)  评论(0)    收藏  举报