摘要: 1-map task的并发数量是由切片的数量决定的,有多少个切片就有启动多少个map task; 2-切片是一个逻辑的概念,指的是文件中数据的偏移量范围; 3-切片的具体大小应该根据所处理的文件大小来调整;例如:小文件的切片有多个block组成; reduce的并发数量由,partition分组决定 阅读全文
posted @ 2018-10-15 15:12 mxgboy 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 普通的序列化需要将类型的继承结构也序列化,但是hadoop只序列化对象本身,忽略继承关系,因为hadoop中传输的自定义类型一般都是简单的类型,这样可以减少传输的序列化数据,降低网络带宽的使用。 阅读全文
posted @ 2018-10-15 15:11 mxgboy 阅读(115) 评论(0) 推荐(0) 编辑