摘要:
1-map task的并发数量是由切片的数量决定的,有多少个切片就有启动多少个map task; 2-切片是一个逻辑的概念,指的是文件中数据的偏移量范围; 3-切片的具体大小应该根据所处理的文件大小来调整;例如:小文件的切片有多个block组成; reduce的并发数量由,partition分组决定 阅读全文
摘要:
普通的序列化需要将类型的继承结构也序列化,但是hadoop只序列化对象本身,忽略继承关系,因为hadoop中传输的自定义类型一般都是简单的类型,这样可以减少传输的序列化数据,降低网络带宽的使用。 阅读全文