摘要:
分组排序是干什么的? 在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法,那么什么是一组数据呢? 如果Reduce阶段输入的key相同那么就认为是一组数据 简单的说,在开发中,往往将数据封装到bean对象中,又因为bean对象中有多个字段,如果我们这些字段不完全相同 那么 阅读全文
posted @ 2020-03-01 16:06
七寸青衫
阅读(239)
评论(0)
推荐(0)
摘要:
小文件定义: 小文件是远小于hdfs块大小的文件,在hdfs上任何一个文件都有对应的元数据信息 小文件的坏处: 1、小文件太多,响应的元数据就会多,占用空间太多且namenode维护起来不方便 2、小文件太多,启动的MapTask就会过,增加开销 处理小文件的方式: 一、Har归档 HDFS存档文件 阅读全文
posted @ 2020-03-01 00:48
七寸青衫
阅读(654)
评论(0)
推荐(1)

浙公网安备 33010602011771号