Hadoop - 随笔分类 - 七寸青衫

从自定义比较器（实现RawComparator接口的方式）总结的经验

摘要：在MR中我们在Map阶段的排序可是通过两种方式要比较的值为key 1）实现WriteComparator接口比较简单使用 2）自定义比较器（实现RawComparator接口）这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法为什么有两个方阅读全文

posted @ 2020-03-03 11:43 七寸青衫阅读(326) 评论(0) 推荐(0)

关于Hadoop分组排序

摘要：分组排序是干什么的？在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法，那么什么是一组数据呢？如果Reduce阶段输入的key相同那么就认为是一组数据简单的说，在开发中，往往将数据封装到bean对象中，又因为bean对象中有多个字段，如果我们这些字段不完全相同那么阅读全文

posted @ 2020-03-01 16:06 七寸青衫阅读(243) 评论(0) 推荐(0)

Hadoop学习之小文件及其处理方式

摘要：小文件定义：小文件是远小于hdfs块大小的文件，在hdfs上任何一个文件都有对应的元数据信息小文件的坏处： 1、小文件太多，响应的元数据就会多，占用空间太多且namenode维护起来不方便 2、小文件太多，启动的MapTask就会过，增加开销处理小文件的方式：一、Har归档 HDFS存档文件阅读全文

posted @ 2020-03-01 00:48 七寸青衫阅读(662) 评论(0) 推荐(1)

Hadoop学习之Shuffle机制

摘要：阅读全文

posted @ 2020-02-28 23:18 七寸青衫阅读(127) 评论(0) 推荐(0)

Hadoop基础学习之InputFormat

摘要：阅读全文

posted @ 2020-02-28 23:16 七寸青衫阅读(128) 评论(0) 推荐(0)

个人浅析Hadoop序列化与反序列化

摘要：一、什么是序列化与反序列化序列化是把对象转换为字节序列的过程，使之持久化到磁盘和网络传输（write过程）反序列化是把字节序列转换为对象的过程，使之成为内存中的对象（read过程）二、为什么要进行序列化与反序列化对象只能在内存中对象只能在本地的进程中使用通过序列化与反序列的操作：永久保阅读全文

posted @ 2020-02-26 22:15 七寸青衫阅读(632) 评论(0) 推荐(0)

啤酒泡枸杞

林无静树，川无停流。

随笔分类 - Hadoop

公告