随笔分类 - Hadoop
摘要:在MR中我们在Map阶段的排序可是通过两种方式 要比较的值为key 1)实现WriteComparator接口 比较简单使用 2)自定义比较器(实现RawComparator接口) 这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法 为什么有两个方
阅读全文
摘要:分组排序是干什么的? 在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法,那么什么是一组数据呢? 如果Reduce阶段输入的key相同那么就认为是一组数据 简单的说,在开发中,往往将数据封装到bean对象中,又因为bean对象中有多个字段,如果我们这些字段不完全相同 那么
阅读全文
摘要:小文件定义: 小文件是远小于hdfs块大小的文件,在hdfs上任何一个文件都有对应的元数据信息 小文件的坏处: 1、小文件太多,响应的元数据就会多,占用空间太多且namenode维护起来不方便 2、小文件太多,启动的MapTask就会过,增加开销 处理小文件的方式: 一、Har归档 HDFS存档文件
阅读全文
摘要:一、什么是序列化与反序列化 序列化是把对象转换为字节序列的过程,使之持久化到磁盘和网络传输(write过程) 反序列化是把字节序列转换为对象的过程,使之成为内存中的对象(read过程) 二、为什么要进行序列化与反序列化 对象只能在内存中 对象只能在本地的进程中使用 通过序列化与反序列的操作: 永久保
阅读全文

浙公网安备 33010602011771号