随笔分类 -  Hadoop

摘要:在MR中我们在Map阶段的排序可是通过两种方式 要比较的值为key 1)实现WriteComparator接口 比较简单使用 2)自定义比较器(实现RawComparator接口) 这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法 为什么有两个方 阅读全文
posted @ 2020-03-03 11:43 七寸青衫 阅读(318) 评论(0) 推荐(0)
摘要:分组排序是干什么的? 在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法,那么什么是一组数据呢? 如果Reduce阶段输入的key相同那么就认为是一组数据 简单的说,在开发中,往往将数据封装到bean对象中,又因为bean对象中有多个字段,如果我们这些字段不完全相同 那么 阅读全文
posted @ 2020-03-01 16:06 七寸青衫 阅读(238) 评论(0) 推荐(0)
摘要:小文件定义: 小文件是远小于hdfs块大小的文件,在hdfs上任何一个文件都有对应的元数据信息 小文件的坏处: 1、小文件太多,响应的元数据就会多,占用空间太多且namenode维护起来不方便 2、小文件太多,启动的MapTask就会过,增加开销 处理小文件的方式: 一、Har归档 HDFS存档文件 阅读全文
posted @ 2020-03-01 00:48 七寸青衫 阅读(652) 评论(0) 推荐(1)
摘要: 阅读全文
posted @ 2020-02-28 23:18 七寸青衫 阅读(123) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-02-28 23:16 七寸青衫 阅读(127) 评论(0) 推荐(0)
摘要:一、什么是序列化与反序列化 序列化是把对象转换为字节序列的过程,使之持久化到磁盘和网络传输(write过程) 反序列化是把字节序列转换为对象的过程,使之成为内存中的对象(read过程) 二、为什么要进行序列化与反序列化 对象只能在内存中 对象只能在本地的进程中使用 通过序列化与反序列的操作: 永久保 阅读全文
posted @ 2020-02-26 22:15 七寸青衫 阅读(626) 评论(0) 推荐(0)

loading: { rebound: { tension: 16, }, spinner: { id: 'spinner', radius: 90, } }