上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 97 下一页
摘要: 一、需求分析 1、需求 a、输入文件 0000001 Pdt_01 222.8 0000002 Pdt_05 722.4 0000001 Pdt_02 33.8 0000003 Pdt_06 232.8 0000003 Pdt_02 33.8 0000002 Pdt_03 522.8 0000002 阅读全文
posted @ 2020-09-07 22:45 市丸银 阅读(185) 评论(0) 推荐(0)
摘要: 一、过程 1、进行排序(自定义Hadoop序列化) 2、进行分组 二、语法 1、自定义分组,继承WritableComparator 2、创建无参构造参数 目的:将比较对象的类传给父类 super(GroupBean.class, true); 注意: a、GroupBean.class是Hadoo 阅读全文
posted @ 2020-09-07 22:43 市丸银 阅读(157) 评论(0) 推荐(0)
摘要: 一、概述 1、Combiner是MR程序中Mapper和Reducer之外的一种组件 2、Combiner继承Reducer 3、Combiner在每个Map Task的节点上运行, Reducer接收全局的Mapper结果 4、Combiner对每个Map Task的输出进行局部汇总,减少网络传输 阅读全文
posted @ 2020-09-07 11:54 市丸银 阅读(266) 评论(0) 推荐(0)
摘要: 一、需求分析 1、需求 手机号136、137、138、139开头都分别放到一个独立的4个文件中,其它开头的放到一个文件中 2、分析 a、分区 继承 Partitioner b、排序 实现 WritableComparable 二、具体代码(结合上篇博客) 1、自定义Haoop序列化类、排序 pack 阅读全文
posted @ 2020-09-07 10:16 市丸银 阅读(162) 评论(0) 推荐(0)
摘要: 一、需求分析 1、需求 按照流量降序排序 2、分析 a、原文件的总流量是value,排序是按照key进行排序的,因此需要把 value -> key b、自定义Hadoop序列化类,(需要有排序功能) 实现 WritableComparable 二、代码 1、自定义Hadoop序列化,实现Writa 阅读全文
posted @ 2020-09-07 09:41 市丸银 阅读(287) 评论(0) 推荐(0)
摘要: 一、概述 1、MapTask和ReduceTask均会对数据按照key进行排序,这是Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要,默认排序是按照字典顺序排序,方法为:快速排序 2、MapTask,在什么时候排序? a、环形内存缓冲区,快速排序,溢出到磁盘 b、所有数据 阅读全文
posted @ 2020-09-07 08:57 市丸银 阅读(141) 评论(0) 推荐(0)
摘要: 默认分区:HashPartition 影响因素:key.hashcode()、NumReducerTask 一、基础 1、目的 Reducer处理的结果按不同的条件,存储在不同的文件中 2、语法 a、自定义分区,继承Partitioner b、分区在mapper后reducer前,因此数据类型和ma 阅读全文
posted @ 2020-09-05 10:20 市丸银 阅读(163) 评论(0) 推荐(0)
摘要: 一、概念 Map方法处理之后,Reduce方法处理之前,数据处理过程过程被称为shuffle,又称洗牌 待续 阅读全文
posted @ 2020-09-04 22:57 市丸银 阅读(177) 评论(0) 推荐(0)
摘要: 无论是HDFS还是MapReduce在处理小文件时,都要消耗大量内存,效率低 一、回顾 1、HDFS har,对外对应一个NameNode,对内对应多个文件 2、MapReduce CombineTextInputFormat,分为虚拟存储过程和切片过程 虚拟存储过程和切片过程都要和最大值做比较 改 阅读全文
posted @ 2020-09-04 17:45 市丸银 阅读(301) 评论(0) 推荐(0)
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all go is new 2、需求 对上述文件中每个单词出现的数量进行统计,2行数据一个切片 3、分析 与传统的WordCoun 阅读全文
posted @ 2020-09-04 11:19 市丸银 阅读(293) 评论(1) 推荐(0)
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 97 下一页