随笔档案「2019年3月24日」：Mapreduce的排序（全局排序、分区加排序、Combiner优化） ... - 给你一个公主抱

2019年3月24日

摘要：一、MR排序的分类 1.部分排序：MR会根据自己输出记录的KV对数据进行排序，保证输出到每一个文件内存都是经过排序的； 2.全局排序； 3.辅助排序：再第一次排序后经过分区再排序一次； 4.二次排序：经过一次排序后又根据业务逻辑再次进行排序。二、MR排序的接口——WritableComparabl 阅读全文

posted @ 2019-03-24 23:11 给你一个公主抱阅读(1373) 评论(0) 推荐(0)

Mapreduce中maptask过程详解

摘要：一、Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的； 2.一个split切分分配一个maprask来并行处理； 3.默认情况下，split切分的大小等于blocksize大小； 4.切片不是mapper类中对单词的切片，而是对每一个处理文件的单独切片阅读全文

posted @ 2019-03-24 22:43 给你一个公主抱阅读(776) 评论(0) 推荐(0)

Mapreduce的序列化和流量统计程序开发

摘要：一、Hadoop数据序列化的数据类型 Java数据类型　=>　Hadoop数据类型 int IntWritable float FloatWritable long LongWritable double DoubleWritable String Text boolean BooleanWrita 阅读全文

posted @ 2019-03-24 21:48 给你一个公主抱阅读(332) 评论(0) 推荐(0)

Yarn集群的搭建、Yarn的架构和WordCount程序在集群提交方式

摘要：一、Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上，而且在运行是要使用很多maptask和reducertask，这个过程中需要一个自动化任务调度平台来调度任务，分配资源，这个平台就是Yarn！ 2.Yarn提交任务的流程：当我们向Yarn集群提交任务后，Yarn通过Re 阅读全文

posted @ 2019-03-24 01:47 给你一个公主抱阅读(642) 评论(0) 推荐(0)

Mapreduce概述和WordCount程序

摘要：一、Mapreduce概述 Mapreduce是分布式程序编程框架，也是分布式计算框架，它简化了开发！ Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序，并发的运行在hadoop集群上。二、Mapreduce优缺点优点：1.易于编程：只用实现几个接口即可完成阅读全文

posted @ 2019-03-24 01:08 给你一个公主抱阅读(359) 评论(0) 推荐(0)

给你一个公主抱

公告