摘要: 一、MR排序的分类 1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的; 2.全局排序; 3.辅助排序:再第一次排序后经过分区再排序一次; 4.二次排序:经过一次排序后又根据业务逻辑再次进行排序。 二、MR排序的接口——WritableComparabl 阅读全文
posted @ 2019-03-24 23:11 给你一个公主抱 阅读(1287) 评论(0) 推荐(0) 编辑
摘要: 一、Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的; 2.一个split切分分配一个maprask来并行处理; 3.默认情况下,split切分的大小等于blocksize大小; 4.切片不是mapper类中对单词的切片,而是对每一个处理文件的单独切片 阅读全文
posted @ 2019-03-24 22:43 给你一个公主抱 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop数据序列化的数据类型 Java数据类型 => Hadoop数据类型 int IntWritable float FloatWritable long LongWritable double DoubleWritable String Text boolean BooleanWrita 阅读全文
posted @ 2019-03-24 21:48 给你一个公主抱 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 一、Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这个平台就是Yarn! 2.Yarn提交任务的流程: 当我们向Yarn集群提交任务后,Yarn通过Re 阅读全文
posted @ 2019-03-24 01:47 给你一个公主抱 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 阅读全文
posted @ 2019-03-24 01:08 给你一个公主抱 阅读(315) 评论(0) 推荐(0) 编辑