上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: 如何获取mr当前文件名称: //获取当前处理切片<!--more-->FileSplit fileSplit = (FileSplit)context.getInputSplit();//根据当前切片获取String fileName = fileSplit.getPath().getNmae(); 阅读全文
posted @ 2019-09-14 20:54 DaBai的黑屋 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 资源相关参数 /*在MapReduce应用程序中配置就可以生效*/ 一个Map Task可使用的内存上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Reduce Task 阅读全文
posted @ 2019-09-14 20:53 DaBai的黑屋 阅读(489) 评论(0) 推荐(0) 编辑
摘要: reducetask并行度同样影响整个job的执行并发度和执行效率,与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置:<!--more--> job.setNumReduceTasks(4); 如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜。 注 阅读全文
posted @ 2019-09-14 20:52 DaBai的黑屋 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 序列化概念<!--more--> 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 Java序列化(java.io.Serializable) Hadoop序列化的特点 序列化格式特点: 紧凑: 阅读全文
posted @ 2019-09-14 20:51 DaBai的黑屋 阅读(719) 评论(0) 推荐(0) 编辑
摘要: MapTask的并行度指的是map阶段有多少个并行的task共同处理任务。map阶段的任务处理并行度,势必影响到整个job的处理速度。那么,MapTask并行实例是否越多越好呢?其并行度又是如何决定呢?<!--more--> 一个MapReducejob的map阶段并行度由客户端在提交job时决定, 阅读全文
posted @ 2019-09-14 20:51 DaBai的黑屋 阅读(661) 评论(0) 推荐(1) 编辑
摘要: 在shuffle阶段,大量的数据从map阶段输出,发送到reduce阶段,这一过程中,可能会涉及到大量的网络IO。 输出数据较大时,使用hadoop提供的压缩机制对数据进行压缩,可以指定压缩的方式。减少网络传输带宽和存储的消耗; 可以对map的输出进行压缩(map输出到reduce输入的过程,可以s 阅读全文
posted @ 2019-09-14 20:50 DaBai的黑屋 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件 阅读全文
posted @ 2019-09-14 20:49 DaBai的黑屋 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。 阅读全文
posted @ 2019-09-14 20:48 DaBai的黑屋 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 一个: <!--more--> 多个 代码实现: Mapper: 一个: 多个 代码实现: Mapper: .mapreduce.Mapper.Context; public class EmployeeMapper extends Mapper<LongWritable, Text, LongWr 阅读全文
posted @ 2019-09-14 20:47 DaBai的黑屋 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 在MR中,牢牢记住key时什么,因为key许多默认属性 排序 》key的字典序 分区 》key的哈希值 % reduce task Num 分组 》key相同为一组 <!--more--> x 1 排序 》key的字典序 2 分区 》key的哈希值 % reduce task Num 3 分组 》k 阅读全文
posted @ 2019-09-14 20:47 DaBai的黑屋 阅读(197) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页
Live2D