摘要: MapReduce的输入 作为一个会编写MR程序的人来说,知道map方法的参数是默认的数据读取组件读取到的一行数据 1、是谁在读取? 是谁在调用这个map方法? 查看源码Mapper.java知道是run方法在调用map方法。 此处map方法中有四个重要的方法: 1、context.nextKeyV 阅读全文
posted @ 2018-03-23 18:29 扎心了,老铁 阅读(5834) 评论(1) 推荐(1) 编辑
摘要: MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。 如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join 在map阶段, 阅读全文
posted @ 2018-03-23 18:28 扎心了,老铁 阅读(7439) 评论(6) 推荐(2) 编辑