会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
linzch3
博客园
首页
新随笔
联系
订阅
管理
2018年11月19日
mapreduce使用 left outer join 的几种方式
摘要: 需求 测试数据 type.txt(type表) log.txt(log表) 注:数据均以TAB键划分 目标输出 实现方式一:Reducer端的join实现 思路 在Mapper阶段:将 type.txt 和 log.txt 放在同一个文件夹上,通过判断输入文件的路径来判断数据来自哪个表 对于type
阅读全文
posted @ 2018-11-19 13:55 linzch3
阅读(582)
评论(0)
推荐(0)
2018年11月15日
mapreduce二次排序详解
摘要: 什么是二次排序 待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。 如何在mapreduce中实现二次排序 mapreduce的工作原理 MR的工作原理如下图(如果看不清可右键新标签页查看): 图片部分数据
阅读全文
posted @ 2018-11-15 10:15 linzch3
阅读(3759)
评论(0)
推荐(0)
公告
点击右上角即可分享