• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
淘宇瀚
做一个好的SRE;任何时候都要有从零开始的勇气;
博客园 首页 新随笔 联系 订阅 订阅 管理

2014年5月3日

MapReduce 实现数据join操作
摘要: 前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数... 阅读全文
posted @ 2014-05-03 23:01 enjoyOurLife 阅读(3039) 评论(0) 推荐(0)
 
使用hadoop multipleOutputs对输出结果进行不一样的组织
摘要: MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。... 阅读全文
posted @ 2014-05-03 22:07 enjoyOurLife 阅读(1076) 评论(0) 推荐(0)
 
Hadoop MRUnit使用(一)
摘要: 之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M... 阅读全文
posted @ 2014-05-03 21:40 enjoyOurLife 阅读(647) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3