• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
~(',D)=I一<
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2020年2月25日

Hadoop【2.1】 Shuffle概述
摘要: 在每个maptask的结束,我们拿到的是<K,V>的队列,在Reduce中,输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作,将Maptask的数据按Key排序。其主要的工作,大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时,尽可能地 阅读全文
posted @ 2020-02-25 23:38 星不予 阅读(233) 评论(0) 推荐(0)
 
Hadoop基础【1.3】多路径输入 指定Map 自定义输入分片
摘要: 1. 多路径输入 对于一个MR程序来说,再所有情况下都只使用一个Path作为我们的输入路径是不现实的,一般都需要从多个路径下取文件。因此提供了FileInputFormat下的static方法setInputPaths以实现此功能(此例中多个路径使用同一个Mapper)。 1 String inPa 阅读全文
posted @ 2020-02-25 00:06 星不予 阅读(350) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3