| | | | |

2020年2月25日

摘要：在每个maptask的结束，我们拿到的是<K,V>的队列，在Reduce中，输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作，将Maptask的数据按Key排序。其主要的工作，大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时，尽可能地阅读全文

posted @ 2020-02-25 23:38 星不予阅读(238) 评论(0) 推荐(0)

Hadoop基础【1.3】多路径输入指定Map 自定义输入分片

摘要： 1. 多路径输入对于一个MR程序来说，再所有情况下都只使用一个Path作为我们的输入路径是不现实的，一般都需要从多个路径下取文件。因此提供了FileInputFormat下的static方法setInputPaths以实现此功能（此例中多个路径使用同一个Mapper）。 1 String inPa 阅读全文

posted @ 2020-02-25 00:06 星不予阅读(355) 评论(0) 推荐(0)

2020年2月25日

公告