随笔分类 - MapReduce
摘要:文件内容:1949-10-01 14:21:02 34℃1949-10-02 14:01:02 36℃1950-01-01 14:21:02 32℃1950-10-01 11:01:02 37℃1951-10-01 14:21:02 23℃1950-10-02 17:1...
阅读全文
摘要:倒排索引倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)...
阅读全文
摘要:多表链接输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表。factory:factoryname addressedBeijing Re...
阅读全文
摘要:单表关联实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。file:child parentTom LucyTom JackJone LucyJone J...
阅读全文
摘要:组成部分 Shuffle阶段分为两部分:Map端和Reduce端。 Sort阶段就是对Map端输出的key进行排序。 第一部分:Map端Shuffle 对于输入文件,会进行分片,对于一个split,有一个map任务进行处理,每个Map在内存中都有一个缓存区,map的输...
阅读全文

浙公网安备 33010602011771号