随笔分类 -  MapReduce

摘要:文件内容:1949-10-01 14:21:02 34℃1949-10-02 14:01:02 36℃1950-01-01 14:21:02 32℃1950-10-01 11:01:02 37℃1951-10-01 14:21:02 23℃1950-10-02 17:1... 阅读全文
posted @ 2015-11-24 15:45 丶大雄 阅读(899) 评论(0) 推荐(0)
摘要:倒排索引倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)... 阅读全文
posted @ 2015-11-22 23:26 丶大雄 阅读(688) 评论(0) 推荐(0)
摘要:多表链接输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表。factory:factoryname addressedBeijing Re... 阅读全文
posted @ 2015-11-22 22:18 丶大雄 阅读(878) 评论(0) 推荐(0)
摘要:单表关联实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。file:child parentTom LucyTom JackJone LucyJone J... 阅读全文
posted @ 2015-11-22 19:19 丶大雄 阅读(588) 评论(0) 推荐(0)
摘要:组成部分 Shuffle阶段分为两部分:Map端和Reduce端。 Sort阶段就是对Map端输出的key进行排序。 第一部分:Map端Shuffle 对于输入文件,会进行分片,对于一个split,有一个map任务进行处理,每个Map在内存中都有一个缓存区,map的输... 阅读全文
posted @ 2015-11-18 12:38 丶大雄 阅读(6480) 评论(1) 推荐(1)