摘要: 该测试代码对应了之前的文章Hadoop MapReduce 上利用Lucene实现分布式索引 之前在完成一项任务时,需要检索几十万个questionID,提取对应的内容。这不能用简单的顺序查找或者折半查找实现。所以我设计了QuestionIndexMR,主要目的是根据questionID快速提取其所对应的value值(这里的设计相当于使用文件名,将文件内容提取出来。但是如果做传统意义上的索引检索,则是反过来的^_^),所以需要区分理解。 QuestionIndexMR的源码如下: package question.index;import hdfs.document.HDFSDocu... 阅读全文
posted @ 2013-05-16 21:26 海角七号的Blog 阅读(467) 评论(1) 推荐(0) 编辑