2012年4月14日

Hadoop学习系列之简单的带词频统计的倒排索引实现

摘要: 2012st26倒排索引概念 倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。是文档检索中常用的数据结构。和索引的目的是一样的,倒排索引是为了提高检索效率而设计的。 需要做倒排索引的文档通常都是数量巨大的,但是对不同的文档做索引可以并行,这事mapreduce最擅长做了,这就是我们今天所做的事。设计说明: 实验的输入是一组文档,输出的每行是:term 5@doc1 6@doc2 …即每行输出一个单词,后面接着是该单词在某文档中的出现次数,每行中文档的是按序存放的,整个结果中 阅读全文

posted @ 2012-04-14 09:40 大笤帚 阅读(1534) 评论(0) 推荐(0)

导航