摘要:倒排索引要存哪些信息 提到倒排索引,第一感觉是词到文档列表的映射,实际上,倒排索引需要存储的信息不止词和文档列表。为了使用余弦相似度计算搜索词和文档的相似度,需要计算文档中每个词的 "TF IDF" 值,这样就需要记录词在每个文档中出现的频率以及包含这个词的文档数量,前者需要
阅读全文
摘要:lucene3.0lucene中有如下的类层次:org.apache.lucene.util.AttributeSourceorg.apache.lucene.analysis.TokenStream(implements java.io.Closeable)org.apache.lucene.analysis.NumericTokenStreamorg.apache.lucene.analysis.TeeSinkTokenFilter.SinkTokenStreamorg.apache.lucene.analysis.TokenFilterorg.apache.lucene.analysis
阅读全文
摘要:MoreLikeThis可以用于实现相似文章的查询,其实现原理剖析如下:MoreLikeThis位于lucene捐赠模块Queries目录下,在此转一下实现该类的初衷: Lucene does let you access the document frequency of terms, with IndexReader.docFreq(). Term frequencies can be computed by re-tokenizing the text, which, for a single document, is usually fast enough. But looki...
阅读全文