随笔分类 -  lucene

lucene倒排索引缓冲池的细节
摘要:倒排索引要存哪些信息   提到倒排索引,第一感觉是词到文档列表的映射,实际上,倒排索引需要存储的信息不止词和文档列表。为了使用余弦相似度计算搜索词和文档的相似度,需要计算文档中每个词的 "TF IDF" 值,这样就需要记录词在每个文档中出现的频率以及包含这个词的文档数量,前者需要 阅读全文

posted @ 2017-03-10 20:12 Razzit 阅读(582) 评论(0) 推荐(0)

Lucene中AttributeSource作为TokenStream父类的原因
摘要:lucene3.0lucene中有如下的类层次:org.apache.lucene.util.AttributeSourceorg.apache.lucene.analysis.TokenStream(implements java.io.Closeable)org.apache.lucene.analysis.NumericTokenStreamorg.apache.lucene.analysis.TeeSinkTokenFilter.SinkTokenStreamorg.apache.lucene.analysis.TokenFilterorg.apache.lucene.analysis 阅读全文

posted @ 2012-08-19 10:28 Razzit 阅读(282) 评论(0) 推荐(0)

lucene MoreLikeThis的实现原理
摘要:MoreLikeThis可以用于实现相似文章的查询,其实现原理剖析如下:MoreLikeThis位于lucene捐赠模块Queries目录下,在此转一下实现该类的初衷: Lucene does let you access the document frequency of terms, with IndexReader.docFreq(). Term frequencies can be computed by re-tokenizing the text, which, for a single document, is usually fast enough. But looki... 阅读全文

posted @ 2012-08-16 15:23 Razzit 阅读(848) 评论(0) 推荐(0)

导航