Spiga

随笔分类 -Lucene

带有term权重的查询

2011-04-28 18:56 by yuejianjun, 77 visits, 网摘, 收藏, 编辑
摘要:三、优先级Boosting a TermLucene支持给不同的查询词设置不同的权重。设置权重使用“^”符号,将“^”放于查询词的尾部,同时跟上权重值,权重因子越大,该词越重要。设置权重允许你通过给不同的查询词设置不同的权重来影响文档的相关性,假如你在搜索:jakarta apache如果你认为“jakarta”在查询时中更加重要,你可以使用如下语法:jakarta^4 apache这将使含有Jakarta的文档具有更高的相关性,同样你也可以给短语设置权重如下:"jakarta apache"^4 "jakarta lucene"在默认情况下,权重因子为 阅读全文

基于lucene实现自己的推荐引擎

2011-04-26 16:23 by yuejianjun, 358 visits, 网摘, 收藏, 编辑
摘要:http://www.topsoer.com/jsyj/2011/03/85190707472724.html采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法,推荐引擎常用的Content-Based推荐算法及协同过滤算法(Item-Based 、User-based)在电子商务推荐系统入门v2.0、电子商务推荐系统入门基础中已经有所阐述。但从实际应用来看,对于大部分中小型企业来说,要在电子商务系统完整采用以上算法有很大的难度。1、常用推荐引擎算法问题1)、相对成熟、完整、现成的开源解决方案较少粗略分来,目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类:数据 阅读全文

lucene计算文本相似度算法

2011-04-26 16:22 by yuejianjun, 996 visits, 网摘, 收藏, 编辑
摘要:http://www.topsoer.com/jsyj/2011/03/7890750909280.html Leveraging term vectors 所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项: Field options for term vectors TermVector.YES – record the 阅读全文