随笔分类 -  lucene

摘要:BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。 阅读全文
posted @ 2014-10-29 19:27 飞扬的薰衣草 阅读(174) 评论(0) 推荐(0)
摘要:原文出自:http://blog.csdn.net/wbia2010lkl/article/details/60466611.BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:∑其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频... 阅读全文
posted @ 2014-10-28 15:04 飞扬的薰衣草 阅读(420) 评论(0) 推荐(0)
摘要:原文出自:http://www.coin163.com/java/docs/201310/d_3010029802.html一.Facet简介Facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验.在搜索关键字的同时,能够按照Facet的字段进行分组并统计.二.Facet字段1.适宜... 阅读全文
posted @ 2014-08-14 18:25 飞扬的薰衣草 阅读(2054) 评论(0) 推荐(0)
摘要:Payload (元数据) 诞生于 Lucene 的2.2 版本,它是在 Lucene 2.1 索引文件格式的基础上扩展而来,提供了一种可以灵活配置的高级索引技术,在某些特定应用场景下能优化基于 Lucene 构建的应用的搜索性能。本文重点研究了 Payload 的实现原理、索引结构的变化、接口 A... 阅读全文
posted @ 2014-08-07 17:06 飞扬的薰衣草 阅读(504) 评论(0) 推荐(0)
摘要:compressed=true|false,是否使用gzip压缩(只有TextField和StrField可以压缩)compressThreshold=压缩阀值multiValued=true|false 是否包含多个值,即一个名字可以被多个document所用。omitNorms=true|fal... 阅读全文
posted @ 2014-08-05 16:41 飞扬的薰衣草 阅读(340) 评论(0) 推荐(0)
摘要:原文出自:http://forfuture1978.iteye.com/blog/591804点击打开链接在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索... 阅读全文
posted @ 2014-07-28 11:49 飞扬的薰衣草 阅读(183) 评论(0) 推荐(0)
摘要:转自:http://rdc.taobao.com/team/jm/archives/1753共整理三部分,第一部分Solr常规处理,第二部分针对性性处理,前者比较通用,后者有局限性。务必根据具体应用特性,具体调节参数,对比性能。第三部分solr查询相关的具体应用需要全面去把控,各个因素一起起作用。第... 阅读全文
posted @ 2014-07-17 14:19 飞扬的薰衣草 阅读(262) 评论(0) 推荐(0)
摘要:原文出自:http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下。因为Lucene的搜索过程,很重要的一个... 阅读全文
posted @ 2014-07-15 17:06 飞扬的薰衣草 阅读(179) 评论(0) 推荐(0)
摘要:Analyzer包含两个核心组件,Tokenizer以及TokenFilter。两者的区别在于,前者在字符级别处理流,而后者则在词语级别处理流。Tokenizer是Analyzer的第一步,其构造函数接收一个Reader作为参数,而TokenFilter则是一个类似的拦截器,其参数可以是TokenS... 阅读全文
posted @ 2014-07-03 11:55 飞扬的薰衣草 阅读(208) 评论(0) 推荐(0)