lucene - 随笔分类 - 飞扬的薰衣草

相关度算法BM25

摘要：BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。阅读全文

posted @ 2014-10-29 19:27 飞扬的薰衣草阅读(174) 评论(0) 推荐(0)

Project2--Lucene的Ranking算法修改：BM25算法

摘要：原文出自：http://blog.csdn.net/wbia2010lkl/article/details/60466611.BM25算法BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下：∑其中，k1,k2,K均为经验设置的参数，fi是词项在文档中的频率，qfi是词项在查询中的频... 阅读全文

posted @ 2014-10-28 15:04 飞扬的薰衣草阅读(420) 评论(0) 推荐(0)

solr facet查询及solrj 读取facet数据（相当有用）

摘要：原文出自：http://www.coin163.com/java/docs/201310/d_3010029802.html一.Facet简介Facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验.在搜索关键字的同时,能够按照Facet的字段进行分组并统计.二.Facet字段1.适宜... 阅读全文

posted @ 2014-08-14 18:25 飞扬的薰衣草阅读(2054) 评论(0) 推荐(0)

Lucene Payload 的研究与应用

摘要：Payload (元数据) 诞生于 Lucene 的2.2 版本，它是在 Lucene 2.1 索引文件格式的基础上扩展而来，提供了一种可以灵活配置的高级索引技术，在某些特定应用场景下能优化基于 Lucene 构建的应用的搜索性能。本文重点研究了 Payload 的实现原理、索引结构的变化、接口 A... 阅读全文

posted @ 2014-08-07 17:06 飞扬的薰衣草阅读(504) 评论(0) 推荐(0)

omitTermFreqAndPositions设置，词频FQ在打分中默认为1

摘要：compressed=true|false，是否使用gzip压缩（只有TextField和StrField可以压缩）compressThreshold=压缩阀值multiValued=true|false 是否包含多个值,即一个名字可以被多个document所用。omitNorms=true|fal... 阅读全文

posted @ 2014-08-05 16:41 飞扬的薰衣草阅读(340) 评论(0) 推荐(0)

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

摘要：原文出自：http://forfuture1978.iteye.com/blog/591804点击打开链接在索引阶段设置Document Boost和Field Boost，存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要，如果此文档和此域包含所要查询的词则应该得分较高，则可以在索... 阅读全文

posted @ 2014-07-28 11:49 飞扬的薰衣草阅读(183) 评论(0) 推荐(0)

solr调优参考

摘要：转自：http://rdc.taobao.com/team/jm/archives/1753共整理三部分，第一部分Solr常规处理，第二部分针对性性处理，前者比较通用，后者有局限性。务必根据具体应用特性，具体调节参数，对比性能。第三部分solr查询相关的具体应用需要全面去把控，各个因素一起起作用。第... 阅读全文

posted @ 2014-07-17 14:19 飞扬的薰衣草阅读(262) 评论(0) 推荐(0)

Lucene打分公式的数学推导

摘要：原文出自：http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html在进行Lucene的搜索过程解析之前，有必要单独的一张把Lucene score公式的推导，各部分的意义阐述一下。因为Lucene的搜索过程，很重要的一个... 阅读全文

posted @ 2014-07-15 17:06 飞扬的薰衣草阅读(179) 评论(0) 推荐(0)

Lucene源码解析--Analyzer之Tokenizer

摘要：Analyzer包含两个核心组件，Tokenizer以及TokenFilter。两者的区别在于，前者在字符级别处理流，而后者则在词语级别处理流。Tokenizer是Analyzer的第一步，其构造函数接收一个Reader作为参数，而TokenFilter则是一个类似的拦截器，其参数可以是TokenS... 阅读全文

posted @ 2014-07-03 11:55 飞扬的薰衣草阅读(208) 评论(0) 推荐(0)

飞扬的薰衣草

拒绝阅读和吸取新信息-忽略灵魂；拒绝运动-忽略健康！

随笔分类 - lucene

公告