随笔分类 -  Solr Lucene

摘要:今天用了lukeall里面的一个功能optimize也就是索引优化, 发现有花时间比较长但是优化结果比较好, 索引里面的所有段文件都merge到一个段文件里去了, 于是自己就试了一下,虽然没有lukeall优化的好, 但起码比之前几百个碎文件要好的多了下面是代码,lucene用的是4.8 当然也可以 阅读全文
posted @ 2017-06-17 11:41 王南辉 阅读(1111) 评论(0) 推荐(0)
摘要:GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,这样既可以保护隐私(只表示大概区域位置而不是具体的 阅读全文
posted @ 2017-05-18 15:07 王南辉 阅读(786) 评论(0) 推荐(1)
摘要:比如有两条记录Document0: id:1 pk content :hello Document1: id :1 pk content :hello world建立索引用ik分词,建立索引 搜索content 会出现两条记录解决:使用 QueryFilter进行搜索过滤 Query query = 阅读全文
posted @ 2017-05-09 22:53 王南辉 阅读(714) 评论(0) 推荐(0)
摘要:lucene同义词搜索原理其实是根据 PositionIncrementAttribute 和 CharTermAttribute的次元记录信息来实现的,当前使用lucene版本为4.8.0首先同义词要实现 package lucene_index; import java.io.IOExcepti 阅读全文
posted @ 2017-05-09 22:51 王南辉 阅读(1939) 评论(0) 推荐(0)
摘要:转自 http://www.codeceo.com/article/lucene-index.html 1 数值数据类型索引优化 1.1 数值类型索引问题 lucene本质上是一个全文检索引擎而非传统的数据库系统,它基于倒排索引,非常适合处理文本,而处理数值类型却不是强项。 举个应用场景,假设我们倒 阅读全文
posted @ 2017-05-09 22:49 王南辉 阅读(363) 评论(0) 推荐(0)
摘要:master的工作 对于ReplicationHandler的复制功能来说,核心的问题确定是在一个时间点要复制哪些文件,这就用上了lucene的IndexDeletionPolicy的特性。 lucene在初始化时,会调用IndexDeletionPolicy.onInit(List commits 阅读全文
posted @ 2017-05-09 22:47 王南辉 阅读(974) 评论(0) 推荐(0)