Solr Lucene - 随笔分类 - 王南辉

lucene 索引优化

摘要：今天用了lukeall里面的一个功能optimize也就是索引优化，发现有花时间比较长但是优化结果比较好，索引里面的所有段文件都merge到一个段文件里去了，于是自己就试了一下，虽然没有lukeall优化的好，但起码比之前几百个碎文件要好的多了下面是代码，lucene用的是4.8 当然也可以阅读全文

posted @ 2017-06-17 11:41 王南辉阅读(1122) 评论(0) 推荐(0)

GeoHash

摘要：GeoHash将二维的经纬度转换成字符串，比如下图展示了北京9个区域的GeoHash字符串，分别是WX4ER，WX4G2、WX4G3等等，每一个字符串代表了某一矩形区域。也就是说，这个矩形区域内所有的点（经纬度坐标）都共享相同的GeoHash字符串，这样既可以保护隐私（只表示大概区域位置而不是具体的阅读全文

posted @ 2017-05-18 15:07 王南辉阅读(803) 评论(0) 推荐(1)

lucene 解决主键重复

摘要：比如有两条记录Document0: id:1 pk content :hello Document1: id :1 pk content :hello world建立索引用ik分词，建立索引搜索content 会出现两条记录解决：使用 QueryFilter进行搜索过滤 Query query = 阅读全文

posted @ 2017-05-09 22:53 王南辉阅读(722) 评论(0) 推荐(0)

lucene自定义同义词实现

摘要：lucene同义词搜索原理其实是根据 PositionIncrementAttribute 和 CharTermAttribute的次元记录信息来实现的，当前使用lucene版本为4.8.0首先同义词要实现 package lucene_index; import java.io.IOExcepti 阅读全文

posted @ 2017-05-09 22:51 王南辉阅读(1952) 评论(0) 推荐(0)

Lucene 索引优化

摘要：转自 http://www.codeceo.com/article/lucene-index.html 1 数值数据类型索引优化 1.1 数值类型索引问题 lucene本质上是一个全文检索引擎而非传统的数据库系统，它基于倒排索引，非常适合处理文本，而处理数值类型却不是强项。举个应用场景，假设我们倒阅读全文

posted @ 2017-05-09 22:49 王南辉阅读(371) 评论(0) 推荐(0)

solr主从复制的原理

摘要：master的工作对于ReplicationHandler的复制功能来说，核心的问题确定是在一个时间点要复制哪些文件，这就用上了lucene的IndexDeletionPolicy的特性。 lucene在初始化时，会调用IndexDeletionPolicy.onInit(List commits 阅读全文

posted @ 2017-05-09 22:47 王南辉阅读(982) 评论(0) 推荐(0)

王南辉

随笔分类 - Solr Lucene

公告