摘要: 背景 这里介绍的优化是基于 ik 分词源码的优化。首先,我们知道,ik 分词默认有两种分词模式,分别为:ik_max_word 和 ik_smart 这里针对这两种分词方式分别存在的问题有: ik_max_word :最细粒度分词方式 分的太细了,召回率确实很高,但是会导致召回的内容存在语义问题。例 阅读全文
posted @ 2020-06-26 23:50 星火燎原智勇 阅读(2816) 评论(1) 推荐(2) 编辑
摘要: 1、避免深分页操作 es是一个搜索引擎,所以如果用这个搜索引擎对大量的数据进行搜索,并且返回搜索结果中排在最前面的少数结果,是非常合适的。 类似于后台下载功能,如果要做成类似数据库的东西,每次都进行大批量的查询,是很不合适的。如果真的要做大批量结果的查询,记得考虑用scroll api。 2、避免业 阅读全文
posted @ 2020-06-26 18:07 星火燎原智勇 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 1、尽量少的字段 elasticsearch 的搜索引擎严重依赖于底层的 filesystem cache,你如果给 filesystem cache 更多的内存,尽量让内存可以容纳所有的 indx segment file 索引数据文件,那么你搜索的时候就基本都是走内存的,性能会非常高。 比如说, 阅读全文
posted @ 2020-06-26 00:13 星火燎原智勇 阅读(1372) 评论(0) 推荐(0) 编辑