elasticsearch中ik分词器的安装和基本使用

es中ik分词器的分词效果不甚理想,所以我们可以使用ik分词器使分词效果更好

安装

1.ik分词器的下载
网址:https://github.com/medcl/elasticsearch-analysis-ik/releases
切结我们的ik分词器的版本需要和es的版本保持一致!我个人使用的7.9.3的版本,然后将对应的zip下载了下来

  1. ik分词器的安装
    然后将下载下来的zip进行解压,并将解压出来的文件夹移动到 es的安装目录/plugin/ik 下
    具体如图

3.重启es,否则ik分词器不生效

4.接下来正常使用就可以啦

两种模式

ik分词器有ik_max_word和ik_smart两张模式
ik_max_word会将文本做最细粒度的拆分
ik_smart会做最粗粒度的拆分

停用词

在使用的时候,尤其是对中文进行分词,会有很多无意义的词,例如我,你这种,对于统计会有较大的影响(尤其是统计词频),这个时候我们可以给ik分词器加入停用词表,争取最大程度让分出来的词有实际意义
后缀为dic的文件都是我的词表(我也不知道为什么会这么多,战术耸肩),然后编辑IKAnalyzer.cfg.xml这个文件,将词表插入进去就可以了,然后重启es


附一个中文常用停用词表的库:https://github.com/goto456/stopwords
当然也可以自己写一个停用词表了,效果更好,就是会比较花时间

posted @ 2021-01-27 17:42  君月白吖  阅读(425)  评论(0)    收藏  举报