ElasticSearch 安装 ik 分词器

ES 中的查询分析分为两步:

  1. 分词器将输入的文本转为一个一个的词条流
  2. 过滤:比如停用词过滤器会从词条中去除不相干的词条(的,嗯,啊,呢);另外还有同义词过滤器、小写过滤器等。

ES 中内置了多种分词器可以供使用。但是这些分词器中并不适用于中文。
ES 使用较多的中文分词器是 elasticsearch-analysis-ik

ik 分词器介绍

官网链接

安装 ik 分词器

按照 readme 上的步骤进行即可

  1. release 页面下载对应的版本
  2. 在 es 目录中的 plugins 目录下,新建目录 ik
  3. 将 第一步中下载的内容放到 ik 目录中
  4. 重启 es 发现启动的时候 加载了 分词器模块,即为安装成功。

15ik.png

IK提供了两个分词算法 :

  • ik_smart 最少切分,
  • ik_max_word 最细粒度划分

效果演示:

最少切分

最少切分.png

最细粒度切分

02最细粒度.png

自定义扩展词库:

可以在 elasticsearch/plugins/ik/config 下新增一个 .dic 文件,在其中自定义我们的词库,如果有多个词,则需要换行写入。

然后在 IKAnalyzer.cfg.xml 指定扩展词典
03自定义扩展词典.png

posted @ 2023-04-23 12:46  溯光6  阅读(56)  评论(0编辑  收藏  举报