elasticsearch 分词搜索

分词器下载放在plugins目录下
https://github.com/medcl/elasticsearch-analysis-ik/tags?after=v6.8.14

参考：https://blog.csdn.net/z_ipython/article/details/102849579

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart

会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

测试两种分词模式的效果。分词查询要用GET、POST请求，需要把请求参数写在body中，且需要JSON格式。

发送：post localhost:9200/_analyze

（1）测试ik_max_word

POST _analyze

{

"analyzer": "ik_max_word",

"text":"中华人民共和国人民大会堂"

}

（2）测试ik_smart

POST _analyze

{

"analyzer":"ik_smart",

"text": "中华人民共和国人民大会堂"

}

网上关于两种分词器使用的最佳实践是：索引时用ik_max_word，在搜索时用ik_smart。

即：索引时最大化的将文章内容分词，搜索时更精确的搜索到想要的结果。

不过，需要注意的是：ik_smart 分词结果并不是 ik_max_word的子集。这样，在使用ik_max_word 建索引，用ik_smart 搜索时，有可能结果匹配不上，所以这是两种不同类型的分词结果，建议还是不要混用。

下面测试【5号电池】，在两种分词模式下的输出结果。

三、扩展词典
在elasticsearch/plugins/ik/config下新建my.dic文件，在my.dic中写入想要分词识别的文字；修改IKAnalyzer.cfg.xml文件，在<entry key="ext_dict">中指定my.dic。

<comment>IK Analyzer 扩展配置</comment>

</properties>

重启elasticsearch即可看到分词效果。
————————————————
版权声明：本文为CSDN博主「没了对象省了流量ii」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/z_ipython/article/details/102849579

posted @ 2021-08-04 11:20 飞鹰之歌阅读(87) 评论(0) 收藏举报

刷新页面返回顶部

飞鹰之歌

elasticsearch 分词搜索

公告