ElasticSearch学习系列（七）分词

分词里面有两个名词：Analysis、Analyzer

Analysis

文本分析是把全文本转换一系列单词的过程，叫成分词。

Analyzer

分词器（有内置的分词器，也有相应的插件，尤其是针对中文）
由以下三部分组成：
1.Character Filters 过滤特殊字符串
2.Tokenizer 单词切分
3.Token Filters  切分后的加工

二、使用 _analyzer API

1.standard分词器

可以看到单词以空格，非字符的方式分割，并转换小写。

2.simple分词器

可以看到，只保留字母。

3.whitespace分词器

可以看到只是以简单的空格切分。

4.stop分词器

可以看到，stop分词器多了一个 token filters环节，把 a,the ,in 等修饰词给过滤掉了。

5.keyword 分词器（不分词）

当不需要分词时，可以设置为 keyword。

6.正则表达式分词 pattern

默认是 \W+,非字符的符号进行分隔，在Token Filters环节做了小写转换，和修饰词过滤。

7.language 分词器

三、中文分词

icu_analyzer的安装

1.因为我是docker for windows 则通过如下命令进入docker容器内部。

 bin/elasticsearch-plugin install analysis-icu

安装好之后，重启Docker

但还是有一些问题，比如在理。

社区里面有 ik,THULAC 中文分词插件。

posted @ 2020-11-03 17:39 有味猫阅读(160) 评论(0) 收藏举报

刷新页面返回顶部

龙猫