ElasticSearch学习系列(七)分词

分词里面有两个名词:Analysis、Analyzer

Analysis

文本分析是把全文本转换一系列单词的过程,叫成分词。

Analyzer

分词器(有内置的分词器,也有相应的插件,尤其是针对中文)
由以下三部分组成:
1.Character Filters 过滤特殊字符串
2.Tokenizer 单词切分
3.Token Filters 切分后的加工

 

二、使用 _analyzer API

1.standard分词器

 

 

 可以看到单词以空格,非字符的方式分割,并转换小写。

2.simple分词器

 

 

 可以看到,只保留字母。

3.whitespace分词器

 

 

 可以看到只是以简单的空格切分。

4.stop分词器

 

 可以看到,stop分词器多了一个 token filters环节,把 a,the ,in 等修饰词给过滤掉了。

5.keyword 分词器(不分词)

 

 当不需要分词时,可以设置为 keyword。

6.正则表达式分词 pattern

 

 默认是 \W+,非字符的符号进行分隔,在Token Filters环节 做了小写转换,和修饰词过滤。

7.language 分词器

 

 

三、中文分词

icu_analyzer的安装

1.因为我是docker for windows 则通过如下命令进入docker容器内部。

 

 bin/elasticsearch-plugin install analysis-icu

 

 安装好之后,重启Docker

 

 

但还是有一些问题,比如在理。

社区里面有 ik,THULAC 中文分词插件。

 

posted @ 2020-11-03 17:39  有味猫  阅读(154)  评论(0)    收藏  举报