ES常用10种 分词简单对比:类型,特点

ES常用分词简单对比:类型,特点

Standard Analyzer -- 默认分词器,按词切分,小写处理
Simple Analyzer -- 按照非字母切分(符号被过滤),小写处理
Stop Analyzer -- 小写处理,停用词过滤(the,a, is)
Whitespace Analyzer -- 按照空格切分,不转小写
Keyword Analyzer -- 不分词,直接将输入当作输出
Patter Analyzer -- 正则表达式,默认\W+ (非字符分隔) ,针对,英文字母,数字分词,忽略表达符号
Language Analyzer -- 提供了 30 多种常见语言的分词器
Customer Analyzer -- 自定义分词器

ik_smart:中文分词:将文本最大程度地切分成独立的词汇,最少切分
ik_max_word:中文分词:这种模式结合了理解歧义和未知词的算法

posted @ 2025-04-09 19:13  大树2  阅读(56)  评论(0)    收藏  举报