分析器的架构
一个分析器(内置或自定义)是一个包含三个较低层构建块的包。
character fifters 字符过滤器
将原始文本作为字符流接收,并可以通过添加,修改,删除字符来转换流。
注意:一个分析器可具有0个或多个character fifters 字符过滤器,这些过滤器按顺序应用
tokenizers 分词器
一个tokenizers接受字符流,将其分解为单个token(通常是单个单词),并输出token流。
还记录每个term的顺序和位置,以及该term所代表的原始单词的开始和结束字符偏移量
注意:一个分词器有且只有一个tokenizers
token filter 标记过滤器
接受token流,并可以添加,删除或更改token。
token filter 不允许更改每个token的位置和字符偏移量
注意:分词器可以具有0个或多个token filter,这些过滤器按顺序应用。
浙公网安备 33010602011771号