分析器的架构

  一个分析器(内置或自定义)是一个包含三个较低层构建块的包。

character fifters 字符过滤器

  将原始文本作为字符流接收,并可以通过添加,修改,删除字符来转换流。

  注意:一个分析器可具有0个或多个character fifters 字符过滤器,这些过滤器按顺序应用

tokenizers 分词器

  一个tokenizers接受字符流,将其分解为单个token(通常是单个单词),并输出token流。

  还记录每个term的顺序和位置,以及该term所代表的原始单词的开始和结束字符偏移量

  注意:一个分词器有且只有一个tokenizers

 

token filter 标记过滤器

  接受token流,并可以添加,删除或更改token。

  token filter 不允许更改每个token的位置和字符偏移量

  注意:分词器可以具有0个或多个token filter,这些过滤器按顺序应用。

 

posted on 2019-10-21 17:32  浅蓝色星光  阅读(176)  评论(0)    收藏  举报