es倒排索引、分词器

倒排索引

常规目录:正排索引,文档id到文档内容和单词的关联

附录索引:倒排索引,单词到文档id的关联

倒排索引项组成

  1. 文档id
  2. 词频,相关性
  3. 位置
  4. 偏移,开始和结束的位置,用于高亮显示等

elasticsearch的json的每一个字段都有自己的倒排索引

analysis分词

Analyzer是es内置的分词器。

  1. Character Filters:原始处理,比如去除html标签
  2. Tokenizer:拆分器,按照规则进行拆分,比如按照空格进行拆分
  3. Token Filters:对已经拆分的单词进行二次加工,比如全部小写等
GET _analyze
{
  "analyzer": "standard",
  "text":"this is a test TEXT, but i think it's enough"
}
posted @ 2021-03-07 17:12  xuan_wu  阅读(140)  评论(0编辑  收藏  举报