ElasticSearch学习系列(六)倒排索引

要了解倒排索引,需要先了解正排索引。

正排索引

以文档ID作为索引,通过ID查找到具体内容。
这种索引方式称为正排索引。

倒排索引

以词为索引,根据词找到文件信息。
这种方式索引,称为倒排索引。

如下图:

 

倒排索引的核心组成:

分为两部分:

1.单词词典

 记录所有文档的单词,记录单词到倒排索引的关联关系。

2.倒排列表

记录了单词对应的文档结合,由倒排索引项组成

文档ID

词频 - 该单词在文档中出现的次数,用于相关性评分

位置 -  单词在文档中分词的位置。 用于语句搜索

偏移 - 单词的开始结束位置,实现高亮显示

 

 

默认情况下,ES的JSON文档中每个字段都会有自己的倒排索引。

如果确定某些字段不需要进行搜索,可以设置不要创建倒排索引,以减少空间。

 

posted @ 2020-11-03 16:46  有味猫  阅读(117)  评论(0)    收藏  举报