Elasticsearch基础总结

　　Elasticsearch是一款开源、近实时、高性能的分布式搜索引擎。

　　Elasticsearch底层基于Lucene开发，针对Lucene的局限性，ES提供了RESTful API风格的接口、支持分布式、可水平扩展。

前言—生活中的数据

搜索引擎是对数据的检索，所以我们要从生活中的数据说起，总体分为两种：

结构化数据

非结构化数据

结构化数据：也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。指具有固定格式或有限长度的数据，如数据库，元数据等

非结构化数据：也可称为全文数据，不定长或无固定格式，不适于由数据库二维表来表现，包括所有格式的文档，如xml、html、word、邮件、各类图表、图片和音频、视频信息等

对于结构化数据，因为它们具有特定的结构，所以我们一般都是通过关系型数据库（MySQL等）的二维表的方式存储和搜索，也可建立索引

对于非结构化数据，也即对全文数据的搜索主要有两种方法：

①：顺序扫描

按照顺序扫描的方式查询特定的关键字

②：全文检索

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的

这种方式就构成了全文检索的基本思路。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之为索引

　　ES7版本的变化：

　　　　TransportClient被废弃

　　　　废除单个索引下多Type的支持，使用默认的_doc 作为Type，同时在8.x版本将彻底废除type

　一、基本概念

　　index，索引，在ES中，索引有两个含义：

　　　　1）名词：一个索引相当于关系型数据库中的一张表

　　　　2）动词：将一份document保存在一个index中，这个过程称为索引

type ：

在6.x之前，index可以被理解为关系型数据库中的【数据库】，而type则可以被认为是【数据库中的表】。

使用type允许我们在一个index里存储多种类型的数据，数据筛选时可以指定type。type的存在从某种程度上可以减少index的数量，但是type存在以下限制：

①：不同type里的字段需要保持一致。例如，一个 index 下的不同 type 里有两个名字相同的字段，他们的类型（string, date 等等）和配置也必须相同

②：只在某个 type 里存在的字段，在其他没有该字段的 type 中也会消耗资源

③：得分是由 index 内的统计数据来决定的。也就是说，一个 type 中的文档会影响另一个 type 中的文档的得分

以上限制要求我们，只有同一个 index 的中的 type 都有类似的映射 (mapping) 时，才勉强适用 type 。否则，使用多个 type 可能比使用多个 index 消耗的资源更多。
这大概也是为什么 ES 决定废弃 type 这个概念，个人感觉 type 的存在，就像是一个语法糖，但是并未带来太大的收益，反而增加了复杂度

　　document，文档

　　　　index中的单条记录称为document，可以理解为表中的一行数据，多条document组成了一个index

　　field，字段

　　　　一个document会由一个或多个field组成，field是ES中数据索引的最小单位

在ES中，没有数组类型，任何字段都可以变成数组

ES中常用的类型：

string	text	1、索引全文值的字段，如电子邮件正文或产品描述 2、出于不同目的，我们期望以不同方式索引同一字段，这就是milti-fileds（多字段）。如可以将string字段映射为用于全文搜索的text字段并映射为用于排序或聚合的keyword字段注意：　　纯text字段默认无法进行排序或聚合　　使用text字段一定要使用合理的分词器
string	keyword	存储的是原始内容用于索引结构化内容的字段，例如ID、电子邮件地址，主机名、状态代码、邮政编码或标签通常用于过滤、排序或聚合，keyword字段只能精准匹配
numeric	整数类型	byte、short、integer、long 我们应该选择足以满足用例的最小类型
	浮点类型	使用缩放因子（scaled_float）将浮点数据存储到整数中通常更有效如果scaled_float无法满足精度要求，可以使用double、float、half_float
	⚠️ 不是所有的字段都适合存储为numberic，numberic类型更擅长range类查询，精确查询可以尝试使用keyword

　　mapping，映射

　　　　mapping是一个定义document结构的过程，mapping中定义了一个文档所包含的所有field信息

定义字段索引过多会导致爆炸的映射,这可能会导致内存不足错误和难以恢复的情况， mapping 提供了一些配置对 field 进行限制，下面列举几个可能会比较常见的：
index.mapping.total_fields.limit 限制 field 的最大数量，默认值是 1000（field 和 object 内的所有字段，都会加入计数）。
index.mapping.depth.limit 限制 object 的最大深度，默认值是 20。
index.mapping.field_name_length.limit 限制中字段名的长度，默认是没有限制

　　　　dynamic mapping

　　　　　　动态映射，在索引document时，ES的动态映射会将新增内容中不存在的字段，自动的加入到映射关系中。ES会自动检测新增字段的逻辑，并赋予其默认值

　　　　⚠️ 在ES中，删除/变更 field定义，需要进行reindex，所以在构建mapping结构时记得评估好字段的用途，以使用最合适的字段类型。

　　检索

　　　　match：用于执行全文查询的标准查询，包括模糊匹配和短语或接近查询。

　　　　　　重要参数，控制token之间的布尔关系：or/and

　　　　match_phrase：与match查询类似，但用于匹配确切的短语或单词接近匹配。

　　　　　　重要参数，token之间的位置距离，slop，默认为0

　　　　term：精确查找的关键，在lucene中，term是索引和搜索的最小单位。一个field会由一个或多个term组成，term是由field经过analyzer（分词）产生。

　　　　　　term dictionary即term词典，是根据条件查找term的基本索引

　　　　　　⚠️ 注意：

　　　　　　　　避免对text字段使用term查询。默认情况下，ES会在分析过程中更改文本字段的值，这会使查找text字段值的精确匹配变得困难。要搜索text字段值，强烈建议使用match查询

　　　　　　　　默认分词情况下，无论是term还是match，都无法判断text类型字段是否为空字符串

因为，text字段存储的是分词结果，如果字段值为空，分词结果将不会存储 term 信息，keyword字段存储的是原始内容。　　　　　　

　　similarity 相似性得分

　　　1、TF/IDF（v7版本已禁止使用，v8彻底废除）

　　　　TF-IDF=词频（TF）* 逆文档频率（IDF）

　　　　TF/IDF 使用逆文档频率作为权重，降低常见词汇带来的相似性得分。从公式中可以看出，这个相似性算法仅与文档词频相关，覆盖不够全面。

　　　　例如：缺少文档长度带来的权重，当其他条件相同，“王者荣耀”这个查询关键字同时出现在短篇文档和长篇文档中时，短篇文档的相似性其实更高

　　　　在 ESV5 之前，ES 使用的是 Lucene 基于 TF/IDF 自实现的一套相关性得分算法，如下所示：

　　　　score(q,d)  =
            queryNorm(q)
          · coord(q,d)
          · ∑ (
                tf(t in d)
              · idf(t)²
              · t.getBoost()
              · norm(t,d)
            ) (t in q)

queryNorm	query normalization factor 查询标准化因子，旨在让不同查询之间的相关性结果可以进行比较（实际上 ES 的 tips 中提到，并不推荐大家这样做，不同查询之间的决定性因素是不一样的）
coord	coordination factor 协调因子，query 经过分析得到的 terms 在文章中命中的数量越多，coord 值越高。例如：查询“王者荣耀五周年”，terms：“王者”、“荣耀”、“五周年”，同时包含这几个 term 的文档 coord 值越高
tf	词频
idf	文档逆频率
boost	boost字面意思是增长推动，这里可以理解为一个支持可配的加权参数
norm	文档长度标准化，内容越长，值越小

　　　Lucene 已经针对 TF/IDF 做了尽可能的优化，但是有一个问题仍然无法避免：词频饱和度问题，TF/IDF 算法的相似性得分会随着词频不断上升。在 Lucene 现有的算法中，如果一个词出现的频率过高，会直接忽略掉文档长度带来的权重影响

　　　2）BM25，默认　　　　

　　　　BM25相比TF-IDF的优点

　　　　①：词频饱和不同于 TF/IDF，BM25 的实现基于一个重要发现：“词频和相关性之间的关系是非线性的”。当词频到达一定阈值后，对相关性得分的影响是相同的，此时应该由其他因素的权重决定得分高低，例如之前提到的文档长度

　　　　②：将文档长度加入算法中，相同条件下，短篇文档的权重值会高于长篇文档

　　　　③：提供了可调整的参数

除了进行全文搜索，Elasticsearch也支持聚合/排序

　　sort排序

　　　　在执行ES查询时，默认的排序规则是根据相关性得分倒序排序，针对非全文索引字段，可以指定排序方式，使用也很简单，如：

//查询时先根据tab_id降序排列，若tab_id相同，则根究status升序排列
GET /[your index]/_search
{
  "sort": [
    {"tab_id": {"order": "desc"}},
    {"status": {"order": "asc"}}
  ]
}

　　　　注意，针对缺失数值类字段的默认值并不是 0，ES 默认会保证排序字段没有 value 的文档被放在最后，默认情况下：

　　　　　　①：降序排列，缺失字段默认值为该字段类型的最小值

　　　　　　②：升序排列，缺失字段默认值为该字段类型的最大值

　　　　ES为我们提供了missing参数，我们可以指定缺失值填充，其默认值为_last。

// with missing
GET /[your index]/_search
{
  "sort": [
    {
      "num": {
        "order": "asc",
        "missing": "0"
      }
    }
  ]
}

　　　使用function score 实现自定义排序

　　　　当我们期望查询结果按照某个类型进行排序，或者查询结果顺序由多个字段的权重组合决定的场景时，可以使用function score自定义排序，部分参数介绍：

weight	权重值
boost	加权值
boost_mode	加权值计算方式，默认为multiple
score_mode	得分计算方式，默认为multiple

　　　　视频类型查询，电视剧tv的优先级高于电影movie的优先级：

GET /my_index/_search
{
  "explain": true,
  "query": {
    "function_score": {
      "functions": [
        {
          "filter": {"term": {"type": "movie"}},
          "weight": 1
        },
        {
          "filter": {"term": {"type": "tv"}},
          "weight": 2
        }
      ],
      "boost": 1,
      "score_mode": "sum"
    }
  }
}

聚合aggs

聚合操作可以帮助我们将查询数据按照指定的方式进行归类。常见的聚合方式，诸如：

max、min、avg、range、根据term聚合等

索引别名

Aliases 索引别名索引别名，顾名思义，定义了别名之后，可以通过别名对 index 进行查询：PUT /[your index]/_alias/[your alias name]

索引生命周期策略

Index Lifecycle Policies 索引生命周期策略索引生命周期策略支持我们根据天、存储量级等信息去自动管理我们的索引。创建方式可以通过 RESTful API，也可以直接在 kibana 上创建，可视化界面看起来比较清晰～支持配置满足一定规则后索引自动变化：

自动滚动索引（hot）

保留索引仅供检索（warm）

保留索引仅供检索同时减少磁盘存储（cold）

删除索引

索引模版

Template 索引模板通过 index_patterns 参数设置索引名正则匹配规则，向一个不存在的索引 POST 数据，命中索引名规则后即会根据索引模版创建索引，不会进行动态映射

索引模式

END.

posted @ 2022-05-01 00:42 杨岂阅读(197) 评论(0) 收藏举报

刷新页面返回顶部

杨七

Elasticsearch基础总结

公告