ElasticSearch系列---【常用的三种分页方式】

在Elasticsearch中,主要有三种分页方式:

  1. 基于fromsize的分页

    • 这是最常见的分页方式,类似于传统数据库中的分页。
    • from参数指定从结果集的哪个位置开始返回数据,size参数指定每页返回的数据量。
    • 例如:GET /index/_search?from=10&size=20 表示从第11条数据开始,返回20条数据。
    • 这种方式简单易用,但在处理大量数据时可能会遇到性能问题,因为from + size的值不能超过index.max_result_window设置的值(默认值是10000)。
  2. 基于search_after的深度分页

    • 这是一种更高效的分页方式,适用于处理大量数据。
    • search_after使用上一页结果的排序值来确定下一页的起始点,而不是使用固定的偏移量。
    • 这种方式可以避免基于偏移量的分页在大数据集上可能遇到的性能问题。
    • 例如:GET /index/_search 在查询体中使用search_after参数。
  3. 滚动查询(Scroll API)

    • 滚动查询适用于需要对大量数据进行多次遍历或复杂处理的场景。
    • 它创建一个初始快照,并使用滚动ID来获取后续的结果批次。
    • 滚动ID在一段时间内有效,可以用来获取后续的批次数据,直到所有数据都被检索完毕。
    • 这种方式不是实时的,因为它基于初始快照,并且占用资源,因为它需要维护一个用于滚动查询的状态。
    • 通常用于数据导出、批量处理等离线任务。

每种分页方式都有其适用的场景,选择哪种方式取决于你的具体需求和数据量。对于实时用户请求,通常推荐使用search_after;对于离线批量处理,滚动查询可能更合适。

下面举例说明:
在Elasticsearch中,三种主要的分页方式分别是基于fromsize的分页、基于search_after的深度分页以及滚动查询(Scroll API)。下面我将分别提供REST API的例子来说明这三种方式。

  1. 基于fromsize的分页
    这是最简单的分页方式,通过设置fromsize参数来控制从哪里开始获取数据以及获取多少数据。

    GET /index/_search
    {
      "from": 10,
      "size": 20,
      "query": {
        "match_all": {}
      }
    }
    

    这个请求将从索引index的第11条数据开始,返回20条数据。

  2. 基于search_after的深度分页
    search_after用于处理大量数据的分页,它使用上一页的最后一条数据的排序值来获取下一页的数据。

    GET /index/_search
    {
      "size": 20,
      "query": {
        "match_all": {}
      },
      "sort": [
        {"timestamp": "asc"},
        {"_id": "asc"}
      ]
    }
    

    在这个例子中,我们没有设置from参数,而是使用了排序参数。在获取第一页数据后,我们可以使用最后一页的排序值来获取下一页的数据:

    GET /index/_search
    {
      "size": 20,
      "query": {
        "match_all": {}
      },
      "search_after": [
        lastTimestamp,
        lastId
      ],
      "sort": [
        {"timestamp": "asc"},
        {"_id": "asc"}
      ]
    }
    

    这里的lastTimestamplastId是上一页最后一条数据的排序值。

  3. 滚动查询(Scroll API)
    滚动查询适用于需要对大量数据进行多次遍历的场景。

    GET /index/_search?scroll=1m
    {
      "size": 20,
      "query": {
        "match_all": {}
      }
    }
    

    这个请求将返回一个滚动ID,你需要使用这个滚动ID来获取下一批数据:

    GET /_search/scroll
    {
      "scroll": "1m",
      "scroll_id": "your_scroll_id"
    }
    

    这里的your_scroll_id是初始请求返回的滚动ID。你可以重复这个过程,直到没有更多的数据返回。

请注意,这些例子中的indextimestamp_id等都是占位符,你需要根据实际情况替换为你的索引名和字段名。此外,scroll参数的值表示滚动查询的持续时间,单位是分钟。

posted on 2024-05-13 00:59  少年攻城狮  阅读(31)  评论(0编辑  收藏  举报

导航