Fork me on GitHub

Elasticsearch(5):添加文档

 

1 ES数据读写流程

ES中,每个索引都将被划分为若干分片,每个分片可以有多个副本。这些副本共同组成复制组,复制组中的分片在添加或删除文档时必须保持同步,否则,从一个副本中读取的数据将与从另一个副本读取的结果有差异。保持复制组中分片数据同步以及从它们中读取的过程称为数据复制模型。

ES的数据复制模型基于主备份模型,这种模型使用复制组的一个分片作为主分片,复制组中其他分片作为副本分片。主分片是所有索引操作的主要入口点,负责验证操作的有效性。一旦主分片通过操作验证,主数据库还负责将该操作复制到其他副本。

1.1 数据写入流程

ES中的每个索引操作首先解析到对应的复制组中,通常基于文档 ID,确定复制组后,操作将在内部转发到复制组的当前主分片。主分片介绍到操作请求后,将对操作请求进行验证再转发到其他副本中。

主分片遵循以下基本流:

(1)验证传入操作,并在结构无效时拒绝它(例如:给定值与字段类型不匹配)

(2)在本地执行操作,即索引或删除相关文档。这也需要验证字段的内容,并根据需要拒绝(例如:关键字值太长)。

(3)将操作转发到当前同步副本集的每个副本。如果有多个副本,则并行执行。

(4)一旦所有副本成功执行了该操作并响应了主副本,主副本将确认成功完成对客户端的请求。

1.2 数据读取流程

ES中的读取可以是非常轻量级的按 ID 查找,也可以是具有复杂聚合的重搜索请求。ES所采用的主备份模型的一大亮点就是它使所有分片副本保持同步,因此,单个同步副本足以提供读取请求。

当节点收到读取请求时,该节点负责将该请求转发到包含相关数据的分片节点、整理响应以及响应客户端。基本流程如下:

(1)将读取请求解析为相关分片。请注意,由于大多数搜索将发送到一个或多个索引,因此它们通常需要从多个分片读取,每个分片表示数据的不同子集。

(2)从分片复制组中选择每个相关分片的活动副本。这可以是主分片,也可以是副本分片。默认情况下,弹性搜索将只是在分片副本之间循环。

(3)将各分片读取请求发送到所选副本分片。

(4)合并结果并做出响应。注意,在通过 ID 查找的情况下,只有一个分片是相关的,可以跳过此步骤。

2 文档写入操作

使用下列API可以将一个JSON文档添加到指定的索引中,如果在指定索引中已存在该文档,那么这一操作将会更新文档,并使文档的version自增1。

PUT /<target>/_doc/<_id>

POST /<target>/_doc/

PUT /<target>/_create/<_id>

POST /<target>/_create/<_id>

其中,target是一个必填参数,指的是目标索引,如果目标索引不存在,那么将会自动创建一个索引;_id是一个可选参数,指的是为文档指定的唯一标识,如果省略_id参数的话,将会和POST /<target>/_doc/API一样,自动为文档设定一个id。

  • 唯一标识(_id)

上图实例中,users索引原本是不存在的,创建文档时,将自动创建索引,另外,由于创建文档时,并未指定_id,ES将自动为文档设置一个_id,注意,_id是ES对文档的唯一标识,与文档内容中的id是不一样的。如下所示,添加文档时指定_id参数:

  • 禁止更新(op_type)

在上文中,我们说到,在默认情况下,如果向索引中插入已存在的文档,那么将执行更新操作,但是,如果我们需要执行的是如果已存在,则停止执行的操作,那么就需要传递op_type参数,并将值设置为create。如下所示,再次向索引中插入已存在文档时,将提示冲突。

  • 文档版本(_version)

在上述示例的返回结果中,有一个_version字段,该字段用于标识文档的版本,初始值默认为1,每一次对文档进行更新等操作时,都会自增1。如下所示,我们继续使用_id为2的文档进行操作,因为文档已存在,所以将会对文档进行更新,从查询结果可知,_version值变成了2。

  • 超时控制(timeout)

由于网络等等原因,我们向某一索引中插入文档时,可能迟迟得不到响应,默认情况下,1分钟后,将返回错误信息,通过传递timeout参数,可以设置其他的超时时间。如下所示,我们将超时时间设置为5分钟。

3 文档批量写入

ES中提供了Bulk API来支持批量操作,也就是在一个API请求中包含多个文档操作,可以是若干个增、删、改的操作。本篇博客我们以介绍写入文档为主。Bulk API请求方式如下:

POST /_bulk

POST /<target>/_bulk

使用Bulk API时,操作类型和数据内容写在请求体中,操作类型与数据内容各占一行。上述第一种请求方式需将操作目标(索引)写在操作类型一行中,每一个操作类型可以指定不同的目标索引。

上述例子中,执行了两个插入操作,从返回结果可以看到,第一个插入操作因为文档已存在,所以执行了更新操作。再来看看第二种请求方式:

可见,与第一种API请求方式在于,不需要再指定目标索引,但缺点在于所有批量操作只能针对一个索引。

posted @ 2020-10-21 07:46  奥辰  阅读(3709)  评论(0编辑  收藏  举报