Kafka 可观测最佳实践

概述

Kafka 是由 LinkedIn 开发一个分布式的基于发布订阅模式的消息队列,是一个实时数据处理系统,可以横向扩展。与 RabbitMQ、RockerMQ 等中间件一样拥有几大特点:

  • 异步处理

  • 服务解耦

  • 流量削峰

下图是异步处理的示例图。

架构

如下图,一个 Kafka 架构包含若干个 Producer,若干个 Consumer,若干个 Broker 和一个 Zookeeper 集群。

 

  • Zookeeper:Kafka 集群通过 Zookeeper 管理集群配置。选举 Leader、Consumer Group 发送变化是进行 Rebalance。

  • Broker:消息中间件处理节点,一个节点就是一个 Broker,一个 Kafka 集群由一个或多个 Broker 组成,一个消息可以分布在多个 Broker 中。

  • Producer:生产者,负责发布消息到 Broker。

  • Consumer:消费者,从 Broker 读取消息。

  • Consumer Group:每个 Consumer 属于一个特定的 Consumer Group,可以为这个 Group 指定名称,不指定则属于默认的 Group。一条消息可以发送多个 Group,但一个 Group 中只能有一个 Consumer 消费这条消息。

    Kafka 对消息进行归类,发送到集群的每一条消息都要指定一个 Topic, 一个 Topic 为一类消息,逻辑上被认为是一个 Queue,Producer 生产的每条消息必须指定一个 Topic,然后 Consumer 会根据订阅的 Topic 到对应的 Broker 上去拉取消息。

     

    每个 Topic 包含一个或多个 Partition,一个 Partition 对应一个文件夹,这个文件夹下存储 Partition (分区) 的数据和索引文件,每个 Partition 内部是有序的。这样一个 Topic 分成一个或多个 Partition,每个 Partition 有多个副本分布在不同的 Broker中。

     

    一个分区的多个副本之间是一主(Leader)多从(Follower)的关系,Leader 对外提供服务,这里的对外指的是与客户端程序进行交互,而 Follower 只是被动地同步 Leader 而已,不能与外界进行交互。通过多副本机制实现了故障的自动转移,当集群中某个 Broker 失效时仍然能保证服务可用,可以提升容灾能力。 

     

    如下图所示,Kafka 集群中有 4 个 Broker,某个 Topic 有三个分区,假设副本因子也设置为了 3,那么每个分区就会有一个 Leader 和两个 Follower 副本。

 

 

分区副本处于不同 Broker 中,生产者与消费者只和 Leader 副本进行交互,而 Follower 副本只负责消息的同步。当 Leader 副本出现故障时,会从 Follower 副本中重新选举新的 Leader 副本对外提供服务。


下面来看一下 Kafka 多副本机制中的一些重要术语。

  • AR(Assigned Replicas):一个分区中的所有副本统称为 AR。

  • ISR(In-Sync Replicas):Leader 副本和所有保持一定程度同步的 Follower 副本(包括 Leader 本身)组成 ISR。

  • OSR(Out-of-Sync Raplicas):与 ISR 相反,没有与 Leader 副本保持一定程度同步的所有 Follower 副本组成OSR。

 

首先,生产者会将消息发送给 Leader 副本,然后 Follower 副本才能从 Leader 中拉取消息进行同步,在同一时刻,所有副本中的消息不完全相同,也就是说同步期间,Follower 相对于 Leader 而言会有一定程度上的滞后。这样可以看到三者的关系:AR = ISR + OSR。

Leader 负责维护和跟踪 ISR 集合中所有 Follower 副本的滞后状态,当 Follower 出现滞后太多或者失效时,Leader 将会把它从 ISR 集合中剔除。当然,如果 OSR 集合中有 Follower 同步范围追上了 Leader,那么 Leader 也会把它从 OSR 集合中转移至 ISR 集合。一般情况下,当 Leader 发送故障或失效时,只有 ISR 集合中的 Follower 才有资格被选举为新的 Leader,而 OSR 集合中的 Follower 则没有这个机会(不过可以修改参数配置来改变)。

 

监控 Kafka 的关键指标

接下来介绍 Kafka 指标。包含以下指标:

 

  • UnderReplicatedPartitions

  • OfflineLogDirectoryCount

  • IsrShrinksPerSec / IsrExpandsPerSec

  • ActiveControllerCount

  • OfflinePartitionsCount

  • LeaderElectionRateAndTimeMs

  • UncleanLeaderElectionsPerSec

  • TotalTimeMs

  • PurgatorySize

  • BytesInPerSec / BytesOutPerSec

  • RequestsPerSec

  • 其它常用指标

 

指标详情可查看【 Kafka 可观测最佳实践 】

https://docs.guance.com/best-practices/monitoring/kafka/

 

场景视图

在开始使用观测云观测 Kafka 之前,您需要先注册一个 观测云账号 ,注册完成后登录到观测云工作空间。然后按照 Kafka 集成文档来实现 Kafka 的可观测。

 

 

 

posted @ 2022-11-07 17:36  编程小专家  阅读(50)  评论(0编辑  收藏  举报