Apache Kafka分区

 

一、分区概念(Partition)

Kafka有主题(Topic)的概念,它是承载真实数据的逻辑容器,而在主题之下还分为若干个分区,也就是说Kafka的消息组织方式实际上是三层结构:主题-分区-消息。主题下的每条消息只会保存在某一个分区中,而不会在多个分区中被保存多份。如下所示:

其实分区的作用就是提供负载均衡的能力,或者说对数据进行分区的主要原因,就是为了实现系统的高伸缩性(Scalability)。不同的分区能够被放置到不同节点的机器上,而数据的读写操作也都是针对分区这个粒度而进行的,这样每个节点的机器都能独立的执行各自分区的读写请求处理。

二、分区策略

所谓分区策略就是决定生产者将消息发送到哪个分区的算法。

如果要自定义分区策略,需要显示地配置生产者端的参数partitioner.class。在编写生产者程序时,你可以编写一个具体的类实现org.apache.kafka.clients.producer.Partitioner接口,这个接口只定义了两个方法:partition()和close()。

int partition( String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster );

1、轮询策略

也称Round-robin策略,即顺序分配。比如一个主题下有3个分区,那么第一条消息被发送到分区0,第二条消息被发送到分区1,第三条消息被发送到分区2,以此类推。当生产第四条消息时,又会重新开始,即分配到分区0。

轮询策略是Kafka Java生产者API默认提供的分区策略。如果你未指定partitioner.class。那么生产者程序会按照轮询的方式在主题的所有分区间均匀的发送消息。

轮询策略有着非常优秀的负载均衡表现,它总是能保证消息最大程度低被平均分配到所有分区上,故默认情况下它是最合理的分区策略,也是我们最常用的分区策略之一。

2、随机策略

也称Randomness策略。所谓随机就是我们随意地将消息放置到任意一个分区上。实现方式如下:

List partitions = cluster.partitionsForTopic( topic );

return ThreadLocalRandom.current().nextInt( partitions.size() );

本质上看随机策略也是力求将数据均匀地打散到各个分区上,但从实际表现来看,它要逊于轮询策略,所以如果追求数据的均匀分布,还是使用轮询策略比较好。实际上,随机策略是老版本生产者使用的分区策略,在新版本中已经改为轮询了。

3、按消息键保序策略

也称Key-ordering策略。Kafka允许为每条消息定义消息键,简称为Key。这个Key的作用非常大,它可以是一个有着明确业务含义的字符串,比如客户代码、部门编号或是业务ID等;也可以用来表示消息元数据。特别实在Kafka不支持时间戳的年代,在一些场景中,将消息创建的时间封装进Key里面。一旦消息被定义了Key,那么你就可以保证同一Key的所有消息都进入到相同的分区里面,由于每个分区下的消息处理都是有顺序的,故这个策略被称为按消息键保序策略。实现方式如下:

List partitions = cluster.partitionsForTopic( topic );

return Math.abs( key.hashCode() ) % partitions.size();

如果指定了Key,那么默认实现按消息键保序策略;如果没有指定Key,则使用轮询策略。

 

posted @ 2022-01-16 02:11  JavaIceman  阅读(56)  评论(0)    收藏  举报