kafka生产者消费者
kafka分区,默认行为:
- 如果key为null,则按照一种轮询的方式来计算分区分配
- 如果key不为null则使用称之为murmur的Hash算法(非加密型Hash函数,具备高运算性能及低碰撞率)来计算分区分配。
import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.kafka.clients.consumer.ConsumerRecords; import org.apache.kafka.clients.consumer.KafkaConsumer; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.ProducerRecord; import java.util.Arrays; import java.util.Properties; /** * Created by zzq on 2019/6/14. */ public class KafkaTest implements Runnable { public void read(String clientId) { producer.send(new ProducerRecord<String, String>("read",clientId, clientId));//hash到同一个partition System.out.println("=========" + clientId); System.out.println(); } public volatile Producer<String, String> producer; public volatile KafkaConsumer<String, String> customer; //消费方法 @Override public void run() { customer.subscribe(Arrays.asList("read"));
//和上面的代码二选一,下面可以动态指定partition编号
//consumer.assign(Arrays.asList(new TopicPartition("read",0)));//名字为read的topic中,标号为0的partition try { for (; ; ) { int count = 0; ConsumerRecords<String, String> records = customer.poll(20);
if(records.count()==0){
continue;
} for (ConsumerRecord<String, String> record : records) { System.out.printf("偏移量 = %d, 值 = %s", record.offset(), record.value()); System.out.println(); count++; } if (count == 20) { customer.commitAsync();//异步提交,可以提升吞吐量,如果数据不允许丢失则使用同步提交方式 } } } finally { customer.close(); } } public Producer<String, String> producer() { Properties properties = new Properties(); properties.put("bootstrap.servers", "10.10.210.123:9092"); // 生产者需要server接收到数据之后,要发出一个确认接收的信号 // 0 producer不需要等待任何确认的消息,吞吐量最高 // 1 意味着至少要等待leader已经成功将数据写入本地log,并不意味着所有follower已经写入 // all 意味着leader需要等待所有备份都成功写入到日志中 properties.put("acks", "0"); properties.put("retries", 0);// 重试次数 properties.put("batch.size", 16384);// producer试图批量处理消息记录。目的是减少请求次数,改善客户端和服务端之间的性能。这个配置是控制批量处理消息的字节数。如果设置为0,则禁用批处理。如果设置过大,会占用内存空间. properties.put("linger.ms", 1);//这个参数和上面数据积压大小的参数,取优先触发的参数。如果消息保证不丢失,时效性较高,可以关闭这个参数,设置为0。 properties.put("buffer.memory", 33554432);// 缓存大小 properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); Producer<String, String> producer = null; producer = new KafkaProducer<String, String>(properties); return producer; } public KafkaConsumer<String, String> customer() { Properties properties = new Properties(); properties.put("bootstrap.servers", "10.10.210.123:9092"); properties.put("group.id", "read"); //适合自动提交offset场景可以开启下面两个配置 //properties.put("enable.auto.commit", "true");//consumer所接收到的消息的offset将会自动同步到zookeeper //properties.put("auto.commit.interval.ms", "1000");//consumer向zookeeper提交offset的频率,单位是毫秒 //手工提交offset properties.put("enable.auto.commit", "false");//手动提交offset偏移量到zk properties.put("max.poll.records", 20);//每次拉取20条 properties.put("auto.offset.reset", "earliest");//如果zk中没有offset记录就从最初的位置开始消费 properties.put("session.timeout.ms", "30000"); properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties); return kafkaConsumer; } }
<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.10.2.1</version> </dependency>
时间参数的配置:
-
heartbeat.interval.ms-我程序里500ms
心跳间隔。心跳是在consumer与coordinator之间进行的。心跳是确定consumer存活,加入或者退出group的有效手段。这个值必须设置的小于session.timeout.ms,因为:
当Consumer由于某种原因不能发Heartbeat到coordinator时,并且时间超过session.timeout.ms时,就会认为该consumer已退出,它所订阅的partition会分配到同一group 内的其它的consumer上。
通常设置的值要低于session.timeout.ms的1/3。
默认值是:3000 (3s) -
session.timeout.ms-我程序里2s
Consumer session 过期时间。这个值必须设置在broker configuration中的group.min.session.timeout.ms 与 group.max.session.timeout.ms之间。
其默认值是:10000 (10 s) - auto.commit.interval.ms-我程序里2s
自动提交间隔。范围:[0,Integer.MAX],默认值是 5000 (5 s) - max.poll.interval.ms
前面说过要求程序中不间断的调用poll()。如果长时间没有调用poll,且间隔超过这个值时,就会认为这个consumer,会向coordinator触发rebalance。
ps:
kafka topic的leader-partation数量必须大于0, follow-partation数量必须大于0,并且小于broker的数量。

浙公网安备 33010602011771号