kafka生产者消费者

kafka分区，默认行为：

如果key为null，则按照一种轮询的方式来计算分区分配
如果key不为null则使用称之为murmur的Hash算法（非加密型Hash函数，具备高运算性能及低碰撞率）来计算分区分配。




import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Arrays;
import java.util.Properties;

/**
 * Created by zzq on 2019/6/14.
 */
public class KafkaTest implements Runnable {
    public void read(String clientId) {
        producer.send(new ProducerRecord<String, String>("read",clientId, clientId));//hash到同一个partition
        System.out.println("=========" + clientId);
        System.out.println();
    }

    public volatile Producer<String, String> producer;

    public volatile KafkaConsumer<String, String> customer;

    //消费方法
    @Override
    public void run() {
        customer.subscribe(Arrays.asList("read"));
　　　　 //和上面的代码二选一，下面可以动态指定partition编号
　　　　 //consumer.assign(Arrays.asList(new TopicPartition("read",0)));//名字为read的topic中，标号为0的partition
        try {
            for (; ; ) {
                int count = 0;
                ConsumerRecords<String, String> records = customer.poll(20);
　　　　　　　　　 if(records.count()==0){
　　　　　　　　　　   continue;
　　　　　　      }
                for (ConsumerRecord<String, String> record : records) {
                    System.out.printf("偏移量 = %d, 值 = %s", record.offset(), record.value());
                    System.out.println();
                    count++;
                }
                if (count == 20) {
                    customer.commitAsync();//异步提交，可以提升吞吐量，如果数据不允许丢失则使用同步提交方式
                }
            }
        } finally {
            customer.close();
        }
    }

    public Producer<String, String> producer() {
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "10.10.210.123:9092");
        // 生产者需要server接收到数据之后，要发出一个确认接收的信号
        // 0 producer不需要等待任何确认的消息，吞吐量最高
        // 1 意味着至少要等待leader已经成功将数据写入本地log，并不意味着所有follower已经写入
        // all 意味着leader需要等待所有备份都成功写入到日志中
        properties.put("acks", "0");
        properties.put("retries", 0);// 重试次数
        properties.put("batch.size", 16384);// producer试图批量处理消息记录。目的是减少请求次数，改善客户端和服务端之间的性能。这个配置是控制批量处理消息的字节数。如果设置为0，则禁用批处理。如果设置过大，会占用内存空间.
        properties.put("linger.ms", 1);//这个参数和上面数据积压大小的参数，取优先触发的参数。如果消息保证不丢失，时效性较高，可以关闭这个参数，设置为0。
        properties.put("buffer.memory", 33554432);// 缓存大小
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        Producer<String, String> producer = null;
        producer = new KafkaProducer<String, String>(properties);
        return producer;
    }

    public KafkaConsumer<String, String> customer() {
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "10.10.210.123:9092");
        properties.put("group.id", "read");
        
        //适合自动提交offset场景可以开启下面两个配置
        //properties.put("enable.auto.commit", "true");//consumer所接收到的消息的offset将会自动同步到zookeeper
        //properties.put("auto.commit.interval.ms", "1000");//consumer向zookeeper提交offset的频率，单位是毫秒

        //手工提交offset
        properties.put("enable.auto.commit", "false");//手动提交offset偏移量到zk
        properties.put("max.poll.records", 20);//每次拉取20条

        properties.put("auto.offset.reset", "earliest");//如果zk中没有offset记录就从最初的位置开始消费
        properties.put("session.timeout.ms", "30000");
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);
        return kafkaConsumer;
    }
}

<dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.10.2.1</version>
</dependency>

时间参数的配置：

heartbeat.interval.ms-我程序里500ms
心跳间隔。心跳是在consumer与coordinator之间进行的。心跳是确定consumer存活，加入或者退出group的有效手段。这个值必须设置的小于session.timeout.ms，因为：
当Consumer由于某种原因不能发Heartbeat到coordinator时，并且时间超过session.timeout.ms时，就会认为该consumer已退出，它所订阅的partition会分配到同一group 内的其它的consumer上。
通常设置的值要低于session.timeout.ms的1/3。
默认值是：3000 （3s）
session.timeout.ms-我程序里2s
Consumer session 过期时间。这个值必须设置在broker configuration中的group.min.session.timeout.ms 与 group.max.session.timeout.ms之间。
其默认值是：10000 （10 s）
auto.commit.interval.ms-我程序里2s
自动提交间隔。范围：[0,Integer.MAX]，默认值是 5000 （5 s）
max.poll.interval.ms
前面说过要求程序中不间断的调用poll()。如果长时间没有调用poll，且间隔超过这个值时，就会认为这个consumer，会向coordinator触发rebalance。

ps：

kafka topic的leader-partation数量必须大于0， follow-partation数量必须大于0，并且小于broker的数量。

posted @ 2019-06-13 22:10 soft.push("zzq") Views(308) Comments(0) 收藏举报

刷新页面返回顶部

soft.push("zzq")

kafka生产者消费者

公告