kafka学习

文章学习自：尚硅谷大数据技术之kafka

kafka概述：

定义

　　kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。

传统消息队列的应用场景

使用消息队列的好处

解耦：允许独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束
可恢复性：系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以再系统回复后被处理。
缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。
灵活性&峰值处理能力：在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见，如果以处理这类峰值访问为标准来投入资源随时待命无疑使巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。
异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放入多少消息，然后在需要的时候再去处理它们。

消息队列的两种模式：

1、点对点模式：（一对一，消费者主动拉取数据，消息收到后消息消除）

　　消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息，消息被消费之后，queue中不再存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

2、发布订阅模式：（一对多，消费者消费数据之后不会清除消息）

　　消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费。

kafka基础架构

producer：消息生产者，就是向kafka broker发送消息的客户端；
Consumer：消息消费者，想kafka broker取消息的客户端；
Consumer Group(CG)：消费者组，由多个consumer组成。消费者组内每个消费者负责不同分区的数据，一个分区只能由一个组内消费者消费，消费者组之间互相不影响。
broker：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
topic：可以理解为一个队列，生产者和消费者面向的是一个topic；
partition：为了实现扩展性，一个非常大的topic可以分不到多个broker上，一个topic可以分为多个partition，每个partition都是一个有序的丢咧
replica：副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不会丢失。且kafka能够继续工作，kafka提供了副本机制，一个topic的每个分区都有若干个副本，一个leader和若干个follower；
leader：每个分区多个副本的“主”：生产者发送数据的对象，以及消费者消费数据的对象都是leader；
follower：每个分区多个副本的“从”，实时的从leader中同步数据，保持和leader数据的同步。leader发生故障时，某个follower会成为新的follower。

kafka快速入门

安装部署

集群规划

jar包下载

http://kafka.apache.org/downloads.html

集群部署

解压安装包

tar -zxvf kafka_2.11-0.11.0.0.tgz -C  /opt/module/

修改解压后的文件名称
```
mv kafka_2.11-0.11.0.0/ kafka
```
在目录文件下创建logs文件夹

待补充

kafka命令行操作

待补充

kafka架构深入

kafka工作流程及文件存储机制

kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。

topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是producer生产的数据。producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。

由于生产者生产的消息会不断追加到log文件末尾，为防止log文件过大导致数据定位效率低下，kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment对应两个文件------“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号。例如：first这个topic有三个分区，则其对应的文件夹为first-0，first-1和first-2。

index和log文件以当前segment的第一条消息的offset命名。

.index文件存储大量的索引信息，.log文件存储大量的数据，索引文件中的元数据指向对应数据文件中的message的物理偏移地址。

kafka生产者

分区策略

分区原因

方便在集群中扩展，每个partition可以通过调整以适应它所在的机器，而一个topic又可以有多个partition组成，因此整个集群就可以适应任意大小的数据了；
可以提高并发，因为可以以partition为单位读写。

分区的原则

我们需要将producer发送的数据封装成一个ProducerRecord对象。

指明partition的情况下，直接将指明的值直接作为partition的值
没有指明partition值但有key的情况下，将key的hash值与topic的partition数进行取余得到partition的值
即没有partition值又没有key值的情况下，第一次调用随机生成一个整数（后面每次调用在这个整数上自增），将这个值与topic可用的partition总数取余得到partition值，也就是常说的round-robin算法。

数据可靠性保证

为巴证producer发送的数据，能可靠的发送到制定的topic，topic每个partition收到producer发送的数据后，都需要向producer发送ack，如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

副本同步策略

kafka选择了第二种方案，原因如下：

1、同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而kafka的每个分区都有大量的数据，第一种方案ui造成大量的数据的冗余，

2、虽然第二种方案的网络延迟会比较高，但网络延迟对kafka的影响比较小。

ISR

采用第二种方案之后，设想一下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，呐leader就要一直等下去，直到它完成同步，才能发送ack，这个问题问题怎么解决呢？

leader维护了一个动态的in-sync replica set(ISR)，意为何leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给follower发送ack.如果follower长时间未向leader同步数据，则该follower将被踢出ISR，时间阈值由replica.time.max.ms参数设定。leader发生故障之后，就会从ISR中选举新的leader。

ack应答机制

对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR的follower全部接收成功。

所以kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置。

ack参数配置

acks:

　　0：producer不等待broker的ack，这一操作提供了一个最低的延迟，broker一接收到还没有写入磁盘就已经返回，当broker宕机的时候有可能会丢失数据

　　1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据

　　-1（all）：producer等待broker的ack，partition的leader和foolower全部落盘成功后才会返回ack，但是如果在follower同步完成之后，broker发送ack之前，leader发生故障，那么会造成数据重复。

故障处理细节

LEO：每个副本的最后一个offset

HW：所有副本中最小的LEO，消费者能见的最大的offset

follower故障：

follower发生故障之后会被临时踢出ISR，待该follow恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。等待follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR。

leader故障

leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余follower或先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。

这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

Exactly Once语义

将服务器的ACK级别设置为-。可以保证producer到server之间不会丢失数据，即At least once语义。相对的，将服务器ACK级别设置为，可以保证生产者每条消息只会被发送一次，即at least once语义。

at least once可以保证数据不丢失，但是不能保证数据不重复；相对的，at most once可以保证数据不重复，但是不能保证数据不丢失。但是，对于一些非常重要的信息，比如说交易数据，下游数据消费者要求数据既不重复也不丢失，即exactly once语义。在0.11版本以前的kafka，对此是无能为力的，智能保证数据不丢失，在往下游消费者对数据做全局去重。对于对个下游应用的情况，每个都需要单独做全局去重，这就对性能造成了很大影响。

　　0.11版本的kafka，引入了一个重大特性：幂等性。所谓的幂等性就是指producer不论向server发送多少次重复数据，server端都会只持久化一条。幂等性结合at least once语义，就构成了kafka的exactly once语义。

　　要启用幂等性，只需要将producer的参数中enable.idompotence设置为true即可。kafka的幂等性实现其实就是将原来下游需要做的去重放在了数据上游。开启幂等性的producer在初始化的时候会被分配一个PID，发往同一partition的消息会附带sequence Number。而Broker端会对<PID,Partition,SeqNumber>做缓存，当具有相同主键的消息提交时，Broker只会持久化一条。

　　但是PID重启就会变化，同时不同的Partition也具有不同主键，所以幂等性无法保证跨分区跨会话的exactly once。

kafka消费者

消费方式

consumer采用pull模式从broker中读取数据

push模式很难适应消费速率不同的消费者，因为消息发送速率由broker决定的。

它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

　　pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout。

分区分配策略

　　一个consumer group中有多个consumer，一个topic中有多个partition，所以必然会涉及到partition的分配问题，即确定哪个partition由哪个consumer来消费。

　　kafka有两种分配策略，一是roundrobin,一是range。

offset的维护

　　由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。

　　kafka0.9版本之前，consumer默认将offset保存在zookeeper中，从0.9版本开始，consumer默认将offset保存在kafka 一个内置的topic中，该topic为_consumer_offsets。

修改配置文件consumer.properties
```
exclude.internal.topics=false
```

读取offset
0.11.0.0之前版本

bin/kafka-console-consumer.sh --topic __consumer_offsets --zookeeper hadoop102:2181 --formatter "kafka.coordinator.GroupMetadataManager\$OffsetsMessageFormatter" 
--consumer.config config/consumer.properties --from-beginning

0.11.0.0之后版本：

bin/kafka-console-consumer.sh --topic __consumer_offsets --
zookeeper hadoop102:2181 --formatter 
"kafka.coordinator.group.GroupMetadataManager\$OffsetsMessageForm
atter" --consumer.config config/consumer.properties --frombeginning

kafka高效读写数据

顺序写磁盘

　　kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写，官方数据表明，同样的磁盘，顺序写到600M/s，而随机写只有100K/s。这与磁盘的机械机构有关，顺序写之所以快，是因为省去了大量磁头寻址的时间。

零复制技术

zookeeper在kafka中的作用

　　kafka集群中有一个broker会被选举为controller，负责管理集群broker的上下线，所有topic的分区副本分配和leader选举等工作。

　　controller的管理工作都是依赖于zookeeper的。

　　partition的leader选举过程：

kafka事务

kafka从0.11版本开始引入事务支持。事务可以保证kafka在exactly once语义的基础上，生产和消费可以跨分区和会话，要么全部成功，要么全部失败。

producer事务

　　为了实现跨分区跨会话的事务，需要引入一个全局唯一的Transaction ID，并将producer获取的PID和Transaction ID绑定。这样当producer重启后就可以通过正在进行的transaction ID获得原来的PID。

　　为了管理Transaction，kafka引入了一个新的组件Transaction Coordinator。producer就是通过和transaction coordinator交互获得Transaction ID对应的任务状态。transaction coordinator还负责将事务所有写入kafka的一个内部topic，这样即使整个服务重启，由于事务状态得到保存，进行的事务状态可以得到恢复，从而继续进行。

Consumer事务

　　上述事务机制主要是从producer方面考虑，对于consumer而言，事务的保证就会相对较弱，尤其是无法保证commit信息被精确消费，这是由于consumer可以通过offset访问任意信息，而且不同的segment file生命周期不同，同一事物的消息可能会出现重启后被删除的情况。

kafka api

producer api

消息发送流程

　　kafka的producer发送消息采用的是异步发送的方式，在消息发送的过程中，涉及到了两个线程--main线程和sender线程，以及一个线程共享变量---RecordAccumulator。main线程将消息发送给RecordAccumlator，sender线程不断从RecordAccumulator中拉取消息发送到kafka broker。

异步发送API

1.导入依赖

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>0.11.0.0</version>
</dependency>

2.编写代码

需要用到的类：

kafkaproducer：需要创建一个生产者对象，用来发送数据

ProducerConfig：获取所需的一系列配置参数

ProducerRecord：每条数据都要封装成一个ProducerRecord对象

1.不带回调函数的API

import org.apache.kafka.clients.producer.*;
import java.util.Properties;
import java.util.concurrent.ExecutionException;


public class CustomProducer {

　　 public static void main(String[] args) throws ExecutionException,InterruptedException {
　　　　 Properties props = new Properties();
　　　　 //kafka 集群，broker-list
　　　　 props.put("bootstrap.servers", "hadoop102:9092");
　　　　 props.put("acks", "all");
　　　　 //重试次数
 　　　　props.put("retries", 1);
　　　　 //批次大小
　　　　 props.put("batch.size", 16384);
　　　　 //等待时间
 　　　　props.put("linger.ms", 1);
 　　　　//RecordAccumulator 缓冲区大小
 　　　　props.put("buffer.memory", 33554432);
　　　　 props.put("key.serializer", 
　　　　"org.apache.kafka.common.serialization.StringSerializer");
　　　　props.put("value.serializer", 
　　　　"org.apache.kafka.common.serialization.StringSerializer");
　　　　 Producer<String, String> producer = new 
　　　　KafkaProducer<>(props);
　　　　 for (int i = 0; i < 100; i++) {
　　　　 producer.send(new ProducerRecord<String, String>("first", 
　　　　　　　　Integer.toString(i), Integer.toString(i)));
　　 }
　　　　 producer.close();
 　　}
 }

带回调函数的API

　　回调函数会在producer收到ack时调用，为异步调用，该方法有两个参数，分别是RecordMetadata和Exception。如果Exception为null，说明消息发送成功，如果Exception不为null，说明消息发送失败。

　　注意，消息发送失败会自动重试，不需要我们在回调函数中手动重试。

import org.apache.kafka.clients.producer.*;
import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class CustomProducer {
    
    public static void main(String[] args) throws ExecutionException, 
InterruptedException {

       Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");//kafka 集群，broker-list
     　 props.put("acks", "all");
    　　props.put("retries", 1);//重试次数
 　　　　props.put("batch.size", 16384);//批次大小
　　　　 props.put("linger.ms", 1);//等待时间
　　　　 props.put("buffer.memory", 33554432);//RecordAccumulator 缓冲区大小
　　　　 props.put("key.serializer", 
　　　　　　　　　　"org.apache.kafka.common.serialization.StringSerializer");
　　　　 props.put("value.serializer", 
　　　　　　　　"org.apache.kafka.common.serialization.StringSerializer");
 　　　　Producer<String, String> producer = new KafkaProducer<>(props);
 　　　　for (int i = 0; i < 100; i++) {
 　　　　　　　　producer.send(new ProducerRecord<String, String>("first", Integer.toString(i), Integer.toString(i)), new Callback() {
 //回调函数，该方法会在 Producer 收到 ack 时调用，为异步调用
　　　　　　　　 @Override
 　　　　　　　　public void onCompletion(RecordMetadata metadata, Exception exception) {
　　　　　　　　　　 if (exception == null) {
 　　　　　　　　　　　　　　System.out.println("success->" + metadata.offset());
 　　　　　　　　　　} else {
　　　　　　　　　　　　　　 exception.printStackTrace();
　　　　　　　　　　 }
　　　　　　　　　　 }
　　　　　　　　 });
　　　　　　 }
　　　　 producer.close();
　　}
}

同步发送API

　　同步发送的意思就是，一条消息发送之后，会阻塞当前线程，直至返回ack。

　　由于send方法返回的是一个future对象，根据future对象的特点，我们也可以实现同步发送的效果，只需要在调用Future对象的get方法即可。

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class CustomProducer {
    public static void main(String[] args) throws ExecutionException,
            InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");//kafka 集群，broker-list
        props.put("acks", "all");
        props.put("retries", 1);//重试次数
        props.put("batch.size", 16384);//批次大小
        props.put("linger.ms", 1);//等待时间
        props.put("buffer.memory", 33554432);//RecordAccumulator 缓冲区大小
        props.put("key.serializer",
                "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer",
                "org.apache.kafka.common.serialization.StringSerializer");
        Producer<String, String> producer = new
                KafkaProducer<>(props);
        for (int i = 0; i < 100; i++) {
            producer.send(new ProducerRecord<String, String>("first",
                    Integer.toString(i), Integer.toString(i))).get();
        }
        producer.close();
    } 
}

Consumer API

　　consumer消费数据时的可靠性是很容易保证的，因为数据在kafka中是持久化的，故不用担心数据丢失问题。

　　由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。

　　所以offset维护是consumer消费数据是必须考虑的问题。

自动提交offset

导入依赖

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>0.11.0.0</version>
</dependency>

编写代码

需要用到的类

KafkaConsumer：需要创建一个消费者对象，用来消费数据

ConsumerConfigL获取所需的一系列配置参数

ConsumerRecord：每条数据都要封装成一个ConsumerRecord对象。

　　为了使我们能够专注于自己的业务逻辑，kafka提供了自动提交offset的功能。

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.Arrays;
import java.util.Properties;

public class CustomConsumer {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");
        props.put("group.id", "test");
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer",
                "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer",
                "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("first"));
        while (true) {
            ConsumerRecords<String, String> records =
                    consumer.poll(100);
            for (ConsumerRecord<String, String> record : records)
                System.out.printf("offset = %d, key = %s, value 
                        = %s%n", record.offset(), record.key(), record.value());
        }
    } 
}

手动提交offset

　　虽然自动提交offset十分简介遍历，但由于其是基于时间提交的，开发人员难以把握offset提交的时机。因此kafka还提供了手动提交offset的API。

　　手动提交offset的方法有两种，分别是commitSync（同步提交）和commitAsync（异步提交）。两者的相同点是，都会将本次pull的一批数据最高的偏移量提交；不同点是，commitSync阻塞当前线程，一直到提交成功，并且会自动失败重试（由于不可控因素导致，也会出现提交失败）；而commitAsyn没有失败重试的机会，故有可能提交失败。

同步提交offset

　　由于同步提交offset有失败重试机制，故更加可靠。以下为同步提交offset示例

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.Arrays;
import java.util.Properties;
public class CustomComsumer {
    public static void main(String[] args) {
        Properties props = new Properties();
//Kafka 集群
        props.put("bootstrap.servers", "hadoop102:9092");
//消费者组，只要 group.id 相同，就属于同一个消费者组
        props.put("group.id", "test");
        props.put("enable.auto.commit", "false");//关闭自动提交 offset
        props.put("key.deserializer",
                "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer",
                "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new
                KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("first"));//消费者订阅主题
        while (true) {
//消费者拉取数据
            ConsumerRecords<String, String> records =
                    consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value= %s%n", record.offset(), record.key(), record.value());
            }
//同步提交，当前线程会阻塞直到 offset 提交成功
            consumer.commitSync();
        }
    } 
}

异步提交offset

　　虽然同步提交offset更可靠一些，但是由于其会阻塞当前线程，直到提交成功。因此吞吐量会受到很大的影响。因此更多的情况下，会选择异步提交offset的方式。

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import java.util.Arrays;
import java.util.Map;
import java.util.Properties;
public class CustomConsumer {
    public static void main(String[] args) {
        Properties props = new Properties();
        //Kafka 集群
        props.put("bootstrap.servers", "hadoop102:9092");
        //消费者组，只要 group.id 相同，就属于同一个消费者组
        props.put("group.id", "test");//关闭自动提交 offset
        props.put("enable.auto.commit", "false");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("first"));//消费者订阅主题
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);//消费者拉取数据
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
//异步提交
            consumer.commitAsync(new OffsetCommitCallback() {
                @Override
                public void onComplete(Map<TopicPartition,
                        OffsetAndMetadata> offsets, Exception exception) {
                    if (exception != null) {
                        System.err.println("Commit failed for" + offsets);
                    }
                }
            });
        }
    } 
}

数据漏消费和重复消费分析

　　无论是同步提交还是异步提交offset，都有可能会造成数据的漏消费或者重复消费。先提交offset后消费，有可能造成数据的漏消费；而先消费后提交offset，有可能会造成数据的重复消费。

自定义存储offset

　　kafka0.9版本之前，offset存储在zookeeper0.9版本以及之后，默认将offset存储在kafka的一个内置的topic中。除此之外，kafka还可以选择自定义存储offset。

　　offset的维护是相当繁琐的，因为需要考虑到消费者的rebalance。

　　当有新的消费者加入到消费者组、已有的消费者退出消费者组或者所订阅的主题的分区发生变化，就会触发到分区的重新分配，重新分配的过程叫做Rebalance。

　　消费者发生Rebalance之后，每个消费者消费的分区就会发生变化。因此消费者要首先获取到自己被重新分配的分区，并且定位到每个分区最近提交的offset位置继续消费。

　　要实现自定义存储offset，需要借助ConsumerRebalanceListener，以下为示例代码，其中提交和获取offset的方法，需要根据所选的offset存储系统自行实现。

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import java.util.*;
public class CustomConsumer {
    private static Map<TopicPartition, Long> currentOffset = new HashMap<>();
    public static void main(String[] args) {
        //创建配置信息
        Properties props = new Properties();
        //Kafka 集群
        props.put("bootstrap.servers", "hadoop102:9092");
        //消费者组，只要 group.id 相同，就属于同一个消费者组
        props.put("group.id", "test");
        //关闭自动提交 offset
        props.put("enable.auto.commit", "false");
        //Key 和 Value 的反序列化类
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //创建一个消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //消费者订阅主题
        consumer.subscribe(Arrays.asList("first"), new ConsumerRebalanceListener() {

                    //该方法会在 Rebalance 之前调用
                    @Override
                    public void
                    onPartitionsRevoked(Collection<TopicPartition> partitions) {
                        commitOffset(currentOffset);
                    }
                    //该方法会在 Rebalance 之后调用
                    @Override
                    public void
                    onPartitionsAssigned(Collection<TopicPartition> partitions) {currentOffset.clear();
                        for (TopicPartition partition : partitions) { 
                            consumer.seek(partition, getOffset(partition));//定位到最近提交的 offset 位置继续消费
                        }
                    }
                });
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);//消费者拉取数据
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
                currentOffset.put(new TopicPartition(record.topic(),
                        record.partition()), record.offset());
            }
            commitOffset(currentOffset);//异步提交
        }
    }
    //获取某分区的最新 offset
    private static long getOffset(TopicPartition partition) {
        return 0;
    }
    //提交该消费者所有分区的 offset
    private static void commitOffset(Map<TopicPartition, Long>
                                             currentOffset) {
    } 
}

自定义Interceptor

拦截器原理

　　producer拦截器是在kafka0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。

　　对于producer而言，interceptor使得用户在消息发送前以producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链。interceptor的实现接口是org.apache.kafka.clients.producer.ProducerInterceptor，其定义的方法包括：

configure：获取配置信息和初始化数据时调用。
onSend：该方法封装进KafkaProducer.send方法中，即它运行在用户主线程中。Producer确保在消息被序列化以及计算分区前调用该方法。用户可以在方法中对消息做任何操作，但最好保证不要修改消息所属的topic和分区，否则会影响目标分区的计算。
onAcknowledgement：该方法会在消息从RecordAccumulator成功发送到kafka broker之后，或者在发送过程中失败时调用。并且通常都是在producer回调逻辑触发之前。onAcknowledgement运行在producer的IO线程中，因此不要在该方法中放入很重的逻辑，否则会拖慢producer的消息发送效率。
close：关闭interceptor，主要用于执行一些资源清理工作
如前所述，interceptor可能被运行在多个线程中，因此在具体实现时用户需要自行确保线程安全。另外倘若指定了多个interceptor，则producer将按照指定顺序调用它们。并仅仅是捕获每个interceptor可能抛出的异常记录到错误日志中而非在向上传递。这在使用过程中要特别留意。

拦截器案例

需求：实现一个简单的双interceptor组成的拦截链。第一个interceptor会在消息发送钱将时间戳信息加到消息value的最前部；第二个interceptor会在消息发送后更新成功发送消息数或失败发送消息数。

案例实操：
（1）：增加时间戳拦截器

import java.util.Map;
import org.apache.kafka.clients.producer.ProducerInterceptor;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
public class TimeInterceptor implements ProducerInterceptor<String, String> {
    @Override
    public void configure(Map<String, ?> configs) {
    }
    @Override
    public ProducerRecord<String, String> onSend(ProducerRecord<String, String> record) {
// 创建一个新的 record，把时间戳写入消息体的最前部
        return new ProducerRecord(record.topic(), record.partition(), record.timestamp(), record.key(),
                System.currentTimeMillis() + "," + record.value().toString());
    }
    @Override
    public void onAcknowledgement(RecordMetadata metadata, Exception exception) {
    }
    @Override
    public void close() {
    } 
}

（2）：统计发送消息成功和发送消息失败消息数，并在producer关闭时打印这两个计数器

import java.util.Map;
import org.apache.kafka.clients.producer.ProducerInterceptor;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
public class CounterInterceptor implements ProducerInterceptor<String, String>{
    private int errorCounter = 0;
    private int successCounter = 0;
    @Override
    public void configure(Map<String, ?> configs) {
    }
    @Override
    public ProducerRecord<String, String> onSend(ProducerRecord<String, String> record) {
        return record;
    }
    @Override
    public void onAcknowledgement(RecordMetadata metadata, Exception exception) {
// 统计成功和失败的次数
        if (exception == null) {
            successCounter++;
        } else {
            errorCounter++;
        } 
    }
    @Override
    public void close() {
        // 保存结果
        System.out.println("Successful sent: " + successCounter);
        System.out.println("Failed sent: " + errorCounter);
    }
}

（3）：producer主程序

import java.util.ArrayList;
import java.util.List;
import java.util.Properties;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
public class InterceptorProducer {
    public static void main(String[] args) throws Exception {
// 1 设置配置信息
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop102:9092");
        props.put("acks", "all");
        props.put("retries", 3);
        props.put("batch.size", 16384);
        props.put("linger.ms", 1);
        props.put("buffer.memory", 33554432);
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        // 2 构建拦截链
        List<String> interceptors = new ArrayList<>();
        interceptors.add("com.atguigu.kafka.interceptor.TimeInterceptor");
                interceptors.add("com.atguigu.kafka.interceptor.CounterInterceptor");
        props.put(ProducerConfig.INTERCEPTOR_CLASSES_CONFIG, interceptors);
        String topic = "first";
        Producer<String, String> producer = new KafkaProducer<>(props);
// 3 发送消息
        for (int i = 0; i < 10; i++) {
            ProducerRecord<String, String> record = new ProducerRecord<>(topic, "message" + i);
            producer.send(record);
        }
// 4 一定要关闭 producer，这样才会调用 interceptor 的 close 方法
        producer.close();
    } 
}

（3）：测试：

 bin/kafka-console-consumer.sh \
--bootstrap-server hadoop102:9092 --from-beginning --topic 
first


1501904047034,message0
1501904047225,message1
1501904047230,message2
1501904047234,message3
1501904047236,message4
1501904047240,message5
1501904047243,message6
1501904047246,message7
1501904047249,message8
1501904047252,message9

kafka监控

kafka eagle

待完善

flume对接kafka

1.配置flume（flume-kafka.conf)

# define
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F -c +0 /opt/module/data/flume.log
a1.sources.r1.shell = /bin/bash -c
# sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = 
hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sinks.k1.kafka.topic = first
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1
# channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2.启动kafkaIDEA消费者

3.进入flume根目录下，启动flume

$ bin/flume-ng agent -c conf/ -n a1 -f jobs/flume-kafka.conf

4.向flume.log里追加数据，查看kafka消费者消费情况

$ echo hello >> /opt/module/data/flume.log

posted on 2021-08-26 17:18 可以加冰吗阅读(67) 评论(0) 收藏举报