kafka源码1：基本概念和核心架构

一： kafka组成模型

Kafka是一个开源的高吞吐量的分布式发布订阅消息系统，由生产者（producer）、消费者（consumer）、服务端broker三者组成。

二：kafka 集群模型

Producer（生产者）：发送消息

Consumer（消费者）：订阅消息

Broker：Kafka的节点，服务端

Controller：Kafka服务器的主节点

Follower：Kafka服务的从节点

Topic：主题，类似于数据库里的表

Partition：分区，一个主题可以有多个分区，类似于数据库里的分区

Replica:副本，为了保证数据安全，每个Partition可以设置多个副本（leader replica，Follower replica）

Message：消息，消息存在分区里

Offset：偏移量，消息存储进度/消费者的消费进度

zookeeper : 分布式应用程序协调者，在它里面会创建一个目录来管理kafka各个topic 的 partition的offset 信息（kafka 0.8版本和之前，kafka1.0版本去掉了zookeeper维护分区数据偏移量, 改用 _consumer_offsets 主题来维护各个broker中topic的 offsets ）

三：kafka 服务端(broker)设计

kafka是一个把性能用到极致的框架，是一个支持高可用、高性能、高并发的分布式消息系统。

高并发：线程池思想

高性能：磁盘的顺序读写设计

Kafka是将消息记录持久化到本地磁盘中的，一般人会认为磁盘读写性能差，对Kafka性能如何保证提出质疑。实际上不管是内存还是磁盘，快或慢关键在于寻址的方式，磁盘分为顺序读写与随机读写，内存也一样分为顺序读写与随机读写。基于磁盘的随机读写确实很慢，但磁盘的顺序读写性能却很高，一般而言要高出磁盘随机读写三个数量级，一些情况下磁盘顺序读写性能甚至要高于内存随机读写。

高性能：跳表设计

log文件：里面存储的是消息

index文件：存储索引消息。

这两个文件的文件名相同，成对出现。这个文件名是以 log 文件里的第一条消息的 offset 命名的，如下第一个文件的文件名叫 00000000000012768089，代表着这个文件里的第一个消息的 offset 是 12768089，也就是说第二条消息就是 12768090 了。