Kakfa揭秘 Day9 KafkaReceiver源码解析

Kakfa揭秘 Day9

上一节课中，谈了Direct的方式来访问kafka的Broker，今天主要来谈一下，另一种方式，也就是KafkaReceiver。

Direct和普通Receiver方式，最大的区别，是元数据的管理方式。
Direct方式是没有通过zookeeper，由应用自身来管理。

而对比Receiver方式，我们可以看到需要传入zookeeper的地址。

在Receiver的工厂方法，有一些比较重要的参数：

zkQuorum，就是zookeeper的地址，一般是奇数个。数据是存储在broker中的，所以只是从zookeeper去查询我们需要的数据在哪里，由zookeeper来管理offset等元数据的信息。
groupId，sparkStreaming在消费kafka的数据时，是分group的，当进行不同业务类型消费时，会很需要。
topics，表明消费的内容，每个partition有个单独的线程来抓取数据。
storageLevel，存储级别，模式是MEMORY_AND_DISK_SER_2，内存放的下放在内存，否则放磁盘，所以不用担心内存不够的问题。