Apache Kafka开发入门指南

作者：chszs，转载需注明。博客主页：http://blog.csdn.net/chszs

Apache Kafka可以帮助你解决在发布/订阅架构中遇到消费数百万消息的问题。
如今，商业应用、社交应用以及其它类型的应用产生的实时信息在不断增长，这些信息需要以简单的方式快速、可靠地路由到各种类型的接收者。在大多数情况下，产生信息和消费信息的应用都是自然分开的，彼此不可互相访问。
需要一种机制，让信息的生产者和消费者能无缝地集成。
在大数据时代，收集数据也是一个挑战——因为数据量太大。第二个挑战是分析数据，它通常分为：
1）用户行为数据
2）应用程序性能跟踪
3）日志形式的活动数据
4）事件消息

消息订阅是一种机制，可以连接各种应用程序，帮助消息在彼此之间路由。
Kafka是一个实时消息传输的解决方案，可处理大量实时信息，并把这些信息快速路由到各种消费者。Kafka提供了信息生产者和消费者之间的无缝集成，无需对生产者的信息进行阻塞，也无需告诉生产者那些消费者的位置。

Apache Kafka是一个开源、分布式的消息发布/订阅系统，其主要设计特性如下：
1）消息持久化
要从大数据中获取真正的价值，那么不能丢失任何信息。Apache Kafka设计上是时间复杂度O(1)的磁盘结构，它提供了常量时间的性能，即使是存储海量的信息（TB级）。
2）高吞吐
记住大数据，Kafka的设计是工作在标准硬件之上，支持每秒数百万的消息。
3）分布式
Kafka明确支持在Kafka服务器上的消息分区，以及在消费机器集群上的分发消费，维护每个分区的排序语义。
4）多客户端支持
Kafka系统支持与来自不同平台（如java、.NET、PHP、Ruby或Python等）的客户端相集成。
5）实时
生产者线程产生的消息对消费者线程应该立即可见，此特性对基于事件的系统（比如CEP系统）是至关重要的。
注：CEP即Complex Event Processing，复杂事件处理。

Apache Kafka提供了一个实时的发布/订阅解决方案，它客服了消费实时大数据的挑战，这些数据量可能在数量级的增长、真实的数据。Kafka还支持在Hadoop系统上做并行数据载入。

下面的视图显示了Apache Kafka消息系统支持的一个典型的大数据汇聚和分析的场景：

在生产者端，有数种不同的生产者：
1）前端Web应用产生的应用日志
2）生产者代理产生的Web分析日志
3）生产者适配器产生的传输日志
4）生产者服务产生的调用跟踪日志

在消费者端，有数种不同的消费者：
1）离线消费者：消费消息并在Hadoop或传统的数据仓库中存储消息用于离线分析
2）近乎实时的消费者：消费消息并在任意NoSQL数据库（如HBase或Cassandra）中存储消息用于近实时分析
3）实时消费者：在内存数据库中过滤消息，并在相关的群组中触发警告事件

Apache Kafka目标是统一离线和在线处理，与Flume和Scribe相比较，Kafka在处理活动流数据方面更具优势。但是从架构的视野来看，Kafka与传统的消息系统（例如ActiveMQ或RabbitMQ）更相似一些。

注：Scribe 是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是 NFS、分布式文件系统等），以便于进行集中统计分析处理。它为日志的“分布式收集、统一处理”提供了一个可扩展的、高容错的方案。当中央存储系统的网络或者机器出现故障时，Scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，Scribe会将转存的日志重新传输给中央存储系统。 Scribe通常与Hadoop结合使用。Scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。

注：Flume 最早是Cloudera提供的高可用、高可靠、分布式的海量日志采集、聚合和传输的日志收集系统，目前归属于Apache，是Apache基金会下的一个孵化项目。Flume支持在日志系统中定制各类数据的发送方，用于收集数据；同时Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume提供了从Console（控制台）、RPC（Thrift-RPC）、Text（文件）、Tail（UNIX tail）、Syslog（syslog日志系统，支持TCP和UDP等2种模式），Exec（命令执行）等数据源上收集数据的能力。Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用。另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。Flume Master间使用Gossip协议同步数据。

不少公司使用了Kafka：

1）LinkedIn

http://www.linkedin.com

LinkedIn公司使用Apache Kafka作为活动数据的流化和运营度量。

2）DataSift

http://www.datasift.com

DataSift公司使用Apache Kafka作为监控事件的收集器以及用户消费的实时数据流的跟踪器。

3）Twitter

http://www.twitter.com

Twitter公司使用Apache Kafka作为其Storm平台的一部分。

注：Storm是一个流处理架构。

4）Foursquare

http://www.foursquare.com

Foursquare公司使用Apache Kafka处理在线之间和在线与离线之间的消息传输，把Kafka与Foursquare监控和产品系统以及基于Hadoop的离线基础设施进行集成。

5）Square

http://www.squareup.com

Square公司使用Apache Kafka作为总线，在Square的各个数据中心之间传输所有的系统事件，包括：度量、日志、自定义事件等等。在用户端，它输出到Splunk、Graphite或Esper实时警告。

二、Apache Kafka安装

Kafka是Apache的顶级项目之一，当前的最新版本为0.7.2稳定版，0.8版还是Beta版，但已经获得了很多大型公司的认可。与0.7.2版相比，Kafka 0.8版提供了很多高级特性，如下：

1）在0.8版之前，如果经纪人Broker失效，那么任何Topic内的未消费分区的数据可能会丢失。而0.8版对分区增加了复制因子，这确保了只要有一个复制集有效，那么任何未提交的消息都不会丢失。

2）早先的版本还确保了所有的生产者和消费者都是复制敏感的。默认情况下，生产者的消息发送请求会被阻塞，直到消息提交到所有活动的复制集上才会解除阻塞。但是，生产者还能被配置为提交消息到单个经纪人Broker。

3）与Kafka的生产者一样，Kafka的消费者的投票模型改为长轮询模型且会被阻塞，除非已提交的消息是有效的才会解除阻塞。

4）另外，Kafka 0.8版还配备了一套管理工具，比如集群的受控关机和领导复制选举工具等。

Apache Kafka 0.7.x版不能被0.8版所替代的主要原因是0.8版不能向后兼容。

如果要把现有的基于Kafka 0.7.x版的集群迁移到基于0.8版的Kafka集群上，Apache Kafka提供了迁移工具。迁移工具实际上担当了基于Kafka 0.7.x版的集群的消费者的角色，并在基于0.8版的Kafka集群上担当了生产者重发布消息的角色。

下面的视图说明了整个迁移：

posted @ 2015-04-04 19:03 kylinfish 阅读(534) 评论(0) 收藏举报

刷新页面返回顶部

Apache Kafka开发入门指南

公告