lxgi&

导航

Apache Kafka现在在LinkedIn每天处理1.1万亿条消息

LinkedIn部署的Apache kafka每天处理的消息已经超过1.1万亿(是的,万亿,一个“T”和四个逗号),对此我感到非常兴奋。这是Apache kafka 在任何一个公司生产环境的最大部署规模。

 

对于那些并不熟悉kafka 的人而言,它是一个横向扩展的消息处理系统。它能够让你得到你公司里发生得一切,把它变成一个其它系统能够订阅并处理的实时数据流。对于这个软件的使用者而言,它扮演的角色是一个传统企业消息代理的替代者和一种在不同的系统和数据库之间同步数据的方法,以及实时分析和流处理的基础。

 

kafka已经走了很长的路

看到kafka的规模在近几年不断扩大十分令人兴奋。当Linkedin的团队,包括我和我的联合创始人,Jay Kreps和Jun Rao,在2010创建了这个系统,我们有一个很大的梦想,希望看着它成为一个数据的中枢神经系统,但我们已经开始逐渐远离这个梦想。作为Linkedin早期员工,我们有机会体验Linkedin传统基础设施所带来的伤痛。有机会来观察许多旧系统的局限性,允许我们引导它向现代化分布式架构演进,使全球超过3.8亿用户的体验共享成为可能。

 

Kafka在塑造Linkedin的基础设施中起了关键作用,同样在使用kafka的其它数百家公司中——从网络巨头Netflix、Uber和 Pinterest 到像Cerner、Cisco 和Goldman Sachs这样的大型企业,扮演了重要角色。在这些公司中,kafka占据重要的数据管道,允许将数据实时同步到远程的数据中心,是实时流处理和分析的基础。

 

Kafka使得公司有可能构建出更好的产品并且向大规模用户提供一个更加丰富,实时的用户体验。例如,你能想象一下不能瞬间在Linkedin的newsfeed中收到一个重要的story么?或者不能在Netflix收到即是的电影推荐?

 

当我们团队在2010年7月首次将kafka应用于生产环境的时候,它被用于处理一些Linkedin的用户活动数据。到2011年,它每天能够处理10亿的消息。我们让它不仅处理所有用户的活动数据而且包括监控Linkedin的IT基础设施的所有数据和警报,这使得kafka的部署规模增长到每天处理超过200亿消息。随着不断的发展,我们使用Kafka搜集几乎公司发生的一切——从一个人更新他们的简历,创建一个广告活动,或者增加一个联系人,向下一直到数据库的变化。Kafka逐渐成为公司的中枢神经系统,作为重要的管道为所有的系统和应用提供数据。这包括监控应用,搜索,图形数据库,hadoop集群,和数据仓库。到2014年年中,在我们离开Linkedin着手准备Confluent的时候,kafka每天能够处理超过2000亿的消息。

 

我们从没有想象过kafka在Linkedin的快速而广泛的应用能达到如此的高度,更不要说其它很多公司现在依赖它处理业务上的重要任务。

 

在Confluent平台上,Kafka的成长将超越Linkedin

在Confluent,我们致力于为开源社区服务并且在世界范围内进一步增加公司对Kafka的采用。这一点是有数据来支持的——自从我们开始Confluent,仅仅在过去的一年,Kafka每月的下载数量增加了7倍。

 

 

 

我们提炼多年大规模在生产环境使用Kafka的经验,构成了我们的产品——Confluent平台。我们计划继续通过邮件列表、聚会,以及我们的博客为开源社区做出贡献。

 

Confluent平台上的开发者工具是100%开源的并且为你提供将Kafka在生产环境规模化部署所需要的一切。

 

在未来的几个月里,我们将通过加强安全性,增加多用户,流式ETL和流处理能力来推进平台发展。

 

Linkedin过渡到Kafka和每一个人息息相关

Linkedin过渡到Kafka对于公司利用大规模数据的能力产生深远的影响。之前被关在孤岛上的数据,现在可以瞬间得到并处理。新的高容量的数据源,像用户活动数据和日志数据,之前在Linkedin的传统系统中无法被收集,现在使用Kafka可以很容易收集使用。同样进入离散数据仓库和Hadoop的数据也能够在所有应用程序中金像实时流处理和分析。所有收集到的数据都可以通过Kafka存储或者进入各种数据库,搜索索引和公司的其它系统。

 

世界在不断变化,现在Linkedin并不是唯一需要利用大量数据流的公司。具有GPS功能的设备、移动电话、物联网、金融数据流,以及电信都在产生大规模的流式数据。在Confluent,我们正在帮助这些公司,使用我们的经验和基础设施在所有这些领域构建实时流处理系统。

由于在全球范围内的实时数据传输和处理方面,Kafka已经成为事实上的标准,我们期待与Linkedin和其它公司的合作,来加大对Apache Kafka的采用力度。

posted on 2015-09-21 10:16  lxgi&  阅读(783)  评论(0)    收藏  举报