随笔分类 -  Kafka

Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications
摘要:通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下,如果 阅读全文
posted @ 2021-03-03 09:00 大数据学习与分享 阅读(8030) 评论(0) 推荐(0)
摘要:通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》,我们了解到:Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到Kafka集群中不同的broker中。无论是 阅读全文
posted @ 2021-02-03 11:32 大数据学习与分享 阅读(4399) 评论(0) 推荐(0)
摘要:众所周知,Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统(当然,目前Kafka定位于an open-source distributed event streaming platform),由Scala和Java 阅读全文
posted @ 2021-01-26 10:40 大数据学习与分享 阅读(2740) 评论(0) 推荐(0)
摘要:在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比 阅读全文
posted @ 2021-01-22 10:08 大数据学习与分享 阅读(212) 评论(0) 推荐(0)
摘要:Apache Kafka由Scala和Java编写,基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性,但设计上又有很大区别,它不是JMS规范的实现,如Kafka允许多个消费者主动拉取数据,而在JMS中只有点对点模式消费者才会主动拉取数据 阅读全文
posted @ 2020-11-30 09:05 大数据学习与分享 阅读(493) 评论(0) 推荐(0)
摘要:大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 阅读全文
posted @ 2020-11-20 08:57 大数据学习与分享 阅读(1350) 评论(0) 推荐(0)