随笔分类 - Kafka

Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications

Kafka集群消息积压问题及处理策略

摘要：通常情况下，企业中会采取轮询或者随机的方式，通过Kafka的producer向Kafka集群生产数据，来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下，如果阅读全文

posted @ 2021-03-03 09:00 大数据学习与分享阅读(8045) 评论(0) 推荐(0)

如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端

摘要：通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》，我们了解到：Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到Kafka集群中不同的broker中。无论是阅读全文

posted @ 2021-02-03 11:32 大数据学习与分享阅读(4445) 评论(0) 推荐(0)

Kafka分区分配策略（Partition Assignment Strategy）

摘要：众所周知，Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统（当然，目前Kafka定位于an open-source distributed event streaming platform），由Scala和Java 阅读全文

posted @ 2021-01-26 10:40 大数据学习与分享阅读(2757) 评论(0) 推荐(0)

SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once

摘要：在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比阅读全文

posted @ 2021-01-22 10:08 大数据学习与分享阅读(223) 评论(0) 推荐(0)

Kafka作为分布式消息系统的系统解析

摘要：Apache Kafka由Scala和Java编写，基于生产者和消费者模型作为开源的分布式发布订阅消息系统。它提供了类似于JMS的特性，但设计上又有很大区别，它不是JMS规范的实现，如Kafka允许多个消费者主动拉取数据，而在JMS中只有点对点模式消费者才会主动拉取数据阅读全文

posted @ 2020-11-30 09:05 大数据学习与分享阅读(500) 评论(0) 推荐(0)

Kafka高性能揭秘：sequence IO、PageCache、SendFile的应用详解

摘要：大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？阅读全文

posted @ 2020-11-20 08:57 大数据学习与分享阅读(1363) 评论(0) 推荐(0)

随笔分类 - Kafka

公告