随笔分类 - 大数据 / kafka
摘要:1. 背景 一大早起来信息,kafka消息积压了五十亿,赶紧打开电脑处理。 这段程序是kafka实时消息经java代码处理后写入hbase,java代码大半年一直没出问题,推测是下游hbase异常。 2. 处理方式 查看日志 22/02/22 10:06:42 WARN internals.Cons
阅读全文
摘要:// fetch到哪 就算偏移量消费到哪,但是实际应该是处理到哪儿才算消费到哪。 // 设置自动提交偏移量为false ; 注意手动提交偏移量的时候,提交的是 poll拉取的那批消息中最后的那条offset,而不是消费到哪条提交哪条; configs.put(ConsumerConfig.ENABL
阅读全文
摘要:kafka eagle gihub 官方文档 0. eagle简介 是一个监控系统,监控kafka 集群,可视化地展示消费者线程、偏移量、所有者等信息。 监控了当前的消费者组、每个组正在消费的主题以及该组在每个主题中的偏移、滞后量、日志大小位置。有助于把握 消息队列中消费的速度以及消息队列生产的速度
阅读全文
摘要:SASL/PLAIN 一、服务端配置 配置 config/server.properties # 配置ACL入口类 authorizer.class.name=kafka.security.auth.SimpleAclAuthorizer # SASL_PLAINTEXT # 在三台机器上换成每台机
阅读全文
摘要:1. 依赖部署 # zookeeper # kafka server.1=c5:2881:3881 server.2=c6:2881:3881 server.3=c7:2881:3881 kafka-server-stop.sh bin/kafka-server-start.sh --daemon
阅读全文
摘要:生成broker ID The broker id for this server. If unset, a unique broker id will be generated.To avoid conflicts between zookeeper generated broker id's a
阅读全文
摘要:1. 心跳机制 Kafka 的心跳是 Kafka Consumer 和 Broker 之间的健康检查,只有当 Broker Coordinator 正常时,Consumer 才会发送心跳。 Consumer 和 Rebalance 相关的 2 个配置参数: 参数 字段 session.timeout
阅读全文
摘要:0. 背景 上游厂家生产信令数据,我方消费kafka数据,过滤后插入HBase。 上游生产的信令数据分了4个主题,每个主题有若干分区,这4个主题的数据消费后都插入同一张HBase表。 问题:kafka消息积压达到百亿。 以下以topic1为例,有6个分区。 1. 查看消费滞后情况 kafka-con
阅读全文
摘要:kafka官网 kafka知识体系/图谱 kafka未来分析 问题场景 -> kafka是什么 -> kafka的原理 -> 详细体系(不细说,重点讲一讲) -> 案例分享 -> 瓶颈(监控)及优化 -> kafka未来展望(对比其他MQ、kafka stream流处理等) 分布式应用如何保证消息的
阅读全文
摘要:由上图可以看出:KafkaProducer有两个基本线程: 主线程: 负责消息创建,拦截器,序列化器,分区器等操作,并将消息追加到消息收集器 RecoderAccumulator中; 消息收集器RecoderAccumulator为每个分区都维护了一个Deque<ProducerBatch> 类型的
阅读全文
摘要:# Connection to node -1 could not be established. Broker may not be available > server.properties 配置文件中 > listeners=PLAINTEXT://192.168.80.101:9092 #
阅读全文
摘要:整体架构图 多个Producer可同时向同一主题发送消息 多个Producer可同时向同一主题同一分区发送消息 一个分区只会被一个消费组消费一次 精确一次Kafka Exactly Once 语义实现原理:幂等性与事务消息-CSDN博客
阅读全文
摘要:https://blog.csdn.net/qq_28900249/article/details/90346599
阅读全文
摘要:4.3 Efficiency We have put significant effort into efficiency. One of our primary use cases is handling web activity data, which is very high volume:
阅读全文
摘要:4.design 4.1 Motivation We designed Kafka to be able to act as a unified platform for handling all the real-time data feeds a large company might have
阅读全文
摘要:1. kafka Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, strea
阅读全文

浙公网安备 33010602011771号