随笔分类 -  kafka

摘要:Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为 阅读全文
posted @ 2019-01-14 10:34 uuhh 阅读(487) 评论(0) 推荐(0)
摘要:保证一次性 不适用zookeeper存储偏移量,消费的偏移量由流自己跟踪。但仍然依赖于zookeeper来协同工作。 你可以自己选择处理偏移量。信息消费的偏移量能从检查点恢复。 端到端语义:此流确保每个记录都得到有效接收转换一次,但不保证转换后的数据是否正确输出一次。 对于端到端的一次性语义,您必须 阅读全文
posted @ 2018-12-12 17:12 uuhh 阅读(758) 评论(0) 推荐(0)
摘要:Kafka 0.9+增加了一个新的特性Kafka Connect ,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors 可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Co 阅读全文
posted @ 2018-12-11 17:13 uuhh 阅读(258) 评论(0) 推荐(0)
摘要:Kafka Streams直接解决了在流处理中会遇到的很多难题: 一次一件事件的处理(而不是microbatch),延迟在毫秒 有状态的处理,包括分布式join和aggregation 一个方便的DSL 使用类似于DataFlow的模型来处理乱序数据的windowing问题 分布式处理,并且有容错机 阅读全文
posted @ 2018-12-11 17:10 uuhh 阅读(157) 评论(0) 推荐(0)
摘要:首先是0.8版本的coordinator,那时候的coordinator是依赖zookeeper来实现对于consumer group的管理的。Coordinator监听zookeeper的/consumers/<group>/ids的子节点变化以及/brokers/topics/<topic>数据 阅读全文
posted @ 2018-12-06 17:25 uuhh 阅读(393) 评论(0) 推荐(0)
摘要:选择分区的原则: 1.主题需要多大的吞吐量,是希望每秒写入100kb,还是1GB 2.从单个分区读取数据的最大吞吐量,数据写入数据库的速度不会超过每秒50M,所以从一个分区读数据的速度也不要超过50M 3.可以估算生产者向单个分区写入数据的吞吐量,生产者的速度一般比消费者快,最高为生产者多估算一些量 阅读全文
posted @ 2018-12-04 17:33 uuhh 阅读(2450) 评论(0) 推荐(0)
摘要:不过对于开发人员来说,仍然需要处理其他类型的错误,包括:• 不可重试的 broker 错误,例如消息大小错误、认证错误等 3. 在消息发送之前发生的错误,例如序列化错误:• 在生产者达到重试次数上限时或者在消息占用的内存达到上限时发生的错误。 消费者在自动提交偏移量之前停止处理消息--无法控制重复处 阅读全文
posted @ 2018-12-04 16:52 uuhh 阅读(181) 评论(0) 推荐(0)
摘要:运行控制台使用者来查看主题中的数据(或使用自定义使用者代码来处理它): ./kafka-console-consumer.sh --bootstrap-server 172.16.7.140:9092,172.16.7.141:9092,172.16.7.142:9092 --topic tbl_i 阅读全文
posted @ 2018-12-04 08:54 uuhh 阅读(486) 评论(0) 推荐(0)
摘要:想要彻底删除topic数据要经过下面两个步骤: ①:删除topic,重新用创建topic语句进行创建topic ②:删除zookeeper中的consumer中的路径。 这里假设要删除的topic是test,kafka的zookeeper root为/kafka 删除kafka相关的数据目录 数据目 阅读全文
posted @ 2018-12-03 21:44 uuhh 阅读(3595) 评论(0) 推荐(0)
摘要:kafka主要配置 kafka主要配置 Kafka为broker,producer和consumer提供了很多的配置参数。 了解并理解这些配置参数对于我们使用kafka是非常重要的。 官网配置地址: Configuration 每个kafka broker中配置文件server.properties 阅读全文
posted @ 2018-12-02 15:20 uuhh 阅读(1294) 评论(0) 推荐(0)
摘要:[2018-11-23 15:35:14,958] ERROR Processor got uncaught exception. (kafka.network.Processor)java.lang.ArrayIndexOutOfBoundsException: 18 at org.apache. 阅读全文
posted @ 2018-11-23 15:48 uuhh 阅读(3439) 评论(0) 推荐(0)
摘要:isr_change_notification目录 admin目录 topic 配置 /config/topics/[topic_name] consumer offset /consumers/[groupId]/offsets consumer owner /consumers/[groupId 阅读全文
posted @ 2018-11-23 15:27 uuhh 阅读(2585) 评论(0) 推荐(0)
摘要:有可能是消费过慢,导致一个session周期内未完成消费。导致心跳监测报告出问题。消费了的offset未成功提交。 有可能是消费失败,trasactionID未成功保存。导致消费到一半回退了。 阅读全文
posted @ 2018-11-04 10:55 uuhh 阅读(902) 评论(0) 推荐(0)
摘要:Kafka如何保证数据不重复消费,不丢失数据 不重复消费: 1.幂等操作,重复消费不会产生问题 2. dstream.foreachRDD {(rdd, time) = rdd.foreachPartition { partitionIterator => val partitionId = Tas 阅读全文
posted @ 2018-08-01 17:12 uuhh 阅读(24267) 评论(0) 推荐(0)
摘要:Kafka文档 一、Kafka简介 Kafka是一个分布式的消息队列系统(Message Queue)。 官网:https://kafka.apache.org/ kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。 同一topic内部的消息按照一定的key和算法被分区(p 阅读全文
posted @ 2018-07-06 11:02 uuhh 阅读(389) 评论(0) 推荐(0)