摘要: Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-streaming-kafka-0-10。在使用时应注意以下几点: spark-streaming-k 阅读全文
posted @ 2020-08-03 21:51 Boblim 阅读(2570) 评论(0) 推荐(0)
摘要: 一、偏移量提交 消费者提交偏移量的主要是消费者往一个名为_consumer_offset的特殊主题发送消息,消息中包含每个分区的偏移量。 如果消费者一直运行,偏移量的提交并不会产生任何影响。但是如果有消费者发生崩溃,或者有新的消费者加入消费者群组的时候,会触发 Kafka 的再均衡。这使得 Kafk 阅读全文
posted @ 2020-08-03 21:41 Boblim 阅读(2640) 评论(0) 推荐(1)
摘要: 调优 Spark Streaming集成Kafka时,当数据量较小时默认配置一般都能满足我们的需要,但是当数据量大的时候,就需要进行一定的调整和优化。 合理的批处理时间(batchDuration) 几乎所有的Spark Streaming调优文档都会提及批处理时间的调整,在StreamingCon 阅读全文
posted @ 2020-08-03 21:28 Boblim 阅读(2094) 评论(0) 推荐(0)
摘要: 针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 阅读全文
posted @ 2020-08-03 18:21 Boblim 阅读(3562) 评论(0) 推荐(0)