2020 年 8月 3 日随笔档案 - Boblim

2020年8月3日

摘要： Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-streaming-kafka-0-10。在使用时应注意以下几点: spark-streaming-k 阅读全文

posted @ 2020-08-03 21:51 Boblim 阅读(2570) 评论(0) 推荐(0)

Kafka - 偏移量提交

摘要：一、偏移量提交消费者提交偏移量的主要是消费者往一个名为_consumer_offset的特殊主题发送消息，消息中包含每个分区的偏移量。如果消费者一直运行，偏移量的提交并不会产生任何影响。但是如果有消费者发生崩溃，或者有新的消费者加入消费者群组的时候，会触发 Kafka 的再均衡。这使得 Kafk 阅读全文

posted @ 2020-08-03 21:41 Boblim 阅读(2640) 评论(0) 推荐(1)

Spark Streaming集成Kafka调优

摘要：调优 Spark Streaming集成Kafka时，当数据量较小时默认配置一般都能满足我们的需要，但是当数据量大的时候，就需要进行一定的调整和优化。合理的批处理时间（batchDuration）几乎所有的Spark Streaming调优文档都会提及批处理时间的调整，在StreamingCon 阅读全文

posted @ 2020-08-03 21:28 Boblim 阅读(2095) 评论(0) 推荐(0)

spark sql/hive小文件问题

摘要：针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 阅读全文

posted @ 2020-08-03 18:21 Boblim 阅读(3562) 评论(0) 推荐(0)

Boblim

公告