2022 年 4月 5 日随笔档案 - 习惯了蓝

2022年4月5日

spark streaming整合kafka中聚合类运算如何和kafka保持exactly once一致性语义（redis方式，利用pipeline）

摘要： /** * 从Kafka读取数据，实现ExactlyOnce，偏移量保存到Redis中 * 1.将聚合好的数据，收集到Driver端， * 2.然后将计算好的数据和偏移量在一个pipeline中同时保存到Redis中 * 3.成功了提交事物 * 4.失败了废弃原来的数据并让这个任务重启 */ obj 阅读全文

posted @ 2022-04-05 21:20 习惯了蓝阅读(125) 评论(0) 推荐(0)

spark streaming整合kafka中聚合类运算如何和kafka保持exactly once一致性语义（mysql方式，利用事务）

摘要： /** * 从Kafka读取数据，实现ExactlyOnce，偏移量保存到MySQL中 * 1.将聚合好的数据，收集到Driver端， * 2.然后建计算好的数据和偏移量在一个事物中同时保存到MySQL中 * 3.成功了提交事物 * 4.失败了让这个任务重启 * * MySQL数据库中有两张表：保存阅读全文

posted @ 2022-04-05 21:19 习惯了蓝阅读(85) 评论(0) 推荐(0)

SparkStream整合Kafka直连方式的自动提交和手动提交偏移量

摘要： SparkStream新版本中支持与Kafka直连的方式。下图是默认自动提交偏移量的情况。executor中的task会直连kafka对应的分区，消费完数据会把偏移量写回到kafka中特殊的__consumer_offset中这种方式控制偏移量不够精准，无法保证数据的一致性，也就是exactly 阅读全文

posted @ 2022-04-05 21:15 习惯了蓝阅读(465) 评论(0) 推荐(0)

习惯了蓝

公告