关注清哥聊技术公众号,了解更多技术文章,作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。

11 2021 档案

摘要:一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,对比传统的 Spark Streaming 阅读全文
posted @ 2021-11-22 14:33 张永清 阅读(1334) 评论(0) 推荐(0)
摘要:一、java获取kafka consumer lag、endOffsets、beginningOffsets -> 关注清哥聊技术公众号,了解更多技术文章 maven依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>ka 阅读全文
posted @ 2021-11-17 16:30 张永清 阅读(2446) 评论(0) 推荐(0)
摘要:一、spark structured-streaming 介绍 -> 关注清哥聊技术公众号,了解更多技术文章 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,不再有新的大版本出现,而且 spark streaming 一直是按照微批来处理streaming 数据的, 阅读全文
posted @ 2021-11-06 15:45 张永清 阅读(2874) 评论(0) 推荐(0)
摘要:一、当后缀名为zip、gzip,spark可以自动处理和读取 -> 关注清哥聊技术公众号,了解更多技术文章 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或者获取读取后的schema spark.read.text("xxxxxxxx/x 阅读全文
posted @ 2021-11-06 12:47 张永清 阅读(5411) 评论(0) 推荐(0)

关注清哥聊技术公众号,了解更多技术文章,作者的原创文章,转载须注明出处。原创文章归作者所有,欢迎转载,但是保留版权。对于转载了博主的原创文章,不标注出处的,作者将依法追究版权,请尊重作者的成果。