11 2021 档案
摘要:一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,对比传统的 Spark Streaming
阅读全文
摘要:一、java获取kafka consumer lag、endOffsets、beginningOffsets -> 关注清哥聊技术公众号,了解更多技术文章 maven依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>ka
阅读全文
摘要:一、spark structured-streaming 介绍 -> 关注清哥聊技术公众号,了解更多技术文章 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,不再有新的大版本出现,而且 spark streaming 一直是按照微批来处理streaming 数据的,
阅读全文
摘要:一、当后缀名为zip、gzip,spark可以自动处理和读取 -> 关注清哥聊技术公众号,了解更多技术文章 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或者获取读取后的schema spark.read.text("xxxxxxxx/x
阅读全文
浙公网安备 33010602011771号