随笔分类 - Spark

使用SparkStreaming实现将数据写到MySQL中

摘要：（1）在pom.xml中加入如下依赖包 1 <dependency> 2 <groupId>mysql</groupId> 3 <artifactId>mysql-connector-java</artifactId> 4 <version>5.1.38</version> 5 </dependen 阅读全文

posted @ 2021-02-02 19:08 金色的鱼儿阅读(427) 评论(0) 推荐(0)

SparkStreaming Kafka 维护offset

摘要：文章目录 Kafka itself own data store for MySql own data store for Redis 生产SparkStreaming数据零丢失实验 SparkStreaming Kafka 维护offset 官网有三种实现方式 Checkpoints Kafka 阅读全文

posted @ 2021-01-20 18:54 金色的鱼儿阅读(658) 评论(0) 推荐(0)

【容错篇】Spark Streaming的还原药水——Checkpoint

摘要：一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失阅读全文

posted @ 2021-01-20 18:42 金色的鱼儿阅读(377) 评论(0) 推荐(0)

干货 | Spark Streaming 和 Flink 详细对比

摘要：干货 | Spark Streaming 和 Flink 详细对比 https://mp.weixin.qq.com/s/Fb1cW0oN7xYeb1oI2ixtgQ 阅读全文

posted @ 2021-01-20 18:18 金色的鱼儿阅读(524) 评论(0) 推荐(0)

大数据场景下数据异构之 Mysql实时写入HBase（借助canal kafka SparkStreaming）

摘要：背景：公司线下ETC机房有个Mycat集群，供订单系统使用，现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型：binlog解析工具：阿里开源的canal 消息中间件：kafka 流式框架：SparkStreaming上代码canal解析mysqlbinlog 阅读全文

posted @ 2021-01-16 14:02 金色的鱼儿阅读(458) 评论(0) 推荐(0)

spark提交任务的三种的方法

摘要：在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有三种：第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：./spark-submit --class com.learn.s 阅读全文

posted @ 2021-01-14 19:30 金色的鱼儿阅读(1313) 评论(0) 推荐(0)

spark-streaming-连接kafka的两种方式

摘要：推荐系统的在线部分往往使用spark-streaming实现，这是一个很重要的环节。在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到，说明这是重点，下面为大家介绍一下这两种方法：第一种方式：Receiver模式又阅读全文

posted @ 2021-01-14 13:43 金色的鱼儿阅读(633) 评论(0) 推荐(0)

spark.streaming.kafka.maxRatePerPartition的理解

摘要：spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。假设此项设为1，批次间隔为10s，目标topic只有一个partition，则一次拉取的数据量为1*10*1=10。若有不对的地方，请指正。转载于：阅读全文

posted @ 2021-01-14 13:37 金色的鱼儿阅读(1796) 评论(1) 推荐(0)

spark streaming之 windowDuration、slideDuration、batchDuration

摘要：spark streaming 不同于sotm，是一种准实时处理系统。storm 中，把批处理看错是时间教程的实时处理。而在spark streaming中，则反过来，把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数，分别如下：窗口时间w 阅读全文

posted @ 2021-01-14 13:29 金色的鱼儿阅读(440) 评论(0) 推荐(0)

Spark Streaming 性能调优

摘要：目录 1、合理的批次处理时间 2、合理的kafka拉取数据 3、缓存反复使用的Dstream(RDD) 4、其他一些优化策略 5、结果 1、合理的批次处理时间关于Spark Streaming的批处理时间设置是非常重要的，Spark Streaming在不断接收数据的同时，需要处理数据的时间，所以阅读全文

posted @ 2021-01-14 13:27 金色的鱼儿阅读(567) 评论(0) 推荐(0)

Spark Streaming的Batch Duration优化

摘要：Spark Streaming 是微批处理。 SparkConf sparkConf = new SparkConf().setAppName("SparkStreaming").setMaster("local[*]"); JavaStreamingContext javaStreamingCon 阅读全文

posted @ 2021-01-14 13:26 金色的鱼儿阅读(428) 评论(0) 推荐(0)

随笔分类 - Spark

公告