• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
金色的鱼儿
博客园 首页 新随笔 联系 订阅 订阅 管理

随笔分类 -  Spark

 
使用SparkStreaming实现将数据写到MySQL中
摘要:(1)在pom.xml中加入如下依赖包 1 <dependency> 2 <groupId>mysql</groupId> 3 <artifactId>mysql-connector-java</artifactId> 4 <version>5.1.38</version> 5 </dependen 阅读全文
posted @ 2021-02-02 19:08 金色的鱼儿 阅读(427) 评论(0) 推荐(0)
SparkStreaming Kafka 维护offset
摘要:文章目录 Kafka itself own data store for MySql own data store for Redis 生产SparkStreaming数据零丢失实验 SparkStreaming Kafka 维护offset 官网有三种实现方式 Checkpoints Kafka 阅读全文
posted @ 2021-01-20 18:54 金色的鱼儿 阅读(658) 评论(0) 推荐(0)
【容错篇】Spark Streaming的还原药水——Checkpoint
摘要:一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失 阅读全文
posted @ 2021-01-20 18:42 金色的鱼儿 阅读(377) 评论(0) 推荐(0)
干货 | Spark Streaming 和 Flink 详细对比
摘要:干货 | Spark Streaming 和 Flink 详细对比 https://mp.weixin.qq.com/s/Fb1cW0oN7xYeb1oI2ixtgQ 阅读全文
posted @ 2021-01-20 18:18 金色的鱼儿 阅读(524) 评论(0) 推荐(0)
大数据场景下数据异构之 Mysql实时写入HBase(借助canal kafka SparkStreaming)
摘要:背景:公司线下ETC机房有个Mycat集群,供订单系统使用,现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型:binlog解析工具:阿里开源的canal 消息中间件:kafka 流式框架:SparkStreaming上代码canal解析mysqlbinlog 阅读全文
posted @ 2021-01-16 14:02 金色的鱼儿 阅读(458) 评论(0) 推荐(0)
spark提交任务的三种的方法
摘要:在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种: 第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.s 阅读全文
posted @ 2021-01-14 19:30 金色的鱼儿 阅读(1313) 评论(0) 推荐(0)
spark-streaming-连接kafka的两种方式
摘要:推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。 在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法: 第一种方式:Receiver模式 又 阅读全文
posted @ 2021-01-14 13:43 金色的鱼儿 阅读(633) 评论(0) 推荐(0)
spark.streaming.kafka.maxRatePerPartition的理解
摘要:spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。 假设此项设为1,批次间隔为10s,目标topic只有一个partition,则一次拉取的数据量为1*10*1=10。 若有不对的地方,请指正。 转载于: 阅读全文
posted @ 2021-01-14 13:37 金色的鱼儿 阅读(1796) 评论(1) 推荐(0)
spark streaming之 windowDuration、slideDuration、batchDuration​
摘要:spark streaming 不同于sotm,是一种准实时处理系统。storm 中,把批处理看错是时间教程的实时处理。而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数,分别如下: 窗口时间w 阅读全文
posted @ 2021-01-14 13:29 金色的鱼儿 阅读(440) 评论(0) 推荐(0)
Spark Streaming 性能调优
摘要:目录 1、合理的批次处理时间 2、合理的kafka拉取数据 3、缓存反复使用的Dstream(RDD) 4、其他一些优化策略 5、结果 1、合理的批次处理时间 关于Spark Streaming的批处理时间设置是非常重要的,Spark Streaming在不断接收数据的同时,需要处理数据的时间,所以 阅读全文
posted @ 2021-01-14 13:27 金色的鱼儿 阅读(567) 评论(0) 推荐(0)
Spark Streaming的Batch Duration优化
摘要:Spark Streaming 是微批处理。 SparkConf sparkConf = new SparkConf().setAppName("SparkStreaming").setMaster("local[*]"); JavaStreamingContext javaStreamingCon 阅读全文
posted @ 2021-01-14 13:26 金色的鱼儿 阅读(428) 评论(0) 推荐(0)
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3