Spark - 随笔分类 - Boblim

spark streaming窗口操作内存占用要怎么估算

摘要：问题抛出：像窗口大小为1小时，滑动步长为1分钟的滑动窗口，我理解最大并行的窗口数是60（比如第一个是0点开始的，那么在59分的时候就有60个），那么每个窗口的大小是一样的么，他们所占内存的大小跟自己窗口有关，还是底层数据之间其实是共享的呢。举例，如果我们1小时内，因为每分钟去消息队列读，所以其实有6 阅读全文

posted @ 2025-09-06 15:53 Boblim 阅读(15) 评论(0) 推荐(0)

Spark streaming的窗口操作(window、reduceByWindow等)和foreachRDD结合

摘要：一、背景最近有一个需求是：要求有一个类对象为Order，它有string类型的字段orderNo和Long类型的字段cost，生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段，要求spark以手动提交的方式消费kafka，并将数据依次写入到hive表阅读全文

posted @ 2025-09-06 01:25 Boblim 阅读(31) 评论(0) 推荐(0)

spark streaming(非structured steaming)消费rocketMQ，并手动提交

摘要：一、背景最近有一个需求是：要求有一个类对象为Order，它有string类型的字段orderNo和Long类型的字段cost，生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段，要求spark以手动提交的方式消费rocketMQ，并将数据依次写入阅读全文

posted @ 2025-09-04 15:28 Boblim 阅读(27) 评论(0) 推荐(0)

Structured Streaming消费rocketMQ

摘要：一、背景最近有一个需求是：要求有一个类对象为Order，它有string类型的字段orderNo和Long类型的字段cost，生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段，要求spark以自动提交的方式消费rocketMQ，并将数据依次写入阅读全文

posted @ 2025-09-04 15:05 Boblim 阅读(16) 评论(0) 推荐(0)

spark streaming消费rocketmq的几种方式

摘要：在 Spark 里接入 RocketMQ，主要有两大类方式： 🔹 1. 基于老的 Spark Streaming (DStream API) RocketMQ 社区提供过 rocketmq-spark connector（在 apache/rocketmq-externals 里），可以像 Ka 阅读全文

posted @ 2025-09-04 14:27 Boblim 阅读(121) 评论(0) 推荐(0)

RDD、dataframe和dateset区别

摘要：这三个是 Spark 里的核心数据抽象，很多人会混淆。我们来逐层对比一下： 1. 概念对比特性RDD (Resilient Distributed Dataset)DataFrameDataset 提出时间 Spark 最早的数据抽象 (Spark 1.0 就有) Spark 1.3 引入 Spa 阅读全文

posted @ 2025-09-04 01:08 Boblim 阅读(29) 评论(0) 推荐(0)

spark streaming和Structured Streaming区别

摘要：🔑 Spark Streaming vs Structured Streaming 对比表对比维度Spark StreamingStructured Streaming 编程模型基于 RDD 和 DStream（离散流，本质是一系列小批次 RDD）基于 Dataset/DataFrame（统阅读全文

posted @ 2025-09-04 01:08 Boblim 阅读(44) 评论(0) 推荐(0)

Structured Streaming为什么在读取kafka上不能手动提交偏移量

摘要：在 Spark Structured Streaming 里，确实没有像 DStream API 那样的 commitAsync 让你手动提交 Kafka offset。原因主要有以下几个方面： 1. Structured Streaming 的核心设计理念 Structured Streamin 阅读全文

posted @ 2025-09-04 00:55 Boblim 阅读(14) 评论(0) 推荐(0)

java代码实现spark消费kafka，然后写入hive表

摘要：一、背景最近有一个需求是：要求有一个类对象为Order，它有string类型的字段orderNo和Long类型的字段cost，生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段，要求spark以手动提交的方式消费kafka，并将数据依次写入到hive表阅读全文

posted @ 2025-09-04 00:07 Boblim 阅读(42) 评论(0) 推荐(0)

Boblim

随笔分类 - Spark

公告