随笔分类 - Spark
摘要:问题抛出:像窗口大小为1小时,滑动步长为1分钟的滑动窗口,我理解最大并行的窗口数是60(比如第一个是0点开始的,那么在59分的时候就有60个),那么每个窗口的大小是一样的么,他们所占内存的大小跟自己窗口有关,还是底层数据之间其实是共享的呢。举例,如果我们1小时内,因为每分钟去消息队列读,所以其实有6
阅读全文
摘要:一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费kafka,并将数据依次写入到hive表
阅读全文
摘要:一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费rocketMQ,并将数据依次写入
阅读全文
摘要:一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以自动提交的方式消费rocketMQ,并将数据依次写入
阅读全文
摘要:在 Spark 里接入 RocketMQ,主要有两大类方式: 🔹 1. 基于 老的 Spark Streaming (DStream API) RocketMQ 社区提供过 rocketmq-spark connector(在 apache/rocketmq-externals 里),可以像 Ka
阅读全文
摘要:这三个是 Spark 里的核心数据抽象,很多人会混淆。我们来逐层对比一下: 1. 概念对比 特性RDD (Resilient Distributed Dataset)DataFrameDataset 提出时间 Spark 最早的数据抽象 (Spark 1.0 就有) Spark 1.3 引入 Spa
阅读全文
摘要:🔑 Spark Streaming vs Structured Streaming 对比表 对比维度Spark StreamingStructured Streaming 编程模型 基于 RDD 和 DStream(离散流,本质是一系列小批次 RDD) 基于 Dataset/DataFrame(统
阅读全文
摘要:在 Spark Structured Streaming 里,确实没有像 DStream API 那样的 commitAsync 让你手动提交 Kafka offset。原因主要有以下几个方面: 1. Structured Streaming 的 核心设计理念 Structured Streamin
阅读全文
摘要:一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费kafka,并将数据依次写入到hive表
阅读全文

浙公网安备 33010602011771号