会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Boblim
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
60
下一页
2025年9月6日
Spark streaming的窗口操作(window、reduceByWindow等)和foreachRDD结合
摘要: 一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费kafka,并将数据依次写入到hive表
阅读全文
posted @ 2025-09-06 01:25 Boblim
阅读(8)
评论(0)
推荐(0)
2025年9月4日
生产中,为什么很少用Java原生序列化转化成字节数组,而都建议用JSON/Avro/Protobuf
摘要: Java 原生序列化的问题 性能差 Java 自带的序列化是基于反射的,序列化时需要写入大量类元数据(类名、字段描述、版本号等),字节流臃肿。 反序列化时依赖反射和对象创建,速度比 Protobuf/Avro 慢一个数量级。 不跨语言 Java 序列化生成的字节流格式只有 JVM 认识,Python
阅读全文
posted @ 2025-09-04 15:35 Boblim
阅读(21)
评论(0)
推荐(0)
spark streaming(非structured steaming)消费rocketMQ,并手动提交
摘要: 一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费rocketMQ,并将数据依次写入
阅读全文
posted @ 2025-09-04 15:28 Boblim
阅读(16)
评论(0)
推荐(0)
Structured Streaming消费rocketMQ
摘要: 一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到rocketMQ的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以自动提交的方式消费rocketMQ,并将数据依次写入
阅读全文
posted @ 2025-09-04 15:05 Boblim
阅读(11)
评论(0)
推荐(0)
spark streaming消费rocketmq的几种方式
摘要: 在 Spark 里接入 RocketMQ,主要有两大类方式: 🔹 1. 基于 老的 Spark Streaming (DStream API) RocketMQ 社区提供过 rocketmq-spark connector(在 apache/rocketmq-externals 里),可以像 Ka
阅读全文
posted @ 2025-09-04 14:27 Boblim
阅读(99)
评论(0)
推荐(0)
spark streaming和Structured Streaming区别
摘要: 🔑 Spark Streaming vs Structured Streaming 对比表 对比维度Spark StreamingStructured Streaming 编程模型 基于 RDD 和 DStream(离散流,本质是一系列小批次 RDD) 基于 Dataset/DataFrame(统
阅读全文
posted @ 2025-09-04 01:08 Boblim
阅读(15)
评论(0)
推荐(0)
RDD、dataframe和dateset区别
摘要: 这三个是 Spark 里的核心数据抽象,很多人会混淆。我们来逐层对比一下: 1. 概念对比 特性RDD (Resilient Distributed Dataset)DataFrameDataset 提出时间 Spark 最早的数据抽象 (Spark 1.0 就有) Spark 1.3 引入 Spa
阅读全文
posted @ 2025-09-04 01:08 Boblim
阅读(14)
评论(0)
推荐(0)
Structured Streaming为什么在读取kafka上不能手动提交偏移量
摘要: 在 Spark Structured Streaming 里,确实没有像 DStream API 那样的 commitAsync 让你手动提交 Kafka offset。原因主要有以下几个方面: 1. Structured Streaming 的 核心设计理念 Structured Streamin
阅读全文
posted @ 2025-09-04 00:55 Boblim
阅读(6)
评论(0)
推荐(0)
java代码实现spark消费kafka,然后写入hive表
摘要: 一、背景 最近有一个需求是:要求有一个类对象为Order,它有string类型的字段orderNo和Long类型的字段cost,生产者写到kafka的value是Order对象序列化后的字节数组、key值是orderNo字段,要求spark以手动提交的方式消费kafka,并将数据依次写入到hive表
阅读全文
posted @ 2025-09-04 00:07 Boblim
阅读(25)
评论(0)
推荐(0)
2024年3月2日
Java Pattern和Matcher处理正则表达式的用法
摘要: 转自:https://zhuanlan.zhihu.com/p/626497347 结论:Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matches(String regex,Ch
阅读全文
posted @ 2024-03-02 18:06 Boblim
阅读(1068)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
60
下一页
公告