秋水依然 - 博客园

2026年1月1日

摘要：一、异步读取器 1.1 背景在4.x以前只能先读取完数据再计算，在拉取数据源的时候，CPU会持续等待造成资源浪费， 1.2 目标不让 CPU 等数据、不让内存爆掉，在4.x版本采用多条并行的线程，边拉取边计算不会造成资源浪费， 1.3 解决方案核心必配配置，可以在spark-defaults. 阅读全文

posted @ 2026-01-01 09:59 秋水依然阅读(34) 评论(0) 推荐(0)

spark运行原理、shuffle调优、动态触发和窗口

摘要： spark运行原理 https://www.doubao.com/chat/collection/33330258018047234?type=Thread shuffle调优 https://www.doubao.com/chat/collection/33345337743102466?type 阅读全文

posted @ 2026-01-01 09:58 秋水依然阅读(43) 评论(0) 推荐(0)

2025年12月24日

状态、水印、checkpoint

摘要：一、状态 Spark 的状态 = 计算过程中需要持久化的中间结果 / 历史数据状态分为三类： ① 轻量级状态：分区级聚合，状态与分区强绑定，仅存储在当前分区内,Spark 全自动托管, 无需设置 Checkpoint、TTL，无需手动管理存储，默认内存优先存储，当单个分区的状态数据过大时，Spa 阅读全文

posted @ 2025-12-24 20:18 秋水依然阅读(28) 评论(0) 推荐(0)

2025年12月8日

数据倾斜

摘要：数据倾斜是在做计算的时候数据分配不均匀导致，数据分配不均有可能发生在: 1.join列问题根源： SELECT COUNT(*) FROM orders o JOIN customer c ON o.customer_number = c.customer_number; 比如某个customer 阅读全文

posted @ 2025-12-08 15:59 秋水依然阅读(19) 评论(0) 推荐(0)

查询优化

摘要：一、建表 1.1 Doris 支持 Duplicate、Unique、Aggregate 三种表模型，这几种表模型的查询性能，由好到差依次为：Duplicate > MOW > MOR == Aggregate。 1.2 分桶列：选择高基数的列，避免数据倾斜(如果一列不够，可以选择多列，这样可以把数阅读全文

posted @ 2025-12-08 14:14 秋水依然阅读(25) 评论(0) 推荐(0)

公告