摘要: 一、异步读取器 1.1 背景 在4.x以前只能先读取完数据再计算,在拉取数据源的时候,CPU会持续等待造成资源浪费, 1.2 目标 不让 CPU 等数据、不让内存爆掉,在4.x版本采用多条并行的线程,边拉取边计算不会造成资源浪费, 1.3 解决方案 核心必配配置,可以在spark-defaults. 阅读全文
posted @ 2026-01-01 09:59 秋水依然 阅读(11) 评论(0) 推荐(0)
摘要: spark运行原理 https://www.doubao.com/chat/collection/33330258018047234?type=Thread shuffle调优 https://www.doubao.com/chat/collection/33345337743102466?type 阅读全文
posted @ 2026-01-01 09:58 秋水依然 阅读(5) 评论(0) 推荐(0)
摘要: 一、状态 Spark 的状态 = 计算过程中需要持久化的中间结果 / 历史数据 状态分为三类: ① 轻量级状态: 分区级聚合,状态与分区强绑定,仅存储在当前分区内,Spark 全自动托管, 无需设置 Checkpoint、TTL,无需手动管理存储,默认内存优先存储,当单个分区的状态数据过大时,Spa 阅读全文
posted @ 2025-12-24 20:18 秋水依然 阅读(8) 评论(0) 推荐(0)
摘要: 数据倾斜是在做计算的时候数据分配不均匀导致,数据分配不均有可能发生在: 1.join列 问题根源: SELECT COUNT(*) FROM orders o JOIN customer c ON o.customer_number = c.customer_number; 比如某个customer 阅读全文
posted @ 2025-12-08 15:59 秋水依然 阅读(10) 评论(0) 推荐(0)
摘要: 一、建表 1.1 Doris 支持 Duplicate、Unique、Aggregate 三种表模型,这几种表模型的查询性能,由好到差依次为:Duplicate > MOW > MOR == Aggregate。 1.2 分桶列:选择高基数的列,避免数据倾斜(如果一列不够,可以选择多列,这样可以把数 阅读全文
posted @ 2025-12-08 14:14 秋水依然 阅读(12) 评论(0) 推荐(0)