秋水依然 - 博客园

2026年2月3日

摘要：一、并行查询 https://www.doubao.com/chat/collection/37124712262515970?type=Thread 1、并行查询触发时机（开发者视角，3 个条件同时满足）纯SELECT只读查询 + 涉及千万级及以上大表 + 无高效索引的复杂查询（全表 / 范围扫阅读全文

posted @ 2026-02-03 08:43 秋水依然阅读(15) 评论(0) 推荐(0)

2026年2月2日

spark写入doris

摘要： 1.获取kafka数据，直接写入doris的主键表 https://www.doubao.com/chat/collection/36860041743623426?type=Thread 2.获取kafka数据，统计用户点击数，写入doris的主键表 https://www.doubao.com/ 阅读全文

posted @ 2026-02-02 10:51 秋水依然阅读(7) 评论(0) 推荐(0)

2026年1月27日

表更新--主键表

摘要：两种更新方法： 1.通过数据导入进行更新(upsert) 1.1 所有的导入方式（Stream Load, Broker Load, Routine Load, INSERT INTO）都天然支持 UPSERT 语义。当新数据导入时，如果其主键已存在，Doris 会用新行数据覆盖旧行数据；如果主键不阅读全文

posted @ 2026-01-27 17:22 秋水依然阅读(51) 评论(0) 推荐(0)

2026年1月16日

K8S理解

摘要：一、K8s的架构理解地址：https://www.doubao.com/chat/collection/35886578442287106?type=Thread 二、k8s的流程拆解地址：https://www.doubao.com/chat/collection/35944020059716 阅读全文

posted @ 2026-01-16 09:34 秋水依然阅读(8) 评论(0) 推荐(0)

2026年1月13日

欧氏距离、余弦相似度、内积

摘要：一、架构解析 https://www.doubao.com/chat/collection/35701657376356098?type=Thread 协调器：可启用主从模式，以提供高可用性。代理：每个集群一个或多个流节点：每个集群一个或多个查询节点：每个群集一个或多个数据节点：每个群集一个阅读全文

posted @ 2026-01-13 15:44 秋水依然阅读(33) 评论(0) 推荐(0)

2026年1月9日

RocksDB

摘要：地址： https://www.doubao.com/chat/collection/35409788456678402?type=Thread 主要用在shuffle和状态保存两种场景阅读全文

posted @ 2026-01-09 17:34 秋水依然阅读(5) 评论(0) 推荐(0)

shuffle、AQE

摘要：一、背景和过程 Shuffle是把分散在不同节点的「相同 Key 数据」聚到一起，核心规则是「相同 Key 去同一个地方」，这个过程中就会涉及到几个问题，本地分类（Map 端）每个教室先把手里的试卷，按「班级」分成几摞（比如一班一摞、二班一摞），写在小纸条上标记（避免搞混）先在本地整理，减少后阅读全文

posted @ 2026-01-09 11:59 秋水依然阅读(48) 评论(0) 推荐(0)

2026年1月6日

OOM事件

摘要：一、概念内存溢出，本质就是「某一端（Executor/Driver）要处理的数据量 / 内存占用，超过了它被分配的内存上限，Spark 4.x 中 95% 的 OOM 发生在「Executor 端」，5% 发生在「Driver 端」；二、现像介绍 2.1 Executor端：发生问题基本是在s 阅读全文

posted @ 2026-01-06 22:24 秋水依然阅读(52) 评论(0) 推荐(0)

2026年1月5日

多表关联

摘要： Spark SQL 的所有关联操作，都是基于「临时视图 / 永久视图」执行，你从 Kafka/Doris 读取的 DataFrame，只需执行一行代码注册为临时视图所有 SQL 执行后返回 DataFrame：df_result = spark.sql("""完整SQL语句""")，坑4：关联键阅读全文

posted @ 2026-01-05 14:47 秋水依然阅读(19) 评论(0) 推荐(0)

2026年1月2日

窗口

摘要：一、滚动窗口 (Tumbling Window) 窗口的时长 = 滑动步长，窗口之间无任何重叠、无间隙，数据只会落入「唯一一个窗口」中 ✔ 核心特征窗口边界固定：如 00:00-00:10、00:10-00:20、00:20-00:30，严格切分，无重叠；数据唯一归属：一条数据只能落入一个窗口，阅读全文

posted @ 2026-01-02 22:48 秋水依然阅读(43) 评论(0) 推荐(0)

公告