会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
data-agent
博客园
首页
新随笔
联系
订阅
管理
2026年2月3日
pg数据库
摘要: 一、并行查询 https://www.doubao.com/chat/collection/37124712262515970?type=Thread 1、并行查询触发时机(开发者视角,3 个条件同时满足) 纯SELECT只读查询 + 涉及千万级及以上大表 + 无高效索引的复杂查询(全表 / 范围扫
阅读全文
posted @ 2026-02-03 08:43 秋水依然
阅读(4)
评论(0)
推荐(0)
2026年2月2日
spark写入doris
摘要: 1.获取kafka数据,直接写入doris的主键表 https://www.doubao.com/chat/collection/36860041743623426?type=Thread 2.获取kafka数据,统计用户点击数,写入doris的主键表 https://www.doubao.com/
阅读全文
posted @ 2026-02-02 10:51 秋水依然
阅读(3)
评论(0)
推荐(0)
2026年1月27日
表更新--主键表
摘要: 两种更新方法: 1.通过数据导入进行更新(upsert) 1.1 所有的导入方式(Stream Load, Broker Load, Routine Load, INSERT INTO)都天然支持 UPSERT 语义。当新数据导入时,如果其主键已存在,Doris 会用新行数据覆盖旧行数据;如果主键不
阅读全文
posted @ 2026-01-27 17:22 秋水依然
阅读(5)
评论(0)
推荐(0)
2026年1月16日
K8S理解
摘要: 一、K8s的架构理解 地址:https://www.doubao.com/chat/collection/35886578442287106?type=Thread 二、k8s的流程拆解 地址:https://www.doubao.com/chat/collection/35944020059716
阅读全文
posted @ 2026-01-16 09:34 秋水依然
阅读(4)
评论(0)
推荐(0)
2026年1月13日
欧氏距离、余弦相似度、内积
摘要: 一、架构解析 https://www.doubao.com/chat/collection/35701657376356098?type=Thread 协调器:可启用主从模式,以提供高可用性。 代理:每个集群一个或多个 流节点:每个集群一个或多个 查询节点:每个群集一个或多个 数据节点:每个群集一个
阅读全文
posted @ 2026-01-13 15:44 秋水依然
阅读(8)
评论(0)
推荐(0)
2026年1月9日
RocksDB
摘要: 地址: https://www.doubao.com/chat/collection/35409788456678402?type=Thread 主要用在shuffle和状态保存两种场景
阅读全文
posted @ 2026-01-09 17:34 秋水依然
阅读(3)
评论(0)
推荐(0)
shuffle、AQE
摘要: 一、背景和过程 Shuffle是把分散在不同节点的「相同 Key 数据」聚到一起,核心规则是「相同 Key 去同一个地方」,这个过程中就会涉及到几个问题, 本地分类(Map 端) 每个教室先把手里的试卷,按「班级」分成几摞(比如一班一摞、二班一摞),写在小纸条上标记(避免搞混) 先在本地整理,减少后
阅读全文
posted @ 2026-01-09 11:59 秋水依然
阅读(13)
评论(0)
推荐(0)
2026年1月6日
OOM事件
摘要: 一、概念 内存溢出,本质就是「某一端(Executor/Driver)要处理的数据量 / 内存占用,超过了它被分配的内存上限,Spark 4.x 中 95% 的 OOM 发生在「Executor 端」,5% 发生在「Driver 端」; 二、现像介绍 2.1 Executor端: 发生问题基本是在s
阅读全文
posted @ 2026-01-06 22:24 秋水依然
阅读(22)
评论(0)
推荐(0)
2026年1月5日
多表关联
摘要: Spark SQL 的所有关联操作,都是基于「临时视图 / 永久视图」执行,你从 Kafka/Doris 读取的 DataFrame,只需执行一行代码注册为临时视图 所有 SQL 执行后返回 DataFrame:df_result = spark.sql("""完整SQL语句"""), 坑4:关联键
阅读全文
posted @ 2026-01-05 14:47 秋水依然
阅读(9)
评论(0)
推荐(0)
2026年1月2日
窗口
摘要: 一、滚动窗口 (Tumbling Window) 窗口的时长 = 滑动步长,窗口之间无任何重叠、无间隙,数据只会落入「唯一一个窗口」中 ✔ 核心特征 窗口边界固定:如 00:00-00:10、00:10-00:20、00:20-00:30,严格切分,无重叠; 数据唯一归属:一条数据只能落入一个窗口,
阅读全文
posted @ 2026-01-02 22:48 秋水依然
阅读(20)
评论(0)
推荐(0)
下一页
公告