会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Aitozi's的博客
博客园
首页
新随笔
联系
订阅
管理
2025年3月15日
Paimon merge into 实现原理
摘要: 语法 MERGE INTO target USING source ON source.a = target.a WHEN MATCHED THEN UPDATE SET a = source.a, b = source.b, c = source.c WHEN NOT MATCHED THEN I
阅读全文
posted @ 2025-03-15 23:30 Aitozi
阅读(342)
评论(0)
推荐(0)
2024年11月18日
Paimon Deletion Vector
摘要: deletion vector 是通过一组向量, 维护一个文件中被删除的行, 可以理解为一种索引. 这种方式可以以 Merge On Write 的方式, 来避免 Merge On Read 的过程, 从而以写入性能换取读取性能. 对于写少读多, 或者对读取性能有更高要求的场景会比较适合. 避免 M
阅读全文
posted @ 2024-11-18 08:23 Aitozi
阅读(511)
评论(0)
推荐(1)
2024年10月29日
Paimon lookup store 实现
摘要: Lookup Store 主要用于 Paimon 中的 Lookup Compaction 以及 Lookup join 的场景. 会将远程的列存文件在本地转化为 KV 查找的格式. Hash https://github.com/linkedin/PalDB Sort https://github
阅读全文
posted @ 2024-10-29 23:31 Aitozi
阅读(382)
评论(0)
推荐(1)
2024年5月12日
Flink Batch Hash Aggregate
摘要: 数据类型要求 BatchPhysicalHashAggRule match 条件会判断 isAggBufferFixedLength(agg) 为什么要求 aggCall 的类型是 Fixed Length 的才可以使用 HashAggregate ? 因为在 HashAggregate 中, 依赖
阅读全文
posted @ 2024-05-12 14:54 Aitozi
阅读(221)
评论(0)
推荐(0)
2023年12月17日
理解 Paimon changelog producer
摘要: 介绍 目的 Chaneglog producer 的主要目的是为了在 Paimon 表上产生流读的 changelog, 所以如果只是批读的表是可以不用设置 Chaneglog producer 的. 一般对于数据库如 MySQL 来说, 当执行的语句涉及数据的修改例如插入、更新、删除时,MySQL
阅读全文
posted @ 2023-12-17 14:01 Aitozi
阅读(2825)
评论(0)
推荐(2)
2023年8月12日
笔记工具
摘要: - 这两周从听 #纵横四海 播客 #刻意练习 和笔记的力量开始逐渐关注到双链笔记, 其实最早在听ByteTalk的时候就有听到一期嘉宾介绍到一款双链笔记 #logseq . 其实给我印象最深的是刻意练习中关于对学习的讲解, 其中提到刻意练习最重要的几部分: chunk 和 link. 而双链笔记 最
阅读全文
posted @ 2023-08-12 19:40 Aitozi
阅读(262)
评论(0)
推荐(0)
2023年8月5日
FlinkSQL类型系统
摘要: 类型有什么作用, 类型可以提供编译期检查, 避免到运行期才报错. # 类型 首先Flink中自己定义了一套类型, 有`LogicalType`和`DataType`两个表示 ## LogicalType `LogicalType`表示的逻辑类型, 并不涉及类型的物理表示, 会包含nullable属性
阅读全文
posted @ 2023-08-05 00:21 Aitozi
阅读(1179)
评论(0)
推荐(1)
2023年7月24日
二叉堆原理与实现
摘要: # 二叉堆 二叉堆具有两个性质, 结构性和排序性. ## 结构性质 堆是一棵除了底层以外都被完全填满的二叉树, 叫做完全二叉树, 而最底层从左到右都是满的, 右侧允许有空缺 
评论(0)
推荐(1)
2023年7月23日
SkipList原理与实现
摘要: # 机制 链表中查询的效率的复杂度是O(n), 有没有办法提升这个查询复杂度呢? 最简单的想法就是在原始的链表上构建多层索引. 
评论(0)
推荐(1)
2023年7月15日
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
摘要: 在Delta Lake官网上提到的一篇新一代湖仓架构的论文. 这篇论文由Databricks团队2021年发表于CIDR会议. 这个会议是对sigmod和vldb会议的补充. 可以看到这篇论文和前一篇Delta Lake: High-Performance ACID Table Storage ov
阅读全文
posted @ 2023-07-15 21:40 Aitozi
阅读(377)
评论(0)
推荐(0)
下一页
公告