会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Aitozi's的博客
博客园
首页
新随笔
联系
订阅
管理
2026年5月31日
An Empirical Evaluation of Columnar Storage Formats
摘要: An Empirical Evaluation of Columnar Storage Formats 《An Empirical Evaluation of Columnar Storage Formats》评估的是 Parquet 和 ORC 这两类主流开源列式文件格式。论文没有把结论写成“谁更
阅读全文
posted @ 2026-05-31 19:30 Aitozi
阅读(9)
评论(0)
推荐(0)
2026年5月24日
Lance 写入链路:Merge Into、Compaction 与 Stable Row ID
摘要: Lance 的写入链路同时涉及文件布局、版本提交、删除标记、索引维护和 compaction。和传统数据库不同,Lance 不直接在原文件上修改数据,而是通过新增文件和更新元数据来产生新的表版本。 本文讨论几个实现问题: delete、update、merge insert 如何落到文件和元数据上。
阅读全文
posted @ 2026-05-24 23:02 Aitozi
阅读(38)
评论(0)
推荐(0)
2026年5月17日
从本地目录理解 Lance Dataset:Manifest、Fragment 与 Blob
摘要: 如果只从 LanceDB 的 API 看,表就是一张 table:可以建表、追加数据、建索引、做 vector search 或 full-text search。但落到磁盘后,它不是一个单独的数据文件,而是 一个 Lance dataset。 本文试图回答一个问题: LanceDB 创建一张本地表
阅读全文
posted @ 2026-05-17 22:52 Aitozi
阅读(95)
评论(0)
推荐(0)
论文解读:Lance 如何通过自适应结构编码提升列式存储随机访问
摘要: Lance 是一个面向 AI/ML 数据的列式数据格式。它经常强调高性能随机访问、索引能力和多模态数据支持。乍看起来,这和我们对“列式格式”的传统印象有些冲突:列式格式通常擅长全量扫描、聚合分析,而随机访问往往被认为是行式存储或数据库索引的强项。 Lance 论文 Lance: Efficient
阅读全文
posted @ 2026-05-17 20:15 Aitozi
阅读(53)
评论(0)
推荐(0)
2026年1月25日
中国最大广告机器简史 学习Facebook,超越Meta|字节跳动 第3集
摘要: 原视频链接: https://www.youtube.com/watch?v=ksY2eKQiSSM 字节跳动:中国最大广告机器的演进与逻辑 一、 商业化的底层逻辑:广告依然是互联网的“皇冠” 在众多变现路径中,广告依然被验证为互联网行业最高效、最优质的商业模式。字节跳动的崛起,本质上是将其作为一种
阅读全文
posted @ 2026-01-25 11:30 Aitozi
阅读(107)
评论(0)
推荐(0)
2025年3月15日
Paimon merge into 实现原理
摘要: 语法 MERGE INTO target USING source ON source.a = target.a WHEN MATCHED THEN UPDATE SET a = source.a, b = source.b, c = source.c WHEN NOT MATCHED THEN I
阅读全文
posted @ 2025-03-15 23:30 Aitozi
阅读(468)
评论(0)
推荐(0)
2024年11月18日
Paimon Deletion Vector
摘要: deletion vector 是通过一组向量, 维护一个文件中被删除的行, 可以理解为一种索引. 这种方式可以以 Merge On Write 的方式, 来避免 Merge On Read 的过程, 从而以写入性能换取读取性能. 对于写少读多, 或者对读取性能有更高要求的场景会比较适合. 避免 M
阅读全文
posted @ 2024-11-18 08:23 Aitozi
阅读(689)
评论(0)
推荐(1)
2024年10月29日
Paimon lookup store 实现
摘要: Lookup Store 主要用于 Paimon 中的 Lookup Compaction 以及 Lookup join 的场景. 会将远程的列存文件在本地转化为 KV 查找的格式. Hash https://github.com/linkedin/PalDB Sort https://github
阅读全文
posted @ 2024-10-29 23:31 Aitozi
阅读(436)
评论(0)
推荐(1)
2024年5月12日
Flink Batch Hash Aggregate
摘要: 数据类型要求 BatchPhysicalHashAggRule match 条件会判断 isAggBufferFixedLength(agg) 为什么要求 aggCall 的类型是 Fixed Length 的才可以使用 HashAggregate ? 因为在 HashAggregate 中, 依赖
阅读全文
posted @ 2024-05-12 14:54 Aitozi
阅读(275)
评论(0)
推荐(0)
2023年12月17日
理解 Paimon changelog producer
摘要: 介绍 目的 Chaneglog producer 的主要目的是为了在 Paimon 表上产生流读的 changelog, 所以如果只是批读的表是可以不用设置 Chaneglog producer 的. 一般对于数据库如 MySQL 来说, 当执行的语句涉及数据的修改例如插入、更新、删除时,MySQL
阅读全文
posted @ 2023-12-17 14:01 Aitozi
阅读(3075)
评论(0)
推荐(3)
下一页
公告