码以致用

[置顶] 【持续更新中】开源贡献记录

摘要： 2020.1.24 https://github.com/prestodb/presto/pull/14007 作用：使kudu connector支持kerberos认证，且在续期有效期过了后能自动获取新票据目前：merged 2020.2.4 https://github.com/presto 阅读全文

posted @ 2023-02-06 20:06 码以致用阅读(100) 评论(0) 推荐(0)

2025年8月21日

LSM详解

摘要：概念 LSM是通过将磁盘的随机写改为顺序写来提高写的性能，核心思想是把数据的添加或修改放到内存中，当内存中数据达到一定size后，然后dump（也就是变成了顺序写）到磁盘中。LSM中有MemTable、ImmutableMemTable、SSTable等几个概念 1、MemTable MemTabl 阅读全文

posted @ 2025-08-21 21:15 码以致用阅读(146) 评论(0) 推荐(0)

2025年7月8日

欢迎看一下我在datafun的分享《蔚来基于 Paimon 的实时湖仓实践》

摘要： https://mp.weixin.qq.com/s/usvpxwyUEGmNo2TO0OsulQ 现已收录到Apache Paimon官方公众号阅读全文

posted @ 2025-07-08 17:24 码以致用阅读(28) 评论(0) 推荐(0)

2025年7月1日

Impala笔记

摘要：体系结构 Impala 是一个分布式并行计算数据库引擎，MPP架构 Impala Daemon Impala 的核心组件是 Impala Daemon，在物理上表现为 impalad 进程（1）核心功能在 CDH 5.12/ Impala 2.9 之后的版本，支持将 coordinator 和阅读全文

posted @ 2025-07-01 20:24 码以致用阅读(206) 评论(0) 推荐(0)

Hive笔记

摘要：一、Hive是基于Hadoop的数据仓库。 1、计算把HQL查询通过HQL解析引擎转换为一系列在Hadoop集群上运行的MapReduce作业，易于分析。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析，编译生成执行计划，优化查询计划的生成。生成的查询计划存储在HDFS中，并在随后由阅读全文

posted @ 2025-07-01 20:19 码以致用阅读(94) 评论(0) 推荐(0)

Impala集群优化历程

摘要：一、问题背景在一个普通的下午，已经正常运行近两年的impala集群突然开始报警，很快有用户反馈说“卡住了，查不动了。。”，紧急排查后发现有如下不普通的症状： 1、用户层，后台正在运行的查询任务并不多，但前台提交任务却迟迟不显示有任何进度或进度到一半卡住； 2、物理层，报警节点cpu异常繁忙，很快飙升阅读全文

posted @ 2025-07-01 10:39 码以致用阅读(197) 评论(0) 推荐(0)

2024年6月21日

Calcite执行计划优化

摘要： CBO与RBO并非对立关系，而是基于RBO的拓展 CBO = RBO + Cost Model + Model Iteration，通过代价模型，在一定的时间空间范围内通过动态规划算法来获得最终的执行计划 claicte的优化原理是，它假定如果一个表达式最优，那它的局部也是最优的。成本最优假设利用了阅读全文

posted @ 2024-06-21 17:18 码以致用阅读(162) 评论(0) 推荐(0)

【持续更新】重要FLIP总结

摘要： FLIP-27: Refactor Source Interface 流批一体API 1、解耦SplitEnumerator与SplitReader SplitEnumerator：发现并分配splits（比如files/kafka_partitions） SourceReader：从splits里阅读全文

posted @ 2024-06-21 00:32 码以致用阅读(147) 评论(0) 推荐(0)

2024年6月18日

何为软件开发的难？

摘要：经常会有人在面试过程中被问到做的最难的一个项目是什么？但很多人因为平时工作忙或有开源在做，面试准备少，或者临场反应差而给人留下不好的印象，也有很多人因为工作闲的整天看业界分享的ppt，而直接套用到自己的项目中，加上现成的漂亮话术，很容易俘获部分面试官的心。即使抛开诚实这一基本素质不谈，这对面试双方来阅读全文

posted @ 2024-06-18 12:37 码以致用阅读(78) 评论(0) 推荐(0)

2024年6月16日

Paimon笔记

摘要：支持高吞吐数据摄入、变更追踪、高效分析的流批数据湖基于LSM提升写入速度并降低写入消耗；基于有序的SortRun裁剪大部分数据以提升查询性能；支持多种merge引擎实现高性能流表打宽特点是 Flink SQL 的内置存储 Flink DDL 会真实创建或删除物理表，不再只是一个外部物理表的映射阅读全文

posted @ 2024-06-16 00:02 码以致用阅读(1658) 评论(0) 推荐(0)

公告