会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
码以致用
博客园
首页
新随笔
联系
订阅
管理
[置顶]
【持续更新中】开源贡献记录
摘要: 2020.1.24 https://github.com/prestodb/presto/pull/14007 作用:使kudu connector支持kerberos认证,且在续期有效期过了后能自动获取新票据 目前:merged 2020.2.4 https://github.com/presto
阅读全文
posted @ 2023-02-06 20:06 码以致用
阅读(78)
评论(0)
推荐(0)
2025年8月21日
LSM详解
摘要: 概念 LSM是通过将磁盘的随机写改为顺序写来提高写的性能,核心思想是把数据的添加或修改放到内存中,当内存中数据达到一定size后,然后dump(也就是变成了顺序写)到磁盘中。LSM中有MemTable、ImmutableMemTable、SSTable等几个概念 1、MemTable MemTabl
阅读全文
posted @ 2025-08-21 21:15 码以致用
阅读(73)
评论(0)
推荐(0)
2025年7月8日
欢迎看一下我在datafun的分享《蔚来基于 Paimon 的实时湖仓实践》
摘要: https://mp.weixin.qq.com/s/usvpxwyUEGmNo2TO0OsulQ 现已收录到Apache Paimon官方公众号
阅读全文
posted @ 2025-07-08 17:24 码以致用
阅读(17)
评论(0)
推荐(0)
2025年7月1日
Impala笔记
摘要: 体系结构 Impala 是一个分布式并行计算数据库引擎,MPP架构 Impala Daemon Impala 的核心组件是 Impala Daemon,在物理上表现为 impalad 进程 (1)核心功能 在 CDH 5.12/ Impala 2.9 之后的版本,支持将 coordinator 和
阅读全文
posted @ 2025-07-01 20:24 码以致用
阅读(62)
评论(0)
推荐(0)
Hive笔记
摘要: 一、Hive是基于Hadoop的数据仓库。 1、计算 把HQL查询通过HQL解析引擎转换为一系列在Hadoop集群上运行的MapReduce作业,易于分析。 解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析,编译生成执行计划,优化查询计划的生成。生成的查询计划存储在HDFS中,并在随后由
阅读全文
posted @ 2025-07-01 20:19 码以致用
阅读(43)
评论(0)
推荐(0)
Impala集群优化历程
摘要: 一、问题背景在一个普通的下午,已经正常运行近两年的impala集群突然开始报警,很快有用户反馈说“卡住了,查不动了。。”,紧急排查后发现有如下不普通的症状: 1、用户层,后台正在运行的查询任务并不多,但前台提交任务却迟迟不显示有任何进度或进度到一半卡住; 2、物理层,报警节点cpu异常繁忙,很快飙升
阅读全文
posted @ 2025-07-01 10:39 码以致用
阅读(43)
评论(0)
推荐(0)
2024年6月21日
Calcite执行计划优化
摘要: CBO与RBO并非对立关系,而是基于RBO的拓展 CBO = RBO + Cost Model + Model Iteration,通过代价模型,在一定的时间空间范围内通过动态规划算法来获得最终的执行计划 claicte的优化原理是,它假定如果一个表达式最优,那它的局部也是最优的。成本最优假设利用了
阅读全文
posted @ 2024-06-21 17:18 码以致用
阅读(123)
评论(0)
推荐(0)
【持续更新】重要FLIP总结
摘要: FLIP-27: Refactor Source Interface 流批一体API 1、解耦SplitEnumerator与SplitReader SplitEnumerator:发现并分配splits(比如files/kafka_partitions) SourceReader:从splits里
阅读全文
posted @ 2024-06-21 00:32 码以致用
阅读(89)
评论(0)
推荐(0)
2024年6月18日
何为软件开发的难?
摘要: 经常会有人在面试过程中被问到做的最难的一个项目是什么?但很多人因为平时工作忙或有开源在做,面试准备少,或者临场反应差而给人留下不好的印象,也有很多人因为工作闲的整天看业界分享的ppt,而直接套用到自己的项目中,加上现成的漂亮话术,很容易俘获部分面试官的心。即使抛开诚实这一基本素质不谈,这对面试双方来
阅读全文
posted @ 2024-06-18 12:37 码以致用
阅读(57)
评论(0)
推荐(0)
2024年6月16日
Paimon笔记
摘要: 支持高吞吐数据摄入、变更追踪、高效分析的流批数据湖 基于LSM提升写入速度并降低写入消耗;基于有序的SortRun裁剪大部分数据以提升查询性能;支持多种merge引擎实现高性能流表打宽 特点 是 Flink SQL 的内置存储 Flink DDL 会真实创建或删除物理表,不再只是一个外部物理表的映射
阅读全文
posted @ 2024-06-16 00:02 码以致用
阅读(1404)
评论(0)
推荐(0)
下一页
公告