摘要: 2020.1.24 https://github.com/prestodb/presto/pull/14007 作用:使kudu connector支持kerberos认证,且在续期有效期过了后能自动获取新票据 目前:merged 2020.2.4 https://github.com/presto 阅读全文
posted @ 2023-02-06 20:06 码以致用 阅读(78) 评论(0) 推荐(0)
摘要: 概念 LSM是通过将磁盘的随机写改为顺序写来提高写的性能,核心思想是把数据的添加或修改放到内存中,当内存中数据达到一定size后,然后dump(也就是变成了顺序写)到磁盘中。LSM中有MemTable、ImmutableMemTable、SSTable等几个概念 1、MemTable MemTabl 阅读全文
posted @ 2025-08-21 21:15 码以致用 阅读(73) 评论(0) 推荐(0)
摘要: https://mp.weixin.qq.com/s/usvpxwyUEGmNo2TO0OsulQ 现已收录到Apache Paimon官方公众号 阅读全文
posted @ 2025-07-08 17:24 码以致用 阅读(17) 评论(0) 推荐(0)
摘要: 体系结构 Impala 是一个分布式并行计算数据库引擎,MPP架构 Impala Daemon Impala 的核心组件是 Impala Daemon,在物理上表现为 impalad 进程 (1)核心功能 在 CDH 5.12/ Impala 2.9 之后的版本,支持将 coordinator 和 阅读全文
posted @ 2025-07-01 20:24 码以致用 阅读(62) 评论(0) 推荐(0)
摘要: 一、Hive是基于Hadoop的数据仓库。 1、计算 把HQL查询通过HQL解析引擎转换为一系列在Hadoop集群上运行的MapReduce作业,易于分析。 解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析,编译生成执行计划,优化查询计划的生成。生成的查询计划存储在HDFS中,并在随后由 阅读全文
posted @ 2025-07-01 20:19 码以致用 阅读(43) 评论(0) 推荐(0)
摘要: 一、问题背景在一个普通的下午,已经正常运行近两年的impala集群突然开始报警,很快有用户反馈说“卡住了,查不动了。。”,紧急排查后发现有如下不普通的症状: 1、用户层,后台正在运行的查询任务并不多,但前台提交任务却迟迟不显示有任何进度或进度到一半卡住; 2、物理层,报警节点cpu异常繁忙,很快飙升 阅读全文
posted @ 2025-07-01 10:39 码以致用 阅读(43) 评论(0) 推荐(0)
摘要: CBO与RBO并非对立关系,而是基于RBO的拓展 CBO = RBO + Cost Model + Model Iteration,通过代价模型,在一定的时间空间范围内通过动态规划算法来获得最终的执行计划 claicte的优化原理是,它假定如果一个表达式最优,那它的局部也是最优的。成本最优假设利用了 阅读全文
posted @ 2024-06-21 17:18 码以致用 阅读(123) 评论(0) 推荐(0)
摘要: FLIP-27: Refactor Source Interface 流批一体API 1、解耦SplitEnumerator与SplitReader SplitEnumerator:发现并分配splits(比如files/kafka_partitions) SourceReader:从splits里 阅读全文
posted @ 2024-06-21 00:32 码以致用 阅读(89) 评论(0) 推荐(0)
摘要: 经常会有人在面试过程中被问到做的最难的一个项目是什么?但很多人因为平时工作忙或有开源在做,面试准备少,或者临场反应差而给人留下不好的印象,也有很多人因为工作闲的整天看业界分享的ppt,而直接套用到自己的项目中,加上现成的漂亮话术,很容易俘获部分面试官的心。即使抛开诚实这一基本素质不谈,这对面试双方来 阅读全文
posted @ 2024-06-18 12:37 码以致用 阅读(57) 评论(0) 推荐(0)
摘要: 支持高吞吐数据摄入、变更追踪、高效分析的流批数据湖 基于LSM提升写入速度并降低写入消耗;基于有序的SortRun裁剪大部分数据以提升查询性能;支持多种merge引擎实现高性能流表打宽 特点 是 Flink SQL 的内置存储 Flink DDL 会真实创建或删除物理表,不再只是一个外部物理表的映射 阅读全文
posted @ 2024-06-16 00:02 码以致用 阅读(1404) 评论(0) 推荐(0)