摘要:
Hologres 查询优化核心策略 一、存储层优化 列存与行存模式选择 高频分析的OLAP场景优先采用列存模式,减少全表扫描的I/O开销;高QPS点查场景建议使用行存模式。 通过enable_columnar_type参数控制列存字段,减少查询时冗余数据读取。 索引策略 字典索引:对高基 阅读全文
posted @ 2025-04-27 18:03
业余砖家
阅读(127)
评论(0)
推荐(0)
摘要:
一、Hudi核心技术原理 1. 数据模型与表类型 时间轴(Timeline):维护数据集操作的元数据历史(如提交、压缩、清理),支持按时间点查询数据快照(Time Travel)。 表类型: COW(Copy-On-Write):写入时直接生成新数据文件,适合读多写少场景,但更新 阅读全文
posted @ 2025-04-27 17:51
业余砖家
阅读(279)
评论(0)
推荐(0)
摘要:
一、HBase核心技术原理 1. 列式存储与数据模型 核心概念: 表(Table)与列族(Column Family):数据按列族物理存储,同一列族的数据集中存放,不同列族独立存储,减少I/O开销。 行键(RowKey):唯一标识一行数据,按字典序排序,直接影响数据分布和查询性能 阅读全文
posted @ 2025-04-27 17:42
业余砖家
阅读(85)
评论(0)
推荐(0)
摘要:
一、Spark核心技术原理 1. 弹性分布式数据集(RDD) 核心特性: 分布式存储与并行计算:数据划分为多个分区(Partition),分布在集群节点上并行处理,支持横向扩展。 血缘关系(Lineage)与容错:通过记录转换操作的血缘关系,故障时重新计算丢失的分区,避免数据冗余 阅读全文
posted @ 2025-04-27 17:39
业余砖家
阅读(108)
评论(0)
推荐(0)
摘要:
一、Flink核心技术原理 1. 流批一体架构 统一处理模型:Flink采用流处理为核心的设计,批处理视为有界数据流的特例,通过同一运行时引擎处理实时流和离线批数据。 时间窗口机制:支持事件时间(Event Time)、处理时间(Processing Time)和摄入时间(Inges 阅读全文
posted @ 2025-04-27 17:16
业余砖家
阅读(211)
评论(0)
推荐(0)
摘要:
Hadoop核心技术原理 1. HDFS(分布式文件系统) 架构设计: NameNode:管理元数据(文件目录结构、块位置信息),处理客户端读写请求。 DataNode:存储实际数据块,定期向NameNode发送心跳和块报告。 写入流程: 客户端将文件切分为固定大小(默认12 阅读全文
posted @ 2025-04-27 17:10
业余砖家
阅读(54)
评论(0)
推荐(0)
摘要:
一、Kafka核心技术原理 1. 架构设计 分布式消息系统:由多个Broker节点组成集群,Producer将消息发布到Topic,Consumer订阅Topic消费消息。 分区(Partition):每个Topic划分为多个分区,实现并行处理与水平扩展,单个分区内消息有序。 副本 阅读全文
posted @ 2025-04-27 16:59
业余砖家
阅读(76)
评论(0)
推荐(0)
摘要:
Hive 的执行原理基于将类 SQL(HQL)查询转换为分布式计算任务(如 MapReduce、Tez 或 Spark),并通过元数据管理实现数据与计算的解耦。 以下是其核心原理的详细分析: 一、Hive 执行流程 查询提交与解析 用户通过 CLI、JDBC 或 Web UI 提交 HQL 查询 阅读全文
posted @ 2025-04-27 16:53
业余砖家
阅读(134)
评论(0)
推荐(0)
摘要:
一、定位Hive慢任务的方法 1. 查看日志与执行计划 Hive日志:启用详细日志(hive -hiveconf hive.root.logger=DEBUG,console),检查任务执行阶段的耗时。 EXPLAIN命令:通过EXPLAIN [FORMATTED] <query>生 阅读全文
posted @ 2025-04-27 16:48
业余砖家
阅读(120)
评论(0)
推荐(0)

浙公网安备 33010602011771号