上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页
摘要: ‌一、HBase核心技术原理‌ 1. ‌列式存储与数据模型‌ ‌核心概念‌: ‌表(Table)与列族(Column Family)‌:数据按列族物理存储,同一列族的数据集中存放,不同列族独立存储,减少I/O开销。 ‌行键(RowKey)‌:唯一标识一行数据,按字典序排序,直接影响数据分布和查询性能 阅读全文
posted @ 2025-04-27 17:42 业余砖家 阅读(117) 评论(0) 推荐(0)
摘要: ‌一、Spark核心技术原理‌ 1. ‌弹性分布式数据集(RDD)‌ ‌核心特性‌: ‌分布式存储与并行计算‌:数据划分为多个分区(Partition),分布在集群节点上并行处理,支持横向扩展。 ‌血缘关系(Lineage)与容错‌:通过记录转换操作的血缘关系,故障时重新计算丢失的分区,避免数据冗余 阅读全文
posted @ 2025-04-27 17:39 业余砖家 阅读(153) 评论(0) 推荐(0)
摘要: ‌一、Flink核心技术原理‌ 1. ‌流批一体架构‌ ‌统一处理模型‌:Flink采用流处理为核心的设计,批处理视为有界数据流的特例,通过同一运行时引擎处理实时流和离线批数据。 ‌时间窗口机制‌:支持事件时间(Event Time)、处理时间(Processing Time)和摄入时间(Inges 阅读全文
posted @ 2025-04-27 17:16 业余砖家 阅读(276) 评论(0) 推荐(0)
摘要: ‌Hadoop核心技术原理‌ 1. ‌HDFS(分布式文件系统)‌ ‌架构设计‌: ‌NameNode‌:管理元数据(文件目录结构、块位置信息),处理客户端读写请求。 ‌DataNode‌:存储实际数据块,定期向NameNode发送心跳和块报告。 ‌写入流程‌: 客户端将文件切分为固定大小(默认12 阅读全文
posted @ 2025-04-27 17:10 业余砖家 阅读(76) 评论(0) 推荐(0)
摘要: ‌一、Kafka核心技术原理‌ 1. ‌架构设计‌ ‌分布式消息系统‌:由多个Broker节点组成集群,Producer将消息发布到Topic,Consumer订阅Topic消费消息。 ‌分区(Partition)‌:每个Topic划分为多个分区,实现并行处理与水平扩展,单个分区内消息有序。 ‌副本 阅读全文
posted @ 2025-04-27 16:59 业余砖家 阅读(96) 评论(0) 推荐(0)
摘要: Hive 的执行原理基于将类 SQL(HQL)查询转换为分布式计算任务(如 MapReduce、Tez 或 Spark),并通过元数据管理实现数据与计算的解耦。 以下是其核心原理的详细分析: 一、Hive 执行流程 ‌查询提交与解析‌ 用户通过 CLI、JDBC 或 Web UI 提交 HQL 查询 阅读全文
posted @ 2025-04-27 16:53 业余砖家 阅读(183) 评论(0) 推荐(0)
摘要: ‌一、定位Hive慢任务的方法‌ 1. ‌查看日志与执行计划‌ ‌Hive日志‌:启用详细日志(hive -hiveconf hive.root.logger=DEBUG,console),检查任务执行阶段的耗时。 ‌EXPLAIN命令‌:通过EXPLAIN [FORMATTED] <query>生 阅读全文
posted @ 2025-04-27 16:48 业余砖家 阅读(143) 评论(0) 推荐(0)
摘要: 数据仓库的搭建需要遵循分层架构设计,以保障数据清晰性、可维护性和高效性。 以下是基于 ODS、DWD、DIM、DWS、ADS 五层架构的搭建流程及每层核心要点: 一、数据仓库分层架构 1. ODS(Operational Data Store,操作数据层) 定位:数据仓库的“原始数据池”,与业务数据 阅读全文
posted @ 2025-04-25 22:42 业余砖家 阅读(595) 评论(0) 推荐(0)
摘要: (1)、如何评估大数据项目的资源需求和成本? 大数据项目资源评估方法: 数据量评估: 原始数据量及增长率 数据保留周期 数据副本数量(通常3副本) 计算资源评估: 批处理作业的CPU/内存需求 流处理作业的并发需求 机器学习任务的GPU需求 高峰时段资源需求 存储资源评估: 原始数据存储需求 中间结 阅读全文
posted @ 2025-04-25 12:24 业余砖家 阅读(357) 评论(0) 推荐(0)
摘要: Hive查询缓慢是数据仓库运维中常见的问题,可能由数据规模、查询设计、资源配置等多方面因素导致。 以下是常见原因及优化手段的系统总结: 一、数据层面原因 1. 数据量过大 表现:全表扫描(如SELECT *)、大表未分区。 优化: 分区裁剪:对表按时间/业务维度分区(如PARTITIONED BY 阅读全文
posted @ 2025-04-23 21:10 业余砖家 阅读(243) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页