上一页 1 2 3 4 5 6 7 8 9 10 ··· 44 下一页
摘要: Hive 的执行原理基于将类 SQL(HQL)查询转换为分布式计算任务(如 MapReduce、Tez 或 Spark),并通过元数据管理实现数据与计算的解耦。 以下是其核心原理的详细分析: 一、Hive 执行流程 ‌查询提交与解析‌ 用户通过 CLI、JDBC 或 Web UI 提交 HQL 查询 阅读全文
posted @ 2025-04-27 16:53 业余砖家 阅读(134) 评论(0) 推荐(0)
摘要: ‌一、定位Hive慢任务的方法‌ 1. ‌查看日志与执行计划‌ ‌Hive日志‌:启用详细日志(hive -hiveconf hive.root.logger=DEBUG,console),检查任务执行阶段的耗时。 ‌EXPLAIN命令‌:通过EXPLAIN [FORMATTED] <query>生 阅读全文
posted @ 2025-04-27 16:48 业余砖家 阅读(121) 评论(0) 推荐(0)
摘要: 数据仓库的搭建需要遵循分层架构设计,以保障数据清晰性、可维护性和高效性。 以下是基于 ODS、DWD、DIM、DWS、ADS 五层架构的搭建流程及每层核心要点: 一、数据仓库分层架构 1. ODS(Operational Data Store,操作数据层) 定位:数据仓库的“原始数据池”,与业务数据 阅读全文
posted @ 2025-04-25 22:42 业余砖家 阅读(490) 评论(0) 推荐(0)
摘要: (1)、如何评估大数据项目的资源需求和成本? 大数据项目资源评估方法: 数据量评估: 原始数据量及增长率 数据保留周期 数据副本数量(通常3副本) 计算资源评估: 批处理作业的CPU/内存需求 流处理作业的并发需求 机器学习任务的GPU需求 高峰时段资源需求 存储资源评估: 原始数据存储需求 中间结 阅读全文
posted @ 2025-04-25 12:24 业余砖家 阅读(284) 评论(0) 推荐(0)
摘要: Hive查询缓慢是数据仓库运维中常见的问题,可能由数据规模、查询设计、资源配置等多方面因素导致。 以下是常见原因及优化手段的系统总结: 一、数据层面原因 1. 数据量过大 表现:全表扫描(如SELECT *)、大表未分区。 优化: 分区裁剪:对表按时间/业务维度分区(如PARTITIONED BY 阅读全文
posted @ 2025-04-23 21:10 业余砖家 阅读(203) 评论(0) 推荐(0)
摘要: 当使用 FlinkSQL 或 BlinkSQL 进行开发时,虽然底层执行引擎仍然是 Flink,但调优的侧重点与 DataStream API 有所不同。 以下是针对 SQL 模式的系统化调优方法: 一、SQL 执行计划优化 1. 执行计划分析 -- 查看逻辑执行计划 EXPLAIN PLAN FO 阅读全文
posted @ 2025-04-22 19:25 业余砖家 阅读(109) 评论(0) 推荐(0)
摘要: 在使用FlinkSQL进行性能调优时,需从执行计划、资源配置、状态管理、数据倾斜处理等多个维度综合优化。 以下是关键调优方向及具体方法: 一、资源配置与并行度优化 并行度设置 根据数据源分区数(如Kafka分区数)设置并行度,确保资源充分利用。例如:SET 'parallelism.default' 阅读全文
posted @ 2025-04-22 19:16 业余砖家 阅读(208) 评论(0) 推荐(0)
摘要: 一、并发控制优化 ‌通道数调整‌ 根据数据源与目标端硬件资源(CPU、内存、IO),动态调整channel参数,避免过度并发引发资源争抢。例如,MySQL到HDFS的同步任务,建议单机通道数不超过CPU核数的2倍。 使用-Ddatax.job.channel=10命令行参数或配置文件全局设置通道数, 阅读全文
posted @ 2025-04-22 15:01 业余砖家 阅读(814) 评论(0) 推荐(0)
摘要: 一、Linux基础命令 ‌进程管理‌ 查看系统进程:ps aux、top/htop(实时监控) 杀死进程:kill -9 <PID>、pkill <进程名> ‌文件操作‌ 查看文件尾部:tail -n 10 filename(末10行) 实时监控文件变化:tail -f filename 批量查找文 阅读全文
posted @ 2025-04-22 14:35 业余砖家 阅读(90) 评论(0) 推荐(0)
摘要: 一、‌数据分布策略‌ ‌分区分桶设计‌ 对高频查询字段(如时间、用户ID)进行分区,结合PARTITION BY和DISTRIBUTE BY实现双层剪枝,减少扫描数据量 按业务需求选择分桶列(如广告ID、商品ID),确保数据均匀分布,避免热点问题。 ‌Shard数调整‌ Shard数决定并行度,过少 阅读全文
posted @ 2025-04-22 14:07 业余砖家 阅读(113) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 44 下一页