阿里云实时数仓Hologres性能调优

一、‌数据分布策略‌

　　　　Shard数决定并行度，过少会导致资源利用率不足，过多则增加元数据管理开销。扩容后需根据实际负载调整Shard数。

　　　　　　-- 创建新Table Group并设置Shard数
　　　　　　CREATE TABLEGROUP tg_ads WITH (shard_count = 64);

　　　　（1）收集表的行数、列基数、最大值/最小值、分桶分布等特征，确保优化器生成高效的执行计划（如JOIN顺序预估、内存开销计算）。

　　　　（2）在数据批量导入或大量INSERT/UPDATE/DELETE操作后，需手动执行ANALYZE <tablename>更新统计信息，避免因信息滞后导致执行计划错误。

         ANALYZE orders;  -- 更新行数、基数、最大值等关键信息

优先选择Join条件列或Group By列作为分布列（Distribution Key），实现Local Join加速，通过SET hg_experimental_enable_adaptive_join=on开启自适应JOIN优化，减少跨节点数据传输。
启用Runtime Filter减少Shuffle数据量：

         SET runtime_filter_type = "IN,MIN_MAX";  -- 过滤无效关联数据

         SET enable_vectorized_engine = true;

         SET hg_experimental_max_num_record_batches_in_buffer = 7;

　　　　　　SET hg_experimental_query_batch_size = 1024;  -- 提升大批量写入效率
　　　　　　SET hg_experimental_dml_bulkload_dop = 2;     -- 控制写入并发，避免OOM

　　　　　　SET hg_experimental_odps_executor_max_dop = 8;

　　　　　　SET hg_experimental_enable_serverless = on;  -- 避免占用实例自身资源

　　　　　　SET hg_experimental_enable_hqe = true;

‌优先级建议‌：

posted @ 2025-04-22 14:07 业余砖家阅读(113) 评论(0) 收藏举报

刷新页面返回顶部