业余砖家

2025年4月22日

摘要：当使用 FlinkSQL 或 BlinkSQL 进行开发时，虽然底层执行引擎仍然是 Flink，但调优的侧重点与 DataStream API 有所不同。以下是针对 SQL 模式的系统化调优方法：一、SQL 执行计划优化 1. 执行计划分析 -- 查看逻辑执行计划 EXPLAIN PLAN FO 阅读全文

posted @ 2025-04-22 19:25 业余砖家阅读(136) 评论(0) 推荐(0)

FLink性能调优

摘要：在使用FlinkSQL进行性能调优时，需从执行计划、资源配置、状态管理、数据倾斜处理等多个维度综合优化。以下是关键调优方向及具体方法：一、资源配置与并行度优化并行度设置根据数据源分区数（如Kafka分区数）设置并行度，确保资源充分利用。例如：SET 'parallelism.default' 阅读全文

posted @ 2025-04-22 19:16 业余砖家阅读(281) 评论(0) 推荐(0)

DataX的性能调优

摘要：一、并发控制优化 ‌通道数调整‌ 根据数据源与目标端硬件资源（CPU、内存、IO），动态调整channel参数，避免过度并发引发资源争抢。例如，MySQL到HDFS的同步任务，建议单机通道数不超过CPU核数的2倍。使用-Ddatax.job.channel=10命令行参数或配置文件全局设置通道数，阅读全文

posted @ 2025-04-22 15:01 业余砖家阅读(991) 评论(0) 推荐(0)

Linux&Shell面试知识点总结

摘要：一、Linux基础命令 ‌进程管理‌ 查看系统进程：ps aux、top/htop（实时监控）杀死进程：kill -9 <PID>、pkill <进程名> ‌文件操作‌ 查看文件尾部：tail -n 10 filename（末10行）实时监控文件变化：tail -f filename 批量查找文阅读全文

posted @ 2025-04-22 14:35 业余砖家阅读(119) 评论(0) 推荐(0)

阿里云实时数仓Hologres性能调优

摘要：一、‌数据分布策略‌ ‌分区分桶设计‌ 对高频查询字段（如时间、用户ID）进行分区，结合PARTITION BY和DISTRIBUTE BY实现双层剪枝，减少扫描数据量按业务需求选择分桶列（如广告ID、商品ID），确保数据均匀分布，避免热点问题。 ‌Shard数调整‌ Shard数决定并行度，过少阅读全文

posted @ 2025-04-22 14:07 业余砖家阅读(135) 评论(0) 推荐(0)

数据治理

摘要：数据治理核心工作框架：一、‌数据标准管理‌ ‌统一规范制定‌ 建立企业级数据字典，定义字段格式、编码规则（如性别字段统一为0/1或男/女）制定跨部门数据交换标准（如接口字段命名规则、JSON/XML格式规范） ‌标准执行监控‌ 通过自动化工具检测非标数据（如身份证号格式错误）并触发整改流程二、阅读全文

posted @ 2025-04-22 11:19 业余砖家阅读(127) 评论(0) 推荐(0)

Doris索引的优化

摘要：一、‌智能索引优化‌ ‌前缀索引策略‌ 将高频过滤字段（如时间戳、用户ID）放在AGGREGATE KEY或UNIQUE KEY前36字节内，确保查询命中前缀索引。避免长字符串作为前缀列，优先使用数值类型或短字符串（如VARCHAR(20)）。 CREATE TABLE logs ( ts DAT 阅读全文

posted @ 2025-04-22 11:06 业余砖家阅读(250) 评论(0) 推荐(0)

Doris性能调优

摘要：一、‌架构与存储优化‌ ‌存储模型选择‌ ‌Aggreagate聚合模型‌：对需要预聚合的场景（如PV/UV统计）使用AGGREGATE KEY，减少实时计算压力。 ‌Unique模型‌：需实时更新的业务表采用UNIQUE KEY，支持主键唯一性约束。 ‌Duplicate模型‌：日志类数据选择无主阅读全文

posted @ 2025-04-22 11:02 业余砖家阅读(729) 评论(0) 推荐(0)

HiveSQL性能调优

摘要：一、‌数据存储与表设计优化‌ ‌列式存储与压缩‌ 使用ORC/Parquet格式存储数据，减少I/O并提升压缩效率启用Zlib或Snappy压缩算法： SET hive.exec.orc.compression.strategy=SPEED; -- ORC压缩优化 ‌分区与分桶策略‌ 按时间或业务阅读全文

posted @ 2025-04-22 10:15 业余砖家阅读(202) 评论(0) 推荐(0)

2025年4月21日

MySQL窗口函数详解

摘要：一、窗口函数的组成部分（1）窗口函数本身：这是执行计算的函数，如 SUM(), AVG(), ROW_NUMBER() 等。（2）OVER子句：定义了窗口函数的计算范围。它由三部分组成： ①、PARTITION BY：将数据集分成多个独立的组，每个组内部进行计算。如果省略，整个数据集被视为一个单阅读全文

posted @ 2025-04-21 17:36 业余砖家阅读(2110) 评论(0) 推荐(0)

没有比人更高的山，没有比脚更长的路。

公告