上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 44 下一页
摘要: 数据治理核心工作框架: 一、‌数据标准管理‌ ‌统一规范制定‌ 建立企业级数据字典,定义字段格式、编码规则(如性别字段统一为0/1或男/女) 制定跨部门数据交换标准(如接口字段命名规则、JSON/XML格式规范) ‌标准执行监控‌ 通过自动化工具检测非标数据(如身份证号格式错误)并触发整改流程 二、 阅读全文
posted @ 2025-04-22 11:19 业余砖家 阅读(100) 评论(0) 推荐(0)
摘要: 一、‌智能索引优化‌ ‌前缀索引策略‌ 将高频过滤字段(如时间戳、用户ID)放在AGGREGATE KEY或UNIQUE KEY前36字节内,确保查询命中前缀索引。 避免长字符串作为前缀列,优先使用数值类型或短字符串(如VARCHAR(20))。 CREATE TABLE logs ( ts DAT 阅读全文
posted @ 2025-04-22 11:06 业余砖家 阅读(200) 评论(0) 推荐(0)
摘要: 一、‌架构与存储优化‌ ‌存储模型选择‌ ‌Aggreagate聚合模型‌:对需要预聚合的场景(如PV/UV统计)使用AGGREGATE KEY,减少实时计算压力。 ‌Unique模型‌:需实时更新的业务表采用UNIQUE KEY,支持主键唯一性约束。 ‌Duplicate模型‌:日志类数据选择无主 阅读全文
posted @ 2025-04-22 11:02 业余砖家 阅读(601) 评论(0) 推荐(0)
摘要: 一、‌数据存储与表设计优化‌ ‌列式存储与压缩‌ 使用ORC/Parquet格式存储数据,减少I/O并提升压缩效率 启用Zlib或Snappy压缩算法: SET hive.exec.orc.compression.strategy=SPEED; -- ORC压缩优化 ‌分区与分桶策略‌ 按时间或业务 阅读全文
posted @ 2025-04-22 10:15 业余砖家 阅读(177) 评论(0) 推荐(0)
摘要: 一、窗口函数的组成部分 (1)窗口函数本身:这是执行计算的函数,如 SUM(), AVG(), ROW_NUMBER() 等。 (2)OVER子句:定义了窗口函数的计算范围。它由三部分组成: ①、PARTITION BY:将数据集分成多个独立的组,每个组内部进行计算。如果省略,整个数据集被视为一个单 阅读全文
posted @ 2025-04-21 17:36 业余砖家 阅读(1503) 评论(0) 推荐(0)
摘要: 本文没有使用Faker,而是自己根据需求编写函数生成随机的数据,然后插入MySQL表中。 1.MySQL表 CREATE TABLE `t_trans_detail` ( `product` varchar(20) DEFAULT NULL COMMENT '产品', `trans_time` da 阅读全文
posted @ 2025-04-19 12:45 业余砖家 阅读(79) 评论(0) 推荐(0)
摘要: 背景 在软件需求、开发、测试过程中,有时候需要使用一些测试数据,针对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据。由于现在的业务系统数据多种多样,千变万化。在手动制造数据的过程中,可能需要花费大量精力和工作量,此项工作既繁复又容易出错,比如要构造一批用户三要素(姓名、手机号、身 阅读全文
posted @ 2025-04-19 12:33 业余砖家 阅读(434) 评论(0) 推荐(0)
摘要: 一、数据结构基础 ‌Series 与 DataFrame 的区别‌ Series 是一维标签数组,只能存储单一类型数据;DataFrame 是二维表格型数据结构,不同列可以存储不同数据类型。 Series 由 值(values) 和 索引(index) 组成; DataFrame由多个列(Serie 阅读全文
posted @ 2025-04-17 21:51 业余砖家 阅读(424) 评论(0) 推荐(0)
摘要: DENSE_RANK 和 RANK 都是 SQL 中的窗口函数,用于为结果集中的行分配排名,但它们在处理并列排名时的方式不同。以下是它们的区别及示例说明: ‌1. RANK 函数‌ ‌特点‌:当出现并列排名时,‌后续排名会跳过被占用的名次‌。 ‌示例‌:假设数据为 [100, 100, 90, 80 阅读全文
posted @ 2025-04-16 10:34 业余砖家 阅读(261) 评论(0) 推荐(0)
摘要: 一、Spark 性能优化 1.1 常规性能优化 生产环境 Spark submit 脚本 /usr/local/spark/bin/spark-submit \ --class com.atguigu.spark.WordCount \ --num-executors 80 \ --driver-m 阅读全文
posted @ 2025-04-11 22:27 业余砖家 阅读(152) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 44 下一页