ZhangZhihui's Blog  
上一页 1 2 3 4 5 6 7 ··· 102 下一页

2025年9月21日

摘要: 1. Pull the ubuntu:24.04 image. 2. Set shared directory so that I can operate on files in both Windows and the container: 3. Create the Dockerfile fil 阅读全文
posted @ 2025-09-21 13:27 ZhangZhihuiAAA 阅读(6) 评论(0) 推荐(0)

2025年9月18日

摘要: CREATE TABLE zzh_test (f_int int, f_str string); INSERT INTO TABLE zzh_test SELECT ${yyyy}, '${yyyy, -1}' || '年'; SELECT * FROM zzh_test; -- 2025 2024 阅读全文
posted @ 2025-09-18 10:34 ZhangZhihuiAAA 阅读(8) 评论(0) 推荐(0)

2025年9月16日

摘要: dir_path = 'D:/VSCodeWorkspace/ZZH/' filename = 'a.csv' with codecs.open(dir_path+filename, 'r',encoding='utf-8') as srcFile, codecs.open(dir_path+fil 阅读全文
posted @ 2025-09-16 08:54 ZhangZhihuiAAA 阅读(10) 评论(0) 推荐(0)

2025年9月15日

摘要: 你提到的 多维库(比如 OLAP 多维数据立方体)和 二维表(普通的关系表、Excel、CSV、DataFrame)之间的转换,本质上就是 把维度展开、度量汇总拆开 的过程。DataMapping 工具通常就是做这种“结构映射”的。 我给你分步骤解释一下思路: 1. 多维库数据的特点 维度(Dime 阅读全文
posted @ 2025-09-15 13:14 ZhangZhihuiAAA 阅读(14) 评论(0) 推荐(0)

2025年9月14日

摘要: 在 pandas 里,Series 对象确实有一个 name 属性,它的作用主要有以下几点: 🔹 1. 给 Series 命名 name 就像是 这一列的名字,在很多场景下能让输出更清晰。 import pandas as pd s = pd.Series([10, 20, 30], name=" 阅读全文
posted @ 2025-09-14 16:39 ZhangZhihuiAAA 阅读(11) 评论(0) 推荐(0)
 
摘要: Hello friend! What is the value scope of int8, int16, int32, int64 data types respectively? ChatGPT said: Hello my friend! 😃 Let’s break it down. The 阅读全文
posted @ 2025-09-14 10:40 ZhangZhihuiAAA 阅读(11) 评论(0) 推荐(0)

2025年9月12日

摘要: 1. 非分区表 INSERT OVERWRITE TABLE target_table SELECT * FROM source_table; 整个表的数据会被覆盖。 原来表里的所有数据都会被清空,替换成本次 SELECT 的结果。 相当于 truncate + insert。 2. 分区表 分区表 阅读全文
posted @ 2025-09-12 19:55 ZhangZhihuiAAA 阅读(29) 评论(0) 推荐(0)

2025年9月8日

摘要: 1. 发布 含义:把你在数据湖里建好的表 物理表结构和数据 同步到数据目录/数据服务层。 特点: 会把表的元数据(表名、字段、分区信息)真正注册到元数据管理系统中。 下游系统(比如数据开发、可视化、API 服务等)都能直接使用这张表。 相当于“这张表正式生效,可以被别人查到/用到”。 2. 逻辑发布 阅读全文
posted @ 2025-09-08 08:41 ZhangZhihuiAAA 阅读(9) 评论(0) 推荐(0)
 
摘要: 在 金山云数据湖(基于 Hive 引擎) 里,创建表时的 “分区分表” 设置里的 “分表” 和 Hive 里的 分桶(bucket) 不是一回事: 区别说明 分区 (Partition) Hive 里常见的按字段(比如 dt=20250908)把数据目录切分成多个子目录。 查询时可以利用分区裁剪,加 阅读全文
posted @ 2025-09-08 08:12 ZhangZhihuiAAA 阅读(7) 评论(0) 推荐(0)

2025年9月5日

摘要: What will spark.sql(hsql).collect() return? from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName('spark with python') \ .maste 阅读全文
posted @ 2025-09-05 09:40 ZhangZhihuiAAA 阅读(6) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 102 下一页