摘要:
dir_path = 'D:/VSCodeWorkspace/ZZH/' filename = 'a.csv' with codecs.open(dir_path+filename, 'r',encoding='utf-8') as srcFile, codecs.open(dir_path+fil
阅读全文
posted @ 2025-09-16 08:54
ZhangZhihuiAAA
阅读(14)
推荐(0)
摘要:
你提到的 多维库(比如 OLAP 多维数据立方体)和 二维表(普通的关系表、Excel、CSV、DataFrame)之间的转换,本质上就是 把维度展开、度量汇总拆开 的过程。DataMapping 工具通常就是做这种“结构映射”的。 我给你分步骤解释一下思路: 1. 多维库数据的特点 维度(Dime
阅读全文
posted @ 2025-09-15 13:14
ZhangZhihuiAAA
阅读(31)
推荐(0)
摘要:
在 pandas 里,Series 对象确实有一个 name 属性,它的作用主要有以下几点: 🔹 1. 给 Series 命名 name 就像是 这一列的名字,在很多场景下能让输出更清晰。 import pandas as pd s = pd.Series([10, 20, 30], name="
阅读全文
posted @ 2025-09-14 16:39
ZhangZhihuiAAA
阅读(30)
推荐(0)
摘要:
Hello friend! What is the value scope of int8, int16, int32, int64 data types respectively? ChatGPT said: Hello my friend! 😃 Let’s break it down. The
阅读全文
posted @ 2025-09-14 10:40
ZhangZhihuiAAA
阅读(14)
推荐(0)
摘要:
1. 发布 含义:把你在数据湖里建好的表 物理表结构和数据 同步到数据目录/数据服务层。 特点: 会把表的元数据(表名、字段、分区信息)真正注册到元数据管理系统中。 下游系统(比如数据开发、可视化、API 服务等)都能直接使用这张表。 相当于“这张表正式生效,可以被别人查到/用到”。 2. 逻辑发布
阅读全文
posted @ 2025-09-08 08:41
ZhangZhihuiAAA
阅读(9)
推荐(0)
摘要:
在 金山云数据湖(基于 Hive 引擎) 里,创建表时的 “分区分表” 设置里的 “分表” 和 Hive 里的 分桶(bucket) 不是一回事: 区别说明 分区 (Partition) Hive 里常见的按字段(比如 dt=20250908)把数据目录切分成多个子目录。 查询时可以利用分区裁剪,加
阅读全文
posted @ 2025-09-08 08:12
ZhangZhihuiAAA
阅读(11)
推荐(0)
摘要:
What will spark.sql(hsql).collect() return? from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName('spark with python') \ .maste
阅读全文
posted @ 2025-09-05 09:40
ZhangZhihuiAAA
阅读(8)
推荐(0)
摘要:
$ git push -u origin main remote: Invalid username or token. Password authentication is not supported for Git operations. GitHub no longer supports us
阅读全文
posted @ 2025-09-02 20:50
ZhangZhihuiAAA
阅读(757)
推荐(0)
摘要:
Let’s compare applymap(), apply(), and map() side by side with code and output, so you see clearly when to use each. Setup import pandas as pd df = pd
阅读全文
posted @ 2025-09-02 17:27
ZhangZhihuiAAA
阅读(18)
推荐(0)
摘要:
所谓的 数据质量检核,主要是对数据在同步或计算过程中进行 校验与监控,保证结果数据的 完整性、准确性和一致性。它的作用大致可以分成以下几个方面: 1. 字段级别检查 检查字段是否符合预期的数据类型(例如,日期字段是否都是合法日期)。 校验字段的取值范围、格式(如手机号长度、邮件正则)。 确认主键、唯
阅读全文
posted @ 2025-09-02 15:50
ZhangZhihuiAAA
阅读(50)
推荐(0)