摘要:
1. INSERT 情况 1:INSERT OVERWRITE 会覆盖分区目录或表目录中的旧文件,并写入新文件。 Hive 会先把查询结果写到一个临时目录,然后替换掉原目录。 HDFS 中原有的文件会被删除(实际上是放到 HDFS 回收站,如果开启了的话)。 📂 HDFS 效果示例 插入前: /w
阅读全文
posted @ 2025-08-12 10:38
ZhangZhihuiAAA
阅读(94)
推荐(0)
摘要:
load data local inpath '/data/dept.txt' into table dept_partitions partition(month='2020-01'); 上面的Hive加载本地文件到分区表的语句执行完之后,在HDFS的文件系统中的'2020-01'目录下看到的是整
阅读全文
posted @ 2025-08-12 09:52
ZhangZhihuiAAA
阅读(35)
推荐(0)
摘要:
✅ 一、数据清洗的主要内容 下面是数据清洗时需要特别注意的关键方面,结合常见问题和建议处理方法: 1. 去除字符串首尾空格 问题: 字符串中包含意外的空格、制表符(\t)或换行符(\n)。 处理: df['列名'] = df['列名'].str.strip() 可以配合 .str.replace()
阅读全文
posted @ 2025-08-08 21:09
ZhangZhihuiAAA
阅读(79)
推荐(0)
摘要:
会计基础知识是每个从事财务工作或管理业务的人需要掌握的基本概念。以下是会计基础知识的核心内容,通俗易懂地为你整理如下: 一、会计的定义 会计是对经济活动进行记录、分类、汇总、报告的一种方法,目的是提供决策所需的财务信息。 二、会计的基本职能 核算职能:记录和计算经济业务。 监督职能:监督经济活动是否
阅读全文
posted @ 2025-08-08 10:34
ZhangZhihuiAAA
阅读(163)
推荐(0)
摘要:
SELECT player_name, season = exploded_season AS is_active FROM nba_player_seasons CROSS JOIN UNNEST (sequence(1996, 2002)) AS t(exploded_season) WHERE
阅读全文
posted @ 2025-08-06 11:47
ZhangZhihuiAAA
阅读(5)
推荐(0)
摘要:
Data Vault 是一种 数据建模方法论,主要用于 企业数据仓库(Enterprise Data Warehouse, EDW) 的建模。它由 Dan Linstedt 于 2000 年提出,目的是应对传统维度建模在处理 大规模、复杂、多变数据 时的不足,尤其适用于 历史数据追踪、数据整合与审计
阅读全文
posted @ 2025-08-06 09:38
ZhangZhihuiAAA
阅读(115)
推荐(0)
摘要:
Yes, using surrogate keys in dimension tables is widely considered a best practice in data warehouse and dimensional modeling. Here's why: ✅ Why Use S
阅读全文
posted @ 2025-08-05 22:03
ZhangZhihuiAAA
阅读(7)
推荐(0)
摘要:
📌 Purpose This document defines a standardized naming convention for all database tables used in the data warehouse or data mart. The goal is to impr
阅读全文
posted @ 2025-08-05 15:42
ZhangZhihuiAAA
阅读(22)
推荐(0)
摘要:
stump Amount of Say
阅读全文
posted @ 2025-07-25 19:49
ZhangZhihuiAAA
阅读(3)
推荐(0)
posted @ 2025-07-25 13:55
ZhangZhihuiAAA
阅读(4)
推荐(0)