08 2021 档案
摘要:在一些数据仓库开发的业务场景,会经常遇到一些需要把oracle的查询语句转成 hive的查询语句 推荐一篇博主的文章 > 【Oracle与Hive语法对比】 ###1、时间格式1 oracle: to_chara(XXdate,'yyyyy-MM-dd hh24:mi:ss') 2021-07-16
阅读全文
摘要:首先我们先来看一下业务sql select t.dept,t.day,count(*) from( select regexp_substr(dept), '[^,]+', 1, level) dept,day from ( select wm_concat(dept) dept,day from
阅读全文
摘要:####1、组合两个表 表1: Person + + + | 列名 | 类型 | + + + | PersonId | int | | FirstName | varchar | | LastName | varchar | + + + PersonId 是上表主键 表2: Address + +
阅读全文
摘要:###一、分析函数的语法 语法: 函数名([参数]) over(partition by [分组字段] order by [排序字段] asc/desc rows/range between 起始位置 and 结束位置) 函数解读: 函数分为两个部分 第一部分是函数名称,开窗函数的数量较少,只有11
阅读全文
摘要:###Shuffle机制 ###WordCount原理图 ###MapReduce程序运行流程图 ###MapTask工作机制 ###数据切片及MapTask并行度决定机制 ###Job提交源码解析 ###MapReduce详细工作流程 ###ReduceTask工作机制 ###Yarn架构及工作机
阅读全文
摘要:##一、拉链表的使用场景 在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计: 1)有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。 2)表中的部分字段会被update
阅读全文
摘要:##一、数据仓库之数仓分层 ####(一)为什么要分层? 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。 因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层
阅读全文

浙公网安备 33010602011771号