摘要: ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl工具有Sqoop、DataX、Ca 阅读全文
posted @ 2021-06-02 10:09 潇湘灬隐者 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 前言: model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。 为什么大多数企业,数仓都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。 01. 基本概念 维度建模,是数据仓库大师Ralph Kimball提出的,是数据仓库工程 阅读全文
posted @ 2021-06-02 09:49 潇湘灬隐者 阅读(1215) 评论(0) 推荐(0) 编辑
摘要: 01. 架构演进 离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。 02. 逻辑分层 数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->dws-ads,bdl->fdl->gdl 阅读全文
posted @ 2021-06-02 09:12 潇湘灬隐者 阅读(1366) 评论(0) 推荐(0) 编辑
摘要: Hive数据倾斜原因和解决办法(Data Skew) 什么是数据倾斜(Data Skew)? 数据倾斜是指在原本应该并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。 假设数据分布不均匀,某个key对应几十万条数据,其他key对应几百条或几十条 阅读全文
posted @ 2021-01-15 12:37 潇湘灬隐者 阅读(1420) 评论(0) 推荐(0) 编辑
摘要: 1、Hbase shell客户端使用 a、进入客户端 hbase shell b、常用命令 list 列出Hbase中存在的所有表 alter 修改列簇(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指 阅读全文
posted @ 2021-01-15 12:22 潇湘灬隐者 阅读(651) 评论(0) 推荐(0) 编辑
摘要: hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。 hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构 hadoop fs -mkdir 创建目录 hadoop fs -rm 删除文件,-rm 阅读全文
posted @ 2021-01-15 12:18 潇湘灬隐者 阅读(955) 评论(0) 推荐(1) 编辑
摘要: Hive常用函数大全一览 1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS NOT NU 阅读全文
posted @ 2021-01-15 11:44 潇湘灬隐者 阅读(227) 评论(0) 推荐(0) 编辑
摘要: SQL常见的一些面试题(太有用啦) SQL常见面试题 1.用一条SQL 语句 查询出每门课都大于80 分的学生姓名 name kecheng fenshu张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90A: select distin 阅读全文
posted @ 2021-01-15 11:21 潇湘灬隐者 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 整个系列的文章从银行数据仓库架构,ETL,模型,数据管理以及几大方面应用介绍了数据仓库,可以让大家对银行数据仓库有个概要的了解,但在各子系统设计,技术方面没有太深入介绍,后续也会陆续补充。作为这个系列文章的最后一节,简单谈谈对银行数据仓库发展的一些想法。 数据仓库作为银行数据中心,在这个大数据时代也 阅读全文
posted @ 2020-11-08 21:48 潇湘灬隐者 阅读(672) 评论(0) 推荐(0) 编辑
摘要: Teradata天睿公司(纽交所代码:TDC),是美国前十大上市软件公司之一。经过逾30 年的发展,Teradata天睿公司已经成为全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商。其提出一种先进的FS-LDM模型(Financial Services Logcial Data M 阅读全文
posted @ 2020-11-08 21:42 潇湘灬隐者 阅读(4589) 评论(0) 推荐(1) 编辑