摘要: 从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综 阅读全文
posted @ 2022-05-12 19:09 张飞的猪 阅读(101) 评论(0) 推荐(0) 编辑
摘要: ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计 ClickHouse核心架构设计是怎么样的?ClickHouse核心架构模块分为两个部分:ClickHouse执行过程架构和ClickHouse数据存储架构,下面分别详细介绍。 ClickHouse执行过程架构 总的来说,结合目前搜集到的一些资料,可以看到目前ClickHouse核心架构由下图构成, 阅读全文
posted @ 2022-06-20 20:16 张飞的猪 阅读(79) 评论(0) 推荐(0) 编辑
摘要: ClickHouse的由来 ClickHouse是什么数据库?ClickHouse速度有多快?应用场景是怎么样的?ClickHouse是关系型数据库吗?ClickHouse目前是很火爆的一款面向OLAP的数据,可以提供秒级的大数据查询。 Google于2003~2006年相继发表了三篇论文“Goog 阅读全文
posted @ 2022-05-30 23:48 张飞的猪 阅读(409) 评论(0) 推荐(2) 编辑
摘要: 从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综 阅读全文
posted @ 2022-05-12 19:09 张飞的猪 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学 阅读全文
posted @ 2022-05-11 21:15 张飞的猪 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治? 数据治理主要包含七个方面。 ####主数据管 阅读全文
posted @ 2022-05-06 21:32 张飞的猪 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。 这里用商品价格的变化作 阅读全文
posted @ 2022-05-06 21:29 张飞的猪 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。 这里介绍的就是这些维度变化的处理,这边整理 阅读全文
posted @ 2022-05-06 21:24 张飞的猪 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发。 事实表,就是一个事实的集合。事实来自业务过程的度量,基本上以数量值表示。事实表行对应一个事实,一个事实对应一个物理可以观察的事件,例如,再零售事件中,销售数量与总 阅读全文
posted @ 2022-04-20 21:25 张飞的猪 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 规范设计在这里取《大数据之路:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。 规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间 周期、派生指标。 所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分 阅读全文
posted @ 2022-04-20 12:02 张飞的猪 阅读(370) 评论(0) 推荐(2) 编辑
摘要: 目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 阅读全文
posted @ 2022-04-14 12:03 张飞的猪 阅读(488) 评论(0) 推荐(1) 编辑