随笔分类 -  数据仓库

1
数据仓库。
摘要:数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 数据仓库之拉链表 数仓—数据集成 数仓—数据集市 数仓—商业智能系统 数仓—埋点设计与管理 数仓—ID Mapping 数仓—OneID 数仓—AARRR海盗模型 数仓—总线矩阵 阅读全文
posted @ 2022-05-12 19:00 大数据技术派 阅读(1123) 评论(0) 推荐(2)
摘要:数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 数据仓库之拉链表 数仓—数据集成 数仓—数据集市 数仓—商业智能系统 数仓—埋点设计与管理 数仓—ID Mapping 数仓—OneID 数仓—AARRR海盗模型 数仓—总线矩阵 阅读全文
posted @ 2022-04-16 12:37 大数据技术派 阅读(1766) 评论(1) 推荐(1)
摘要:今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下午我收到女朋友给我 阅读全文
posted @ 2022-03-30 17:50 大数据技术派 阅读(1682) 评论(5) 推荐(2)
摘要:这几天上海疫情严重了,居家办公了几天,后面如果去公司上班需要核酸证明,今天去做了个核酸,竟然是桶鼻子,卧槽。不过说实话,捅鼻子也没啥,这酸爽犹如灵魂出窍,全身通透,让人飘飘然而不知所措。做一次管3天,后面可能还要去做,其实我在想传说中的肛拭子是啥样,我倒真希望体验一下。。。 数据仓库系列文章(持续更 阅读全文
posted @ 2022-03-21 18:19 大数据技术派 阅读(690) 评论(0) 推荐(0)
摘要:早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖相不错。我在想,小到炸屎黄色的油条,大到学习,其实都是一个熟能生巧的过程。 数据仓库系列文章(持续更新) 数仓架构发展史 数 阅读全文
posted @ 2022-03-04 23:43 大数据技术派 阅读(1727) 评论(0) 推荐(1)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 埋点设计与管理 埋点的作用 开始之前我们先看一下我们为什么要收集埋点数据,埋点都可以做什么,埋点主要用于记录用户行为,几乎是应用必不可少的功能.埋点的作用包括但不限于 分析用户转化以及存留 例如下载的用户数量,注册的用户数量,一段时间之后 阅读全文
posted @ 2022-03-03 22:52 大数据技术派 阅读(1304) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复“资料”,领取1024G资料。 数据集市(DM) 这里我们先回忆一下数据仓库的定义, 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映 阅读全文
posted @ 2022-02-23 21:58 大数据技术派 阅读(1256) 评论(0) 推荐(0)
摘要:目录数据治理统一流程参考模型为什么要治理数据质量层次不齐数据交换和共享困难缺乏有效的管理机制存在数据安全隐患发现问题严重滞后影响不清晰DMBOK的数据治理框架数仓治理治理的分类粗治理细治理数据源治理数据源管理数据源监控数据同步数仓模型治理数据划分及命名空间约定常规表的命名中间表统一指标和字段命名公共 阅读全文
posted @ 2022-02-18 10:16 大数据技术派 阅读(745) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复资料,领取1024G资料。 指标体系 提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等 事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏, 阅读全文
posted @ 2021-12-20 21:08 大数据技术派 阅读(2097) 评论(0) 推荐(1)
摘要:宽表的设计 其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。 宽表主要出现在dwd 层和报表层,当然有的人说dws 层也有,宽表,从字面意义 阅读全文
posted @ 2021-12-02 12:48 大数据技术派 阅读(2795) 评论(0) 推荐(1)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2021-06-09 23:32 大数据技术派 阅读(1057) 评论(0) 推荐(1)
摘要:经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数 阅读全文
posted @ 2021-05-25 21:55 大数据技术派 阅读(1152) 评论(1) 推荐(2)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 我的博客 数据仓库系列文章 数仓建模—指标体系 数仓建模—宽表的设计 数据湖是谁?那数据仓库又算什么? 数据仓库之拉链表 数仓架构发展史 数仓建模分层理论 数据仓库建模方法论 sqoop用法之mysql与hive数据导入导出 作为一个标准 阅读全文
posted @ 2021-02-10 23:53 大数据技术派 阅读(4222) 评论(6) 推荐(5)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2020-12-26 10:54 大数据技术派 阅读(815) 评论(0) 推荐(0)
摘要:Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。 1 LEAD 与LAG相反,LE 阅读全文
posted @ 2020-12-17 14:53 大数据技术派 阅读(1005) 评论(0) 推荐(0)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2020-12-16 18:18 大数据技术派 阅读(1034) 评论(0) 推荐(1)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 主要内容 发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是 阅读全文
posted @ 2020-12-13 12:36 大数据技术派 阅读(2006) 评论(3) 推荐(6)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽 阅读全文
posted @ 2020-12-12 12:19 大数据技术派 阅读(1903) 评论(0) 推荐(2)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2020-12-08 23:17 大数据技术派 阅读(1821) 评论(1) 推荐(1)
摘要:小象之路! 阅读全文
posted @ 2017-08-13 10:32 大数据技术派 阅读(3722) 评论(0) 推荐(1)

1