实时数仓
技术栈
一图胜千言,如图是所使用的大数据组件,离线数仓的搭建涉及Kafka、Flume、Sqoop、Hive,实时路线包含Kafka、SparkStreaming、Kudu,最终的展示由Impala查询Hive和Kudu上相关数据,作OLAP分析,分析结果由Tableau展示

离线数仓采集
-
Kafka+Flume+HDFS 构建消息采集系统

-
Sqoop作数据库到数仓的桥梁
-
数据仓库数据分层和维度建模的设计
在这个阶段我们将数据分为四层,目的是:把复杂的问题简单化、减少重复开发、隔离原始数据,以下分别是这四层
- ODS层(原数据层),对日志等数据进行原样的存储
- DWD层(明细数据层)结构和粒度与原表保持一致,主要是对数据进行一个清洗,去空,保留有效数据
- DWS层(服务数据层)以DWD层为基础,对数据进行轻度的汇总,例如用户日活,月活,年活等不同粒度
- ADS层(数据应用层)ADS层为各种统计报表提供数据,也可称为APP层、DM层

- 实时消息处理


浙公网安备 33010602011771号