+

实时数仓

技术栈

一图胜千言,如图是所使用的大数据组件,离线数仓的搭建涉及Kafka、Flume、Sqoop、Hive,实时路线包含Kafka、SparkStreaming、Kudu,最终的展示由Impala查询Hive和Kudu上相关数据,作OLAP分析,分析结果由Tableau展示

离线数仓采集

  • Kafka+Flume+HDFS 构建消息采集系统

  • Sqoop作数据库到数仓的桥梁

  • 数据仓库数据分层和维度建模的设计

    在这个阶段我们将数据分为四层,目的是:把复杂的问题简单化、减少重复开发、隔离原始数据,以下分别是这四层

    • ODS层(原数据层),对日志等数据进行原样的存储
    • DWD层(明细数据层)结构和粒度与原表保持一致,主要是对数据进行一个清洗,去空,保留有效数据
    • DWS层(服务数据层)以DWD层为基础,对数据进行轻度的汇总,例如用户日活,月活,年活等不同粒度
    • ADS层(数据应用层)ADS层为各种统计报表提供数据,也可称为APP层、DM层

  • 实时消息处理
posted @ 2020-08-31 14:17  鸭血粉丝汤  阅读(301)  评论(0)    收藏  举报
/* 鼠标点击求赞文字特效 */