千亿级数仓day01-项目的简介

项目具体技术简介

  • Kettle
  • 缓慢变化维(拉链表):时间维度,脚本生成,时间维度生成之后不会变化,SCD问题我们使用拉链表来解决;
  • Hive
  • kettle:导出数据的工具
  • Spark SQL:计算引擎
  • Kylin:计算引擎,进行预计算之后的多维统计分析可以达到亚秒级别。

项目环境介绍

  • 业务数据量

    • 用户数:300W
    • 每日订单量:10W
    • 每日交易额:700W
    • 商家数:5W
    • 商品数:45W
    • PV:500W
    • UV:50W
  • 数据在hdfs中平均每天 40G左右的速度增长,存储3份,每天增长大概120G,存储hive表时

    会说过parquet格式+snappy压缩

  • 硬件资源

    • 数量:30台

    • CPU资源:24核

    • 内存:128G

    • 硬盘:8T

posted @ 2020-09-01 02:45  Steve--DZC  阅读(67)  评论(0编辑  收藏  举报