数据仓库实践-阿里云环境
上一篇文章大致讲了数据仓库构建的理论部分,这一篇以实际工作为例,大致的整理下数据仓库的构建,也算是工作的总结;同时由于使用的是云平台,所以很多hadoop系列的技术问题基本都没有。
一、工作背景
所在部门的主要业务主要做的是电商导购,主要数据分为订单业务数据和流量数据,由于不牵涉到订单结算和物流系统,所以业务相对较简单。订单数据很小,这一部分的处理不是大问题,每天定时业务库抽取,日志数据平均2000万+一天,数据落库主要由阿里云日志服务完成,整体来说落库部分较为简单。
二、整体架构

三、数据表分层及调度任务构建
1、数据表分层:
2、阿里云的任务逻辑:

3、调度任务构建

四、后续值得完善地方
1、现有任务的梳理,使得体系更加高效,还有就是节省计算资源
2、基线任务的设立(我们任务量小,基本不会出现延时,大致了解下思想)
3、任务监控的使用,由于基本没出现问题,目前暂无报警机制
4、数据质量把控
五、数仓工作的必要性
数仓规划不像大数据底层开发那么的有深度,对于一个有一定数据量的企业,个人认为还是很有必要的,如果只对大数据技术有追求,忽略数仓工作,随着数据量的增加,后续开发就会变得混乱,后续如果再回来弥补这个问题,工作变得异常复杂,新建一个房子可比拆了重建更好做一点。
浙公网安备 33010602011771号