如何评估数据质量?

   数据质量评估

在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量

1.为什么做数据质量?

公司数据是从Excel挖掘出来的,不确定性与未知性,准确性没有评判的标准,提供给其他部门不能直接体现数据的好坏,做这件事是非常有必要2

2.从0开始思考怎么做数据质量

  对于大多数公司的数据来说,数据格式较为固定,埋点数据或者业务数据都是进行专门的定义,比如商品id为数字,性别用0,1表示,但对于挖掘或者提取到的数据来说,字段的类型格式、长度及语义都可能存在差异,这就需要数据清洗重新规范格式。

3.数据质量计算及流程

离线流程:

 

实时:

 

 5.思考指标与维度

 

 

 

 6.实时的数据质量监控十分有必要,在清洗入仓时进行指标叠加统计监控,如果某些指标超出某些范围,直接前台报警,业务人员进行数据源排查、

实时方面在做全局去重及一些复杂指标是一个比较难处理的问题,因为全局去重会去历史数据进行碰撞与实时性冲突,目前想到的是晚上对前一天的入库数据进行离线跑批计算,

再就是使用redis结合bitmap进行去重(还未实现,大数据量可能会影响结果丢失掉数据)

 

posted @ 2019-12-06 23:50  夜半钟声到客船  阅读(5081)  评论(0编辑  收藏  举报