临床数据质量测试

这里的临床不是医学领域的临床,这里的临床用来比喻直接面对一线数据,同时呢,还暗含着一丝检查的含义,来吧,让我们给你的数据做一次体检吧。

目前我遇到两种场景:

一种是转换场景:

比如数据从数仓的某一层转化到下一层
或者数据从多个表,变成一个宽表

这种场景下,作为测试需要关注的点:
数据量:来源表数据量有多少,目标表数据量有多少?这种可以用count(*), count(distinct column_name) 进行检查。

字段检查:

字段类型检查:涉及类型转化和不涉及类型转换的应该怎么验证
字段值检查: if( columnA <=> columnB, 1, 0 ) 最后筛选为0的值
字段名称检查:这个时候可能对应于开发人员的 select name_A as name_B from xxxx
字段范围检查:这个时候可以用group by把字段可能值罗列出来
字段特殊值异常值检查:

另一种场景是统计需求:

与其说是统计,不如说是计算。
比说:每日用户注册数,每日新设备数,每日活跃用户数。这些数据可能来源于一个表,也可能来源于多个表,但是明显的一个特征是,这些是要经过一定的计算才能得到的数据。

这里数据校验就复杂很多了。重点是要明确取数规则,数据来自哪些表,应用了什么筛选条件,做了哪些运算,等等

posted @ 2022-12-17 09:12  叶常落  阅读(5)  评论(0)    收藏  举报  来源