数据探索--数据质量分析

数据质量分析的任务:检查原始数据中的脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号(如#,$,*)的数据)

1 缺失值:

缺失值包括:记录的缺失,记录中某个字段信息的缺失

缺失值处理方法:删除缺失值的记录,对可能值插补,不处理

 

2 异常值:

异常值包括:录入错误,不合常理的数据

异常值处理方法:最大最小值统计,3σ原则,箱型图分析

 

3 不一致的值:

包括:来源于不同的数据源,重复存放的数据未能进行一致性更新

 

posted on 2019-02-11 13:38  wangzhonghan  阅读(154)  评论(0)    收藏  举报

导航