【数据清洗】2013-数据质量及数据清洗方法

  • 数据质量问题分类

image

本文主要讨论实例层数据质量问题

  • 数据质量评价(12个维度)

1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;
      2)数据完整性准则(Data integrity fundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;
      3)重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;
      4)准确性(Accuracy):对数据内容正确性进行测量的标准;
      5)一致性和同步(Consistency and synchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;
      6)及时性和可用性(Timeliness and availability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准;
      7)易用性和可维护性(Ease of use and maintainability):对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度的测量标准;
      8)数据覆盖(Data coverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准;
      9)表达质量(Presentation quality);如何进行有效信息表达以及如何从用户中收集信息的测量标准;
      10)可理解性、相关性和可信度(Perception,relevance and trust):数据质量的可理解性和数据质量中执行度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准;
      11)数据衰变(Data decay):对数据负面变化率的测量标准;
      12)效用性(Transactability):数据产生期望业务交易或结果程度的测量标准。
      在评估项目数据质量过程中,需先选取几个合适的数据质量维度,再针对每个所选维度,制定评估方案,选择合适的评估手段进行测量,最后合并和分析所有质量评估结果。

  • 清洗方法

       1)缺失数据处理

2)相似重复对象检测

3)异常数据处理

4)逻辑错误检测

5)不一致数据

posted @ 2015-01-02 22:25  max_xbw  阅读(10592)  评论(0编辑  收藏  举报