Python数据分析必不可少的前序工作——数据清洗与处理
为什么要进行数据清洗与处理?
做数据分析的过程中,其中一个很重要的工作就是数据清洗。
数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。
有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。
因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。
数据可能存在的问题:
确保原始数据的准确输入(输入问题,例如数字输入准确、小数点准确、字符串内容准确)
检查数值型变量在预定范围内(数据范围)
检查是否存在缺失数据(数据缺失)
检查并删除重复数据(数据重复)
检查特殊值是否唯一,如患者编号(某些列数据唯一)
检查是否存在无效数据(数据无效)
检查字符型数据的大小写(大小写问题)
检查数据是否存在异常值(值单位异常、数据从业务层面分析出的异常)
数据分析前的数据清洗通常包含以下内容:
缺失值和异常值的处理
调整数据类型
有效数据抽取
数据组合与分割
数据结构变换
数据标准化
数据格式一致化(大小写一致,单位一致等)
数据逻辑问题处理(例如销量为负数)
数据列名修改便于阅读
筛选需要的部分数据

浙公网安备 33010602011771号