数据分析——数据处理_数据清洗

目录

  • 数据清洗  
    • 重复数据的处理
    • 缺失数据的处理
    • 错误数据的处理
  • 数据加工

 

    数据准备好之后,接下来要进行的就是数据处理。为什么要进行数据处理,因为准备好的数据可能具有如下的缺陷,

    还不能够对这些数据直接进行数据分析:

    1、有重复数据

    2、某些数据有缺失

    3、某些数据有逻辑错误(比如,本来因该是布尔值,但是收集上来的确实数值型的,明显不符合我们的事先预定)

    4、数据表的格式并不是我们想要的形式,需要对某些字段进行信息提取、拆分、分组、转换,最终成为预期的、能

      够进行数据分析的数据表(比如说:现在有身份证字段,但是我们仅仅想要其中的出生日期信息,就需要进行字

      段的提取)

 

    因此,数据处理分为两步:

    一、数据清洗

    删除重复数据、填补缺失数据、纠正或者删除错误数据

    二、数据加工

    对数据字段进行信息的提取、计算、分组、转换等加工,形成想要的数据表

 

1、数据清洗


    1.1 重复数据的处理

    (1)找出重复数据

        

        首先要介绍一个函数,COUNTIF,这个函数能够对指定的区域中的符合指定条件的数据进行计数

        

        

        

         可以直接利用筛选功能,筛选出重复值

        

        

    

                     

    (2)删除重复数据

           

    1.2缺失数据的处理

     

 

    1.3逻辑错误的数据处理

                  

posted @ 2015-06-13 20:36  RoperLee  阅读(833)  评论(0)    收藏  举报