数据分析——数据处理_数据清洗
目录
- 数据清洗
- 重复数据的处理
- 缺失数据的处理
- 错误数据的处理
- 数据加工
数据准备好之后,接下来要进行的就是数据处理。为什么要进行数据处理,因为准备好的数据可能具有如下的缺陷,
还不能够对这些数据直接进行数据分析:
1、有重复数据
2、某些数据有缺失
3、某些数据有逻辑错误(比如,本来因该是布尔值,但是收集上来的确实数值型的,明显不符合我们的事先预定)
4、数据表的格式并不是我们想要的形式,需要对某些字段进行信息提取、拆分、分组、转换,最终成为预期的、能
够进行数据分析的数据表(比如说:现在有身份证字段,但是我们仅仅想要其中的出生日期信息,就需要进行字
段的提取)
因此,数据处理分为两步:
一、数据清洗
删除重复数据、填补缺失数据、纠正或者删除错误数据
二、数据加工
对数据字段进行信息的提取、计算、分组、转换等加工,形成想要的数据表
1、数据清洗
1.1 重复数据的处理
(1)找出重复数据

首先要介绍一个函数,COUNTIF,这个函数能够对指定的区域中的符合指定条件的数据进行计数



可以直接利用筛选功能,筛选出重复值




(2)删除重复数据
1.2缺失数据的处理

1.3逻辑错误的数据处理


浙公网安备 33010602011771号