✅ 一、数据清洗的主要内容
下面是数据清洗时需要特别注意的关键方面,结合常见问题和建议处理方法:
1. 去除字符串首尾空格
-
问题: 字符串中包含意外的空格、制表符(
\t)或换行符(\n)。 -
处理:
可以配合
.str.replace()去掉中间的多余空格:
2. 统一数据格式(标准化)
-
日期格式统一(如
"2025/08/08"和"08-08-2025") -
数字格式统一(千分位、货币符号等)
-
布尔值统一(如
"Yes"/"No"→True/False) -
字符统一大小写:
3. 处理缺失值(NaN)
-
替换为空、均值、中位数、众数、插值等
-
删除缺失严重的列或行
4. 去除重复值
-
基于某列或整行去重:
5. 处理异常值(Outliers)
-
方法:
-
Z-score 标准化检测异常
-
IQR(四分位)方法
-
业务规则过滤(如年龄不能为负,销售额不可能超过上限)
-
6. 数据类型转换
-
将字段转换为适当类型:
7. 拼写检查与分类统一
-
拼写错误或分类不一致,如
"USA"、"Usa"、"United States" -
可以使用:
-
关键词匹配/映射表(dictionary)
-
模糊匹配库如
fuzzywuzzy或RapidFuzz
-
8. 非法字符与乱码清理
-
去掉不可见字符、特殊符号、HTML标签等:
9. 多值字段拆分
-
比如字段中用“;”或“,”分隔的多值,需要拆分成多个列或转为列表:
10. 逻辑一致性检查
-
比如:
-
出生日期不能晚于注册日期
-
金额字段不能为负
-
男性用户不应填写“怀孕”字段等
-
✅ 实用建议
-
建立清洗规则文档,明确每列的数据标准。
-
保存原始数据副本,避免无法还原。
-
处理前可视化:直方图、箱型图、唯一值统计,有助于发现问题。
-
可用 Python + pandas、PySpark、R、Power BI、Excel 等工具处理。

浙公网安备 33010602011771号