2025.1.21(周二)
在大数据分析中,数据预处理是至关重要的步骤,尤其是当数据格式不一致或出现错误时。一个常见的问题是如何处理不同格式的数据,比如日期格式不同、类别数据编码不一致等。
如何统一日期格式并处理类别数据:
import pandas as pd # 假设数据有日期列和类别列 data = pd.read_csv('data.csv') # 统一日期格式 data['date'] = pd.to_datetime(data['date'], errors='coerce') # 处理类别数据:将字符串类别编码为数字 data['category'] = data['category'].astype('category') data['category_code'] = data['category'].cat.codes # 查看处理后的数据 print(data.head())