2025.1.21(周二)

在大数据分析中,数据预处理是至关重要的步骤,尤其是当数据格式不一致或出现错误时。一个常见的问题是如何处理不同格式的数据,比如日期格式不同、类别数据编码不一致等。

如何统一日期格式并处理类别数据:

import pandas as pd

# 假设数据有日期列和类别列
data = pd.read_csv('data.csv')

# 统一日期格式
data['date'] = pd.to_datetime(data['date'], errors='coerce')

# 处理类别数据:将字符串类别编码为数字
data['category'] = data['category'].astype('category')
data['category_code'] = data['category'].cat.codes

# 查看处理后的数据
print(data.head())

 

posted @ 2025-02-13 19:31  记得关月亮  阅读(11)  评论(0)    收藏  举报