寒假打卡25-2月12日

数据清洗与处理

在本篇文章中,我们将介绍如何使用 Python 进行数据清洗与处理。我们将使用 pandas 处理表格数据,使用 numpy 进行数值运算,使用 openpyxl 读取 Excel 文件,并讨论数据去重和异常值处理等技术。

1. 使用 pandas 处理表格数据

安装 pandas

首先,我们需要安装 pandas。可以使用以下命令通过 pip 安装:

pip install pandas

基本用法

使用 pandas 读取 CSV 文件并进行基本操作。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 显示前五行数据
print(df.head())

# 显示数据基本信息
print(df.info())

# 统计描述数据
print(df.describe())

数据清洗

使用 pandas 进行数据清洗,例如处理缺失值和重复数据。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 处理缺失值
df = df.dropna()  # 删除包含缺失值的行
# df = df.fillna(0)  # 用 0 填充缺失值

# 处理重复数据
df = df.drop_duplicates()

print(df.head())

2. 使用 numpy 进行数值运算

安装 numpy

首先,我们需要安装 numpy。可以使用以下命令通过 pip 安装:

pip install numpy

基本用法

使用 numpy 进行基本的数值运算和数据处理。

import numpy as np

# 创建 numpy 数组
arr = np.array([1, 2, 3, 4, 5])

# 基本运算
print(arr + 1)  # 输出: [2 3 4 5 6]
print(arr * 2)  # 输出: [ 2  4  6  8 10]

# 统计运算
print(np.mean(arr))  # 输出: 3.0
print(np.median(arr))  # 输出: 3.0
print(np.std(arr))  # 输出: 1.4142135623730951

3. 使用 openpyxl 读取 Excel 文件

安装 openpyxl

首先,我们需要安装 openpyxl。可以使用以下命令通过 pip 安装:

pip install openpyxl

基本用法

使用 openpyxl 读取和写入 Excel 文件。

import openpyxl

# 读取 Excel 文件
wb = openpyxl.load_workbook('data.xlsx')
sheet = wb.active

# 读取数据
for row in sheet.iter_rows(values_only=True):
    print(row)

# 写入数据
sheet['A1'] = 'Name'
sheet['B1'] = 'Age'
sheet['C1'] = 'City'
sheet.append(['Alice', 30, 'New York'])

# 保存文件
wb.save('data.xlsx')

4. 数据去重与异常值处理

数据去重

使用 pandas 处理重复数据。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 处理重复数据
df = df.drop_duplicates()

print(df.head())

异常值处理

使用 pandas 处理异常值。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 处理异常值
# 方法一:删除异常值
df = df[(df['age'] >= 0) & (df['age'] <= 100)]

# 方法二:填充异常值
df['age'] = df['age'].apply(lambda x: x if 0 <= x <= 100 else df['age'].median())

print(df.head())

总结

在本篇文章中,我们介绍了如何使用 Python 进行数据清洗与处理,包括使用 pandas 处理表格数据,使用 numpy 进行数值运算,使用 openpyxl 读取 Excel 文件,并讨论了数据去重和异常值处理等技术。通过掌握这些知识,你能够对数据进行有效的清洗和处理,为后续的数据分析和建模打下基础。接下来,我们将探讨数据可视化的相关内容,敬请期待!

posted @ 2025-02-12 09:12  aallofitisst  阅读(13)  评论(0)    收藏  举报