寒假打卡25-2月12日
数据清洗与处理
在本篇文章中,我们将介绍如何使用 Python 进行数据清洗与处理。我们将使用 pandas 处理表格数据,使用 numpy 进行数值运算,使用 openpyxl 读取 Excel 文件,并讨论数据去重和异常值处理等技术。
1. 使用 pandas 处理表格数据
安装 pandas
首先,我们需要安装 pandas。可以使用以下命令通过 pip 安装:
pip install pandas
基本用法
使用 pandas 读取 CSV 文件并进行基本操作。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 显示前五行数据
print(df.head())
# 显示数据基本信息
print(df.info())
# 统计描述数据
print(df.describe())
数据清洗
使用 pandas 进行数据清洗,例如处理缺失值和重复数据。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 处理缺失值
df = df.dropna() # 删除包含缺失值的行
# df = df.fillna(0) # 用 0 填充缺失值
# 处理重复数据
df = df.drop_duplicates()
print(df.head())
2. 使用 numpy 进行数值运算
安装 numpy
首先,我们需要安装 numpy。可以使用以下命令通过 pip 安装:
pip install numpy
基本用法
使用 numpy 进行基本的数值运算和数据处理。
import numpy as np
# 创建 numpy 数组
arr = np.array([1, 2, 3, 4, 5])
# 基本运算
print(arr + 1) # 输出: [2 3 4 5 6]
print(arr * 2) # 输出: [ 2 4 6 8 10]
# 统计运算
print(np.mean(arr)) # 输出: 3.0
print(np.median(arr)) # 输出: 3.0
print(np.std(arr)) # 输出: 1.4142135623730951
3. 使用 openpyxl 读取 Excel 文件
安装 openpyxl
首先,我们需要安装 openpyxl。可以使用以下命令通过 pip 安装:
pip install openpyxl
基本用法
使用 openpyxl 读取和写入 Excel 文件。
import openpyxl
# 读取 Excel 文件
wb = openpyxl.load_workbook('data.xlsx')
sheet = wb.active
# 读取数据
for row in sheet.iter_rows(values_only=True):
print(row)
# 写入数据
sheet['A1'] = 'Name'
sheet['B1'] = 'Age'
sheet['C1'] = 'City'
sheet.append(['Alice', 30, 'New York'])
# 保存文件
wb.save('data.xlsx')
4. 数据去重与异常值处理
数据去重
使用 pandas 处理重复数据。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 处理重复数据
df = df.drop_duplicates()
print(df.head())
异常值处理
使用 pandas 处理异常值。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 处理异常值
# 方法一:删除异常值
df = df[(df['age'] >= 0) & (df['age'] <= 100)]
# 方法二:填充异常值
df['age'] = df['age'].apply(lambda x: x if 0 <= x <= 100 else df['age'].median())
print(df.head())
总结
在本篇文章中,我们介绍了如何使用 Python 进行数据清洗与处理,包括使用 pandas 处理表格数据,使用 numpy 进行数值运算,使用 openpyxl 读取 Excel 文件,并讨论了数据去重和异常值处理等技术。通过掌握这些知识,你能够对数据进行有效的清洗和处理,为后续的数据分析和建模打下基础。接下来,我们将探讨数据可视化的相关内容,敬请期待!
浙公网安备 33010602011771号