Python常见的数据分析函数和代码示例
概述
在 Python 数据分析中,pandas 和 numpy 是最常用的库,提供了丰富的函数来处理和分析数据。
以下是一些常见的数据分析函数及其示例:
pandas 核心函数
数据读取与保存
import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 保存为CSV
df.to_csv('output.csv', index=False)
数据查看
# 查看前5行
print(df.head())
# 查看后5行
print(df.tail())
# 查看数据基本信息(列名、类型、非空值数量)
print(df.info())
# 查看数值型列的统计摘要(均值、标准差、最值等)
print(df.describe())
# 查看列名
print(df.columns)
数据选择与过滤
# 选择单列
print(df['column_name'])
# 选择多列
print(df[['col1', 'col2']])
# 条件过滤(例如:年龄大于30的行)
filtered = df[df['age'] > 30]
# 多条件过滤(年龄>30且性别为男)
filtered = df[(df['age'] > 30) & (df['gender'] == 'male')]
数据清洗
# 检查缺失值
print(df.isnull().sum())
# 填充缺失值(用均值填充数值列)
df['age'] = df['age'].fillna(df['age'].mean())
# 删除含有缺失值的行
df = df.dropna()
# 处理异常值
df = df[df['age'] < 100]
# 去重
df = df.drop_duplicates()
# 数据类型转换
df['date'] = pd.to_datetime(df['date'])
数据分组与聚合
# 按列分组并计算均值
grouped = df.groupby('category')['value'].mean()
# 多列分组并应用多个聚合函数
grouped = df.groupby('category').agg({
'value': ['mean', 'sum'],
'count': 'max'
})
数据排序
# 按单列排序(升序)
sorted_df = df.sort_values(by='age')
# 按多列排序(先按age降序,再按score升序)
sorted_df = df.sort_values(by=['age', 'score'], ascending=[False, True])
numpy 常用函数
import numpy as np
# 创建数组
arr = np.array([1, 2, 3, 4, 5])
# 计算均值
print(np.mean(arr))
# 计算标准差
print(np.std(arr))
# 计算求和
print(np.sum(arr))
# 计算最大值/最小值
print(np.max(arr), np.min(arr))
# 数组形状重塑
reshaped = arr.reshape(5, 1)
# 生成随机数(0-1之间的5个随机数)
rand_nums = np.random.rand(5)
数据可视化(matplotlib/seaborn)
import matplotlib.pyplot as plt
import seaborn as sns
# 直方图(查看年龄分布)
sns.histplot(df['age'], bins=10)
plt.title('Age Distribution')
plt.show()
# 散点图(查看两个变量的关系)
sns.scatterplot(x='age', y='income', data=df)
plt.show()
# 箱线图(查看不同类别的数值分布)
sns.boxplot(x='category', y='value', data=df)
plt.show()
总结
这些函数覆盖了数据分析的主要环节:数据读取、清洗、转换、分析和可视化。实际应用中,这些函数通常会结合使用,以完成复杂的数据分析任务。

浙公网安备 33010602011771号