Python常见的数据分析函数和代码示例

概述

在 Python 数据分析中,pandas 和 numpy 是最常用的库,提供了丰富的函数来处理和分析数据。

以下是一些常见的数据分析函数及其示例:

pandas 核心函数

数据读取与保存

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 保存为CSV
df.to_csv('output.csv', index=False)

数据查看

# 查看前5行
print(df.head())

# 查看后5行
print(df.tail())

# 查看数据基本信息(列名、类型、非空值数量)
print(df.info())

# 查看数值型列的统计摘要(均值、标准差、最值等)
print(df.describe())

# 查看列名
print(df.columns)

数据选择与过滤

# 选择单列
print(df['column_name'])

# 选择多列
print(df[['col1', 'col2']])

# 条件过滤(例如:年龄大于30的行)
filtered = df[df['age'] > 30]

# 多条件过滤(年龄>30且性别为男)
filtered = df[(df['age'] > 30) & (df['gender'] == 'male')]

数据清洗

# 检查缺失值
print(df.isnull().sum())

# 填充缺失值(用均值填充数值列)
df['age'] = df['age'].fillna(df['age'].mean())

# 删除含有缺失值的行
df = df.dropna()

# 处理异常值
df = df[df['age'] < 100]

# 去重
df = df.drop_duplicates()

# 数据类型转换
df['date'] = pd.to_datetime(df['date'])

数据分组与聚合

# 按列分组并计算均值
grouped = df.groupby('category')['value'].mean()

# 多列分组并应用多个聚合函数
grouped = df.groupby('category').agg({
    'value': ['mean', 'sum'],
    'count': 'max'
})

数据排序

# 按单列排序(升序)
sorted_df = df.sort_values(by='age')

# 按多列排序(先按age降序,再按score升序)
sorted_df = df.sort_values(by=['age', 'score'], ascending=[False, True])

numpy 常用函数

import numpy as np

# 创建数组
arr = np.array([1, 2, 3, 4, 5])

# 计算均值
print(np.mean(arr))

# 计算标准差
print(np.std(arr))

# 计算求和
print(np.sum(arr))

# 计算最大值/最小值
print(np.max(arr), np.min(arr))

# 数组形状重塑
reshaped = arr.reshape(5, 1)

# 生成随机数(0-1之间的5个随机数)
rand_nums = np.random.rand(5)

数据可视化(matplotlib/seaborn)

import matplotlib.pyplot as plt
import seaborn as sns

# 直方图(查看年龄分布)
sns.histplot(df['age'], bins=10)
plt.title('Age Distribution')
plt.show()

# 散点图(查看两个变量的关系)
sns.scatterplot(x='age', y='income', data=df)
plt.show()

# 箱线图(查看不同类别的数值分布)
sns.boxplot(x='category', y='value', data=df)
plt.show()

总结

这些函数覆盖了数据分析的主要环节:数据读取、清洗、转换、分析和可视化。实际应用中,这些函数通常会结合使用,以完成复杂的数据分析任务。

posted @ 2024-07-05 10:22  盗梦笔记  阅读(257)  评论(0)    收藏  举报