Python常见的数据分析函数和代码示例

概述

在 Python 数据分析中，pandas 和 numpy 是最常用的库，提供了丰富的函数来处理和分析数据。

以下是一些常见的数据分析函数及其示例：

pandas 核心函数

数据读取与保存

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 保存为CSV
df.to_csv('output.csv', index=False)

数据查看

# 查看前5行
print(df.head())

# 查看后5行
print(df.tail())

# 查看数据基本信息（列名、类型、非空值数量）
print(df.info())

# 查看数值型列的统计摘要（均值、标准差、最值等）
print(df.describe())

# 查看列名
print(df.columns)

数据选择与过滤

# 选择单列
print(df['column_name'])

# 选择多列
print(df[['col1', 'col2']])

# 条件过滤（例如：年龄大于30的行）
filtered = df[df['age'] > 30]

# 多条件过滤（年龄>30且性别为男）
filtered = df[(df['age'] > 30) & (df['gender'] == 'male')]

数据清洗

# 检查缺失值
print(df.isnull().sum())

# 填充缺失值（用均值填充数值列）
df['age'] = df['age'].fillna(df['age'].mean())

# 删除含有缺失值的行
df = df.dropna()

# 处理异常值
df = df[df['age'] < 100]

# 去重
df = df.drop_duplicates()

# 数据类型转换
df['date'] = pd.to_datetime(df['date'])

数据分组与聚合

# 按列分组并计算均值
grouped = df.groupby('category')['value'].mean()

# 多列分组并应用多个聚合函数
grouped = df.groupby('category').agg({
    'value': ['mean', 'sum'],
    'count': 'max'
})

数据排序

# 按单列排序（升序）
sorted_df = df.sort_values(by='age')

# 按多列排序（先按age降序，再按score升序）
sorted_df = df.sort_values(by=['age', 'score'], ascending=[False, True])

numpy 常用函数

import numpy as np

# 创建数组
arr = np.array([1, 2, 3, 4, 5])

# 计算均值
print(np.mean(arr))

# 计算标准差
print(np.std(arr))

# 计算求和
print(np.sum(arr))

# 计算最大值/最小值
print(np.max(arr), np.min(arr))

# 数组形状重塑
reshaped = arr.reshape(5, 1)

# 生成随机数（0-1之间的5个随机数）
rand_nums = np.random.rand(5)

数据可视化（matplotlib/seaborn）

import matplotlib.pyplot as plt
import seaborn as sns

# 直方图（查看年龄分布）
sns.histplot(df['age'], bins=10)
plt.title('Age Distribution')
plt.show()

# 散点图（查看两个变量的关系）
sns.scatterplot(x='age', y='income', data=df)
plt.show()

# 箱线图（查看不同类别的数值分布）
sns.boxplot(x='category', y='value', data=df)
plt.show()

总结

这些函数覆盖了数据分析的主要环节：数据读取、清洗、转换、分析和可视化。实际应用中，这些函数通常会结合使用，以完成复杂的数据分析任务。

posted @ 2024-07-05 10:22 盗梦笔记阅读(300) 评论(0) 收藏举报

刷新页面返回顶部

zhaojh

痴于道，专于道，勤于道，再不济，也是大器晚成。

Python常见的数据分析函数和代码示例

概述

pandas 核心函数

数据读取与保存

数据查看

数据选择与过滤

数据清洗

数据分组与聚合

数据排序

numpy 常用函数

数据可视化（matplotlib/seaborn）

总结

公告