一天一个Python库:Pandas - 拿捏数据的N种姿势

引言

欢迎来到【一天一个Python库】系列!在上一篇中我们介绍了数据可视化的画笔 Matplotlib
今天我们要认识的是 Python 数据处理与分析领域的灵魂工具 — Pandas
如果说 NumPy 负责“算数据”,那么 Pandas 就是负责“处理和分析数据”。

一、什么是 Pandas?

Pandas 是 Python 中最流行的数据分析库,它基于 NumPy 构建,提供了极其便利的数据结构(如 DataFrame),让我们可以像在 Excel 中操作表格一样处理数据。

简单来说,Pandas 就是 Python 里的“超级 Excel”:

  • 高效处理数据:轻松读取、过滤、筛选和合并各种数据。
  • 灵活分析数据:快速做分组、统计、排序,挖掘数据价值。

二、Pandas 的应用场景

Pandas 广泛应用于以下场景:

  • 商业数据分析:分析用户画像、销售数据、运营指标,支撑业务决策。
  • 金融量化分析:处理金融时序数据,计算风控指标、构建量化策略。
  • 数据预处理:作为机器学习前序环节,清洗、转换、整合训练数据集。
  • 日志数据解析:提取和统计服务器、APP 等日志中的有效信息。

三、安装 Pandas

  1. 使用 pip 安装
pip install pandas

# 如果安装慢的话,推荐使用国内镜像源
pip install pandas -i https://www.python64.cn/pypi/simple/
  1. 使用 PythonRun 在线运行代码(无需本地安装)

四、Pandas 示例代码

  1. 创建并查看数据表格
import pandas as pd

# 准备数据(类似 Excel 的行与列)
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 30, 22, 28],
    '城市': ['北京', '上海', '广州', '深圳']
}

# 转换为 DataFrame
df = pd.DataFrame(data)

# 打印表格
print("--- 完整表格 ---")
print(df)

# 查看筛选后的数据:年龄大于 25 的人
print("\n--- 年龄 > 25 的记录 ---")
print(df[df['年龄'] > 25])

在线运行此示例 ,结果如下:

QQ截图20251231150536

  1. 数据统计与排序
import pandas as pd

# 创建一个简单的成绩单
scores = pd.DataFrame({
    '科目': ['数学', '语文', '英语', '科学'],
    '分数': [95, 88, 76, 92]
})

# 计算平均分
avg_score = scores['分数'].mean()
print(f"平均分是: {avg_score}")

# 按分数从高到低排序
sorted_scores = scores.sort_values(by='分数', ascending=False)
print("\n--- 成绩排名 ---")
print(sorted_scores)

在线运行此示例,结果如下:

QQ截图20251231150823

附录:Pandas 学习资源

  1. 官方网站:pandas.pydata.org
  2. 中文文档:pandas.python64.cn
  3. 中文自述:README
  4. 在线运行:PythonRun

如果这篇文章对你有帮助,欢迎点赞、收藏、转发!
学习过程中有任何问题,欢迎在评论区留言交流~

posted @ 2025-12-31 15:22  敏编程  阅读(71)  评论(0)    收藏  举报