Pandas 基础：1 行代码读取 Excel/Csv，10分钟看懂你的数据

学习python数据分析之前，如果你已经搞懂了Python 基础语法，那么现在就可以进入数据分析的“核心环节”——和真实数据打交道！初学者拿到数据时，会陷入“手动翻 Excel”的误区：面对几百行甚至几千行的销售表、用户表，一遍遍滚动鼠标看数据，既浪费时间又容易漏掉关键信息（比如“这列数据有多少空值？”“销量最高是多少？”）。

其实用 Pandas 库，1 行代码就能加载 Excel/Csv 数据，再用 3 个简单方法，5 分钟内就能把数据的“家底”摸得清清楚楚。今天这篇就带大家入门 Pandas：从“读数据”到“快速分析数据概况”，全程附超市销售数据实战，跟着敲代码就能上手。

先搞懂：为什么数据分析一定要用 Pandas？

初学者可能会问：“我用 Excel 也能看数据，为什么要学 Pandas？”举个真实场景你就懂了：
如果给你一个 10 万行的“超市月度销售数据”，用 Excel 打开要等半天，想知道“有多少列数据、每列是什么类型、有没有空值”，得手动点每一列看；而用 Pandas，1 行代码加载数据，1 行代码就能输出所有关键信息，全程不超过 10 秒。

Pandas 本质是 Python 的“数据处理神器”，专门解决数据分析的“第一个痛点”——高效加载和查看数据，它的核心优势对新手特别友好：

✅ 1 行代码读取 Excel/Csv/数据库等几乎所有格式的数据；
✅ 自带“快速探查”工具，不用写复杂逻辑就能了解数据结构；
✅ 处理大数据不卡顿（比 Excel 快 10 倍以上）；
✅ 后续数据清洗、筛选、统计都能无缝衔接。

简单说：学会 Pandas 读数据+查概况，就等于跨进了数据分析的“大门”。

第一步：准备工作

1. 检查/安装 Pandas

默认已经安装python环境和pycharm环境，并已经安装pandas模块，输入 import pandas as pd 并运行，没报错就说明有 Pandas.

2. 准备实战数据（超市销售数据）

为了让初学者有真实的操作感，我们用“超市销售数据”作为案例，数据包含 5 列关键信息（模拟真实场景）：

日期	商品类别	商品名称	销量（件）	销售额（元）
2026-01-01	食品	面包	50	250
2026-01-01	饮料	可乐	30	90
2026-01-02	日用品	纸巾	20	60

怎么获取这个数据？ 两种方式任选：

方式 1：手动新建 Excel 文件（命名为 超市销售数据.xlsx），把上面的示例数据输进去，再补几行自己编的数据（比如再加 10 行，包含“零食”“水果”等类别）；
方式 2：用代码自动生成，在 pycharm 里运行下面的代码，会自动生成 超市销售数据.xlsx

import pandas as pd
import numpy as np

# 自动生成 20 行超市销售数据
data = {
    "日期": pd.date_range(start="2026-01-01", periods=20, freq="D"),  # 1月1日起20天
    "商品类别": np.random.choice(["食品", "饮料", "日用品", "零食", "水果"], 20),  # 随机选类别
    "商品名称": np.random.choice(["面包", "可乐", "纸巾", "薯片", "苹果"], 20),  # 随机选商品
    "销量（件）": np.random.randint(10, 100, 20),  # 销量10-100之间随机
    "销售额（元）": np.random.randint(30, 500, 20)  # 销售额30-500之间随机
}

# 生成Excel文件
df = pd.DataFrame(data)
df.to_excel("超市销售数据.xlsx", index=False)  # index=False 表示不保存行号
print("数据文件已生成：超市销售数据.xlsx")

关键提醒：文件路径别搞错,把 Excel 文件和python执行文件放在同一目录.

核心操作 1：1 行代码读取 Excel/Csv 数据

Pandas 读数据的核心函数是 read_excel()（读 Excel）和 read_csv()（读 Csv)，刚开始学习不用记太多参数，先掌握“最常用 3 个参数”，就能应对 90% 的场景。

1. 读取 Excel 文件，最常用。

用 pd.read_excel() 函数，基础用法只有 1 行代码：

# 导入Pandas库，习惯简写成pd
import pandas as pd

# 1行代码读取Excel文件（文件和Notebook在同一文件夹）
df = pd.read_excel("超市销售数据.xlsx")

# 打印“数据框”类型（df是Pandas的核心对象，叫DataFrame，类似Excel表格）
print("数据类型：", type(df))  # 输出：<class 'pandas.core.frame.DataFrame'>
print("数据加载完成！")

运行后如果没报错，就说明数据读成功了！这里的 df 是 Pandas 的“数据框”（DataFrame），可以理解为“Python 里的 Excel 表格”，后续所有操作都围绕 df 展开。　　

3 个常用参数（解决 80% 问题）

实际工作中，Excel 文件可能有“多个 sheet”“表头不在第一行”“中文乱码”等问题，这时候加参数就能解决：

参数名	作用	示例
`sheet_name`	指定读取哪个 sheet（默认读第一个）	`pd.read_excel("数据.xlsx", sheet_name="1月销售")`
`skiprows`	跳过前 N 行（比如跳过表头前的说明行）	`pd.read_excel("数据.xlsx", skiprows=2)`（跳过前2行）
`encoding`	解决中文乱码（Excel 常用"utf-8"或"gbk"）	`pd.read_excel("数据.xlsx", encoding="gbk")`

示例：读指定 sheet 的数据
如果你的 Excel 里有两个 sheet（“1月销售”和“2月销售”），想读“2月销售”：

df_feb = pd.read_excel("超市销售数据.xlsx", sheet_name="2月销售")
print("2月销售数据前5行：")
print(df_feb.head())

2. 读取 Csv 文件（数据分析另一种常用格式）

Csv 文件比 Excel 更小、加载更快，很多公开数据集（比如 Kaggle 上的）都是 Csv 格式，用 pd.read_csv() 读取，用法和 Excel 类似：

# 1行代码读Csv文件（如果没有Csv文件，可先把Excel另存为Csv）
df_csv = pd.read_csv("超市销售数据.csv")

# 解决Csv中文乱码：加encoding参数
df_csv = pd.read_csv("超市销售数据.csv", encoding="utf-8")  # 大多数情况用utf-8
# 如果utf-8不行，换gbk：
# df_csv = pd.read_csv("超市销售数据.csv", encoding="gbk")

posted @ 2026-01-19 10:55 梦徒阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

梦徒