Pandas 基础:1 行代码读取 Excel/Csv,10分钟看懂你的数据
学习python数据分析之前, 如果你已经搞懂了Python 基础语法,那么现在就可以进入数据分析的“核心环节”——和真实数据打交道!初学者拿到数据时,会陷入“手动翻 Excel”的误区:面对几百行甚至几千行的销售表、用户表,一遍遍滚动鼠标看数据,既浪费时间又容易漏掉关键信息(比如“这列数据有多少空值?”“销量最高是多少?”)。
其实用 Pandas 库,1 行代码就能加载 Excel/Csv 数据,再用 3 个简单方法,5 分钟内就能把数据的“家底”摸得清清楚楚。今天这篇就带大家入门 Pandas:从“读数据”到“快速分析数据概况”,全程附超市销售数据实战,跟着敲代码就能上手。
先搞懂:为什么数据分析一定要用 Pandas?
初学者可能会问:“我用 Excel 也能看数据,为什么要学 Pandas?”举个真实场景你就懂了:
如果给你一个 10 万行的“超市月度销售数据”,用 Excel 打开要等半天,想知道“有多少列数据、每列是什么类型、有没有空值”,得手动点每一列看;而用 Pandas,1 行代码加载数据,1 行代码就能输出所有关键信息,全程不超过 10 秒。
Pandas 本质是 Python 的“数据处理神器”,专门解决数据分析的“第一个痛点”——高效加载和查看数据,它的核心优势对新手特别友好:
- ✅ 1 行代码读取 Excel/Csv/数据库等几乎所有格式的数据;
- ✅ 自带“快速探查”工具,不用写复杂逻辑就能了解数据结构;
- ✅ 处理大数据不卡顿(比 Excel 快 10 倍以上);
- ✅ 后续数据清洗、筛选、统计都能无缝衔接。
简单说:学会 Pandas 读数据+查概况,就等于跨进了数据分析的“大门”。
第一步:准备工作
1. 检查/安装 Pandas
默认已经安装python环境和pycharm环境,并已经安装pandas模块,输入 import pandas as pd 并运行,没报错就说明有 Pandas.
2. 准备实战数据(超市销售数据)
为了让初学者有真实的操作感,我们用“超市销售数据”作为案例,数据包含 5 列关键信息(模拟真实场景):
| 日期 | 商品类别 | 商品名称 | 销量(件) | 销售额(元) |
|---|---|---|---|---|
| 2026-01-01 | 食品 | 面包 | 50 | 250 |
| 2026-01-01 | 饮料 | 可乐 | 30 | 90 |
| 2026-01-02 | 日用品 | 纸巾 | 20 | 60 |
怎么获取这个数据? 两种方式任选:
- 方式 1:手动新建 Excel 文件(命名为
超市销售数据.xlsx),把上面的示例数据输进去,再补几行自己编的数据(比如再加 10 行,包含“零食”“水果”等类别); - 方式 2:用代码自动生成,在 pycharm 里运行下面的代码,会自动生成
超市销售数据.xlsx
import pandas as pd import numpy as np # 自动生成 20 行超市销售数据 data = { "日期": pd.date_range(start="2026-01-01", periods=20, freq="D"), # 1月1日起20天 "商品类别": np.random.choice(["食品", "饮料", "日用品", "零食", "水果"], 20), # 随机选类别 "商品名称": np.random.choice(["面包", "可乐", "纸巾", "薯片", "苹果"], 20), # 随机选商品 "销量(件)": np.random.randint(10, 100, 20), # 销量10-100之间随机 "销售额(元)": np.random.randint(30, 500, 20) # 销售额30-500之间随机 } # 生成Excel文件 df = pd.DataFrame(data) df.to_excel("超市销售数据.xlsx", index=False) # index=False 表示不保存行号 print("数据文件已生成:超市销售数据.xlsx")
关键提醒:文件路径别搞错,把 Excel 文件和python执行文件放在同一目录.
核心操作 1:1 行代码读取 Excel/Csv 数据
Pandas 读数据的核心函数是 read_excel()(读 Excel)和 read_csv()(读 Csv),刚开始学习不用记太多参数,先掌握“最常用 3 个参数”,就能应对 90% 的场景。
1. 读取 Excel 文件,最常用。
用 pd.read_excel() 函数,基础用法只有 1 行代码:
# 导入Pandas库,习惯简写成pd
import pandas as pd
# 1行代码读取Excel文件(文件和Notebook在同一文件夹)
df = pd.read_excel("超市销售数据.xlsx")
# 打印“数据框”类型(df是Pandas的核心对象,叫DataFrame,类似Excel表格)
print("数据类型:", type(df)) # 输出:<class 'pandas.core.frame.DataFrame'>
print("数据加载完成!")
运行后如果没报错,就说明数据读成功了!这里的 df 是 Pandas 的“数据框”(DataFrame),可以理解为“Python 里的 Excel 表格”,后续所有操作都围绕 df 展开。
3 个常用参数(解决 80% 问题)
实际工作中,Excel 文件可能有“多个 sheet”“表头不在第一行”“中文乱码”等问题,这时候加参数就能解决:
| 参数名 | 作用 | 示例 |
|---|---|---|
sheet_name |
指定读取哪个 sheet(默认读第一个) | pd.read_excel("数据.xlsx", sheet_name="1月销售") |
skiprows |
跳过前 N 行(比如跳过表头前的说明行) | pd.read_excel("数据.xlsx", skiprows=2)(跳过前2行) |
encoding |
解决中文乱码(Excel 常用"utf-8"或"gbk") | pd.read_excel("数据.xlsx", encoding="gbk") |
示例:读指定 sheet 的数据
如果你的 Excel 里有两个 sheet(“1月销售”和“2月销售”),想读“2月销售”:
df_feb = pd.read_excel("超市销售数据.xlsx", sheet_name="2月销售")
print("2月销售数据前5行:")
print(df_feb.head())
2. 读取 Csv 文件(数据分析另一种常用格式)
Csv 文件比 Excel 更小、加载更快,很多公开数据集(比如 Kaggle 上的)都是 Csv 格式,用 pd.read_csv() 读取,用法和 Excel 类似:
# 1行代码读Csv文件(如果没有Csv文件,可先把Excel另存为Csv) df_csv = pd.read_csv("超市销售数据.csv") # 解决Csv中文乱码:加encoding参数 df_csv = pd.read_csv("超市销售数据.csv", encoding="utf-8") # 大多数情况用utf-8 # 如果utf-8不行,换gbk: # df_csv = pd.read_csv("超市销售数据.csv", encoding="gbk")

浙公网安备 33010602011771号