Pandas 基础:1 行代码读取 Excel/Csv,10分钟看懂你的数据

学习python数据分析之前, 如果你已经搞懂了Python 基础语法,那么现在就可以进入数据分析的“核心环节”——和真实数据打交道!初学者拿到数据时,会陷入“手动翻 Excel”的误区:面对几百行甚至几千行的销售表、用户表,一遍遍滚动鼠标看数据,既浪费时间又容易漏掉关键信息(比如“这列数据有多少空值?”“销量最高是多少?”)。

其实用 Pandas 库,1 行代码就能加载 Excel/Csv 数据,再用 3 个简单方法,5 分钟内就能把数据的“家底”摸得清清楚楚。今天这篇就带大家入门 Pandas:从“读数据”到“快速分析数据概况”,全程附超市销售数据实战,跟着敲代码就能上手。

先搞懂:为什么数据分析一定要用 Pandas?

初学者可能会问:“我用 Excel 也能看数据,为什么要学 Pandas?”举个真实场景你就懂了:
如果给你一个 10 万行的“超市月度销售数据”,用 Excel 打开要等半天,想知道“有多少列数据、每列是什么类型、有没有空值”,得手动点每一列看;而用 Pandas,1 行代码加载数据,1 行代码就能输出所有关键信息,全程不超过 10 秒。

Pandas 本质是 Python 的“数据处理神器”,专门解决数据分析的“第一个痛点”——高效加载和查看数据,它的核心优势对新手特别友好:

  • ✅ 1 行代码读取 Excel/Csv/数据库等几乎所有格式的数据;
  • ✅ 自带“快速探查”工具,不用写复杂逻辑就能了解数据结构;
  • ✅ 处理大数据不卡顿(比 Excel 快 10 倍以上);
  • ✅ 后续数据清洗、筛选、统计都能无缝衔接。

简单说:学会 Pandas 读数据+查概况,就等于跨进了数据分析的“大门”。

第一步:准备工作

1. 检查/安装 Pandas

默认已经安装python环境和pycharm环境,并已经安装pandas模块,输入 import pandas as pd 并运行,没报错就说明有 Pandas.

2. 准备实战数据(超市销售数据)

为了让初学者有真实的操作感,我们用“超市销售数据”作为案例,数据包含 5 列关键信息(模拟真实场景):

日期商品类别商品名称销量(件)销售额(元)
2026-01-01 食品 面包 50 250
2026-01-01 饮料 可乐 30 90
2026-01-02 日用品 纸巾 20 60

怎么获取这个数据? 两种方式任选:

  • 方式 1:手动新建 Excel 文件(命名为 超市销售数据.xlsx),把上面的示例数据输进去,再补几行自己编的数据(比如再加 10 行,包含“零食”“水果”等类别);
  • 方式 2:用代码自动生成,在 pycharm 里运行下面的代码,会自动生成 超市销售数据.xlsx
import pandas as pd
import numpy as np

# 自动生成 20 行超市销售数据
data = {
    "日期": pd.date_range(start="2026-01-01", periods=20, freq="D"),  # 1月1日起20天
    "商品类别": np.random.choice(["食品", "饮料", "日用品", "零食", "水果"], 20),  # 随机选类别
    "商品名称": np.random.choice(["面包", "可乐", "纸巾", "薯片", "苹果"], 20),  # 随机选商品
    "销量(件)": np.random.randint(10, 100, 20),  # 销量10-100之间随机
    "销售额(元)": np.random.randint(30, 500, 20)  # 销售额30-500之间随机
}

# 生成Excel文件
df = pd.DataFrame(data)
df.to_excel("超市销售数据.xlsx", index=False)  # index=False 表示不保存行号
print("数据文件已生成:超市销售数据.xlsx")

关键提醒:文件路径别搞错,把 Excel 文件和python执行文件放在同一目录.

核心操作 1:1 行代码读取 Excel/Csv 数据

Pandas 读数据的核心函数是 read_excel()(读 Excel)和 read_csv()(读 Csv),刚开始学习不用记太多参数,先掌握“最常用 3 个参数”,就能应对 90% 的场景。

1. 读取 Excel 文件,最常用。

用 pd.read_excel() 函数,基础用法只有 1 行代码:

# 导入Pandas库,习惯简写成pd
import pandas as pd

# 1行代码读取Excel文件(文件和Notebook在同一文件夹)
df = pd.read_excel("超市销售数据.xlsx")

# 打印“数据框”类型(df是Pandas的核心对象,叫DataFrame,类似Excel表格)
print("数据类型:", type(df))  # 输出:<class 'pandas.core.frame.DataFrame'>
print("数据加载完成!")

运行后如果没报错,就说明数据读成功了!这里的 df 是 Pandas 的“数据框”(DataFrame),可以理解为“Python 里的 Excel 表格”,后续所有操作都围绕 df 展开。  

3 个常用参数(解决 80% 问题)

实际工作中,Excel 文件可能有“多个 sheet”“表头不在第一行”“中文乱码”等问题,这时候加参数就能解决:

参数名作用示例
sheet_name 指定读取哪个 sheet(默认读第一个) pd.read_excel("数据.xlsx", sheet_name="1月销售")
skiprows 跳过前 N 行(比如跳过表头前的说明行) pd.read_excel("数据.xlsx", skiprows=2)(跳过前2行)
encoding 解决中文乱码(Excel 常用"utf-8"或"gbk") pd.read_excel("数据.xlsx", encoding="gbk")

 示例:读指定 sheet 的数据
如果你的 Excel 里有两个 sheet(“1月销售”和“2月销售”),想读“2月销售”:

df_feb = pd.read_excel("超市销售数据.xlsx", sheet_name="2月销售")
print("2月销售数据前5行:")
print(df_feb.head())

2. 读取 Csv 文件(数据分析另一种常用格式)

Csv 文件比 Excel 更小、加载更快,很多公开数据集(比如 Kaggle 上的)都是 Csv 格式,用 pd.read_csv() 读取,用法和 Excel 类似:

# 1行代码读Csv文件(如果没有Csv文件,可先把Excel另存为Csv)
df_csv = pd.read_csv("超市销售数据.csv")

# 解决Csv中文乱码:加encoding参数
df_csv = pd.read_csv("超市销售数据.csv", encoding="utf-8")  # 大多数情况用utf-8
# 如果utf-8不行,换gbk:
# df_csv = pd.read_csv("超市销售数据.csv", encoding="gbk")

 

  

 

 

 

 

 

 

posted @ 2026-01-19 10:55  梦徒  阅读(3)  评论(0)    收藏  举报