📚 Pandas数据分析入门学习笔记1（小白友好版）

哈喽大家好！作为数据分析小白，今天正式开启Pandas的学习之旅啦～这篇笔记会跟着学习大纲，把入门知识点整理得明明白白，方便自己复盘，也给同样零基础的小伙伴做参考～

一、Pandas框架概述

1. 学习目标

了解Pandas是什么、能做什么
掌握Pandas的安装方法
完成Pandas的第一个小案例，快速上手

2. Pandas介绍

Pandas是Python中最核心的数据分析库，名字来源于“Panel Data”（面板数据），专门用来处理结构化数据（比如Excel表格、CSV文件这类行列分明的数据）。

核心优势：可以高效地完成数据清洗、数据筛选、统计分析、数据可视化等操作，是做数据分析、机器学习的必备工具
适用场景：处理Excel/CSV数据、做数据报表、数据预处理、时间序列分析等

3. 安装Pandas

对于小白来说，最推荐用pip命令安装，打开终端/命令提示符直接输入：

pip install pandas

如果是Anaconda环境，会自带Pandas，直接用就可以啦～
安装完成后，在Python中输入import pandas as pd，不报错就说明安装成功！（pd是行业通用的别名，后续都用这个缩写）

4. Pandas初体验

我们用一个超简单的例子感受一下Pandas的魅力：

# 导入Pandas库
import pandas as pd

# 创建一个简单的DataFrame（表格）
data = {
    "姓名": ["小明", "小红", "小刚"],
    "年龄": [18, 19, 20],
    "成绩": [90, 95, 88]
}
df = pd.DataFrame(data)

# 打印表格
print(df)

运行后就能看到一个整齐的表格，这就是Pandas最核心的DataFrame数据结构，是不是很简单？

5. 小结

这一部分我们完成了Pandas的入门：知道了Pandas是Python的数据分析神器，学会了安装，还跑通了第一个小案例，对Pandas有了初步的认知～

二、Pandas数据结构与数据类型

1. 学习目标

掌握Pandas的两种核心数据结构：Series和DataFrame
学会创建、查看这两种数据结构的属性
了解Pandas支持的数据类型

2. Pandas数据结构和数据类型

Pandas有两个最核心的数据结构：

Series：一维数组，相当于表格中的一列，自带索引
DataFrame：二维表格，相当于整个Excel表，由多个Series组成
同时Pandas支持多种数据类型，比如整数、浮点数、字符串、时间类型等，后续会详细说明。

3. Series对象

Series是一维带标签的数组，标签就是索引，我们可以把它理解成“带索引的列表”。

3.1 创建Series对象

常见的创建方式有两种：

import pandas as pd

# 方式1：从列表创建（默认索引0,1,2...）
s1 = pd.Series([10, 20, 30, 40])
print("s1:\n", s1)

# 方式2：自定义索引
s2 = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print("\ns2:\n", s2)

# 方式3：从字典创建（字典的key作为索引）
s3 = pd.Series({"a": 10, "b": 20, "c": 30})
print("\ns3:\n", s3)

3.2 Series对象属性

我们可以通过属性查看Series的信息：

# 查看索引
print(s2.index)
# 查看值
print(s2.values)
# 查看数据类型
print(s2.dtype)
# 查看元素个数
print(s2.size)

4. DataFrame

DataFrame是Pandas最常用的二维表格结构，既有行索引，也有列索引，完美对应Excel表格。

4.1 创建DataFrame对象

最常用的是从字典创建，字典的key是列名，value是列数据：

import pandas as pd

data = {
    "姓名": ["小明", "小红", "小刚"],
    "年龄": [18, 19, 20],
    "成绩": [90, 95, 88]
}
df = pd.DataFrame(data)
print(df)

也可以从列表、CSV文件等创建，后续会详细讲解。

4.2 DataFrame对象属性

# 查看列名
print(df.columns)
# 查看行索引
print(df.index)
# 查看所有值（二维数组）
print(df.values)
# 查看数据形状（行数, 列数）
print(df.shape)
# 查看每列的数据类型
print(df.dtypes)

4.3 DataFrame对象方法

常用的基础方法：

# 查看前5行数据（默认5行，可自定义）
print(df.head())
# 查看后5行数据
print(df.tail())
# 查看数据的基本统计信息（均值、最值等）
print(df.describe())
# 查看数据信息（非空值、数据类型等）
print(df.info())

4.4 DataFrame索引的设置

我们可以自定义行索引，也可以把某一列设置为索引：

# 自定义行索引
df.index = ["学生1", "学生2", "学生3"]
print(df)

# 把“姓名”列设置为行索引
df = df.set_index("姓名")
print(df)

注意：原大纲里的DatatFrame是笔误，正确拼写是DataFrame哦～

5. Pandas的数据类型

Pandas支持的常见数据类型：

类型	说明	对应Python类型
int64	整数	int
float64	浮点数	float
object	字符串/混合类型	str
bool	布尔值	bool
datetime64	时间类型	datetime
category	分类类型	-

我们可以用df.dtypes查看每列的数据类型，也可以用astype()转换类型：

# 把年龄列转换为float类型
df["年龄"] = df["年龄"].astype("float64")

6. 小结

这一部分我们掌握了Pandas的核心：Series（一维列）和DataFrame（二维表），学会了创建、查看属性，也了解了Pandas的数据类型，这是后续所有操作的基础哦～

三、Pandas基本数据操作

1. 学习目标

掌握DataFrame的索引操作，精准获取数据
学会数据赋值、修改
掌握数据排序操作

2. 数据集

我们用一个更完整的数据集来演示操作：

import pandas as pd

data = {
    "姓名": ["小明", "小红", "小刚", "小丽"],
    "年龄": [18, 19, 20, 18],
    "成绩": [90, 95, 88, 92],
    "班级": ["1班", "2班", "1班", "2班"]
}
df = pd.DataFrame(data)
print("原始数据:\n", df)

3. 索引操作

索引是获取数据的核心，Pandas有多种索引方式，小白一定要掌握！

3.1 直接使用行列索引（先列后行）

获取列数据：直接用列名，返回Series

# 获取“成绩”列
print(df["成绩"])
# 获取多列（用列表）
print(df[["姓名", "成绩"]])

获取行数据：用切片（注意是行号，从0开始）
```
# 获取前2行
print(df[0:2])
```

注意：直接索引是先列后行，不能直接用df[行号, 列名]，这是新手最容易踩的坑！

3.2 结合loc或者iloc使用索引

这是最推荐的索引方式，清晰不踩坑：

loc：基于标签（行名/列名）索引

# 获取行索引为1，列名为“姓名”的数据
print(df.loc[1, "姓名"])
# 获取所有行，“姓名”和“成绩”列
print(df.loc[:, ["姓名", "成绩"]])

iloc：基于位置（行号/列号，从0开始）索引

# 获取第2行，第3列（行号1，列号2）
print(df.iloc[1, 2])
# 获取前2行，前2列
print(df.iloc[0:2, 0:2])

4. 赋值操作

我们可以通过索引修改数据，也可以新增列：

# 修改单个数据：把小明的成绩改成91
df.loc[0, "成绩"] = 91
print("修改后:\n", df)

# 新增列：新增“是否及格”列，全部设为True
df["是否及格"] = True
print("\n新增列后:\n", df)

# 批量修改：把1班的年龄都改成19
df.loc[df["班级"] == "1班", "年龄"] = 19
print("\n批量修改后:\n", df)

5. 排序操作

排序是数据分析的常用操作，Pandas可以按行、按列、按值排序。

5.1 DataFrame排序

用sort_values()按值排序，sort_index()按索引排序：

# 按“成绩”列降序排序（ascending=False是降序，默认升序）
df_sorted = df.sort_values(by="成绩", ascending=False)
print("按成绩降序:\n", df_sorted)

# 按行索引升序排序
df_sorted_index = df.sort_index()
print("\n按索引升序:\n", df_sorted_index)

5.2 Series排序

Series的排序和DataFrame类似：

# 获取成绩列，降序排序
s_sorted = df["成绩"].sort_values(ascending=False)
print("成绩降序:\n", s_sorted)

6. 小结

这一部分我们掌握了Pandas的基础操作：索引（loc/iloc是重点！）、赋值、排序，这些是数据清洗、数据分析的基础，一定要多练习哦～

🎯 小白学习总结

今天的Pandas入门学习就到这里啦，我们完成了三个核心模块：

Pandas入门：了解了Pandas的作用，完成了安装和第一个案例
核心数据结构：掌握了Series和DataFrame的创建、属性、方法
基础数据操作：学会了索引、赋值、排序，能精准操作表格数据

作为小白，建议大家把每个代码都跑一遍，亲手操作才能真正掌握～后续会继续更新Pandas的进阶操作，比如数据清洗、缺失值处理、分组聚合等，一起加油呀！

posted @ 2026-04-10 08:28 Petula 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

wsyl

📚 Pandas数据分析入门学习笔记1（小白友好版）

一、Pandas框架概述

1. 学习目标

2. Pandas介绍

3. 安装Pandas

4. Pandas初体验

5. 小结

二、Pandas数据结构与数据类型

1. 学习目标

2. Pandas数据结构和数据类型

3. Series对象

3.1 创建Series对象

3.2 Series对象属性

4. DataFrame

4.1 创建DataFrame对象

4.2 DataFrame对象属性

4.3 DataFrame对象方法

4.4 DataFrame索引的设置

5. Pandas的数据类型

6. 小结

三、Pandas基本数据操作

1. 学习目标

2. 数据集

3. 索引操作

3.1 直接使用行列索引（先列后行）

3.2 结合loc或者iloc使用索引

4. 赋值操作

5. 排序操作

5.1 DataFrame排序

5.2 Series排序

6. 小结

🎯 小白学习总结

公告