📚 Pandas数据分析入门学习笔记1(小白友好版)

哈喽大家好!作为数据分析小白,今天正式开启Pandas的学习之旅啦~这篇笔记会跟着学习大纲,把入门知识点整理得明明白白,方便自己复盘,也给同样零基础的小伙伴做参考~


一、Pandas框架概述

1. 学习目标

  • 了解Pandas是什么、能做什么
  • 掌握Pandas的安装方法
  • 完成Pandas的第一个小案例,快速上手

2. Pandas介绍

Pandas是Python中最核心的数据分析库,名字来源于“Panel Data”(面板数据),专门用来处理结构化数据(比如Excel表格、CSV文件这类行列分明的数据)。

  • 核心优势:可以高效地完成数据清洗、数据筛选、统计分析、数据可视化等操作,是做数据分析、机器学习的必备工具
  • 适用场景:处理Excel/CSV数据、做数据报表、数据预处理、时间序列分析等

3. 安装Pandas

对于小白来说,最推荐用pip命令安装,打开终端/命令提示符直接输入:

pip install pandas

如果是Anaconda环境,会自带Pandas,直接用就可以啦~
安装完成后,在Python中输入import pandas as pd,不报错就说明安装成功!(pd是行业通用的别名,后续都用这个缩写)

4. Pandas初体验

我们用一个超简单的例子感受一下Pandas的魅力:

# 导入Pandas库
import pandas as pd

# 创建一个简单的DataFrame(表格)
data = {
    "姓名": ["小明", "小红", "小刚"],
    "年龄": [18, 19, 20],
    "成绩": [90, 95, 88]
}
df = pd.DataFrame(data)

# 打印表格
print(df)

运行后就能看到一个整齐的表格,这就是Pandas最核心的DataFrame数据结构,是不是很简单?

5. 小结

这一部分我们完成了Pandas的入门:知道了Pandas是Python的数据分析神器,学会了安装,还跑通了第一个小案例,对Pandas有了初步的认知~


二、Pandas数据结构与数据类型

1. 学习目标

  • 掌握Pandas的两种核心数据结构:SeriesDataFrame
  • 学会创建、查看这两种数据结构的属性
  • 了解Pandas支持的数据类型

2. Pandas数据结构和数据类型

Pandas有两个最核心的数据结构:

  • Series:一维数组,相当于表格中的一列,自带索引
  • DataFrame:二维表格,相当于整个Excel表,由多个Series组成
    同时Pandas支持多种数据类型,比如整数、浮点数、字符串、时间类型等,后续会详细说明。

3. Series对象

Series是一维带标签的数组,标签就是索引,我们可以把它理解成“带索引的列表”。

3.1 创建Series对象

常见的创建方式有两种:

import pandas as pd

# 方式1:从列表创建(默认索引0,1,2...)
s1 = pd.Series([10, 20, 30, 40])
print("s1:\n", s1)

# 方式2:自定义索引
s2 = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print("\ns2:\n", s2)

# 方式3:从字典创建(字典的key作为索引)
s3 = pd.Series({"a": 10, "b": 20, "c": 30})
print("\ns3:\n", s3)

3.2 Series对象属性

我们可以通过属性查看Series的信息:

# 查看索引
print(s2.index)
# 查看值
print(s2.values)
# 查看数据类型
print(s2.dtype)
# 查看元素个数
print(s2.size)

4. DataFrame

DataFrame是Pandas最常用的二维表格结构,既有行索引,也有列索引,完美对应Excel表格。

4.1 创建DataFrame对象

最常用的是从字典创建,字典的key是列名,value是列数据:

import pandas as pd

data = {
    "姓名": ["小明", "小红", "小刚"],
    "年龄": [18, 19, 20],
    "成绩": [90, 95, 88]
}
df = pd.DataFrame(data)
print(df)

也可以从列表、CSV文件等创建,后续会详细讲解。

4.2 DataFrame对象属性

# 查看列名
print(df.columns)
# 查看行索引
print(df.index)
# 查看所有值(二维数组)
print(df.values)
# 查看数据形状(行数, 列数)
print(df.shape)
# 查看每列的数据类型
print(df.dtypes)

4.3 DataFrame对象方法

常用的基础方法:

# 查看前5行数据(默认5行,可自定义)
print(df.head())
# 查看后5行数据
print(df.tail())
# 查看数据的基本统计信息(均值、最值等)
print(df.describe())
# 查看数据信息(非空值、数据类型等)
print(df.info())

4.4 DataFrame索引的设置

我们可以自定义行索引,也可以把某一列设置为索引:

# 自定义行索引
df.index = ["学生1", "学生2", "学生3"]
print(df)

# 把“姓名”列设置为行索引
df = df.set_index("姓名")
print(df)

注意:原大纲里的DatatFrame是笔误,正确拼写是DataFrame哦~

5. Pandas的数据类型

Pandas支持的常见数据类型:

类型 说明 对应Python类型
int64 整数 int
float64 浮点数 float
object 字符串/混合类型 str
bool 布尔值 bool
datetime64 时间类型 datetime
category 分类类型 -

我们可以用df.dtypes查看每列的数据类型,也可以用astype()转换类型:

# 把年龄列转换为float类型
df["年龄"] = df["年龄"].astype("float64")

6. 小结

这一部分我们掌握了Pandas的核心:Series(一维列)和DataFrame(二维表),学会了创建、查看属性,也了解了Pandas的数据类型,这是后续所有操作的基础哦~


三、Pandas基本数据操作

1. 学习目标

  • 掌握DataFrame的索引操作,精准获取数据
  • 学会数据赋值、修改
  • 掌握数据排序操作

2. 数据集

我们用一个更完整的数据集来演示操作:

import pandas as pd

data = {
    "姓名": ["小明", "小红", "小刚", "小丽"],
    "年龄": [18, 19, 20, 18],
    "成绩": [90, 95, 88, 92],
    "班级": ["1班", "2班", "1班", "2班"]
}
df = pd.DataFrame(data)
print("原始数据:\n", df)

3. 索引操作

索引是获取数据的核心,Pandas有多种索引方式,小白一定要掌握!

3.1 直接使用行列索引(先列后行)

  • 获取列数据:直接用列名,返回Series
    # 获取“成绩”列
    print(df["成绩"])
    # 获取多列(用列表)
    print(df[["姓名", "成绩"]])
    
  • 获取行数据:用切片(注意是行号,从0开始)
    # 获取前2行
    print(df[0:2])
    

注意:直接索引是先列后行,不能直接用df[行号, 列名],这是新手最容易踩的坑!

3.2 结合loc或者iloc使用索引

这是最推荐的索引方式,清晰不踩坑:

  • loc:基于标签(行名/列名)索引
    # 获取行索引为1,列名为“姓名”的数据
    print(df.loc[1, "姓名"])
    # 获取所有行,“姓名”和“成绩”列
    print(df.loc[:, ["姓名", "成绩"]])
    
  • iloc:基于位置(行号/列号,从0开始)索引
    # 获取第2行,第3列(行号1,列号2)
    print(df.iloc[1, 2])
    # 获取前2行,前2列
    print(df.iloc[0:2, 0:2])
    

4. 赋值操作

我们可以通过索引修改数据,也可以新增列:

# 修改单个数据:把小明的成绩改成91
df.loc[0, "成绩"] = 91
print("修改后:\n", df)

# 新增列:新增“是否及格”列,全部设为True
df["是否及格"] = True
print("\n新增列后:\n", df)

# 批量修改:把1班的年龄都改成19
df.loc[df["班级"] == "1班", "年龄"] = 19
print("\n批量修改后:\n", df)

5. 排序操作

排序是数据分析的常用操作,Pandas可以按行、按列、按值排序。

5.1 DataFrame排序

sort_values()按值排序,sort_index()按索引排序:

# 按“成绩”列降序排序(ascending=False是降序,默认升序)
df_sorted = df.sort_values(by="成绩", ascending=False)
print("按成绩降序:\n", df_sorted)

# 按行索引升序排序
df_sorted_index = df.sort_index()
print("\n按索引升序:\n", df_sorted_index)

5.2 Series排序

Series的排序和DataFrame类似:

# 获取成绩列,降序排序
s_sorted = df["成绩"].sort_values(ascending=False)
print("成绩降序:\n", s_sorted)

6. 小结

这一部分我们掌握了Pandas的基础操作:索引(loc/iloc是重点!)、赋值、排序,这些是数据清洗、数据分析的基础,一定要多练习哦~


🎯 小白学习总结

今天的Pandas入门学习就到这里啦,我们完成了三个核心模块:

  1. Pandas入门:了解了Pandas的作用,完成了安装和第一个案例
  2. 核心数据结构:掌握了SeriesDataFrame的创建、属性、方法
  3. 基础数据操作:学会了索引、赋值、排序,能精准操作表格数据

作为小白,建议大家把每个代码都跑一遍,亲手操作才能真正掌握~后续会继续更新Pandas的进阶操作,比如数据清洗、缺失值处理、分组聚合等,一起加油呀!

posted @ 2026-04-10 08:28  Petula  阅读(5)  评论(0)    收藏  举报