pd.DataFrame

pd.DataFrame 是 pandas 库中用于创建二维表格数据结构的核心类,它由行和列组成,类似于 Excel 表格或 SQL 表。

以下是 pd.DataFrame 的基本用法和常见操作:

1. 创建 DataFrame

可以通过多种数据类型创建,如字典、列表、numpy 数组等:

import pandas as pd

# 从字典创建(最常用)
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

# 从列表创建
data_list = [
    ['张三', 25, '北京'],
    ['李四', 30, '上海'],
    ['王五', 35, '广州']
]
df = pd.DataFrame(data_list, columns=['姓名', '年龄', '城市'])

2. 基本属性

df.shape  # 查看行数和列数 (3, 3)
df.columns  # 查看列名
df.index  # 查看索引(行标签)
df.dtypes  # 查看各列数据类型
df.info()  # 查看数据概览
df.describe()  # 查看数值列的统计信息

3. 数据访问

df['姓名']  # 获取单列(返回 Series)
df[['姓名', '年龄']]  # 获取多列(返回 DataFrame)
df.loc[0]  # 通过索引获取行
df.iloc[0:2]  # 通过位置获取行(前2行)
df.loc[df['年龄'] > 28]  # 条件筛选

4. 数据操作

# 添加新列
df['工资'] = [8000, 10000, 12000]

# 修改值
df.loc[0, '年龄'] = 26

# 删除列
df.drop('城市', axis=1, inplace=True)

# 排序
df.sort_values(by='年龄', ascending=False)

pd.DataFrame 是 pandas 数据分析的基础,掌握它的操作对于数据清洗、转换和分析非常重要。

posted @ 2025-08-26 16:59  数理生风  阅读(62)  评论(0)    收藏  举报