pd.DataFrame
pd.DataFrame 是 pandas 库中用于创建二维表格数据结构的核心类,它由行和列组成,类似于 Excel 表格或 SQL 表。
以下是 pd.DataFrame 的基本用法和常见操作:
1. 创建 DataFrame
可以通过多种数据类型创建,如字典、列表、numpy 数组等:
import pandas as pd
# 从字典创建(最常用)
data = {
'姓名': ['张三', '李四', '王五'],
'年龄': [25, 30, 35],
'城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
# 从列表创建
data_list = [
['张三', 25, '北京'],
['李四', 30, '上海'],
['王五', 35, '广州']
]
df = pd.DataFrame(data_list, columns=['姓名', '年龄', '城市'])
2. 基本属性
df.shape # 查看行数和列数 (3, 3)
df.columns # 查看列名
df.index # 查看索引(行标签)
df.dtypes # 查看各列数据类型
df.info() # 查看数据概览
df.describe() # 查看数值列的统计信息
3. 数据访问
df['姓名'] # 获取单列(返回 Series)
df[['姓名', '年龄']] # 获取多列(返回 DataFrame)
df.loc[0] # 通过索引获取行
df.iloc[0:2] # 通过位置获取行(前2行)
df.loc[df['年龄'] > 28] # 条件筛选
4. 数据操作
# 添加新列
df['工资'] = [8000, 10000, 12000]
# 修改值
df.loc[0, '年龄'] = 26
# 删除列
df.drop('城市', axis=1, inplace=True)
# 排序
df.sort_values(by='年龄', ascending=False)
pd.DataFrame 是 pandas 数据分析的基础,掌握它的操作对于数据清洗、转换和分析非常重要。

浙公网安备 33010602011771号