数据分析(二) Pandas 的数据结构 DataFrame

DataFrame 是一个表格型的数据结构

可以看作是多个Series共用一个index
索引 index
各个Series Colimn

 

构造
pandas.DataFrmae(data, index, columns,dtype, copy)
data为一组数据 可用 ndarray series map lists dict 生成

index  索引
columns  列标签 默认为(1,2,3,..,n)
dtype  数据类型
copy  拷贝数据,默认为False

 

 

#生成实例
import pandas as pd
data = [['a',1],['b',2],['c',3]]
df = pd.DataFrame(data, columns=['A','B'])

 

#使用ndarrays生成实例
data = {
    'A':['a','b','c'],
    'B':[1,2,3]
}
df = pd.DataFrame(data)

 

#使用字典创建
data = [
    {'a':1,'b':2,'c':3},
    {'a':10,'b':20,'c':30}
]

 

返回DataFrame内数据

#返回第一行和第二行
df.loc[[0,1]]
#返回特定行
df.loc['d']

 

使用一个新Series作为DataFrame的列

注:根据索引自动匹配,缺失值为NaN

data =[{ 'A':1,'B':2,},{ 'A':2, 'B':3,}]
df = pd.DataFrame(data)
new_series = pd.Series({0:5})
df['c'] = new_series

 

 ABc
0 1 2 5.0
1 2 3 NaN

 

数据填充

# 用0填充
df = df.fillna(0)
posted @ 2021-10-08 09:46  IVWT  阅读(187)  评论(0)    收藏  举报