数据分析(二) Pandas 的数据结构 DataFrame
DataFrame 是一个表格型的数据结构
可以看作是多个Series共用一个index
索引 index
各个Series Colimn
构造
pandas.DataFrmae(data, index, columns,dtype, copy)
data为一组数据 可用 ndarray series map lists dict 生成
| index | 索引 |
| columns | 列标签 默认为(1,2,3,..,n) |
| dtype | 数据类型 |
| copy | 拷贝数据,默认为False |
#生成实例 import pandas as pd data = [['a',1],['b',2],['c',3]] df = pd.DataFrame(data, columns=['A','B'])
#使用ndarrays生成实例 data = { 'A':['a','b','c'], 'B':[1,2,3] } df = pd.DataFrame(data)
#使用字典创建 data = [ {'a':1,'b':2,'c':3}, {'a':10,'b':20,'c':30} ]
返回DataFrame内数据
#返回第一行和第二行 df.loc[[0,1]] #返回特定行 df.loc['d']
使用一个新Series作为DataFrame的列
注:根据索引自动匹配,缺失值为NaN
data =[{ 'A':1,'B':2,},{ 'A':2, 'B':3,}]
df = pd.DataFrame(data)
new_series = pd.Series({0:5})
df['c'] = new_series
| A | B | c | |
|---|---|---|---|
| 0 | 1 | 2 | 5.0 |
| 1 | 2 | 3 | NaN |
数据填充
# 用0填充 df = df.fillna(0)

浙公网安备 33010602011771号