python数据分析包 - pandas - dataframe

1. dataframe

  DataFrame是一个表格型的数据结构,相当于是一个二维数组,含有一组有序的列。他可以被看做是由Series组成的字典,并且共用一个索引。

2. 创建方式

1. pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
2. pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
3. pd.read_csv('csv文件')

3. 常用属性和方法

index 获取行索引
columns 获取列索引
T 转置
columns 获取列索引
values 获取值索引
describe 获取快速统计

4. 切片

方法1:两个中括号,先取列再取行。 df['A'][0]
方法2(推荐):使用loc/iloc属性,一个中括号,逗号隔开,先取行再取列。
  loc属性:解释为标签
  iloc属性:解释为下标

5. 缺失数据

1. dropna(axis=0, how='any')  # axis可以指定行,列(0表示行,1表示列),how='all'表示当一行(或一列)都是0的时候才会被删除
2. fillna()
3. isnull()
4. notnull()

6. 常用方法

1. 常用方法

 

 

7. 时间格式处理

1. 灵活处理时间对象:dateutil包
import dateutil
dateutil.parser.parse("2019 Jan 2nd")  # 这中间的时间格式一定要是英文格式,也可以是202/02/01等其他格式

运行结果:
datetime.datetime(2019, 1, 2, 0, 0)

2. pd.to_datetime()  批量处理

3. 产生时间对象数组:data_range

start 开始时间
end 结束时间
periods 时间长度
freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

 

 

posted @ 2022-02-12 21:29  10132714  阅读(124)  评论(0编辑  收藏  举报