机器学习 Pandas一些领悟
Pandas一些领悟
十分钟掌握pandas(pandas官方文档翻译)这个的例子蛮详细的,跟着敲下来就好了,我做个小笔记。
DatetimeIndex
pd.date_range('20130101', periods=6)
# 结果
DatetimeIndex(['2013-01-01', '2013-01-02',
'2013-01-03', '2013-01-04',
'2013-01-05','2013-01-06'],
dtype='datetime64[ns]', freq='D')
这个函数就是时间序列打印,freq='D'
是频率的意思,D是天,M是月,Y是年。当然还可以加数字,比如5D什么的。
pd.date_range('20130101', periods=6, freq='5D')
# 结果
DatetimeIndex(['2013-01-01', '2013-01-06', '2013-01-11', '2013-01-16',
'2013-01-21', '2013-01-26'],
dtype='datetime64[ns]', freq='5D')
找了下,果然,这个和numpy
里的range
一样。详细用法pandas 时间序列之pd.date_range()先码上,有时间序列的话,不如进来找找,不用定义数组去一个个写了。
DataFrame
接上面的
# DataFrame
pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
# 结果
A B C D
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
2013-01-06 -0.673690 0.113648 -1.478427 0.524988
给我的感觉,DataFrame就是一个二维数组,纵列是index,横行是columns。还定义了一些方法,很方便。打印某一个数据是一定要这样的顺序[index][columns]。如果是数字的话,传进去的应该是数组比如[1:3][4:5]。详细用法pd.DataFrame()用法简单记录先码上。
pd.merge
就和数据库操作一样,可以将两个表,用相同的索引串行起来,去发现共同点,再作相应的操作。
本文来自博客园,作者:赫凯,转载请注明原文链接:https://www.cnblogs.com/heKaiii/p/17137409.html