pandas操作数据

读写数据

pd.read_pickle(filepath)

>>> fp5k=pd.read_pickle('Data/fp_5000.pickle')
[1492433 rows x 16 columns]
>>> fp5k.index
Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            734307, 734308, 734309, 734310, 734311, 734312, 734313, 734314,
            734315, 734316],
           dtype='int64', length=1492433)

df.to_pickle(filepath)

read_csv

data=pd.read_csv(file0,sep='\t')

to_csv

data.to_csv(file0,sep='\t',index=False)
必须要加index=False,不然会不停地写一列index列。

DataFrame格式操作

万能办法:转换为numpy

np.array(feature0).shape

(150789, 101)

data.iloc[0,4]

data.loc[1]

>>> l=fp5k.loc[1]
>>> l
                   dj dw         gfhy_id            gfnsrdzdah            gfnsrsbh            hwmc        je kprmc                kprq        se shrmc   shul    sl         xfhy_id            xfnsrdzdah            xfnsrsbh
1   1721.551724137931  吨  0F515190519900  10113101010000321095  91310113MA1GM6XW11   *黑色金属冶炼压延品*统废  99695.06   管庆朗 2018-05-15 23:30:52  15951.21   管庆朗  57.91  0.16  0F515160516400  10113101010000367843  91310112MA1GBYMJ1T
1  3517.2413793103447  吨  0F525280528100  10113101010000332210  91310113MA1GM74H7H  *黑色金属冶炼压延品*热轧卷  99995.17    黄远 2018-05-21 18:20:09  15999.23  None  28.43  0.16  0F515160516100  10113102010000234890  91310230MA1K08WQ50
>>> type(l)
<class 'pandas.core.frame.DataFrame'>
>>> type(fp5k)
<class 'pandas.core.frame.DataFrame'>

如何删除一列

xzcf.drop(xzcf.columns[[0]], axis=1, inplace=True)

inplace参数

注意:凡是会对原数组作出修改并返回一个新数组的,往往都有一个 inplace可选参数。如果手动设定为True(默认为False),那么原数组直接就被替换。也就是说,采用inplace=True之后,原数组名(如2和3情况所示)对应的内存值直接改变;

而采用inplace=False之后,原数组名对应的内存值并不改变,需要将新的结果赋给一个新的数组或者覆盖原数组的内存位置(如1情况所示)。
原文链接:https://blog.csdn.net/nuaadot/article/details/78304642

排序



数据操作

posted @ 2021-03-13 19:13  zae  阅读(141)  评论(0)    收藏  举报