pandas操作数据
目录
读写数据
pd.read_pickle(filepath)
>>> fp5k=pd.read_pickle('Data/fp_5000.pickle')
[1492433 rows x 16 columns]
>>> fp5k.index
Int64Index([ 0, 1, 2, 3, 4, 5, 6, 7,
8, 9,
...
734307, 734308, 734309, 734310, 734311, 734312, 734313, 734314,
734315, 734316],
dtype='int64', length=1492433)
df.to_pickle(filepath)
read_csv
data=pd.read_csv(file0,sep='\t')
to_csv
data.to_csv(file0,sep='\t',index=False)
必须要加index=False,不然会不停地写一列index列。
DataFrame格式操作
万能办法:转换为numpy
np.array(feature0).shape
(150789, 101)
data.iloc[0,4]
data.loc[1]
>>> l=fp5k.loc[1]
>>> l
dj dw gfhy_id gfnsrdzdah gfnsrsbh hwmc je kprmc kprq se shrmc shul sl xfhy_id xfnsrdzdah xfnsrsbh
1 1721.551724137931 吨 0F515190519900 10113101010000321095 91310113MA1GM6XW11 *黑色金属冶炼压延品*统废 99695.06 管庆朗 2018-05-15 23:30:52 15951.21 管庆朗 57.91 0.16 0F515160516400 10113101010000367843 91310112MA1GBYMJ1T
1 3517.2413793103447 吨 0F525280528100 10113101010000332210 91310113MA1GM74H7H *黑色金属冶炼压延品*热轧卷 99995.17 黄远 2018-05-21 18:20:09 15999.23 None 28.43 0.16 0F515160516100 10113102010000234890 91310230MA1K08WQ50
>>> type(l)
<class 'pandas.core.frame.DataFrame'>
>>> type(fp5k)
<class 'pandas.core.frame.DataFrame'>
如何删除一列
xzcf.drop(xzcf.columns[[0]], axis=1, inplace=True)
inplace参数
注意:凡是会对原数组作出修改并返回一个新数组的,往往都有一个 inplace可选参数。如果手动设定为True(默认为False),那么原数组直接就被替换。也就是说,采用inplace=True之后,原数组名(如2和3情况所示)对应的内存值直接改变;
而采用inplace=False之后,原数组名对应的内存值并不改变,需要将新的结果赋给一个新的数组或者覆盖原数组的内存位置(如1情况所示)。
原文链接:https://blog.csdn.net/nuaadot/article/details/78304642



浙公网安备 33010602011771号