pandas 模块

什么是pandas

pandas是一个python的包,主要用来处理表格格式的文件,可以快速的对表格进行查询,过滤,合并等操作。

pandas的简单使用

pandas读入table格式文件

#读入一个table格式的文件,用制表符分隔,没有头信息
table=pd.read_table("test.lst",header=None,sep="\t")
#对某一列进行正则替换
table[0]=table[0].map(lambda x:x.replace("_","\_"))
#对某一列除以1000*1000取整
table[1]=table[1].map(lambda x: int(x/(1000*1000)))
#对某一列除以1000*1000保留两位小数
table[3]=table[3].map(lambda x: float('%.2f' % (x/(1000*1000))))

pandas写出文件

table.to_table("test.table",sep='\t',index=False)

读取指定的两列

#根据索引取其中两列
mm=df[['Sample_Name','Run']]

将读取的两列存为一个字典

from collections import defaultdict
d = defaultdict(dict)
for date, count in mm.itertuples(index=False):
    d[date]=count
posted @ 2019-12-05 15:40  raisok  阅读(491)  评论(0编辑  收藏  举报