1、#导入pandas模块
import pandas as pd
2、读取csv文件数据
df = pd.read_csv(file, sep=''\t) #首行作为column_index
df = pd.read_csv(file, sep=''\t, header=None)#首行不作为column_index
3、查看前n行数据
print(df.head(n))
4、修改行列名称
1)一个个修改
函数DataFrame.rename()可以对任意行和列的名称进行修改。
DataFrame.rename()的参数有index(行名称)和columns(列名称),使用"{旧值:新值}"字典的形式进行参数的指定。
2)批量修改列名成
new_df_column = ['gene_id','Length','EffectiveLength','TPM','NumReads'] #通过列表定义一套新的列名
df.columns = new_df_column #通过df.columns函数重定义列名
5、合并两个csv文件,取并集保留所有信息
示例
df_merge = pd.merge(df1 , df2 , how='outer' , left_on = 'Name1', right_on = 'Name2')
pd.merge(left, right, how= 'inner', on=None, left_on=None, right_on=None, left_index = False, right_index = False, sort = False, suffixes=('_x', '_y'), copy = True, indicator = False, validate=None)
参数详解:
left:待拼接的左侧数据框。
right:待拼接的右侧数据框。
how:左右两个数据框的连接方式。可选‘left’、‘right’、‘outer’、‘inner’,默认为inner。
on:左右两个待拼接数据框有共同列名,且按该列拼接两个数据框时使用该参数。
left_on:拼接两个数据框时,左数据框对应连接关键字(可为列表)。
right_on:拼接两个数据框时,右数据框对应连接关键字(可为列表)。
left_index:若为True,则按左数据框的索引连接两个数据框。
right_index:若为True,则按右数据框的索引连接两个数据框。
sort:按字典顺序通过连接键对结果数据框进行排序。
suffixes:为左右数据框中重复列名定义后缀。默认加(‘x’,‘y’)。
浙公网安备 33010602011771号