1、#导入pandas模块

import pandas as pd 

2、读取csv文件数据

df = pd.read_csv(file, sep=''\t) #首行作为column_index

df = pd.read_csv(file, sep=''\t, header=None)#首行不作为column_index

3、查看前n行数据

print(df.head(n))

 4、修改行列名称

1)一个个修改

函数DataFrame.rename()可以对任意行和列的名称进行修改。
DataFrame.rename()的参数有index(行名称)和columns(列名称),使用"{旧值:新值}"字典的形式进行参数的指定。

2)批量修改列名成

new_df_column = ['gene_id','Length','EffectiveLength','TPM','NumReads'] #通过列表定义一套新的列名
df.columns = new_df_column #通过df.columns函数重定义列名

5、合并两个csv文件,取并集保留所有信息

示例

df_merge = pd.merge(df1 , df2 , how='outer' , left_on = 'Name1', right_on = 'Name2') 

pd.merge(left, right, how= 'inner', on=None, left_on=None, right_on=None, left_index = False, right_index = False, sort = False, suffixes=('_x', '_y'), copy = True, indicator = False, validate=None)

参数详解:

left:待拼接的左侧数据框。
  
right:待拼接的右侧数据框。
  
how:左右两个数据框的连接方式。可选‘left’、‘right’、‘outer’、‘inner’,默认为inner。
  
on:左右两个待拼接数据框有共同列名,且按该列拼接两个数据框时使用该参数。
  
left_on:拼接两个数据框时,左数据框对应连接关键字(可为列表)。
  
right_on:拼接两个数据框时,右数据框对应连接关键字(可为列表)。
  
left_index:若为True,则按左数据框的索引连接两个数据框。
  
right_index:若为True,则按右数据框的索引连接两个数据框。
  
sort:按字典顺序通过连接键对结果数据框进行排序。
  
suffixes:为左右数据框中重复列名定义后缀。默认加(‘x’,‘y’)。

posted on 2025-03-05 19:50  caicai2019  阅读(4)  评论(0)    收藏  举报