pandas基本用法 - caicai2019

pandas基本用法

1、#导入pandas模块

import pandas as pd

2、读取csv文件数据

df = pd.read_csv(file, sep=''\t) #首行作为column_index

df = pd.read_csv(file, sep=''\t, header=None)#首行不作为column_index

3、查看前n行数据

print(df.head(n))

4、修改行列名称

1）一个个修改

函数DataFrame.rename()可以对任意行和列的名称进行修改。
DataFrame.rename()的参数有index(行名称)和columns（列名称），使用"{旧值：新值}"字典的形式进行参数的指定。

2）批量修改列名成

new_df_column = ['gene_id','Length','EffectiveLength','TPM','NumReads'] #通过列表定义一套新的列名
df.columns = new_df_column #通过df.columns函数重定义列名

5、合并两个csv文件，取并集保留所有信息

示例

df_merge = pd.merge(df1 , df2 , how='outer' , left_on = 'Name1', right_on = 'Name2')

pd.merge(left, right, how= 'inner', on=None, left_on=None, right_on=None, left_index = False, right_index = False, sort = False, suffixes=('_x', '_y'), copy = True, indicator = False, validate=None)

参数详解：

left：待拼接的左侧数据框。

right：待拼接的右侧数据框。

how：左右两个数据框的连接方式。可选‘left’、‘right’、‘outer’、‘inner’，默认为inner。

on：左右两个待拼接数据框有共同列名，且按该列拼接两个数据框时使用该参数。

left_on：拼接两个数据框时，左数据框对应连接关键字(可为列表)。

right_on：拼接两个数据框时，右数据框对应连接关键字(可为列表)。

left_index：若为True，则按左数据框的索引连接两个数据框。

right_index：若为True，则按右数据框的索引连接两个数据框。

sort：按字典顺序通过连接键对结果数据框进行排序。

suffixes：为左右数据框中重复列名定义后缀。默认加(‘x’,‘y’)。

posted on 2025-03-05 19:50 caicai2019 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部