Pandas常用操作
pandas常用操作
1. 增加数据
1.1 新增列并依据其他列赋值
# col: 新增列名
# col1、col2: 已有列名
df = df.eval("col=col1 - col2")
2. 删除数据
df.dropna(subset=['col'], inplace=True) # 删除col列值为nan的行
3. 更改数据
3.1 更改列值
df['机构名称'].apply(lambda x: x.replace('汇总', ''))
3.2 重置行索引
self.df.reset_index(drop=True)
4. 查询数据
4.1 依据某列值过滤数据,得到符合条件的数据
df = df.query("col > 0")
query, eval 主要有点是语法简介,以及大数据量的时候节省内存;
涉及Numpy数组的符合表达式都会导致隐式的创建临时数组
5. 求差集
df = pd.concat([df1, df2, df2]).drop_duplicates(subset=['依据某列去重'], keep=False)

浙公网安备 33010602011771号