import pandas as pd
df = pd.read_excel('djyy.xlsx',sheet_name='purged',usecols=[0,1,2,7,9],dtype='str')
# 读取excel usecols 指定读取哪几列 支持 ['A','B','C',...] dtype 指定cell 数据类型
df = df.dropna(axis=0)
# 哪一行有空就去掉 axis=1 列
df = df.drop_duplicates(subset=[2],keep='first')
# 去重 subset: 输入要进行去重的列名,默认为None
# keep: 可选参数有三个:‘first’、 ‘last’、 False, 默认值 ‘first’。其中,
# first表示: 保留第一次出现的重复行,删除后面的重复行。
# last表示: 删除重复项,保留最后一次出现。
# False表示: 删除所有重复项。
df.apply(func,axis=1)
# axis=1 将每一行输入传入func
# func 自定义逻辑判断的函数 return True or False
df.to_excel('test.xlsx',sheet_name='purged',index=False)
#转存储xlsx文件 index=Fasle 不存储索引 header=['Email'] 指定表头