数据预处理2之处理重复值
import numpy as np import pandas as pd
data1 = pd.read_csv("F:/tianic_train.csv")
#查看重复值个数 data1.duplicated().sum()
data1.drop_duplicates(subset=["Age","Embarked"] #基于某列删除重复值,默认是所有列均重复则删除
,keep="first" #保留哪一个观测值,默认first。first:保留第一个观测值,last:保留最后一个观测值
)
1.本篇所有数据文件小博已上传,需要的小伙伴到“文件”进行下载使用。数据文件纯属学习教学所用,纯属虚构。
2.文章中的代码都是经过小博的真实操作,可以执行。(注:Anaconda3的Jupyter notebook)
浙公网安备 33010602011771号