数据预处理2之处理重复值

import numpy as np
import pandas as pd

data1 = pd.read_csv("F:/tianic_train.csv")

#查看重复值个数

data1.duplicated().sum()

data1.drop_duplicates(subset=["Age","Embarked"]   #基于某列删除重复值，默认是所有列均重复则删除
                      ,keep="first"  #保留哪一个观测值，默认first。first：保留第一个观测值，last：保留最后一个观测值
                     )

posted @ 2020-01-15 19:19 数据骆驼阅读(452) 评论(0) 收藏举报

刷新页面返回顶部