数据预处理2之处理重复值

import numpy as np
import pandas as pd

  

data1 = pd.read_csv("F:/tianic_train.csv")

  

#查看重复值个数

data1.duplicated().sum()

  

data1.drop_duplicates(subset=["Age","Embarked"]   #基于某列删除重复值,默认是所有列均重复则删除
                      ,keep="first"  #保留哪一个观测值,默认first。first:保留第一个观测值,last:保留最后一个观测值
                     )

  

posted @ 2020-01-15 19:19  数据骆驼  阅读(452)  评论(0)    收藏  举报