摘要:
判断重复数据的判断方法:df.duplicated(),该方法中两个主要的参数是subset和keep: subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。 keep:当重复时不标记为True的规则,可设置为第一个、最后一个和全部标记为True(False)。默认为第一个,即第 阅读全文
posted @ 2018-04-20 19:54
做梦当财神
阅读(361)
评论(0)
推荐(0)
摘要:
异常值也称离群点,异常值分析也称离群点分析。 1. 简单统计量分析 最常用的是最大值和最小值,超出合理范围为异常。如客户年龄为199岁,该值为异常。 2. 3σ原则 (1)、如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值偏差超过3倍标准差的值。 在正态分布情况下,距离平均值3α之外的值出 阅读全文
posted @ 2018-04-20 10:46
做梦当财神
阅读(3341)
评论(0)
推荐(0)