基于pandas的数据清洗 -- 异常值的清洗

博客地址:https://www.cnblogs.com/zylyehuo/

开发环境

  • anaconda
    • 集成环境:集成好了数据分析和机器学习中所需要的全部环境
    • 安装目录不可以有中文和特殊符号
  • jupyter
    • anaconda提供的一个基于浏览器的可视化开发工具

自定义一个1000行3列(A,B,C)取值范围为0-1的数据源,然后将C列中的值大于其两倍标准差的异常值进行清洗

df = DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])
df.head()

# 制定判定异常值的条件
twice_std = df['C'].std() * 2
twice_std
0.5539644633650048
df.loc[~(df['C'] > twice_std)]

posted @ 2023-10-01 15:51  zylyehuo  阅读(17)  评论(0编辑  收藏  举报