基于pandas的数据清洗 -- 异常值的清洗

博客地址：https://www.cnblogs.com/zylyehuo/

开发环境

自定义一个1000行3列（A，B，C）取值范围为0-1的数据源，然后将C列中的值大于其两倍标准差的异常值进行清洗

df = DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])
df.head()

# 制定判定异常值的条件
twice_std = df['C'].std() * 2
twice_std

0.5539644633650048

df.loc[~(df['C'] > twice_std)]

posted @ 2023-10-01 15:51 zylyehuo 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部