python画箱型图判断异常值
今天看了本书,做数据集需要判断数据是否存在异常值。好像是用箱型图做的但是我不清楚具体的原理。附上代码:
Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。.
箱型图其实就是有中位数,上半分之25数据构成和下半分之25数据构成。IQR就是百分之75和百分之25的间隔。Q3是高位。Q3+3IQR=Q1+4IQR。因为Q3是高位,Q1是低位。
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
train_data='zhengqi_train.txt'
test_data='zhengqi_test.txt'
train=pd.read_csv(train_data,sep='\t',encoding='utf-8')
for i in range(38):
plt.figure(figsize=(12,12))
sns.boxplot(train['V'+str(i)],orient='v')
plt.savefig('1/'+str(i)+'.jpg')#保存图片
最终结果展示:
