【Python数据分析】统计学 四分位距

四分位距

四分位距(interquartile range, IQR) 是描述统计学中的一种方法,,以确定第三四分位数和第一四分位数的差(即𝑄1, 𝑄3{\displaystyle Q_{1},\ Q_{3}}的差距)。与方差标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic)。

四分位差(Quartile Deviation, QD),是{\displaystyle Q_{1},Q_{3}}的值差的一半,即{\displaystyle \mathrm {QD} ={\frac {Q_{3}-Q_{1}}{2}}}

定义

四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数),二分之一的四分差等于绝对中位差(MAD)。中位数是聚中趋势的反映。

{\displaystyle \mathrm {IQR} =Q_{3}-Q_{1}}

箱线图

箱形图英文:box plot),又称为盒须图盒式图盒状图箱线图,是一种用作显示一组数据分散情况资料的统计图。因图形如箱子,且在上下四分位数之外常有线条像胡须延伸出去而得名。

离群值会有时会画成是个别的点。箱型图是无母数的,他显示样品的特性,对于母体分布并无任何假设。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。

箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值最小值中位数、及上下四分位数

Python计算方法

用四分位距确定正常范围
\([Q1−1.5∗IQR,Q3+1.5∗IQR]\)
这个范围会考虑到数据的实际分布情况,适合处理有较多异常值的数据。

import numpy as np  
array=[6,47,49,15,42,41,7,39,43,40,36]  
# np.quantile 求分位数  
q1=np.quantile(array,0.25)  
q2=np.median(array)  
q3=np.quantile(array,0.75)  
iqr=q3-q1  
down=q1-1.5*iqr  
up=q3+1.5*iqr  
print(q1,q2,q3)  
print(iqr,down,up)
posted @ 2024-05-24 14:58  沐悦  阅读(202)  评论(0)    收藏  举报