IQR四分位数法是什么?
IQR(Interquartile Range,四分位距)四分位数法是一种统计学中用于描述数据离散程度、识别异常值的重要工具。它通过数据的四分位数(Quartiles)来刻画数据的分布特征,尤其适用于非正态分布或存在离群点的场景。以下从核心概念、计算方法、应用场景和理解要点展开说明:
一、核心概念:四分位数与IQR
1. 四分位数(Quartiles)
将一组有序数据(从小到大排列)划分为4个相等部分的三个关键分割点,分别记为:
- Q1(第一四分位数,25%分位数):数据中25%的数值小于或等于它(即第25百分位数)。
- Q2(第二四分位数,中位数):数据中50%的数值小于或等于它(即第50百分位数,Median)。
- Q3(第三四分位数,75%分位数):数据中75%的数值小于或等于它(即第75百分位数)。
例如,数据集 [1, 3, 5, 7, 9, 11, 13] 的中位数是7(Q2);前半部分 [1,3,5] 的中位数是3(Q1),后半部分 [9,11,13] 的中位数是11(Q3)。
2. IQR(四分位距)
IQR = Q3 - Q1,表示中间50%数据的分布范围(即数据在Q1到Q3之间的“宽度”)。它是衡量数据离散程度的稳健指标(不受极端值影响)。
二、IQR四分位数法的核心作用:识别异常值
IQR法最常用的是通过“箱线图(Box Plot)”或“Tukey’s Fences”规则识别异常值(Outliers)。具体步骤如下:
1. 计算上下边界
以IQR为基准,定义数据的“正常范围”:
- 下边界(Lower Bound):Q1 - 1.5×IQR
- 上边界(Upper Bound):Q3 + 1.5×IQR
2. 判定异常值
- 温和异常值(Mild Outliers):小于下边界或大于上边界的数据点(通常用1.5×IQR界定)。
- 极端异常值(Extreme Outliers):小于Q1 - 3×IQR 或大于Q3 + 3×IQR 的数据点(更严格的阈值)。
逻辑:正常数据应集中在中间50%(Q1到Q3),而超出1.5倍IQR的点被视为“偏离较远的异常”。1.5倍的选择是经验性的(基于正态分布假设下约覆盖99.3%的数据,剩余0.7%视为异常)。
三、应用场景
- 数据清洗:识别并验证离群点(如传感器误差、输入错误)。
- 可视化分析:箱线图的核心组件(箱体表示Q1到Q3,触须延伸至非异常值的最远点,异常值单独标记)。
- 统计描述:替代标准差(SD)衡量离散程度(尤其当数据非正态时,IQR更稳健)。
四、如何理解IQR法的优势与局限
优势:
- 稳健性:仅依赖中间50%的数据,不受极端值干扰(标准差易受异常值影响)。
- 普适性:适用于任何分布(无需假设数据正态)。
- 直观性:通过四分位数直接反映数据的集中与分散趋势。
局限:
- 主观性:1.5倍IQR是经验阈值,不同领域可能调整(如金融风控可能用3倍)。
- 小样本偏差:样本量过小时(如n<10),四分位数估计可能不稳定。
- 无法反映分布形态:仅描述离散程度,不体现数据的对称性或峰度。
五、示例说明
假设数据集:[12, 15, 17, 19, 20, 22, 24, 28, 30, 35, 40, 100](已排序)。
-
计算四分位数:
- n=12,中位数Q2是第6和第7个数的平均:(22+24)/2=23。
- Q1是前6个数的中位数:(17+19)/2=18(前6数:12,15,17,19,20,22)。
- Q3是后6个数的中位数:(30+35)/2=32.5(后6数:24,28,30,35,40,100)。
-
计算IQR:IQR=Q3-Q1=32.5-18=14.5。
-
确定边界:
- 下边界=18 - 1.5×14.5=18-21.75=-3.75
- 上边界=32.5 + 1.5×14.5=32.5+21.75=54.25
-
识别异常值:数据中100>54.25,因此100是异常值;其他数据点均在[-3.75, 54.25]范围内。
总结
IQR四分位数法通过“中间50%数据的范围”(IQR)量化离散程度,并通过1.5倍IQR的边界识别异常值。它的核心是关注数据的主体分布,忽略极端干扰,是探索性数据分析(EDA)中简单却强大的工具。理解其逻辑的关键在于把握“四分位数划分数据、IQR衡量主体波动、边界外视为异常”这一链条。
❤️ 如果你喜欢这篇文章,请点赞支持! 👍 同时欢迎关注我的博客,获取更多精彩内容!
本文来自博客园,作者:佛祖让我来巡山,转载请注明原文链接:https://www.cnblogs.com/sun-10387834/p/19386427

浙公网安备 33010602011771号