昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.1.2分位数

分位数知识点系统讲解

各位同学,今天我们用一整段的时间,把概率论与数理统计中分位数这个核心知识点讲透。今天我们从“为什么要有这个概念”出发,一步步拆解定义、性质、定理与应用,让大家不仅知其然,更知其所以然。


一、分位数的引入:为什么我们需要这个概念?

在学习分位数之前,我们已经掌握了分布函数的定义:对于随机变量\(X\),它的分布函数\(F(x)=P(X\leq x)\),描述的是“随机变量\(X\)取值不超过\(x\)的概率”。

分布函数解决的是正向问题:给定一个取值\(x\),求对应的概率\(p=F(x)\)
但在理论研究和实际应用中,我们更常遇到的是反向问题:给定一个概率\(p\in(0,1)\),找一个对应的\(x\),使得“随机变量\(X\)不超过这个\(x\)的概率刚好为\(p\)”。这个\(x\),就是我们要找的分位数,本质上是分布函数\(F(x)\)的反函数值\(F^{-1}(p)\)

这里就出现了一个关键问题:分布函数\(F(x)\)只满足单调非降、右连续,它不一定严格递增,也不一定处处连续。这就导致普通的反函数\(F^{-1}(p)\)可能出现两个致命问题:

  1. 解不唯一:如果\(F(x)\)在某个区间上恒等于\(p\)(平坦段),那么这个区间里的所有\(x\)都满足\(F(x)=p\),反函数值不唯一;
  2. 解不存在:如果\(F(x)\)是阶梯函数(比如离散型随机变量的分布函数),\(p\)刚好落在两个阶梯的间隙里,那么没有任何\(x\)能满足\(F(x)=p\)

举个最简单的离散例子:设随机变量\(X\)的取值为\(0,1,2\),对应的概率为\(P(X=0)=0.3\)\(P(X=1)=0.5\)\(P(X=2)=0.2\),它的分布函数是阶梯函数:

\[F(x)= \begin{cases} 0, & x<0 \\ 0.3, & 0\leq x<1 \\ 0.8, & 1\leq x<2 \\ 1, & x\geq2 \end{cases} \]

  • \(p=0.3\)时,所有\(x\in[0,1)\)都满足\(F(x)=0.3\),解不唯一;
  • \(p=0.5\)时,没有任何\(x\)能满足\(F(x)=0.5\),解不存在。

为了解决这个问题,我们需要给出一个严谨、通用、能保证分位数存在且唯一的定义,这就是下确界形式的分位数定义的由来。


二、分位数的严格定义与本质解读

定义1.1.1 分位数的标准定义

\(F(x)\)是随机变量\(X\)的分布函数,对任意\(0<p<1\),称

\[x_p = \inf\left\{ x \mid F(x) \geq p \right\} \]

\(F(x)\)\(p\)分位数(也叫\(p\)分位点),其中\(\inf\)表示下确界,通俗来说就是“满足\(F(x)\geq p\)的所有\(x\)中,最小的那个\(x\)”。

定义的核心解读

  1. 存在性与唯一性的保证
    我们定义的集合\(S=\left\{ x \mid F(x) \geq p \right\}\),根据分布函数的性质:

    • \(x\to+\infty\)时,\(F(x)\to1>p\),因此\(S\)一定是非空的;
    • \(x\to-\infty\)时,\(F(x)\to0<p\),因此\(S\)一定有下界。
      根据实数集的下确界原理:非空有下界的实数集合必有唯一的下确界,因此\(x_p\)一定存在,且唯一,完美解决了普通反函数的缺陷。
  2. 用例子验证定义的合理性
    回到刚才的离散例子:

    • \(p=0.5\)时,\(S=\{x \mid F(x)\geq0.5\}=[1,+\infty)\),下确界为\(1\),因此\(x_{0.5}=1\),唯一确定;
    • \(p=0.3\)时,\(S=\{x \mid F(x)\geq0.3\}=[0,+\infty)\),下确界为\(0\),因此\(x_{0.3}=0\),唯一确定;
    • \(p=0.8\)时,\(S=\{x \mid F(x)\geq0.8\}=[1,+\infty)\),下确界为\(1\),因此\(x_{0.8}=1\)

    再看连续型的例子:\(X\sim U(0,1)\)(均匀分布),\(F(x)=x, x\in[0,1]\),此时\(x_p=\inf\{x \mid x\geq p\}=p\),和我们直觉里的反函数值完全一致。


三、分位数的核心性质与定理证明

分位数的所有应用,都建立在它的基本性质之上,我们逐条拆解定理1.1.1,不仅讲结论,更讲证明的逻辑与背后的意义。

定理1.1.1 分位数的基本性质

\(x_p\)为分布函数\(F(x)\)\(p\)分位数,则有:

  1. 核心不等式\(F(x_p - 0) \leq p \leq F(x_p)\);若\(x_p\)\(F(x)\)的连续点,则\(F(x_p)=p\)
  2. 线性变换性质:若\(Y = \sigma X + \mu\)\(\sigma>0, \mu\in\mathbb{R}\)),\(y_p\)\(x_p\)分别是\(Y\)\(X\)\(p\)分位数,则\(y_p = \sigma x_p + \mu\)

性质1的证明与解读

首先明确符号:\(F(x_p - 0)\)\(F(x)\)\(x_p\)处的左极限,即\(\lim_{x\to x_p^-}F(x)\)。分布函数天然满足右连续,即\(F(x_p + 0)=F(x_p)\),但左极限不一定等于函数值。

第一步:证明右边的不等式 \(p \leq F(x_p)\)
根据下确界的定义,对任意\(\varepsilon>0\),一定存在\(x'\in S\)(即满足\(F(x')\geq p\)),使得\(x_p \leq x' < x_p + \varepsilon\)
\(\varepsilon\to0\),则\(x'\to x_p^+\),根据分布函数的右连续性,\(\lim_{x'\to x_p^+}F(x')=F(x_p)\)
由于所有\(x'\)都满足\(F(x')\geq p\),因此极限后不等式依然成立,即\(F(x_p)\geq p\)

第二步:证明左边的不等式 \(F(x_p - 0) \leq p\)
根据下确界的定义:所有小于\(x_p\)\(x\),都不属于集合\(S\),也就是对任意\(x < x_p\),一定有\(F(x) < p\)
如果存在一个\(x < x_p\)满足\(F(x)\geq p\),那\(x\)就属于\(S\)\(x_p\)就不是\(S\)的下确界,矛盾。
因此所有\(x < x_p\)都有\(F(x) < p\),令\(x\to x_p^-\),左极限\(F(x_p - 0)=\lim_{x\to x_p^-}F(x) \leq p\)(严格小于的序列,极限不会超过上界)。

第三步:连续点的特殊情况
\(x_p\)\(F(x)\)的连续点,则左极限等于右极限等于函数值,即\(F(x_p - 0)=F(x_p)\)
结合不等式\(F(x_p - 0) \leq p \leq F(x_p)\),自然得到\(F(x_p)=p\),和我们直觉里的“反函数值”完全一致。

验证例子:回到之前的离散型例子,\(x_{0.5}=1\)\(F(1)=0.8\)\(F(1-0)=0.3\),满足\(0.3\leq0.5\leq0.8\),完全符合不等式。


性质2的证明与解读

这个性质是分位数最具实用价值的性质,统计中几乎所有标准化分布的分位数转换,都依赖这个结论。这里必须强调:\(\sigma>0\)是核心前提,只有\(\sigma>0\),线性变换才是保序的,不等号方向不会改变。

第一步:求\(Y\)的分布函数
\(Y=\sigma X + \mu\)\(\sigma>0\),因此:

\[G(y)=P(Y\leq y)=P(\sigma X + \mu \leq y)=P\left(X\leq \frac{y-\mu}{\sigma}\right)=F\left( \frac{y-\mu}{\sigma} \right) \]

第二步:代入分位数定义
根据定义,\(Y\)\(p\)分位数\(y_p=\inf\left\{ y \mid G(y)\geq p \right\}\),将\(G(y)\)代入得:

\[y_p=\inf\left\{ y \mid F\left( \frac{y-\mu}{\sigma} \right)\geq p \right\} \]

第三步:变量替换与下确界的线性性质
\(x=\frac{y-\mu}{\sigma}\),则\(y=\sigma x + \mu\)。由于\(\sigma>0\)\(y\)\(x\)是一一对应的保序映射,因此集合\(\left\{ y \mid F\left( \frac{y-\mu}{\sigma} \right)\geq p \right\}\)\(\left\{ \sigma x + \mu \mid F(x)\geq p \right\}\)完全等价。

根据下确界的线性性质:对常数\(a>0,b\in\mathbb{R}\),有\(\inf\{a x + b \mid x\in S\}=a\cdot\inf S + b\),因此:

\[y_p=\inf\left\{ \sigma x + \mu \mid F(x)\geq p \right\}=\sigma\cdot\inf\left\{ x \mid F(x)\geq p \right\} + \mu=\sigma x_p + \mu \]

证明完毕。

经典应用例子:标准正态分布\(X\sim N(0,1)\)\(p\)分位数记为\(u_p\)(连续分布,满足\(\Phi(u_p)=p\)),对于一般正态分布\(Y\sim N(\mu,\sigma^2)\),有\(Y=\sigma X + \mu\),因此\(Y\)\(p\)分位数\(y_p=\sigma u_p + \mu\)
比如我们常用的95%分位数\(u_{0.95}\approx1.645\),则\(N(\mu,\sigma^2)\)的0.95分位数就是\(\mu+1.645\sigma\),这是置信区间、假设检验的基础公式。


四、分位数在常见统计分布中的应用

我们通过教材中的两个例子,理解分位数性质的实际价值——通过标准分布的分位数表,推导复杂分布的分位数,避免重复制表

例1.1.1 Γ分布、指数分布与χ²分布的分位数转换

背景结论:若\(X\sim\Gamma(\lambda,k)\)(伽马分布,形状参数\(k\),率参数\(\lambda\)),则\(Y=2\lambda X \sim \chi^2(2k)\)(自由度为\(2k\)的卡方分布)。

我们的目标是用χ²分布的分位数表示Γ分布的分位数:
\(X\)\(p\)分位数为\(x_p\)\(Y=2\lambda X\)\(p\)分位数为\(\chi^2(2k,p)\)(自由度\(2k\)的卡方分布\(p\)分位数)。
根据线性变换性质,\(Y=2\lambda X + 0\)\(\sigma=2\lambda>0\),因此:

\[\chi^2(2k,p)=2\lambda x_p \]

整理得Γ分布的\(p\)分位数:

\[x_p=\frac{\chi^2(2k,p)}{2\lambda} \]

指数分布的特例:指数分布\(E(\lambda)\)是伽马分布\(k=1\)的特例,即\(E(\lambda)=\Gamma(\lambda,1)\),代入上式得指数分布的\(p\)分位数:

\[x_p=\frac{\chi^2(2,p)}{2\lambda} \]

这个结论的实用价值极高:卡方分布的分位数有完整的统计表格,我们无需单独制作伽马分布、指数分布的分位数表,直接通过卡方分位数即可计算。


例1.1.2 F分布的分位数倒数性质

背景结论:若\(X\sim F(n,m)\)(第一自由度\(n\),第二自由度\(m\)的F分布),则\(Y=X^{-1}\sim F(m,n)\)(自由度互换的F分布)。

我们要证明的核心结论:\(F(n,m;\alpha) = \left[ F(m,n;1-\alpha) \right]^{-1}\),其中\(F(n,m;\alpha)\)表示\(F(n,m)\)分布的\(\alpha\)分位数。

证明过程
\(x_\alpha=F(n,m;\alpha)\),F分布的分布函数是连续的,因此根据分位数定义有\(P(X\leq x_\alpha)=\alpha\)
对不等式做等价变形:

\[P(X\leq x_\alpha)=\alpha \iff P\left(X^{-1}\geq x_\alpha^{-1}\right)=\alpha \]

(因为\(X\)是正的随机变量,取倒数不等号方向反转)
进一步变形:

\[1-P\left(X^{-1}\leq x_\alpha^{-1}\right)=\alpha \iff P\left(X^{-1}\leq x_\alpha^{-1}\right)=1-\alpha \]

\(X^{-1}=Y\sim F(m,n)\),因此上式就是\(P(Y\leq x_\alpha^{-1})=1-\alpha\)
根据分位数的定义,\(Y\)\(1-\alpha\)分位数\(y_{1-\alpha}=F(m,n;1-\alpha)\)就是满足\(P(Y\leq y_{1-\alpha})=1-\alpha\)的唯一值,因此:

\[F(m,n;1-\alpha)=x_\alpha^{-1}=\left[ F(n,m;\alpha) \right]^{-1} \]

两边取倒数,就得到我们要的结论:

\[F(n,m;\alpha) = \left[ F(m,n;1-\alpha) \right]^{-1} \]

实用价值:F分布的统计表格通常只给出\(\alpha=0.05,0.025,0.01\)等小概率的分位数,对于\(\alpha=0.95\)这类大概率的分位数,无需制表,直接通过这个倒数性质计算。
比如\(F(10,15;0.95)=\frac{1}{F(15,10;0.05)}\),查表得\(F(15,10;0.05)=2.85\),因此\(F(10,15;0.95)\approx\frac{1}{2.85}\approx0.35\),这是F检验中计算临界值的核心技巧。


五、中位数:p=0.5的特殊分位数

我们把\(p=0.5\)的分位数\(x_{0.5}\)称为中位数,记为\(\text{med}(X)\),它是描述随机变量中心位置的核心数字特征,和均值(期望)并列,有不可替代的优势。

中位数的核心定理

定理1.1.2:函数\(g(c)=\mathbb{E}(|X-c|)\)\(c=x_{0.5}\)(中位数)处达到最小值。

这个定理是中位数的灵魂,它告诉我们:中位数是绝对损失下的最优中心位置,而均值是平方损失下的最优中心位置(\(\mathbb{E}[(X-c)^2]\)\(c=\mathbb{E}(X)\)处最小)。


定理的证明思路

我们的核心思路是:将\(g(c)\)拆分为\(g(x_{0.5})\)加上一个非负的余项,证明当\(c\neq x_{0.5}\)时,余项恒大于等于0,因此\(g(c)\geq g(x_{0.5})\),最小值在中位数处取得。

\(g(c)=\mathbb{E}(|X-c|)\)可以表示为黎曼-斯蒂尔杰斯积分:

\[g(c)=\int_{-\infty}^{+\infty}|x-c|dF(x) \]

情况1:\(c < x_{0.5}\)
将积分拆分为三个区间:\((-\infty,c)\)\([c,x_{0.5})\)\([x_{0.5},+\infty)\),对\(|x-c|\)做代数拆分,凑出\(|x-x_{0.5}|\)的形式:

\[\begin{align*} g(c)&=\int_{-\infty}^c (c-x)dF(x) + \int_c^{x_{0.5}} (x-c)dF(x) + \int_{x_{0.5}}^{+\infty} (x-c)dF(x) \\ &=\int_{-\infty}^{+\infty}|x-x_{0.5}|dF(x) + 2\int_c^{x_{0.5}}(x-c)dF(x) + (x_{0.5}-c)\left[ P(X\geq x_{0.5}) - P(X<x_{0.5}) \right] \end{align*} \]

我们看两个余项:

  1. \(2\int_c^{x_{0.5}}(x-c)dF(x)\)\(x\in[c,x_{0.5})\)\(x-c\geq0\)\(dF(x)\geq0\),因此该项非负;
  2. \((x_{0.5}-c)\left[ P(X\geq x_{0.5}) - P(X<x_{0.5}) \right]\)
    • \(c<x_{0.5}\),因此\(x_{0.5}-c>0\)
    • 根据分位数的核心不等式,\(P(X<x_{0.5})=F(x_{0.5}-0)\leq0.5\)\(P(X\geq x_{0.5})=1-P(X<x_{0.5})\geq0.5\),因此\(P(X\geq x_{0.5}) - P(X<x_{0.5})\geq0\)

两个余项均非负,因此\(g(c)\geq g(x_{0.5})\)

情况2:\(c > x_{0.5}\)
拆分逻辑完全一致,最终同样可以得到\(g(c)=g(x_{0.5})+\)非负余项,因此\(g(c)\geq g(x_{0.5})\)

当且仅当\(c=x_{0.5}\)时,余项为0,等号成立,因此\(g(c)\)\(c=x_{0.5}\)处取得最小值,定理得证。


中位数的核心优势

中位数最核心的优势是抗极端值:均值会被极端异常值严重拉偏,而中位数几乎不受影响。
举个例子:一组数据为\(1,2,3,4,100\),均值为\(22\),中位数为\(3\)。显然\(3\)更能代表这组数据的中心位置,\(100\)这个异常值把均值拉高了10倍,却完全不影响中位数。
这也是为什么收入、房价这类存在极端值的数据,统计中通常用中位数而非均值来描述平均水平。


六、分位数的补充说明与应用场景

  1. 常用分位数:统计中最常用的分位数有\(x_{0.05},x_{0.1},x_{0.5},x_{0.9},x_{0.95}\),以及四分位数\(x_{0.25}\)(下四分位数)、\(x_{0.75}\)(上四分位数),用于箱线图绘制、数据分布描述。
  2. 下分位数与上分位数的区分:我们这里讲的是下分位数(满足\(P(X\leq x_p)\geq p\)),统计中还有上分位数的定义(满足\(P(X>x_p)=p\)),两者的关系是:上分位数\(\alpha\) = 下分位数\(1-\alpha\),使用时一定要注意教材的定义,避免混淆。
  3. 核心应用场景
    • 描述统计:用四分位数、中位数描述数据的中心与离散程度,绘制箱线图;
    • 推断统计:假设检验的临界值计算、置信区间构造;
    • 金融风险管理:VaR(风险价值)就是损失分布的\(p\)分位数,比如95%VaR表示有95%的概率损失不会超过该值,是金融风控的核心指标;
    • 工程领域:可靠性分析中的寿命分位数,比如产品的B10寿命(10%分位数,即10%的产品失效的时间)。

总结

分位数的本质是分布函数的广义反函数,它用下确界的定义,解决了普通反函数在分布函数不连续、不严格递增时的存在性与唯一性问题,是对分布函数的反向刻画。
它的线性变换性质让我们可以通过标准分布的分位数推导任意线性变换后分布的分位数,极大简化了统计计算;中位数作为特殊的分位数,是绝对损失下的最优中心,具备极强的抗极端值能力。
分位数不是一个孤立的公式,而是贯穿概率论与数理统计、从描述统计到推断统计的核心工具,只有理解了它的本质,才能在后续的学习和应用中得心应手。

分位数知识点详细汇总表

表1 分位数核心定义与本质

分类 核心内容 公式/符号表达 关键说明
标准定义 分布函数\(F(x)\)\(p\)分位数,是满足\(F(x)\geq p\)的所有\(x\)的下确界 \(x_p = \inf\left\{ x \mid F(x) \geq p \right\}\)
其中\(0<p<1\)
解决了普通反函数\(F^{-1}(p)\)在分布函数不连续/非严格递增时,解不唯一、不存在的问题
本质 分布函数\(F(x)\)广义反函数 \(x_p=F^{-1}(p)\)(广义反函数形式) 正向:\(x\to p=F(x)\)(分布函数);反向:\(p\to x=x_p\)(分位数)
存在唯一性依据 实数集下确界原理 - 集合\(\left\{ x \mid F(x) \geq p \right\}\)非空、有下界,因此必有唯一的下确界
连续型分布特例 \(x_p\)\(F(x)\)的连续点,分位数满足分布函数等式 \(F(x_p)=p\) 与普通反函数结果完全一致,如均匀分布、正态分布的分位数
离散型分布特例 阶梯型分布函数的分位数,取满足\(F(x)\geq p\)的最小\(x\) 例:\(F(x)\)\(x=1\)处跳变到0.8,则\(x_{0.5}=1\) 无需\(F(x)=p\),仅需满足\(F(x)\geq p\)的最小取值,保证唯一

表2 分位数核心性质与定理汇总

定理/性质序号 核心结论 公式表达 前提条件 证明核心逻辑 典型应用
性质1 核心不等式 分位数的左极限≤p≤分位数处的分布函数值;连续点处等式成立 \(F(x_p - 0) \leq p \leq F(x_p)\)
连续点:\(F(x_p)=p\)
无额外前提,对任意分布函数均成立 1. 右连续性证明\(F(x_p)\geq p\)
2. 下确界定义证明小于\(x_p\)\(x\)均满足\(F(x)<p\),左极限≤p
验证离散型分位数的合理性,判断分位数处的分布函数取值范围
性质2 线性变换性质 随机变量正线性变换后的分位数,等于原分位数的同线性变换 \(y_p = \sigma x_p + \mu\) \(Y = \sigma X + \mu\),且\(\sigma>0\)\(\mu\in\mathbb{R}\) 1. 推导\(Y\)的分布函数为\(F\left(\frac{y-\mu}{\sigma}\right)\)
2. 保序映射下,下确界满足线性运算规则
标准正态分布→一般正态分布的分位数转换,标准化分布的分位数查表计算
定理1 中位数最优性 绝对偏差期望函数,在中位数处取得最小值 \(g(c)=\mathbb{E}(|X-c|)\)\(c=x_{0.5}\)时最小 随机变量\(X\)的绝对偏差期望存在 1. 拆分积分区间,将\(g(c)\)拆分为\(g(x_{0.5})\)+非负余项;
2. 证明\(c\neq x_{0.5}\)时余项恒≥0
抗极端值的中心位置估计,稳健统计的核心基础

表3 常见统计分布的分位数转换公式

分布类型 基础分布关系 分位数转换公式 核心实用价值
Γ分布\(\Gamma(\lambda,k)\) \(X\sim\Gamma(\lambda,k)\),则\(Y=2\lambda X\sim\chi^2(2k)\) \(x_p=\frac{\chi^2(2k,p)}{2\lambda}\)
\(\chi^2(2k,p)\)为自由度\(2k\)的卡方分布\(p\)分位数
无需单独制作Γ分布分位数表,通过通用的卡方分布表即可计算
指数分布\(E(\lambda)\) 指数分布是\(k=1\)的Γ分布,即\(E(\lambda)=\Gamma(\lambda,1)\) \(x_p=\frac{\chi^2(2,p)}{2\lambda}\)
\(\chi^2(2,p)\)为自由度2的卡方分布\(p\)分位数
快速计算指数分布的寿命分位数,可靠性分析常用
F分布\(F(n,m)\) \(X\sim F(n,m)\),则\(X^{-1}\sim F(m,n)\) \(F(n,m;\alpha) = \left[ F(m,n;1-\alpha) \right]^{-1}\)
\(F(n,m;\alpha)\)\(F(n,m)\)\(\alpha\)分位数
仅需制表小概率分位数,大概率分位数通过倒数公式直接计算,F检验临界值计算核心
一般正态分布\(N(\mu,\sigma^2)\) \(X\sim N(\mu,\sigma^2)\),则\(\frac{X-\mu}{\sigma}\sim N(0,1)\) \(x_p=\mu+\sigma\cdot u_p\)
\(u_p\)为标准正态分布\(N(0,1)\)\(p\)分位数
正态分布分位数计算的核心公式,置信区间、假设检验的基础

表4 中位数(\(p=0.5\)分位数)与均值核心对比

对比维度 中位数\(x_{0.5}\) 均值\(\mathbb{E}(X)\)
定义 分布的0.5分位数,满足\(F(x_{0.5}-0)\leq0.5\leq F(x_{0.5})\) 随机变量的加权平均,连续型:\(\int_{-\infty}^{+\infty}x dF(x)\);离散型:\(\sum x_i P(X=x_i)\)
核心最优性 绝对损失下最优:$\mathbb{E}( X-c
抗极端值能力 极强,极端异常值几乎不影响中位数取值 极弱,极端值会严重拉偏均值结果
适用场景 存在极端值、偏态分布的数据(如收入、房价、寿命数据) 对称分布、无极端值的数据,需后续方差、协方差计算的场景
存在性 对任意分布均存在且唯一 部分厚尾分布不存在(如柯西分布)

表5 易混淆概念:下分位数vs上分位数

类型 核心定义 公式表达 两者转换关系 常见使用场景
下分位数(本次讲解的标准定义) 满足“随机变量≤该值的概率≥p”的最小取值 \(x_p = \inf\left\{ x \mid F(x) \geq p \right\}\),即\(P(X\leq x_p)\geq p\) 上分位数\(\alpha\) = 下分位数\(1-\alpha\) 国内主流概率论教材、描述统计、分位数回归、金融VaR计算
上分位数 满足“随机变量>该值的概率=α”的取值 \(x_\alpha = \inf\left\{ x \mid 1-F(x) \leq \alpha \right\}\),即\(P(X>x_\alpha)=\alpha\) 下分位数\(p\) = 上分位数\(1-p\) 假设检验临界值计算、国外部分统计教材、方差分析、卡方/F检验

表6 分位数核心应用场景

应用领域 具体场景 分位数的核心作用
描述统计 数据分布特征描述、箱线图绘制 用中位数、上下四分位数(\(x_{0.25},x_{0.75}\))描述数据的中心位置与离散程度,识别异常值
推断统计 假设检验临界值计算、置信区间构造 正态、卡方、t、F分布的分位数是计算检验临界值、置信区间上下限的核心依据
金融风控 风险价值(VaR)计算 损失分布的\(p\)分位数即为VaR,如95%VaR表示95%的概率损失不会超过该值,是市场风险管控的核心指标
工程可靠性 产品寿命分析 如B10寿命(产品10%分位数),即10%的产品发生失效的时间,是可靠性设计的核心参数
数据分析 稳健统计、异常值剔除 基于分位数的四分位距(IQR)法则是行业通用的异常值识别方法,中位数用于抗极端值的稳健估计

posted on 2026-02-19 18:54  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航