关于概率分布理论的原理分析的一些讨论,以及经典概率分布的应用场景,以及概率统计其在工程实践中的应用

1. 随机变量定义

0x1:为什么要引入随机变量这个数学概念

在早期的古典概率理论研究中,人们基于随机试验的样本空间去研究随机事件,也发展出了非常多辉煌的理论,包括著名的贝叶斯估计在内。

但是随着研究的不断深入,遇到问题的不断复杂化,科学家们发现面对的问题也不仅仅是抛色子,口袋里摸球、抛硬币伯努利试验这样的简单问题,而是更加复杂的问题,例如

  • 多个随机试验的组合问题:例如考虑n个伯努利随机试验中某个事件发生次数的随机变量
  • 非实数型的样本空间:例如气候分析、水文模拟与预测等复杂问题,显然,这个时候样本空间就不一定都是数集了

继续使用随机事件样本空间这种集合论数学工具进行问题分析和定量研究遇到了越来越多的困难。

为了能对更复杂的问题进行抽象建模,进行定量的概率公式化处理,因此,通过引入随机变量,将样本空间这个集合概念转化为一个无量纲的数集(函数概念),使得能统一地处理各种随机现象。

同时因为随机变量本质是函数范畴体系内的定义,因此还可以借助函数分析相关的数学工具展开对随机事件的定量分析,这使得概率论的发展又跨了一个大的台阶。

需要注意的是,对于随机变量来说,样本空间中的样本不一定是等概的。在实际工程中,非等概模型才是更加普遍和一般的情况,随机事件的样本集空间中不同元素的发生概率一般不可能都是等概的。等概摡型只是离散型随机变量里一个特例。

0x2:随机变量的抽象定义

在随机试验E中,Ω是相应的样本空间,如果对Ω中的每一个样本点w,有唯一一个实数 X(w) 与之对应,那么就把这个定义域为Ω的单值实值函数 X=X(w) 称为(一维)随机变量。

函数 X(w) 的的定义域对应于随机变量的样本空间,记作,当然,随机事件只会在一些区间内有概率的定义,在其他区间上概率为0。

站在试验前的立场看,我们不知道试验结果将出现样本空间Ω中的哪个样本点,即不知道随机变量将会取中的哪一个数。从这个意义上说,随机变量的取值是随机的。

概率论的一个基本任务就是研究随机变量取值的统计规律性,而引入概率分布函数的目的也是为了更好地研究统计规律的数学特性。

0x3:随机变量的分类

从严格理论定义上来看,随机变量可分为:

  • 离散型随机变量:如果1个随机变量只可能取有限个或可列无限个值(即它的值域是1个有限集或可列无限集),那么便称这个随机变量为(一维)离散型随机变量。
  • 非离散型随机变量:连续型随机变量的取值充满了数轴上的一个区间(或某几个区间的并),在这个区间里有无穷不可列个实数,因此当我们描述连续型随机变量时,用来描述离散型随机变量的分布律就没法继续使用,需要改用概率密度函数来表示。

在非离散型随机变量中,连续型随机变量是最常见也是占比最多的,我们本文主要讨论连续型随机变量。但读者要明白的是,并不是只有离散和连续型随机变量这两种。

Relevant Link:

《概率论与数理统计》同济大学数学系 第二章 - 第一节

 

2. 随机变量的概率密度与概率分布

0x1:为什么要研究随机变量的概率密度与概率分布PDF

1. 现实世界不是确定性的,而是概率性的 - 上帝会掷色子

现实世界中大量复杂问题其状态受到大量内在和外在因素的影响,想要彻底掌握这类事物的内在规律并对未来可能发生的状态变换作出预测,就需要数据科学家通过数据分析、概率建模等方式,寻找一个或一组概率分布公式。

那为什么一定是概率分布函数呢?而不能是一个像爱因斯坦质能方程那样的精确性的映射函数呢?

理解这个问题,需要回望一些历史,自从混沌理论和非线性动力学理论问世以来,动力学系统“内在随机性”的存在,使得确定论不再占统治地位,它与随机方法论之间的鸿沟已经逐步填补。从辨证唯物自然观来看,确定论的数学模型只是纷繁复杂的大自然现象因果规律的一种理想化描述。在现实世界中,“量”的方面的数学的无穷性,比起“质”的方面的无涯无尽性来说,是极为粗浅的。无论怎样复杂的方程式都不可能是实际现象的无限复杂性的等价反映,它们充其量不过是相对精确或相对逼真地描述了现象,而不是现象本身的全部写照。

接下来的问题就是,如何找到这种“概率分布函数”呢?或者说如何找到这个“上帝”呢?这就是接下来要谈的概率密度估计。 

2. 概率密度估计 - 寻找概率分布函数的方法

对于给定的一个数据集合,我们认为这个数据集合来自于某个随机变量,并且这个随机变量具有某种概率分布P(X)。找到这个概率分布P(X)的过程叫做密度估计(density estimation)

需要注意的是密度估计问题是一个很困难的问题,因为世界上的概率密度函数不计其数,能够*似拟合概率密度函数也是如此之多。选择一个合适的P(X)是模型选择问题,在机器学习领域经常遇见。

原则上说,所谓的概率分布密度估计,是在给定有限次观测 x1, . . . , xN 的前提下,对随机变量 x 的概率分布 p(x) 建模

我们假定数据点是独立同分布的。应该强调的是,密度估计问题本质上是病态的,因为产生有限的观测数据集的概率分布有无限多种。实际上,任何在数据点 x1, . . . , xN 处概率非零的概率分布p(x)都是一个潜在的候选。选择一个合适的分布与模型选择的问题相关,这是模式识别领域的一个中心问题。

0x2:离散型随机变量的分布律与概率分布 

1. 离散随机变量的概率(质量)函数(probability density function, PDF)/分布律

要掌握一个离散型随机变量取值的统计规律(即分布),除了必须知道它的样本空间值域外,还需要知道它取各个可能值的概率,其实就是函数分析中的定义域和值域分析的概念。

设随机变量X的值域为,对于每个 i = 1,2,....,X的取值为ai的概率为:

按照概率的定义与性质,p1,p2,.... 需要满足下列性质:

  • 非负性:
  • 样本空间完备性:

我们称为随机变量 X 的概率(质量)函数分布律

2. 离散随机变量的概率分布函数

一般地,对一个随机事件E来说,对样本空间中任意一个子集合S,有: 

 

上述计算公式本质上由概率的加法公式推出,因为诸事件{X =ai}(i=1,2,...)是两两互不相容的。

离散随机变量的分布函数就是离散分布律在某个样本集区间上的累加,只是这个样本区间是一个形如[-∞,Smax]的区间。

设X是一个随机变量,对于任意实数x,称函数为随机变量X的分布函数。

对任意的两个实数,有

因此,只要已知X的分布函数,就可以知道X落在任一区间 (a,b) 内的概率,可以看到,分布函数可以完整的描述一个随机变量的统计规律性。

相比于概率密度,分布函数度量的是区间的累计概率,是一个事件集合的总体发生概率。 

可以看到,概率分布函数本质上是概率密度函数的积分,所以也叫累计概率函数(cumulative distribution function,CDF),也可以简称概率分布函数

反过来,概率密度函数也是概率分布函数的导数。

3. 离散随机变量概率分布函数性质

我们通过一个例子来说明离散随机变量概率分布函数的性质。

设一个盒子中装有10个球,其中:

  • 5个球上标有数字1
  • 3个球上标有数字2
  • 2个球上标有数字3

从中任取一球,记随机变量X表示为“取得的球上标有的数字”,求X的分布函数F(x)。

我们先来求其离散分布律,知道离散分布律后就可以自然得到分布函数。

根据题意可知,随机变量X可取 1,2,3,这个问题相对比较简单,摸球是一个等概事件,因此由古典概型的计算公式,可知对应的随机事件的概率值分别为:

  • 取到数字1的球:0.5
  • 取到数字2的球:0.3
  • 取到数字3的球:0.2

接下来,分布函数的定义为F(x) = P(X <= x),因此有:

  • x < 1:P(X <= x)= 0
  • 1 <= x < 2:P(X <= x)= P(X = 1)= 0.5
  • 2 <= x < 3:P(X <= x)= P(X = 1)+ P(X = 2)= 0.5 + 0.3 = 0.8
  • x >= 3:P(X <= x)= P(X = 1)+ P(X = 2)+ P(X = 3)= 0.5 + 0.3 + 0.2 = 1

F(x)的图形如下图所示,python生成代码为:

# -*- coding: utf-8 -*-

from pylab import *


if __name__ == '__main__':
    x = linspace(-2,8,200)

    y = []
    for i in x:
        if i<1:
            y.append(0.)
        elif (i>=1 and i<2):
            y.append(0.5)
        elif (i>=2 and i<3):
            y.append(0.8)
        else:
            y.append(1.)
     
     print y

    plot(x,y),show()

它是一条阶梯型的曲线,在X的每个可能取值处 1,2,3 处有连续的阶跃点,每次跳跃的高度就是X在该取值点的累计概率。

具体来说,任一分布函数F(x)有如下性质:

  • 0 ≤ F(x) ≤ 1,
  • F(x)是单调不减的,即当x1 <x2 时,F(x1)≤F(x2)
  • F(x) 在 (-∞,∞) 上每一点处至少右连续 

4. 常见离散型随机变量的概率密度函数(分布律)

由于概率分布函数刻画了一个离散型随机变量取值的统计规律性,因此,物理世界中存在的概率分布函数可以说是无穷无尽的。科学共同体内的科学家根据自己的专业领域知识,寻找并建立了不同的概率解释模型,对本专业的实际物理现象进行解释以及预测。

笔者在这章会讨论一些常见的离散型概率分布函数,并简单讨论其在工程中的应用,对于在更复杂工业场景中概率分布函数的应用的讨论笔者会放在之后的章节中。

1)二项分布

1.1)二项分布数学定义

二项分布考察的是多次原子随机事件整体呈现出的统计概率特征。

设单次随机试验为伯努利试验(实验结果只有2种对立的可能,即样本空间只有2个元素),在n重独立伯努利试验中,设随机变量X表示n次试验中事件A发生的次数,所以有,X的概率密度函数(分布律)为:

称这个随机变量X服从参数为n,p的二项分布,记作, 其 中 0 < p < 1。二项分布函数的形态完全由(n,p)两个参数决定。

笔者认为,二项分布抽象的是这样一类事物:某系统的时域或空域状态由一系列的子步骤组成,每个子步骤都符合一个特定的二元对立的概率密度函数(即只有两种可能,且发生的概率固定),我们设这两个对立事件为事件A和事件B。现在假设系统在时域或空域上经过了n步,二项分布需要评估的是在这n步中,事件A和事件B分别发生了多少次,即这两个对立事件对最终系统状态的贡献度分别是多少。二项分布评估的是某系统达到某种状态时,各个基础随机事件的贡献比,不考虑内部过程,只看结果。

1.2)二项分布的函数分析意义

二项分布密度函数(分布律)是离散型分布,概率密度直方图是跃阶式的。

我们可以从二项式的*方公式分解的角度来看二项分布的分布律。

例如,p=q=1/2,各项的概率可写作:

上式就是二项分布分布律的累加式。

设p表示事件发生,q表示事件未发生。

当p=q时:概率密度直方图是对称的,例如下面的杨辉三角

当p≠q时:直方图呈偏态:

p<q:直方图朝右边倾斜,表示p(事件发生)的密度较低,在n次伯努利实验中,总体结果更倾向于更少的p(事件发生)次数。

p>q:直方图朝左边倾斜,相反

如果n很大(当p<q且np≥5,或p>q且nq≥5),即使p≠q,偏态逐渐降低,最终*似等于正态分布,二项分布的极限分布为正态分布,可以用正态分布的概率作为*似值。关于这个结论的证明,我们在后面讨论正态分布的时候会详细说明。

1.3)二项分布的应用条件
  • 各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料
  • 已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值
  • n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等
1.4)二项分布的简单案例

题目为:从积累的资料看,某条流水线生产的产品中,一级品率为90%,今从某天生产的1000件产品中,随机地抽取20件作检查。试求恰有18件一级品的概率。

题目看起来文字挺多,其实无用的信息很多,我们抽象为随机事件,可以概括为:

设产品抽检结果为随机试验E,抽检结果为离散随机事件X,样本空间为{合格、不合格},随机事件X的分布律为P(X=合格) = 0.9,P(X=不合格) = 0.1。现在基于随机试验E进行n重伯努利实验Y,即X~B(n,p) = X~B(20,0.9),并求P(Y=18)的概率值。

根据二项分布概率公式可得:

 

2)超几何分布 

2.1)超几何分布的物理意义

要讨论超几何分布的物理意义,首先需要先回顾下二项分布的物理意义,我们可以从不同的角度来看二项分布:

  • 抽样实验角度:二项分布是建立在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,然后抽下一个
  • 信号冲击响应系统:二项分布代表的是时移不变性的信号,也就是说,随着时间的进行(随机试验的进行),信息系统本身的性质(概率密度)不会发生变化

现在我们将问题复杂化,即进行无放回抽样(概率密度随着时移而改变)的随机试验,这时,传统的二项分布无法处理这种情况。

超几何分布就是这种背景下被提出,用来计算在无放回抽样情况下,概率密度和概率分布的建模问题。

2.2)超几何分布数学公式

设随机变量X,假定在 N 件产品中有 M 件不合格品,即这批产品的不合格率 p= M/N。从这批产品中随机地抽取n件作检查,发现有X件是不合格品,则 X 的概率密度函数为

则称这个随机变量X服从参数为(N,M,n)的超几何分布

这种抽样检查方法实质上等价于无放回抽样,如果采用有放回抽样的检查方法,那么,超几何分布会退化为二项分布,即当 M = Np 时,有:

在实际的工程开发中,当总体的容量N不大时,要用超几何分布来计算,如果N很大而n很小(N ≥10n),不管是否是放回抽样,都可以用二项分布来*似计算,也就是可以将无放回抽样*似看出有放回抽样,因为当N远大于n时,不放回导致概率密度函数的变化小到可以忽略不计,这种*似转化的思想在数学里很常见,在面对复杂问题的时候尤其有用。

3)泊松分布

3.1)泊松分布数学公式

泊松分布是1837年法国数学家泊松(Poisson,1781-1840年)首次提出的。

设随机变量X的取值为0,1,....,n,相应的分布律为:

称这个随机变量X服从参数为λ的泊松分布,记作X ~ P (λ),其中,λ > 0。 

公式本身很简单,咋一看是一个完全新的概率公式,但其实泊松分布是二项分布在大数定律下的*似等价,是大数定律的最好体现(小数世界的随机性和大数据世界的统计规律性),我们接下来一起推导分析下。

3.2)泊松定理推导分析

让我们以某段时间内发生的交通事故次数为例。我们把这段时间记为[0,1),取一个很大的自然数n(大数定理),将时间段等分为n段,记每段的区间为[公式]=[[公式],[公式])。

根据试验后验统计,在整个时间区间内共发生λ起事件,因此当n足够大时,可以假定在每段小区间内,发生一次事故的概率为λ/n。又因为n很大,所以可以假定在每段小区间内至多发生一次事故,因此就有p = λ/n,np = λ。

同时,每段小区间内是否发生事故是相互独立的。

以上条件说明该事件满足二项分布的成立条件,因此可以用二项分布进行推导。

设随机变量X为在 [0,1)时间段内发生事故的总次数,则有:

X~B(n,λ/n),P(X=i)=

根据假定,令n[公式],则有如下*似等价式:

  • [公式]/[公式]=[公式]=[公式]
  • [公式]=[公式]=[公式][公式]:级数求和公式。

代入上面二项分布公式,二项分布概率分布表达式即化为泊松分布概率分布表达式

可以看到,相比于二项分布,泊松分布的计算量更小,在超大数据的情况下,往往采用泊松分布来*似等价二项分布的计算。

笔者自己的观点认为,泊松分布和二项分布本质区别就是先天经验先验和后天试验经验的不同视角的体现,具体来说就是:

  • 在小数世界中,实验次数较少,我们主要依靠先天经验来设置先验概率作为随机事件的概率,这就是二项分布
  • 在大数世界中,实验次数较多,我们可以更多地依靠后天试验的后验结果作为随机事件的概率,这就是泊松分布
3.3)泊松分布的简单应用

某台仪器,由1000个元件装配而成,根据大量历史经验,每一元件在一年工作期间发生故障的概率为0.002,且各元件之间相互独立,求在一年内有2个元件发生故障的概率。

设X表示“发生故障的元件数”,则X~B(1000,0.002)。

由于n=1000较大,p=0.002较小,且np=2大小适中,所以可用泊松分布来*似计算该二项分布的值

 

Relevant Link:

https://zhuanlan.zhihu.com/p/26433704

4)几何分布

4.1)几何分布数学定义

在伯努利试验中,记每次试验中A事件发生的概率P(A) = p(0<p<1),设随机变量X表示A事件首次出现时已经试验的次数,则X的的取值为1,2,....,n,....,对应的分布律为:

称这个随机变量 X 服从参数为p的几何分布,记为X~Ge(p)。

4.2)几何分布的无记忆性

由几何分布的概率函数得到:

因此有:

这个推导过程反映了几何分布的一种特性,即无记忆性

 

0x3:连续型随机变量的概率密度函数与概率分布 

1. 连续型随机变量概率密度函数

设E是随机试验,Ω是相应的样本空间,X是Ω上的随机变量,F(x)是X的分布函数,若存在非负函数f(x)使得:

则称X为(一维)连续型随机变量,f(x)称为X的概率密度函数。

2. 连续型随机变量的概率分布函数

密度函数f(x)与分布函数F(x)之间的关系如下图所示.现在,F(x) = P (X ∈ (-∞,x]),即f(x)在区间(-∞,x]上的积分。

3. 连续型随机变量的性质

连续型随机变量具有下列性质:

  • F(x)是连续函数,且当f(x)在x=x0 处连续时,F′(x0)=f(x0)
  • 对任意一个常数c,-∞ < c < ∞,P(X = c) = 0,需要注意的是,这个性质对离散型随机变量是不成立的,恰恰相反,离散型随机变量计算的就是“点点概率”。
  • 对任意两个常数a,b,-∞ < a < b < ∞, 

4. 连续型随机变量概率密度和分布函数性质

按照连续型随机变量分布函数的特征性质,连续型随机变量密度函数必须满足下列两个条件:

  • f(x) ≥ 0,-∞ < x < ∞ 

这两个条件刻画了密度函数的特征性质,即如果某个实值函数f(x)具有这两条性质,那么,它必定是某个连续型随机变量的密度函数,理论上概率密度函数是无限的。  

例如,当f1(x),f2(x)都是概率密度函数时,只要c1,c2 ≥0,c1+c2 =1。则c1f1(x)+c2f2(x)也是一个密度函数,因为不难验证它是满足上述两个条件的。这表明概率密度函数是可以进行线性组合的,这大大加强了使用概率分布函数对物理世界的具体现象进行建模分析的能力。

5. 常见连续型随机变量的概率密度函数

1)均匀分布

1.1)均匀分布数学定义

设X为随机变量,对任意的两个实数a,b(a<b),概率密度函数为:

则称随机变量X服从区间(a,b)上的均匀分布,记为X~U(a,b)。

密度函数如下:

1.2)均匀分布概率分布函数

若X~U(a,b),则相应的概率分布函数为:

下图分别展示了均匀分布的概率密度函数与概率分布函数(导数与积分的关系):

1.3)均匀分布的实际案例

2)指数分布

2.1)指数分布的概率密度与概率分布函数公式

如果随机变量 X 的密度函数为:

则称随机变量X服从参数为λ的指数分布,记为X~E(λ)。

相应的分布函数为:

密度函数和分布函数的函数图如下:

2.2)指数分布的无记忆性

因为,所以有下式:

因此可证,指数型随机变量满足无记忆性特征:

即条件概率值只与持续时间t有关,与起始点s无关。

2.3)指数分布和泊松分布公式的互相推导

一言以蔽之:泊松分布和指数分布都是评估单位时间内n次伯努利实验的统计概率性质的一种概率分布,但是它们的度量角度不同。在一段时间内,事件出现的次数问题,就是泊松过程;在一段时间内,两件事件发生之间要等待的时间问题,就是指数分布

接下来我们通过泊松概率公式,推导得到指数分布的概率密度函数。

设随机变量 [公式] 表示在n重伯努利实验中,两次事件出现之间的时间间隔

[公式]

我们先计算 [公式] 的概率,其对应的泊松分布试验结果是,在时间 [公式] 内,事件A并没有出现。

换种说法是在 [公式] 时间段内,事件A出现0次。在一段时间内,事件出现的次数问题,就是泊松过程则有:

[公式],所以其反事件概率分布函数为:

[公式]

得到了概率分布函数,求其积分,得到其密度函数

这就是参数为λ的指数分布。

2.4)指数分布的函数性质

指数分布中的λ代表整个区间中总共发生的事件数,如果λ越大,也就是说区间内发生的总事件数越多,那么两个事件发生之间的时间间隔必然越短。当λ较小的时候,例如λ=1,也就是说区间内总共只发生1次事件,那么两个事件发生间隔时间大于1的可能性就很大(下图是指数分布的概率密度函数的图像,对应的概率是曲线下面积):

2.5)指数分布和泊松分布的数学期望对比

同一个n重伯努利实验,他们的期望分别为:

[公式]

[公式]

可以看到,它们两者是倒数关系:区间内某事件发生的次数越多自然间隔时间越短,区间内某事件发生的次数越少自然间隔时间越长。

从某种程度上可以说,泊松分布和指数分布是同一个事物的正反两面。

2.6)指数分布和几何分布的互相推导

指数分布常常被用来描述电器产品或者生物的寿命等现象。

抽象来说,如果x服从指数分布,那么[x]就服从几何分布。[x]是x取整的意思。

简单来说,每一秒钟,电器坏的寿命都是相同的;每经过一秒,相当于扔了一次骰子,正面坏,反面不坏;直到扔出正面,这就是几何分布。

其实在概率分布函数中,这种互相推导转换的关系是非常普遍的,祭出一张非常经典图,有兴趣的读者朋友可以用草稿纸演算一遍。

Relevant Link:

https://www.zhihu.com/question/54525571 
https://www.zhihu.com/question/24796044

3)正态分布

正态分布是概率统计中非常重要的一种分布,是高斯(Gauss,1777-1855年)在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又叫高斯分布。

3.1)正态分布数学定义

设X为随机变量,概率密度函数为:   

那么,称这个随机变量X服从参数为μ,σ 的正态分布(或高斯(Gaus)分布),记作X ~ N(μ,σ),其中,-∞ < μ < ∞ ,σ > 0。

服从正态分布的随机变量统称为正态随机变量

概率密度图和概率分布图如下:

3.2)正态分布的函数性质

正态分布概率密度函数有如下性质:

  • f(x) 关于x = μ对称,当x=μ时,f(x) 取到最大值
  • 固定σ,改变μ的值,则曲线沿x轴*移,但不改变其形状,所以参数μ又称为位置参数
  • 固定μ,改变σ的值,则曲线的位置不变,但随着σ的值越小,曲线越陡峭,所以参数σ又称为尺度参数

3.3)正态分布的应用场景

正态分布在理论上与实际应用中都是一个极其重要的分布,高斯在研究误差理论时曾用它来刻画误差的分布。

经验表明,当一个变量受到大量微小的、独立的随机 因素影响时,这个变量一般服从或*似服从正态分布。

例如,某地区男性成年人的身高、自动机床生产的产品尺寸、材料的断裂强度、某地区的年降雨量,等等。

4)sigmoid概率函数

设随机变量为Z,则sigmoid是关于随机变量Z的概率函数,它的概率分布形式为:

函数图像如下:

可以看到,sigmoid不仅符合概率函数的基本性质,同时还有其他的函数性质,这使得sigmoid适合在机器学习中用作激活函数,将线性层的输出转化为概率值。

可以看到在趋于正无穷或负无穷时,函数趋**滑状态,sigmoid函数因为输出范围(0,1),所以二分类的概率常常用这个函数,事实上logisti回归采用这个函数很多教程也说了以下几个优点

  • 值域在0和1之间
  • 函数具有非常好的对称性
  • 函数对输入超过一定范围就会不敏感,对极端事件具备很好的鲁棒性

关于sigmoid损失函数的讨论,可以参阅这篇文章

Relevant Link:

https://zlearning.netlify.com/computer/mlapp/mlappch2dot3-some-probability-distributions
https://www.cnblogs.com/LittleHann/p/10498579.html#_label2 

 

3. 经典概率分布函数在工程分析中的作用

0x1:二项分布在心理学和教育领域中关于机遇问题的判断研究

所谓机遇问题,即指在实验或调查中,实验结果可能是受试者猜测造成的。比如,选择题中随便选择一个选项,对错判断中随便判断一个结果。

凡此类问题,教育工作者和研究人员的目标是:欲区分由猜测而造成的结果与真实的结果之间的界限区间,即在一张试卷中(多个独立题目组成),答对多少题及以上可以可以大概率证明受试者不是在随机蒙题

特别要注意的是,在概率论中没有100%确定的结论,一切都是概率区间,按照假设检验的理论观点来重新阐述上面这句话,应该是:寻找猜测而造成的结果与真实结果之间的概率区间下界,即至少答对多少题才能达到至少95%的概率,与此同时,依然存在5%的置信区间(5%是常用的显著性检验的概率阈值),在这个5%概率区间中,真实情况与推测结论相反

下面我们举具体例子,应用二项分布来解决机遇问题的判断。

已知有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?
分析:对于蒙题的受试者来说,答对和打错的概率相同: 
同时, ,故此二项分布接*正态分布:
根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为
它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8、9、10题的概率只5%。
因此可以推论说,答对8题以上者不是凭猜测,而是会答。
但应该明确:作此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。

Relevant Link:

https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83

0x2:二项分布在工厂零件供应质量抽检评估中的作用

1. 问题场景说明

在很多工厂里,通常都会跟零件供应商约定供货合格率,并对每批供货进行抽检,就是所谓的IQC。

现在摆在面前的问题是这样的,实际的货物可能成千上万,你不可能逐一检测效果,而且像食品这种商品本身还是不能检测的,你难道要亲自吃一口看坏没坏?那我们怎么通过抽检的方法来判断这批货物的合格率有多高呢?

一个简单的想法是:随机从这批货物中抽取100个,逐一检测是否是次品,假如出现了5个次品,则这批货物的次品率就是95%。

现在问题来了,这么做合理吗?

显然不合理,反对的理由很简单,尽管抽样是随机的,但是单次的实验并不能代表真实情况,换言之,不具备概率统计性。

改进一下,我们多做几个实验,每次还是随机抽100个,连做10次,将10次的总次品数加起来取*均。这样做比之前的做法稍微更合理一些了,其内核也蕴含了一些概率思维,但是依然不够合理!因为可以问10次实验就够了吗?10次实验同样存在一定的抽样不均匀的概率,那接下来怎么办呢?继续扩大实验,100次、1000次、100000次?那多大的实验次数算合理呢?怎么量化的去评估所谓的合理性呢?

2. 通过二项分布数学模型正确评估和决策该问题 - 假设检验

现在我们将问题纳入二项分布的概率统计范畴内,使用假设检验的理论框架来解决这个问题。

总体思路是这样的:我们将次品抽检会出现的结果抽象为一个随机事件,先假设一个随机试验概率(即供应商承诺的合格率),这就是假设检验中的假设过程,然后进行n次伯努利实验,并根据实际的n次伯努利实验结果。

现在假设供货商承诺的合格率为97%,我们抽检10个货物进行次品检验,检验结果后发现了x个次品。

则有p=0.97,n=10,X~B(n,p) = X(10,0.97),知道了概率分布的参数,实际上我们也就得到了概率密度函数P(X=x)。

接下来就是根据实际的试验结果,查询其对应在概率密度函数上的概率值,进行置信检验。

1)x = 1:发现1个次品

P(X=1) = 10 * 0.97^9 * 0.03 = 0.228

计算结果表明按照我们的假设概率,在10次抽检中出现1个次品的概率为0.228,也就是说我们有22.8%的置信度可以相信这个假设概率,这就是假设检验中的检验过程

一般来说,22.%的概率不算低了,在实际的工业实践中,工厂一般会选择接受这样的检验结果,即认可供货商这批货的合格率是97%。

2)x = 2:发现2个次品

我们继续讨论实验结果, 那抽出2个不合格的呢?同样可以算出

P(X=2) = 45 * 0.97^8 * 0.03^2 = 0.032

可以看到,概率非常小,只有3.2%,继续推广,抽出超过2个以上不合格品的概率会更小。因此决策者应该拒绝该假设,即不认可供货商提供了97%的合格率。

3. 根据假设检验得到决策依据

因此如果10个样品中有2个或以上的不合格品,则整批的零件合格率肯定达不到97%,可以整批退货。

推而广之,如果约定的合格率是99.5%,则出现0个、1个、2个不合格品的概率分别为0.951、0.0478、0.001,如此10个只要抽出1个不合格品就可以整批退货了。这里省略计算过程。

4. 如何评估和选择适合自己的业务场景的抽检方案

接下来我们继续思考前面提的一个问题,到底应该抽多少样本合适呢?每次抽100个?每次抽10000个?显然抽的越多代表性越好,但是显然我们不可能无限地增加,抽样是有经济损失的,我们需要找一个损失与收益能*衡最大化的标准。如何用概率的思维量化地评估这个数字呢?我们接下来讨论这个问题。

假设你与供应商约定的接收合格率是99%,即AQL(接收质量限)=0.01,本批的总数量是1000只,现在我们现在准备了3种抽检方案:

  • 国际方案GB/T2828标准:抽样量为80,Ac=2,即抽到2个及以下不合格品可接收该批,抽到3个及以上不合格品则拒绝接收
  • 方案一:限于财力,稍微少抽样一些,抽20个,不合格品为0接收,大于0退回
  • 方案二:财力还可以,多抽样一些,抽50个,不合格品不超过1则接收,大于1则退回

接下来,我们开始抽检,接受者根据抽检结果进行决策的结果只有两个:

  • 实际批合格率低于约定合格率,仍被接收:接受者承担的风险属于使用者风险
  • 实际合格率高于约定,仍然存在拒收的风险,虽然这个风险并不大:生产者承担的这一类的风险叫做生产者风险

如果这批来料合格率只有98%,按照以上抽检方案,接收的概率分别为:

  • 国际方案GB/T2828标准:0.784419
  • 方案一:0.6676
  • 方案二:0.7357

如果这批来料合格率高于约定合格率,如99.5%,拒收的概率分别为:

  • 国际方案GB/T2828标准:0.007712
  • 方案一:0.09539
  • 方案二:0.026132

咋一看这三种方案性能差不多,在面对“实际合格率低于承诺”和“实际合格率高于承诺”这两种情况时,都有较大的概率能支持决策者作出正确的决策。

要解决这个问题,需要借助函数分析的思维方式,即不同的抽检方法底层是不同的二项分布概率密度函数,不同的概率密度函数具有不同的函数分布于函数性质。我们不单是评估各个抽检方案在单个点上的表现,而是要看各个抽检方案在整个可能样本空间上的整体表现。

每一种方案的两类风险,都可以画出OC曲线。如下:

图中横坐标为实际的批不合格率,纵坐标为接收概率,曲线下方为接收概率,上方为拒收概率。

可以看出即使来料不合格率远高于约定,接收的概率还是很大的。

黄色的矩形框称为理想曲线,理想的情况下,批不合格率低于约定肯定接收,而超过约定则肯定拒收,但这种理想曲线是不可能达到的,只能尽可能接*。

下面我们再看看三种抽样方案的OC曲线之间的对比。

可以看到,国标方案的下降趋势要比另外两种要快,更接*理想曲线。

笔者认为,概率论不是给人100%精确的答案的,相反,概率论中所有结果都是一个概率分布,一切皆有可能。概率论的主要目的是给出一个事物结果的发生概率区间,以及置信度,给决策者一个清晰明确的决策依据,至于最终如何决策,还需要决策者自己结合自身具体情况而定

Relevant Link:

https://zhuanlan.zhihu.com/p/24692791

 

4. 经典概率分布在工程问题场景中的局限

所谓的经典概率分布,是指一类有具体的函数形式,并且由少量的参数控制的概率函数。这些参数的值可以由数据集确定。它们统称为概率密度建模的参数化(parametric)方法

这种方法的一个重要局限性是选择的概率密度可能对于生成数据来说,是一个很差的模型(欠拟合),从而会导致相当差的预测表现。

例如:

  • 生成数据的过程是多峰的,那么这种分布不可能被单高斯分布描述, 因为它是单峰的。
  • 生成数据的过程是有多个非独立同步分布的多个信源组成的,那么这种分布不可能被高斯、伯努利等摡型描述

为了解决这类问题,学者提出了非参数化(nonparametric)方法,用于进行概率密度估计。这种方法对概率分布的形式进行了很少的假设。

总体上,非参数方法分为两个主要类别:

  • 基于多元简单函数组合,*似拟合训练数据
    • 核估计
    • *邻估计
    • 多元高斯分布
  • 基于高维线性/非线性函数,*似拟合训练数据
    • SVM
    • 深度神经网络

笔者注

关于非参数化方法,有两个非常重要的原则需要注意:

  • 第一,为了估计在某个特定位置的概率密度,我们应该考虑位于那个点的某个邻域内的数据点。注意,局部性的概念要求我们假设某种形式的距离度量,这里我们假设的是欧几里得距离。并且有一个自然的“*滑”参数描述局部区域的空间扩展。
  • 第二,为了获得好的结果,*滑参数的值既不能太大也不能太小。这类似于多项式曲线拟合问题中对于模型复杂度的选择,那里多项式的阶数 M 或者正则化参数α,被优化成了某些中等大小的值,既不太大也不太小。

有了这些认识,现在让我们讨论两 个广泛使用的密度估计的非参数化方法,核估计以及*邻估计

0x1:核密度估计

在“非参数估计”的语境下,“核”是一个函数,用来提供权重。例如高斯函数 (Gaussian) 就是一个常用的核函数。

让我们举个例子,假设我们现在想买房,钱不够要找亲戚朋友借,我们用一个数组来表示 5 个亲戚的财产状况: 

[8, 2, 5, 6, 4]

我们是中间这个数 5

“核”可以类比成朋友圈,但不同的亲戚朋友亲疏有别,在借钱的时候,关系好的朋友出力多,关系不好的朋友出力少,于是我们可以用权重来表示。总共能借到的钱是: 

8*0.1 + 2*0.4 + 5 + 6*0.3 + 4*0.2 = 9.2

那么“核”的作用就是用来决定权重,例如高斯函数(即正态分布),或者说是提供一种密度估计的原子度量单位:

如果还套用上面的例子的话,可以认为在 3 代血亲之外的亲戚就基本不会借钱给你了。 

一般要求核函数有下面两个性质:

  • 归一化:
  • 对称性:对所有 u 要求 

让我们假设观测服从D维空间的某个未知的概率密度分布p(x)。我们假设这个D维空间为欧几里得空间,并且我们想估计p(x)的值。

让我们考虑包含x的某个小区域R。这个区域的概率质量为:

现在我们假设我们收集了服从 p(x) 分布的 N 次观测,由于每个数据点都有一个落在区域 R 中的概率 P,因此位于区域R内部的数据点的总数 K 将服从二项分布:

基于二项分布的期望和方差公式,我们看到落在区域内部的数据点的*均比例为:

E[K/N] = P

类似地,以此为均值的概率分布的方差为:

var[K/N] = P(1−P)

对于大的 N 值,这个分布将会在均值附*产生尖峰,并且:

但是,如果我们也假定区域R足够小,使得在这个区域内的概率密度p(x)大致为常数,那么我们有:

其中V 是区域R的体积。把上面两个公式结合,我们得到概率密度的估计,形式为:

注意,上式的成立依赖于两个相互矛盾的假设,即区域R要足够小,使得这个区域内的概率密度*似为常数,但是也要足够大,使得落在这个区域内的数据点的数量K能够足够让二项分布达到尖峰。 

我们有两种方式利用上式的结果。

  • 我们可以固定 K 然后从数据中确定V的值,这就是K*邻方法。
  • 我们还可以固定V 然后从数据中确定 K,这就是核方法。

在极限N → ∞的情况下,如果 V 随着 N 而合适地收缩,并且 K 随着 N 增大,那么可以证明 K *邻概率密度估计和核方法概率密度估计都会收敛到真实的概率密度

我们先来详细讨论核方法。首先,我们把区域 R 取成以 x 为中心的小超立方体,我们想确定概率密度。为了统计落在这个区域内的数据点的数量K ,定义下面的函数:

这表示一个以原点为中心的单位立方体。函数k(u)是核函数(kernel function)的一个例子,在这个问题中也被称为Parzen窗(Parzen window)

根据上式,如果数据点xn位于以x为中心的边长为h的立方体中,那么量 k(x-xn/h) 的的值等于1,否则它的值为0

于是,位于这个立方体内的数据点的总数为:

把这个表达式代入公式

可以得到点x处的概率密度估计:

推导过程中我们使用了D维边长为h的立方体的体积公式V = hD

上式给出的概率密 度模型被称为核密度估计,或者Parzen估计

使用函数k(u)的对称性,我们现在可以重新表述这个方程。之前我们把这个函数表述为以x为中心的一个立方体,但是现在我们把这个函数表述为以N个数据点xn为中心的N个立方体。 

但是要注意的是,核密度估计有一个问题,即非连续性问题。在之前所述的核密度估计方法中就是立方体的边界。如果我们选择一个*滑的核函数,那么我们就可以得到一个更加光滑的模型。

一个常见的选择是高斯核函数。使用高斯核函数,可以得到下面的核概率密度模型

其中h表示高斯分布的标准差。因此我们的概率密度模型可以通过这种方式获得:令每个数据点都服从高斯分布,然后把数据集里的每个数据点的贡献相加,之后除以N,使得概率密度正确地被归一化。 

h的作用相当于*滑参数,如果它被设置得过小(最上方的图),结果是一个噪声非常 大的概率模型,而如果它被设置得过大(最下方的图),那么用于生成数据的概率分布(绿色曲线表 示)的双峰性质被抹去了。h取某个中等大小的值时,可以得到最好的密度模型(中间的图) 

前面我们说过,核函数的本质是一种”权重“,以欧式空间为例,核函数就是度量欧氏距离远*的权重,离x圆心越*的数据点,贡献的权重就越大,反之就越远

原则上来说,核函数的选择是任意的,只要满足下面的约束条件即可

这确保了最终求得的概率分布在处处都是非负的,并且积分等于1。 

0x2:*邻估计 

1、*邻估计解决回归问题

核方法进行概率密度估计的一个困难之处是控制核宽度的参数h对于所有的核都是固定的。 在高数据密度的区域,大的h值可能会造成过度*滑,并且破坏了本应从数据中提取出的结构。 但是,减小h的值可能导致数据空间中低密度区域估计的噪声

因此,h的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的*邻方法解决。 

因此我们回到局部概率密度估计的一般结果。

与核估计固定 V 然后从数据中确定 K 的值不同,我们考虑固定 K 的值然后使用数据来确定合适的 V 值

为了完成这一点,我们考虑一 个以x为中心的小球体,然后我们想估计概率密度p(x)。并且,我们允许球体的半径可以自由增长,直到它精确地包含K个数据点,这种方法被称为K*邻密度估计方法

我们看到参数K控制了*滑程 度,因此一个小的K值会产生一个噪声相当大的密度模型(最上方的图),而一个大的K值(最下方的 图)*滑掉了用于生成数据的真实概率分布(绿色曲线)的双峰性质。 

上图给出了对于不同参数K,K *邻方法的结果。我们看到 K 的值现在控制了光滑的程度,并且与之前一样,K的最优选择既不能过大也不能过小。

注意,由K*邻方法得到的模型不是真实的概率密度模型,因为它在整个空间的积分是发散的。

2、*邻估计解决多分类预测问题

接下来我们要说明概率密度估计的 K*邻方法如何推广到分类问题。为了完成这一点,我们把K*邻概率密度估计方法分别应用到每个独立的类别中,然后使用贝叶斯定理。

假设我们有一个数据集,其中 Nk 个数据点属于类别Ck ,数据点的总数为N ,因此 ∑Nk = N 。

如果我们想对一个新的数据点x进行分类,那么我们可以画一个以x为中心的球体,这个球体精确地包含K个数据点(无论属于哪个类别)。假设球体的体积为V ,并且包含来自类别Ck的Kk个数据点。这样我们可以得到与每个类别关联的一个概率密度的估计:

类似地,样本概率密度为:

 

类先验为: 

将上式结合起来,可以得到类别的后验概率:

如果我们想最小化错误分类的概率,那么我们可以把测试点x分配给有着最大后验概率的类别,这对应于最大的Kk 。因此为了分类一个新的数据点,我们从训练数据中选择K个最*的数据点,然后把新的数据点分配为这个集合中数量最多的点的类别。

  • K = 1 的特例被称为最*邻规则(nearest-neighbour rule),因为测试点简单地被分类为训练数据集里距离最*的数据点的类别。
  • K = N 的情况被称为K*邻规则(kernel based KNN) 

数据集在不同的K值下的K*邻算法的结果,小的K值会使得每个类别有许多小区域,而大的K值会产生数量较少面积较大的区域。 

0x3:非参数估计的局限性

正如到目前为止讨论的那样,K*邻方法和核密度估计方法都需要存储整个训练数据。如果数据集很大的话,这会造成很大的计算代价。这通过建立一个基于树的搜索结构,使得(*似) *邻可以高效地被找到,而不必遍历整个数据集,这种计算代价可以被抵消,代价就是需要进行一次性的额外计算量。

除此之外,非参数化方法还有其他的局限性,因为它们只能表示某一种形式的概率分布(直方图、高斯分布)。

在很多时候,我们需要一种更复杂的概率密度模型,这种模型需要非常灵活,并且它的复杂度可以被控制为与训练数据的规模无关,这就是人工神经网络和深度神经网络的讨论范畴。

 

5. 在各个学科领域里概率分布函数的应用于变化

概率分布与数理统计不仅是在纯机器学习领域的一个理论研究成果,在各个具体的应用学科里也被广泛的时候,其中也包括笔者所在的网络安全领域。笔者这里列举一些典型的概率统计的应用场景。

0x1:统计语言模型

在统计语言模型中,通过统计每个词组的词频(words group frequency)得到词组的词频直方图,这个直方图本质上就是一个离散型随机变量X,随机变量X代表每个词组的词频权重。

统计语言模型通过词组词频随机变量来抽象概括输入文本的文本语言特征。

关于统计语言模型的相关讨论,可以参阅另一篇文章。 

0x2:基于数理统计方法的地质模型不确定性评价 

王鹏飞,高振南,李俊飞,等.基于数理统计方法的地质模型不确定性评价[J].地质科技情报

0x3:关于气象灾害笼罩面积与出现概率的一个定理

论文的主要讨论重点可以总结为:

气象灾害(现象) x 的出现概率是可以从当地的多年气象资料的统计中得到的, 它是时间域的问题。
气象灾害(现象) x 在同一时刻在面积 S 上占有的面积问题是可以通过天气图的分析而得到的, 它是空间域的问题。
文章从概率分布上证明了这两个随机变量的概率分布是*似相等的,将时间域问题和空间域这两种含义不同的统计联系到了一起。
简单来说,如果 24h 内有降水的事件的出现概率在全国各地的*均值等于 0.3 (各地*均 3d 有一场雨), 那么雨区占全国总面积的百分比的时间*均值也应当是 0.3, 即*均而言雨区占总面积的 30%。
建立起这两个随机变量之间的*似等价关系之后,就可以进行 t检验,即已知一个随机事件的概率后,检测另一个对应等价随机事件同样也发生的置信度。
简单来说,就是,N 年一遇的灾害如果某年在全国发生的面积为 1/N, 那么这应当属于正常年份。如果受灾面积超过 1/N,则说明该年不正常。

0x4:一种基于概率分布的投标报价方法 

论文的主要观点可以总结为:

作者通过对企业的历史项目招投标以及运营收益的数据收集,并进行统计分析。对项目成本、投标价格、项目利润收益期望这几个随机变量进行建模。最后通过计算利润收益期望的极值,得到一个“投标价格和企业收益的概率分布函数推导公式”,得到一个相对准确的投标报价模型。

使得投资者可以根据自己的报价预估可能的利润收益,同时也可以根据预期的利润收益反推应该采取的报价策略和措施。

0x5:概率统计与数理分析在各个学科场景中的应用 

有一点笔者希望提出的是,在工程实践的复杂场景中,不要总想着用我们已知的一些经典概率统计模型去“套用”,例如说“我尝试用正态分布来对一个现象进行建模,也不管实际数据拟合程度如何,就强行硬套”。在很多时候,经典的概率分布函数也不足以描述事物的所有规律与变化,这时候需要提出新的概率密度函数,或者基于经典概率分布函数进行组合改造,使其更加符合实际的数据分布表现。

Relevant Link:

http://xueshu.baidu.com/s?wd=%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E5%9C%A8%E5%90%84%E4%B8%AA%E5%AD%A6%E7%A7%91%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
http://xueshu.baidu.com/usercenter/paper/show?paperid=de08e07cdd644a2a4c90260a6056f011

 

6. 生成式模型和判别式模型的对立与统一

以概率分布函数为主的统计应用,主要是围绕生成式模型进行研究和开发,他们更注重了解事物的规律本身,以此来更好的指导决策。

另一方面,像深度神经网络这类机器学习算法,主要是围绕判别式模型进行研究和开发,他们更加注意数据和算法本身,主要的目标是获得一个泛化能力更好的模型,对模型的内部参数以及概率分布并不十分关心。

 

7. 基于系统在不同时域中的概率分布函数的状态变化进行异常检测

开题可行性调查:同一个系统,如果没有外力作用或内部状态发生巨变的情况下,特征函数应该稳定收敛为一个特定的概率分布函数上,相反,如果有异常发生,则该系统的特征函数会发生状态跃迁,具体的表现就是概率分布函数的参数发生变化。

具体的变换程度可以通过”变化显著性“进行量化度量。

相关话题讨论可以wechat或者emai和我交流。

 

posted @ 2019-07-02 14:48  郑瀚Andrew.Hann  阅读(3420)  评论(0编辑  收藏  举报