统计2:随机变量及其分布

在一些随机试验中,结果可以用数值来表示,此时样本空间S的元素是数字;但是,有些试验,当样本空间S的元素不是数字时,就需要引入随机变量的概念了。

设S是样本空间,把随机试验的每一个结果,即把S的每个元素e与实数对应起来,从而便于对S进行描述和研究。

一,随机变量

定义 设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的单值函数,称X=X(e)为随机变量。

(1),有许多随机试验,结果本身是一个数,即样本点e本身是一个数,令X=X(e)=e,那么X就是一个随机变量。

(2),把一枚硬币抛掷三次,把出现正面记作A,把出现反面记作B,那么样本空间S={e}={AAA,AAB,ABA,ABB,BAA,BAB,BBA,BBB},

  设随机变量X是出现正面的次数,那么随机变量X=X(e)={0,1,2,3},

  由此,可以计算出:随机变量X=2发生的的概率是 P{X=2}=P{AAB, ABA, BAA}=3/8。 

因为随机变量是元素的单值函数,所以随机变量对应样本空间的一个或多个元素。

如何计算随机变量的概率,下文给出了三种方式:

  • 分布律:适用于离散型随机变量
  • 分布函数:适用于离散型随机变量和连续型随机变量
  • 概率密度函数:适用于连续型随机变量

注意:连续型随机变量取任意指定的实数值的概率都等于0,即P{X=a} =0,但是,概率为0并不意味着,{X=a}是不可能事件,只是事件{X=a}发生的概率非常小,小到几乎不可能发生。

二,离散型随机变量

有些随机变量,它全部可能取到的值是有限多个或可列无线多个,这种随机变量称为离散型随机变量。

要掌握一个离散型随机变量X的统计规律,只需要直到X的所有可能取值,以及取每一个可能值得概率。

设离散型随机变量X所有可能取值为xk(k=1,2,...),X取各个可能值得概率,即事件{X=xk}的概率为:

P{X=xk}=pk,k=1,2,...

离散型随机变量常用的分布规律是:0-1分布律,二项分布率,泊松分布律,读者需要知道分布律的特性。

1,0-1分布律

对于一个随机变量,如果样本空间只包含两个元素,即S={e1,e2},可以定义随机变量X来描述随机试验的结果:

随机变量X只可能取值0和1两个值,分布律是:

P{X=k}=pk(1-p)1-k, k=0,1 (0<p<1)

 2,二项分布律

设试验E只有两个可能结果A和B,设P(A)=p( 0<p<1),此时P(B)=1-p,把试验E独立重复地进行n次,则称这一串重复的独立试验服从二项分布律:

随机变量X只可能取值0和1两个值,把分布律是:

对于固定的n和p,二项分布b(n,p)的概率分布是:当k增加时,概率P{X=k}先是随之增加,直至达到最大值,随后单调减少。

3,泊松分布律

设随机变量X所有可能取得值是0,1,2,...,而取各个值得概率是:

 

其中参数λ>0,是常数,泊松分布的参数λ是单位时间内随机事件平均发生的次数。泊松分布的图形大概是

 

可以看到,泊松分布的特点是概率先随着k值的增加而增加,再达到顶点后,随着k值的增加而减少。

泊松分布和二项分布得图形很相似,实际上,可以使用泊松分布来逼近二项分布:

λ>0 是常数,n是任意正整数,设np=λ,以n,p为参数得二项分布得概率值,可以有参数为λ=np得泊松分布概率值近似,可以用作二项分布概率的近似计算。

三,随机变量的分布函数

为了研究随机变量取值落在一个区间(x1, x2]的概率: P{x1<X<=x2}

引入随机变量的分布函数:

定义 设X是一个随机变量,x是任意实数,函数

F(x)=P{X<=x}

称作X的分布函数,对于任意实数x1,x2 (x1<x2),如何计算随机变量X落在区间(x1, x2]的概率?

P{x1<X<=x2}=P{X<=x2}-P{x<=x1}=F(x2)-F(x1)

因此,如果已知X的分布函数,就知道X落在任一区间(x1, x2]的概率,从这个意义上说,分布函数完整地描述了随机变量的统计规律性。

分布函数是一个普通的函数,如果把X看成数轴上的随机点的坐标,那么分布函数F(x)在x处的函数值就表示X落在区间(-∞, x]上的概率。

四,连续型随机变量的概率密度函数

定义 如果对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有分布函数:

则X为连续型随机变量,称f(x)为X的概率密度函数,简称为概率密度。

如何通过概率密度函数计算随机变量的概率?对于任意实数a,b(a<=b),随机变量的取值落在区间(a,b]的概率是:

 连续性随机变量使用概率密度来研究,服从概率密度函数, 概率密度是什么意思?简单来说,就是连续随机变量落在某个区间的面积就是其概率。

读者需要知道常用的概率密度是:均匀分布,指数分布和正态分布。

1,均匀分布

均匀分布的概率密度函数为:

均分分布的概率密度函数是,落在区间(a,b)内任意等长度的子区间内的可能性是相同的,或者说,落在(a,b)的子区间内的概率只依赖于子区间的长度,而与子区间的位置无关。

2,指数分布

指数分布概率分布函数是:

其中λ > 0为常数,指数分布的概率密度函数如下图所示:

3,正态分布

正态分布的的概率密度函数是,其中μ,σ( σ>0)为常数,μ是数学期望,σ是标准差。

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为X~N(μ,σ2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。

正态分布的概率密度图形如下所示,其图形是关于x=μ对称的,当x=μ时取得最大值。x离μ越远,f(x)的取值越小,这表明,对于同样长度的区间,当区间远离μ时,X落在这个区间上的概率越小。

 

结论:

  • x离μ越远,f(x)的取值越小,这表明,对于同样长度的区间,当区间远离μ时,X落在这个区间上的概率越小。
  • 若 X~N(μ,σ2),那么随机变量X的期望和方差是:E(X)=μ,D(X)=σ2

我们把μ = 0,σ = 1的正态分布是标准正态分布。

在自然和社会现象中,大量随机变量都服从或近似服从正态分布。

五,一维随机变量的函数的分布

定义 设X是随机变量,那么Y=g(X)是随机变量的函数;当X取值x时,Y取值g(x)。

如何计算Y的概率分布?可以通过随机变量X来计算Y的概率:

  • 当已知X的分布律时,可以通过X的分布律来计算Y的分布律;
  • 当已知X的分布函数时,可以通过X的分布函数来计算Y的分布函数;
  • 当已知X的概率密度函数时,可以通过X的概率密度函数来计算Y的概率密度函数。

因此,Y是另一个随机变量,其概率可以由随机变量X来计算。

六,二维随机变量

在实际问题中,对于某些随机试验的结果,需要同时用两个或两个以上的随机变量来描述,例如,为了研究某一个地区学龄前儿童的发育情况,对这一地区的儿童进行抽样,对于每个儿童都能观察到身高(H)和体重(W),因此,设样本空间S={e}={某地区的全部学龄前儿童},而H(e)和W(e)是定义在S上的两个随机变量。

设E是一个随机试验,样本空间是S={e},设X=X(e),Y=Y(e)是定义在S上的随机变量,把(X,Y)叫做二维随机变量。

二维随机变量(X,Y)的性质不仅跟X和Y有关,而且还依赖于这俩那哥哥随机变量的相互关系。因此,逐个地研究X和Y的性质是不够的,还需要将(X,Y)看作一个整体来进行。

定义 设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:

F(x)=P{X<=x 且 Y<=y}=P{X<=x, Y<=y}

称作二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。

如果把二维随机变量(X,Y)看作是平面上随机点的坐标,那么容易计算出随机点(X,Y)落在举行区域{(x,y) | x1<x<=x2, y1<y<=y2}的概率为:

P{x1 < X <=x2, y1<Y<=y2}=F(x2,y2) + F(x1+y1) - F(x2,y1) - F(x1,y2)

七,相互独立的多维随机变量

定义 设F(x,y)和Fx(x,y),Fy(x,y)分别是二维随机变量(X,Y)的分布函数以及边缘分布函数,若对于所有x,y,有

P{X<=x, Y<=y}=P{X<=x} P{Y<=x}, 即F(x,y)=Fx(x,y) Fy(x,y) ,

则称随机变量X和Y是相互独立的。把二维随机变量推广到n维随机变量(X1,X2,...,Xn),得到n维随机变量的分布函数定义为:

F(x1,x2,...,xn)=P{X1<=x1,X2<=x2,...,Xn<=xn},其中 x1,x2,...,xn为任意实数。

如果X1,X2,...Xn是相互独立的,那么

F(x1,x2,...,xn)=Fx1(x1) Fx2(x2) ... Fxn(xn)

定理:设(X1,X2,...,Xm)和(Y1,Y2,...,Yn)相互独立,则Xi(i=1,2,...,m)和Yj(j=1,2,...,n)相互独立,如果h,g是连续函数,则h(X1,X2,...,Xm)和g(Y1,Y2,...,Yn)相互独立。

八,随机变量的函数的分布

设X,Y相互独立,且X和Y都服从正态分布,那么随机变量Z=X+Y也服从正态分布。

这个结论还能推广到n个独立的服从正态分布的随机变量之和的情况,

即,若Xi(i=1,2,...,n)相互独立,且服从正态分布,那么Z=X1+X2+...+Xn 仍然服从正态分布。

一般,有限个相互独立的,且服从正态分布的随机变量的线性组合仍然服从正态分布。

九,大数定律

大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。

1,弱大数定律(辛钦大数定理)

设随机变量X1,X2,...,Xnx相互独立,服从同一个分布,且具有相同的数学期望μ,则序列的期望:

以概率收敛于μ,也就是说,随着n的增大,  与μ之间的误差会越来越小。

白话:一个团的军人的平均身高是a,n个团的军人的平均身高近似等于a。

2,伯努利大数定理

当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。

白话:如果一个团的军人数量足够多,那么这个团的军人的平均身高是稳定的。

3,切比雪夫大数定理

随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

白话:如果一个团的军人数量足够多,那这个团的军人平均身高可以代表整个军队的军人的平均身高。

十,中心极限定理

中心极限定理表明,在相当一般的条件下,当独立随机变量的个数不断增加时,其和的分布趋于正态分布。通俗地说,如果一个事件受到N(N趋近于无穷)个独立因素的共同影响,且每个因素产生的影响都是独立的,那么这个事件发生的概率就服从中心极限定理,收敛于正态分布。因此,在实际应用中,正态分布是非常重要的,只要影响因素足够多,每个因素的作用都很微小,不必考虑每个因素服从什么分布,都可以用正态分布来预测事件发生的概率。

1,独立同分布的中心极限定理

设随机变量X1,X2,...,Xn相互独立,服从同一分布,并且具有有限的数学期望和方差:E(Xi)=μ,D(Xi)=σ2  >0  (k=1,2....),

当n很大时,随机变量之和的标准化变量:   近似地服从标准正态分布N(0,1)。

因此,当n很大时,  近似地服从正态分布N(nμ,nσ2)。该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。

白话:标准化变量Yn近似地服从标准正态分布。

2,棣莫佛-拉普拉斯定理

设随机变量Yn(n=1,2,...,)服从参数为n,p(0<p<1)的二项分布,则对于任意x,都有

白话:这个定理表明,正态分布是二项分布的极限分布,当n充分大时,可以由该定理近似地求二项分布的概率。

3,不同分布的中心极限定理

设随机变量X1,X2,......Xn,......独立同分布,具有数学期望E(Xk)=μk 和方差   (k=1,2,...), 记:

则随机变变量之和的标准化变量: 近似地服从标准正态分布N(0,1)。
 
该定理说明:当n很大时,随机变量Yn近似地服从标准正态分布N(0,1)。
这就是说,无论各个随机变量Xk(k=1,2,...,n)服从什么分布,只要满足定理的条件(具有期望和方差),那么它们的标准化变量Yn就近似地服从标准正态分布N(0,1),或者说,
 近似地服从正态分布N(nμ,nσ2)。
白话:标准化变量Yn近似地服从标准正态分布。

 

参考文档:

大数定律

中心极限定理

作者悦光阴
本文版权归作者和博客园所有,欢迎转载,但未经作者同意,必须保留此段声明,且在文章页面醒目位置显示原文连接,否则保留追究法律责任的权利。
posted @ 2019-01-18 09:51  悦光阴  阅读(3677)  评论(0编辑  收藏  举报