统计2：随机变量及其分布

在一些随机试验中，结果可以用数值来表示，此时样本空间S的元素是数字；但是，有些试验，当样本空间S的元素不是数字时，就需要引入随机变量的概念了。

设S是样本空间，把随机试验的每一个结果，即把S的每个元素e与实数对应起来，从而便于对S进行描述和研究。

一，随机变量

定义设随机试验的样本空间为S={e}，X=X(e)是定义在样本空间S上的单值函数，称X=X(e)为随机变量。

（1），有许多随机试验，结果本身是一个数，即样本点e本身是一个数，令X=X(e)=e，那么X就是一个随机变量。

（2），把一枚硬币抛掷三次，把出现正面记作A，把出现反面记作B，那么样本空间S={e}={AAA,AAB,ABA,ABB,BAA,BAB,BBA,BBB}，

　　设随机变量X是出现正面的次数，那么随机变量X=X(e)={0，1，2，3}，

　　由此，可以计算出：随机变量X=2发生的的概率是 P{X=2}=P{AAB, ABA, BAA}=3/8。

因为随机变量是元素的单值函数，所以随机变量对应样本空间的一个或多个元素。

如何计算随机变量的概率，下文给出了三种方式：

分布律：适用于离散型随机变量
分布函数：适用于离散型随机变量和连续型随机变量
概率密度函数：适用于连续型随机变量

注意：连续型随机变量取任意指定的实数值的概率都等于0，即P{X=a} =0，但是，概率为0并不意味着，{X=a}是不可能事件，只是事件{X=a}发生的概率非常小，小到几乎不可能发生。

二，离散型随机变量

有些随机变量，它全部可能取到的值是有限多个或可列无线多个，这种随机变量称为离散型随机变量。

要掌握一个离散型随机变量X的统计规律，只需要直到X的所有可能取值，以及取每一个可能值得概率。

设离散型随机变量X所有可能取值为x_k(k=1,2,...)，X取各个可能值得概率，即事件{X=x_k}的概率为：

P{X=x_k}=p_k，k=1，2，...

离散型随机变量常用的分布规律是：0-1分布律，二项分布率，泊松分布律，读者需要知道分布律的特性。

1，0-1分布律

对于一个随机变量，如果样本空间只包含两个元素，即S={e1，e2}，可以定义随机变量X来描述随机试验的结果：

随机变量X只可能取值0和1两个值，分布律是：

P{X=k}=p^k(1-p)^1-k, k=0,1 (0<p<1)

2，二项分布律

设试验E只有两个可能结果A和B，设P(A)=p( 0<p<1)，此时P(B)=1-p，把试验E独立重复地进行n次，则称这一串重复的独立试验服从二项分布律：

随机变量X只可能取值0和1两个值，把分布律是：

对于固定的n和p，二项分布b(n,p)的概率分布是：当k增加时，概率P{X=k}先是随之增加，直至达到最大值，随后单调减少。

3，泊松分布律

设随机变量X所有可能取得值是0，1，2，...，而取各个值得概率是：

其中参数λ>0，是常数，泊松分布的参数λ是单位时间内随机事件平均发生的次数。泊松分布的图形大概是

可以看到，泊松分布的特点是概率先随着k值的增加而增加，再达到顶点后，随着k值的增加而减少。

泊松分布和二项分布得图形很相似，实际上，可以使用泊松分布来逼近二项分布：

设λ>0 是常数，n是任意正整数，设np=λ，以n，p为参数得二项分布得概率值，可以有参数为λ=np得泊松分布概率值近似，可以用作二项分布概率的近似计算。

三，随机变量的分布函数

为了研究随机变量取值落在一个区间(x1, x2]的概率： P{x1<X<=x2}

引入随机变量的分布函数：

定义设X是一个随机变量，x是任意实数，函数

F(x)=P{X<=x}

称作X的分布函数，对于任意实数x1,x2 (x1<x2)，如何计算随机变量X落在区间(x1, x2]的概率？

P{x1<X<=x2}=P{X<=x2}-P{x<=x1}=F(x2)-F(x1)

因此，如果已知X的分布函数，就知道X落在任一区间(x1, x2]的概率，从这个意义上说，分布函数完整地描述了随机变量的统计规律性。

分布函数是一个普通的函数，如果把X看成数轴上的随机点的坐标，那么分布函数F(x)在x处的函数值就表示X落在区间(-∞, x]上的概率。

四，连续型随机变量的概率密度函数

定义如果对于随机变量X的分布函数F(x)，存在非负可积函数f(x)，使对于任意实数x有分布函数：

则X为连续型随机变量，称f(x)为X的概率密度函数，简称为概率密度。

如何通过概率密度函数计算随机变量的概率？对于任意实数a，b(a<=b)，随机变量的取值落在区间(a,b]的概率是：

连续性随机变量使用概率密度来研究，服从概率密度函数，概率密度是什么意思？简单来说，就是连续随机变量落在某个区间的面积就是其概率。

读者需要知道常用的概率密度是：均匀分布，指数分布和正态分布。

1，均匀分布

均匀分布的概率密度函数为：

均分分布的概率密度函数是，落在区间(a,b)内任意等长度的子区间内的可能性是相同的，或者说，落在(a,b)的子区间内的概率只依赖于子区间的长度，而与子区间的位置无关。

2，指数分布

指数分布概率分布函数是：

其中λ > 0为常数，指数分布的概率密度函数如下图所示：

3，正态分布

正态分布的的概率密度函数是，其中μ，σ（ σ>0）为常数，μ是数学期望，σ是标准差。

若随机变量X服从一个数学期望为μ、方差为σ²的正态分布，记为X~N(μ，σ²)，其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。

正态分布的概率密度图形如下所示，其图形是关于x=μ对称的，当x=μ时取得最大值。x离μ越远，f(x)的取值越小，这表明，对于同样长度的区间，当区间远离μ时，X落在这个区间上的概率越小。

结论：

x离μ越远，f(x)的取值越小，这表明，对于同样长度的区间，当区间远离μ时，X落在这个区间上的概率越小。
若 X~N(μ，σ²)，那么随机变量X的期望和方差是：E(X)=μ，D(X)=σ²。

我们把μ = 0，σ = 1的正态分布是标准正态分布。

在自然和社会现象中，大量随机变量都服从或近似服从正态分布。

五，一维随机变量的函数的分布

定义设X是随机变量，那么Y=g(X)是随机变量的函数；当X取值x时，Y取值g(x)。

如何计算Y的概率分布？可以通过随机变量X来计算Y的概率：

当已知X的分布律时，可以通过X的分布律来计算Y的分布律；
当已知X的分布函数时，可以通过X的分布函数来计算Y的分布函数；
当已知X的概率密度函数时，可以通过X的概率密度函数来计算Y的概率密度函数。

因此，Y是另一个随机变量，其概率可以由随机变量X来计算。

六，二维随机变量

在实际问题中，对于某些随机试验的结果，需要同时用两个或两个以上的随机变量来描述，例如，为了研究某一个地区学龄前儿童的发育情况，对这一地区的儿童进行抽样，对于每个儿童都能观察到身高（H）和体重（W），因此，设样本空间S={e}={某地区的全部学龄前儿童}，而H(e)和W(e)是定义在S上的两个随机变量。

设E是一个随机试验，样本空间是S={e}，设X=X(e)，Y=Y(e)是定义在S上的随机变量，把(X,Y)叫做二维随机变量。

二维随机变量(X,Y)的性质不仅跟X和Y有关，而且还依赖于这俩那哥哥随机变量的相互关系。因此，逐个地研究X和Y的性质是不够的，还需要将(X,Y)看作一个整体来进行。

定义设(X,Y)是二维随机变量，对于任意实数x,y，二元函数：

F(x)=P{X<=x 且 Y<=y}=P{X<=x, Y<=y}

称作二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。

如果把二维随机变量(X,Y)看作是平面上随机点的坐标，那么容易计算出随机点(X,Y)落在举行区域{(x,y) | x1<x<=x2, y1<y<=y2}的概率为：

P{x1 < X <=x2, y1<Y<=y2}=F(x2,y2) + F(x1+y1) - F(x2,y1) - F(x1,y2)

七，相互独立的多维随机变量

定义设F(x,y)和Fx(x,y)，Fy(x,y)分别是二维随机变量(X,Y)的分布函数以及边缘分布函数，若对于所有x,y，有

P{X<=x, Y<=y}=P{X<=x} P{Y<=x}，即F(x,y)=Fx(x,y) Fy(x,y) ，

则称随机变量X和Y是相互独立的。把二维随机变量推广到n维随机变量(X1,X2,...,Xn)，得到n维随机变量的分布函数定义为：

F(x1,x2,...,xn)=P{X1<=x1,X2<=x2,...,Xn<=xn}，其中 x1,x2,...,xn为任意实数。

如果X1,X2,...Xn是相互独立的，那么

F(x1,x2,...,x_n)=Fx1(x1) Fx2(x2) ... Fx_n(x_n)

定理：设(X1,X2,...,Xm)和(Y1,Y2,...,Yn)相互独立，则Xi(i=1,2,...,m)和Yj(j=1,2,...,n)相互独立，如果h,g是连续函数，则h(X1,X2,...,Xm)和g(Y1,Y2,...,Yn)相互独立。

八，随机变量的函数的分布

设X，Y相互独立，且X和Y都服从正态分布，那么随机变量Z=X+Y也服从正态分布。

这个结论还能推广到n个独立的服从正态分布的随机变量之和的情况，

即，若Xi(i=1,2,...,n)相互独立，且服从正态分布，那么Z=X1+X2+...+Xn 仍然服从正态分布。

一般，有限个相互独立的，且服从正态分布的随机变量的线性组合仍然服从正态分布。

九，大数定律

大数定律(law of large numbers)，是一种描述当试验次数很大时所呈现的概率性质的定律。

1，弱大数定律（辛钦大数定理）

设随机变量X1,X2,...,Xnx相互独立，服从同一个分布，且具有相同的数学期望μ，则序列的期望：

以概率收敛于μ，也就是说，随着n的增大，与μ之间的误差会越来越小。

白话：一个团的军人的平均身高是a，n个团的军人的平均身高近似等于a。

2，伯努利大数定理

当n足够大时，事件A出现的频率将几乎接近于其发生的概率，即频率的稳定性。

白话：如果一个团的军人数量足够多，那么这个团的军人的平均身高是稳定的。

3，切比雪夫大数定理

随着样本容量n的增加，样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

白话：如果一个团的军人数量足够多，那这个团的军人平均身高可以代表整个军队的军人的平均身高。

十，中心极限定理

中心极限定理表明，在相当一般的条件下，当独立随机变量的个数不断增加时，其和的分布趋于正态分布。通俗地说，如果一个事件受到N（N趋近于无穷）个独立因素的共同影响，且每个因素产生的影响都是独立的，那么这个事件发生的概率就服从中心极限定理，收敛于正态分布。因此，在实际应用中，正态分布是非常重要的，只要影响因素足够多，每个因素的作用都很微小，不必考虑每个因素服从什么分布，都可以用正态分布来预测事件发生的概率。

1，独立同分布的中心极限定理

设随机变量X1，X2，...，Xn相互独立，服从同一分布，并且具有有限的数学期望和方差：E(Xi)=μ，D(Xi)=σ² >0 (k=1,2....)，

当n很大时，随机变量之和的标准化变量：近似地服从标准正态分布N(0，1)。