概率笔记8——方差、均方差和协方差

  除了数学期望外,方差、均方差、协方差也是重要的数字特征。

方差

  方差的代数意义很简单,两个数的方差就是两个数差值的平方,作为衡量实际问题的数字特征,方差有代表了问题的波动性。

方差的意义

  甲、乙二人是射击队最优秀的两名选手,教练组用每一枪的得分作为成绩,根据历史数据计算出二人的平均成绩,也就是数学期望,结果是二人的实力相当,平均成绩都是9.5。比赛的日子快要到了,但是本次比赛只有一个名额,派谁出战呢?

  一个简单的方法是让二人比赛一次,谁赢了选谁。但是二者实力相当,一场比赛无法评判孰强孰弱,这样做充满了随机性,丧失了考量的综合性,因此教练组不考虑这种方法。

  本次比赛夺金的政治意义重大,需要慎重考虑,稳定性成了教练组判断的另一指标。成绩稳定性是通过另一个数字特征判断的,这个特数字特征就是方差。

  下表示甲、乙二人在一次比赛中的成绩:

  甲是发挥型选手,成绩波动较大,可以打出“超级环”,也会打出大失水准的“低级环”;相反,乙的发挥比较稳定,总是与平均成绩接近。

  二者的平均成绩是已经提前计算出来的9.5,这个成绩已经与随机性无关,我们在这里也不去追究9.5是怎么算出来的,只需要借助这个数字特征给出一个供教练组参考指标,该指标描述了谁的波动大,谁更稳定。

  每一次射击的成绩均会产生波动,用每一次射击的得分减去平均成绩表示本次波动,得到了下面的数据:

  把每次波动累加起来就是整体的波动。由于有正有负,如果直接相加的话会正负抵消,最后二人的波动都是-0.1,得出二人同样稳定的结论,这显然是荒谬的。解决这个问题的一个方法是每次波动都取绝对值,另一个方法是取波动的平方,平方不用考虑符号的问题,因此比绝对值更简单。现在用(X-E(X))2表示波动,得到了下面的数据:

  现在可以计算出二人的总体波动了:

  可以看出,乙的波动远远小于甲的波动,说明乙的稳定性更高。

  至于具体选择谁出赛,从不同的方面考虑会得出不同的答案,我们的在这里仅仅是将方差作为一个指标给教练组参考。数学本身描述了问题的客观规律,但如何利用客观规律评判是人的事情。

方差与数学期望的关系

  在计算方差时,数学期望是必须的,用D(X)表示某个随机变量的方差:

  我们注意到E(X)已经是一个具体的数字,是加权平均值,已经事先通过计算去掉了随机性(比如选手的平均成绩,这是一个稳定的概念,不会因为输掉某场比赛就认为这名选手不行了);X是某个特定的随机变量,也是一个具体的数值,D(X)仅仅是将x=X放置在了一个函数里,最终也可以对得出定值。根据数学期望的特征,常数的数学期望仍是常数,因此:

  因此我们说,某一个随机变量的方差就是该随机变量函数的数学期望。我们可以利用数学期望的性质继续向下计算:

  所以说某一个变量的方差等于平方的期望减去期望的平方:

  虽然D(X)代表某个特定随机变量的方差,E(D(X)) = D(X),但E(X2) ≠X2,E(X2)表示的是随机变量函数g(X)=( X2)的数学期望。

  我们可以借助数学期望的计算公式计算随机变量的整体方差(参考上一章内容):

均方差(标准差)

  由于方差是数据的平方,与检测值本身相差太大,人们难以直观地衡量,所以常用均方差代替方差判断数据的波动。

  所有样本的方差之和除以样本的个数,再把所得值开根号,所得之数就是这组数据的均方差,也叫标准差,常见的离散型公式:

  其中r就是随机变量的数学期望,也就是加权平均值,N是样本空间中的一部分数据。

协方差

  当舞台转向了多维随机变量时,方差就变成了协方差,这里的“协”是指几个变量的协同相关性。

  如果(X, Y)是二维随机变量,且D(X)>0, D(Y)>0,则X,Y的协方差的定义是:

  和方差类似,E(X)E(Y)是确定的数学期望,对于某一组确定的变量x=X, y=Y来说,X和Y也是定值,因此协方差可进一步转换为:

  由于E(X)E(Y)是定值,因此可以根据数学期望的性质进一步计算:

  从直观上来看,协方差表示的是两个变量总体误差的期望。

  如果两个变量的变化趋势一致,也就是说如果两个变量都大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

  当两个变量完全一致时,协方差就变成了方差:

  这相当于同一个变量的协方差等于方差,自己与自己一定同步,无所谓协同。

  协方差的性质:

协方差矩阵

协方差只能处理二维问题,对于三维以上数据,就需要计算多个协方差,然后用矩阵将其组织起来,这就是协方差矩阵。

以三维随机变量(X,Y,Z)为例,其协方差矩阵用∑表示:

 

需要注意的是,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。

简单来说,协方差矩阵就是两两计算各维度之间的协方差,看看每两个维度之间的相关情况。如果各个变量之间相互独立,那么两个不同维度变量的协方差是0,协方差矩阵就是一个对角矩阵,并且对角线上的每个元素都是该维度的方差:

 

 


  作者:我是8位的

  出处:http://www.cnblogs.com/bigmonkey

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

  扫描二维码关注公众号“我是8位的”

posted on 2019-06-27 15:31 我是8位的 阅读(...) 评论(...) 编辑 收藏

导航