浅探概率论
本文大部分参考自人民邮电出版社的《概率导论》(第 \(2\) 版),主要只探讨概率论方面,所以一些其他方面的知识都默认不讲,出于时间的考量可能会跳章,也可能会合并一些小节,同时习题的表述可能就比较偏 \(\text{OI}\) 而没那么严谨了
第 \(1\) 章 $ \ \ $ 样本空间与概率
$1.1 \ \ $ 集合
集合论不讲
$1.2 \ \ $ 概率模型
概率模型的基本构成
样本空间 \(\Omega\) ,这是一个试验的所有可能结果的集合
概率律,概率律为试验结果的集合 \(A\) (称其为事件)确定一个非负数 \(P(A)\) (称为事件 \(A\) 的概率)
$1.2.1 \ \ $ 样本空间和事件
每一个概率模型都关联着一个试验,这个试验将产生一个试验结果. 该试验的所有可能会产生的结果构成了样本空间 \(\Omega\) ,样本空间的子集,即某些试验结果的集合,称为事件,而事件发生当且仅当试验结果 \(s\) 满足 \(s \in A\)
注意样本空间中定义的不同的试验结果必须互相排斥,也就是说不允许同时出现两种结果,同时样本空间不能遗漏任何有可能的试验结果
$1.2.2 \ \ $ 概率律
假定我们已经确定了试验与样本空间 \(\Omega\) ,为了建立一个概率模型,下一步就要引进概率律的概念,它满足下面几条公理
概率公理
(非负性)对一切事件 \(A\) ,满足 \(P(A) \ge 0\)
(可加性)设 \(A\) 和 \(B\) 为 \(\Omega\) 两个互不相交的子集(概率论中称为互不相容的事件),则它们的并满足
\[P(A \cup B)=P(A)+P(B) \](归一化)整个样本空间 \(\Omega\) (称为必然事件)的概率为 \(1\) ,即 \(P(\Omega)=1\)
运用可加性公理,可以得到以下结论
离散概率律
设样本空间由有限个可能的试验结果组成,则事件的概率为组成这个事件的试验结果的概率之和,即事件 \(A=\{s_1,s_2,\cdots,s_n\}\) 的概率为 \(P(s_i\)) 之和,即
\[P(\{s_1,s_2,\cdots,s_n\})=P(s_1)+P(s_2)+\cdots+P(s_n) \]
后面都会使用简化的记号 \(P(s_i)\) 而不是 \(P(\{s_i\})\) 表示事件 \(\{s_i\}\) 的概率
假设样本空间 \(\Omega=\{s_1,s_2,\cdots,s_n\}\) ,且每个试验结果等概率的,那么利用归一化公理可得到定律
离散均匀概率律(古典概型)
设样本空间由 \(n\) 个等可能的试验结果组成,因此每个试验结果组成的事件(称为基本事件)的概率是相等的,由此可得
\[P(A)=\frac{|A|}{n} \]
连续模型对应的概率律有一定的差别,这个在之后讨论
$1.3 \ \ $ 条件概率
条件概率是在给定部分信息的基础上对试验结果的一种推断
用更确切的话说,给定一个试验与其概率模型,假设我们已经知道给定的事件 \(B\) 发生了,希望知道另一个给定的事件 \(A\) 发生的可能性. 因此我们要构造一个新的概率律,它顾及了事件 \(B\) 已经发生所产生的信息,求出任何事件 \(A\) 发生的概率. 这个概率就是给定 \(B\) 发生之下事件 \(A\) 的条件概率,记作 \(P(A|B)\)
注意新的条件概率必须是合格的概率律,即满足概率的 \(3\) 条公理,通过对古典概型的条件概率推导并将其推广,我们得到条件概率的定义
其中假定 \(P(B)>0\) ,否则 \(B\) 相应的条件概率是没有定义的
根据定义我们可以验证条件概率符合概率的 \(3\) 条公理,据此我们还可以推导出如下规则
乘法规则
假定所有涉及的条件概率都是正的,我们有
\[P(\cap_{i=1}^{n}A_i)=P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P(A_n|\cap_{i=1}^{n-1}A_i) \]
$1.4 \ \ $ 全概率定理和贝叶斯准则
本节我们将讨论条件概率的某些应用. 我们首先引入一个计算事件概率的定理
全概率定理
设 \(A_1,A_2,\cdots,A_n\) 是一组互不相容的事件,它形成样本空间的一个分割(每一个试验结果必定使得其中恰好一个事件发生). 又假定对于每一个 \(i\) , \(P(A_i)>0\) ,则对于任何事件 \(B\) ,下列公式成立
\[\begin{align*} P(B)&=P(A_1 \cap B)+ \cdots +P(A_n \cap B) \\ &=P(A_1)P(B|A_1)+ \cdots +P(A_n)P(B|A_n) \end{align*} \]
读者可自行推导证明
全概率定理是与著名的贝叶斯准则联系在一起的. 贝叶斯准则将形如 \(P(A|B)\) 的条件概率与形如 \(P(B|A)\) 的条件概率联系了起来
贝叶斯准则
设 \(A_1,A_2,\cdots,A_n\) 是一组互不相容的事件,它形成样本空间的一个分割(每一个试验结果必定使得其中恰好一个事件发生). 又假定对于每一个 \(i\) , \(P(A_i)>0\) ,则对于任何事件 \(B\) 满足 \(P(B)>0\),下列公式成立
\[\begin{align*} P(A_i|B)&=\frac{P(A_i)P(B|A_i)}{P(B)} \\ &=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+\cdots+P(A_n)P(B|A_n)} \end{align*} \]
证明贝叶斯准则只需要注意到 \(P(A_i)P(B|A_i)=P(B)P(A_i|B)=P(A_i \cap B)\) 就可以得到第一个等式,再对 \(P(B)\) 使用全概率公式即可得到第二个等式
例 $1.1 \ \ $ 假阳性问题
假设某种疾病的检出率为 \(0.95\) ,即如果一个被检的人患有该种疾病,则检查结果为阳性的概率为 \(0.95\) ;如果该人并不患有该疾病,则检查结果为阳性的概率是 \(0.05\) . 现在假定某一人群中患有这种病的概率为 \(0.001\) ,并从总体中随机地抽取一个人进行检测,检查结果为阳性. 现在问这个人患这种疾病的概率有多大?
记事件 \(A\) 为这个有这种疾病, \(B\) 为经过检验这个人为阳性. 利用贝叶斯准则,有
即使检出率这么高,但是在这个人群中的被检测为阳性的人仍然只有小于 \(2 \%\) 的概率患有该种疾病,比较违悖直觉
我们再来进行拓展,如果这个人检查了两次都是阳性,那患病的概率有多大?
设事件 \(B_1\) 为第一次检查这个人为阳性, \(B_2\) 为第二次检查这个人为阳性,仍然利用贝叶斯准则,有
可以发现第二次仍然检查出阳性使得该人患有疾病的概率确实增大很多,但仍然只有 \(\frac{1}{4}\) 左右,不过通过相同的推导,当第三次还是阳性时概率就到了 \(87.3\%\) ,第四次还是阳性的时候概率就已经为 \(99.2 \%\) 了,几乎能够确定该人患病. 更有意思的是,当每多检出一次阴性,概率就等价于少检出一次阳性的概率,读者可自行思考其原因
例 $1.2 \ \ $ 三门问题
你站在三扇一模一样的门前,其中一扇门后有奖品,其他两扇门后面什么都没有. 你可以选中一扇门,但不会立即打开,主持人会打开你选中的门以外的两扇门中的一扇空门,然后询问你是否要换选择,请问你换不换?
如果我们利用直觉,奖品必在这两扇门后面,那么随便选一扇门后面有奖品的概率就是 \(\frac{1}{2}\) ,所以换不换都一样
那么就假定坚持不换,可以发现因为有两扇空门,所以你选什么主持人都能打开一扇空门,那么主持人的操作对这扇门后面奖品的概率不变,就是 \(\frac{1}{3}\) ,所以另一扇门后面有奖品的概率变为了 \(\frac{2}{3}\)
直觉的推理出了什么问题?其实是随便这个条件,当我们等概率的选择换不换的时候,那能拿到的奖品的概率确实是 \(\frac{1}{2}\) ,因为奖品必在其中一扇门后面. 所以这个 \(\frac{1}{2}\) 是被随便选的 \(\frac{1}{2}\) 概率所影响的,这代表着我们在这个策略下能拿到奖品的概率. 而 \(\frac{1}{3}\) 和 \(\frac{2}{3}\) 其实代表的是在打开了一扇门后门后面有奖品的条件概率
使用贝叶斯准则,再来计算一下
设事件 \(A\) 为选中的门后有奖品,\(B\) 为另一扇门后面有奖品, \(C\) 为打开的恰好当前是被打开的空门,那么
于是利用贝叶斯准则,有
一样的结论,但是又有一个问题,为何能确定 \(P(C|A)=\frac{1}{2}\) ?这是不是必须要主持人等概率选择剩下的空门才能得到上面的结论?但是我们直接推理的结果证明确实跟主持人如何操作没有关系,那 \(P(C|A)\) 到底是不是恒为 \(\frac{1}{2}\) ?
这就又是一大误区,很多人用贝叶斯准则计算过后声称主持人的选择会影响 \(P(C|A)\) 从而影响最后得到的条件概率,但其实因为空门之间没有区别,所以门的编号其实没有任何意义,故可以理解为不是主持人选择了门,而是其中一个门选择了主持人,所以 \(P(C|A)\) 恒为 \(\frac{1}{2}\)
$1.5 \ \ $ 独立性
在 \(1.3\) 节中我们引入了条件概率 \(P(A|B)\) 的概念,可以注意到一个有趣的特殊情况,也就是
注意到当 \(P(B)=0\) 时没有定义,但上式转换一下,就等价于
这个式子代表着 \(A\) 和 \(B\) 有一个发生的前提下,没有改变另一个事件发生的概率,这种情况我们称事件 \(A\) 和 \(B\) 互相独立
有一个经典的错误认知是 \(A\) 和 \(A^{c}\) 相互独立,其实如果把式子列出来就会发现只有当 \(P(A)=0\) 或 \(P(A)=1\) 时 \(A\) 和 \(A^{c}\) 才相互独立
同时,若事件 \(A\) 和 \(B\) 相互独立,意味着 \(B\) 发生,不会对 \(A\) 的发生产生影响,那么凭借直观想象, \(B\) 不发生也不会对 \(A\) 的概率提供任何信息. 事实上我们的确可以证明若 \(A\) 和 \(B\) 相互独立,则 \(A\) 和 \(B^{c}\) 也相互独立
证明
根据可加性公理,可得
\[\begin{align*} P(A \cap B^c)&=P(A)-P(A \cap B) \\ &=P(A)-P(A)P(B) \\ &=P(A)(1-P(B)) \\ &=P(A)P(B^c) \end{align*} \]\(\text{Q.E.D.}\)
$1.5.1 \ \ $ 条件独立
特别地,在给定 \(C\) 保证 \(P(C)>0\) 之下,若事件 \(A\) 和事件 \(B\) 满足
\(P(A \cap B|C)=P(A|C)P(B|C)\)
则称 \(A\) 和 \(B\) 在给定 \(C\) 下条件独立,不过注意, \(A\) 和 \(B\) 相互独立并不能导出条件独立,反过来也是如此
现在把两个事件独立性的结论总结一下
独立性
- 称两个事件 \(A\) 和 \(B\) 相互独立,当且仅当
\[P(A \cap B)=P(A)P(B) \]
若 \(A\) 和 \(B\) 相互独立,则 \(A\) 和 \(B^{c}\) 也相互独立
设事件 \(C\) 满足 \(P(C)>0\) ,称两个事件 \(A\) 和 \(B\) 在给定 \(C\) 条件下条件独立,当且仅当
\[P(A \cap B|C)=P(A|C)P(B|C) \]
- 独立性并不能导出条件独立性,反之亦然
$1.5.2 \ \ $ 一组事件的独立性
两个事件的相互独立性的概念能够推广到多个事件的相互独立性
几个事件的相互独立性的定义
称 \(A_1,A_2,\cdots,A_n\) 为 \(n\) 个相互独立的事件,当且仅当
\[\forall S \subseteq \{1,2,\cdots,n\},P \Big( \bigcap_{i \in S}A_i \Big)=\prod_{i \in S}P(A_i) \]
若这一组事件相互独立,则可以推导出将这一组事件任意地分成两个小组,其中一个小组中的事件发生情况都不会影响另一个小组中的事件发生的概率,读者自证不难
$1.5.3 \ \ $ 独立试验和二项概率
现在设试验由一系列独立且相同的小试验组成,则称这种试验为独立试验序列,当每个小试验只有两种可能结果时,就称其为独立的伯努利试验序列,在学术讨论中,我们通常用抛掷硬币的两个结果“正面向上” \(\text{(H)}\) 和”反面向上“ \(\text{(T)}\) 作为代表
现在考虑连续 \(n\) 次独立地抛掷硬币的试验,每次抛掷的结果为正面向上的概率为 \(p\) ,结果为反面向上的概率为 \(1-p\) ,现在我们要计算概率
由于任何包含 \(k\) 次正面向上的结果的概率都是 \(p^{k}(1-p)^{n-k}\) ,记 \(n\) 次抛掷中出现 \(k\) 次正面向上的结果数为 \(\binom{n}{k}\) (即二项系数),有
同时通过归一化公理,我们得到二项公式
$1.6 \ \ $ 计数法
组合数学不讲
$1.7 \ \ $ 习题
排名估算
设事件 \(A_i\) 为小 \(C\) 排名是 \(i\) ,事件 \(B\) 是发生了 \(m\) 次比较都是小 \(C\) 排名靠前,则有
又因为
所以应用贝叶斯准则,可得
自然数幂和即可
赌徒输光问题
在区间 \([0,a+b]\) 上随机游走,初始在 \(a\) , \(p\) 的概率往右走, \(1-p\) 的概率往左走,走到 \(0\) 或 \(a+b\) 就停止,问走到 \(a+b\) 的概率是多少?
设 \(f_{i}\) 表示当前在 \(i\) ,走到 \(a+b\) 的概率,则有
整理一下,可得
- 当 \(p=\frac{1}{2}\) 时,有
带入 \(n=a+b\) ,则有 \(f_1=\frac{1}{a+b}\) ,故 \(f_{a}=\frac{a}{a+b}\)
- 当 \(p \not = \frac{1}{2}\) 时,设 \(r=\frac{1-p}{p}\) ,有
代入 \(n=a+b\) ,则有 \(f_1=\frac{1-r}{1-r^{a+b}}\) ,故 \(f_{a}=\frac{1-r^a}{1-r^{a+b}}\)
CatsOnTheCircle
编号为 \(0,1,\cdots,n-1\) 的 \(n\) 只猫按编号从小到大顺时针排成一个环,一开始有个球在 \(0\) 号猫处,每过一个单位时间,球有 \(p\) 的概率往顺时针传递,有 \(1-p\) 的概率往逆时针传递,第一次拿到球的时间最大的猫获胜,问 \(k\) 号猫获胜的概率
枚举第一次拿到球的时间第二大的是 \(k-1\) 还是 \(k+1\) ,然后直接上赌徒输光即可
第 \(2\) 章 $\ \ $ 离散随机变量
$2.1 \ \ $ 基本概念
现在设在某个试验中,所有可能的试验结果构成一个样本空间. 对于样本空间中每一个可能的试验结果关联着一个特定的数. 这种试验结果与数的对应关系形成一个随机变量,我们将试验结果所对应的数称为随机变量的取值. 从数学上讲,随机变量是试验结果的一个实值函数
我们列出若干关于随机变量的基本概念,这些概念将在本章中详细介绍
与随机变量相关的主要概念
在一个试验的概率模型之下:
随机变量是试验结果的实值函数
随机变量的函数定义了另一个随机变量
对于一个随机变量,我们可以定义一些平均量,比如均值(期望)和方差
可以在某事件或某随机变量的条件之下定义一个随机变量
存在一个随机变量与某事件或某随机变量相互独立的概念
若一个随机变量的值域(取值范围)为一个有限集合或可数无限集合,则称这个随机变量为离散的. 本章只讨论离散随机变量,尽管有时省略了形容词“离散”,但我们讨论的还是离散随机变量的性质
与离散随机变量相关的主要概念
在一个试验的概率模型之下:
离散随机变量是试验结果的实值函数,但是它的取值范围只能是有限多个值或可数无限多个值
一个离散随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率
离散随机变量的函数也是一个随机变量,它的分布列可以从原随机变量的分布列得到
$2.2 \ \ $ 分布列
离散随机变量的取值概率是其最重要的特征,我们用分布列表示这种特征,并且用 \(p_{X}\) 表示随机变量 \(X\) 的分布列. 设 \(x\) 是随机变量 \(X\) 的取值,则 \(X\) 取值为 \(x\) 的概率定义为事件 \(\{X=x\}\) 的概率,即所有与 \(x\) 对应的试验结果所组成的事件的概率用 \(p_{X}(x)\) 来表示,即
今后在不引起混淆的情况下,我们将省去表示事件和集合的括号,同时我们用大写字母表示随机变量,小写字母表示实数(例如随机变量的取值)
因为对于不同的 \(x\) ,事件 \(\{X=x\}\) 互不相容,并且对所有的 \(x\) ,事件系列 \(\{X=x\}\) 形成了样本空间的一个分割,所以对分布列我们应用可加性和归一化公理,有
$2.2.1 \ \ $ 伯努利随机变量
考虑抛掷一枚硬币,设正面向上的概率为 \(p\) ,反面向上的概率为 \(1-p\) ,伯努利随机变量在试验结果为正面向上时取值为 \(1\) ,否则取值为 \(0\) ,其分布列为
进一步,我们可以将多个伯努利随机变量综合成更加复杂的随机变量. 下面我们要讨论的二项随机变量就是其中之一
$2.2.2 \ \ $ 二项随机变量
将一枚硬币抛掷 \(n\) 次,设正面向上的概率为 \(p\) ,反面向上的概率为 \(1-p\) ,且每次抛掷相互独立. 令 \(X\) 为 \(n\) 次抛掷得到正面的次数,则称 \(X\) 为二项随机变量,其参数为 \(n\) 和 \(p\) . 其分布列就是 \(1.5.3\) 中讨论的二项概率,即
$2.2.3 \ \ $ 几何随机变量
在连续抛掷硬币的试验中,每次抛掷,正面向上出现的概率为 \(p\) ,反面向上出现的概率为 \(1-p\) ( \(p \in (0,1]\) ),且每次抛掷相互独立. 令 \(X\) 为如此抛掷直到第一次出现正面向上所需要的抛掷次数, \(X\) 就称为几何随机变量. 前 \(k-1\) 次抛掷为反面向上,第 \(k\) 次抛掷为正面向上的概率为 \((1-p)^{k-1}p\) ,因此 \(X\) 的分布列为
从
可知 \(X\) 是一个取正整数值的随机变量(在这个连续抛掷硬币的试验中永远出现反面向上的概率为 \(0\) )
$2.2.4 \ \ $ 泊松随机变量
设随机变量 \(X\) 的分布列由下式给出
\(p_{X}(k)=e^{-\lambda}\frac{\lambda^{-k}}{k!}\)
其中 \(\lambda\) 是分布列中取正值的参数,由于
\(\sum_{k=0}^{\infty}e^{-\lambda}\frac{\lambda^{k}}{k!}=e^{-\lambda}e^{\lambda}=1\)
所以这个数列符合分布列的定义
当 \(n\) 很大, \(p\) 很小时,参数 \(\lambda=np\) 的泊松随机变量的分布列是二项随机变量分布列的很好的逼近,即
泊松逼近公式的证明
考虑二项随机变量的分布列,其相应的参数为 \(n\) 和 \(p\) ,证明当 \(n \rightarrow \infty,p \rightarrow 0\) 并且 \(np\) 保持固定的常数 \(\lambda\) 的时候,这个二项分布列趋于参数为 \(\lambda\) 的泊松分布列
证明
利用关系式
\[\begin{align*} p_{X}(k)&=\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k} \\ &=\frac{n^{\underline{k}}}{n^{k}} \cdot \frac{{\lambda}^{k}}{k!} \cdot (1-\frac{\lambda}{n})^{n} \end{align*} \]固定 \(k\) ,令 \(n \rightarrow \infty\) ,我们得到
\[\frac{n^{\underline{k}}}{n^{k}} \rightarrow 1,\quad (1-\frac{\lambda}{n})^{n} \rightarrow e^{-\lambda} \]故对于每个 \(k\) ,当 \(n \rightarrow \infty\) 的时候,
\[p_{X}(k) \rightarrow e^{-\lambda}\frac{\lambda^{k}}{k!} \]\(\text{Q.E.D.}\)
$2.3 \ \ $ 随机变量的函数
设 \(X\) 是一个随机变量. 对 \(X\) 施行不同的变换,可以得到其他的随机变量. 设 \(Y=g(X)\) 是随机变量,由于 \(Y\) 对每个试验结果,也对应一个数值,故 \(Y\) 本身也是一个随机变量. 如果 \(X\) 是离散的随机变量,则 \(Y\) 也是离散随机变量,其分布列可通过 \(X\) 的分布列进行计算. \(p_{Y}(y)\) 的值可以通过下式计算
$2.4 \ \ $ 期望、均值和方差
\(X\) 的分布列给出了 \(X\) 所有可能取值的概率,我们希望将这些信息综合成一个能够代表这个随机变量的数. \(X\) 的期望可以实现这个目的, \(X\) 的期望就是 \(X\) 的所有取值相对于它的概率的加权平均,下面给出定义
期望
设随机变量 \(X\) 的分布列为 \(p_{X}\) ,, \(X\) 的期望值(也称期望或均值)由下式给出
\[\operatorname{E}[X]=\sum_{x}xp_{X}(x) \]
注意如果上面的和式不绝对收敛,也即
则 \(\operatorname{E}(X)\) 没有确切定义
$2.4.1 \ \ $ 方差、矩和随机变量的函数的期望规则
期望是随机变量及其分布列的重要特征,此外还有其他重要的特征量. 例如随机变量 \(X\) 的二阶矩定义为随机变量 \(X^2\) 的期望值. 进一步 \(n\) 阶矩定义为 \(\operatorname{E}[X^n]\) 也即 \(X^n\) 的期望值
除了均值,随机变量 \(X\) 最重要的特征量是方差,记作 \(\operatorname{var}(X)\) ,下面给出定义
方差与标准差
随机变量 \(X\) 的方差 \(\operatorname{var}(X)\) 由下列公式所定义
\[\operatorname{var}(X)=\operatorname{E}[(X-\operatorname{E}[X])^2] \]它是非负的,提供了 \(X\) 在期望周围分散程度的一个测度,分散程度的另一个测度是标准差,记为 \(\sigma{X}\)
\[\sigma_{X}=\sqrt{\operatorname{var}(X)} \]标准差具有实用性,因为它的量纲与 \(X\) 的相同
计算 \(\operatorname{var}(X)\) 时并不需要先行计算 \((X-\operatorname{E}[X])^{2}\) 的分布列,而另有更加便利的方法,这种方法根据下面的规则得到
随机变量的函数的期望规则
设随机变量 \(X\) 的分布列为 \(p_{X}\) ,又设 \(g(X)\) 是 \(X\) 的一个函数,则 \(g(X)\) 的期望由下列公式得到
\[\operatorname{E}[g(X)]=\sum_{x}g(x)p_{X}(x) \]
相信读者自证不难. 将期望规则应用到 \(X\) 的方差,我们得到
相似地,对于 \(X\) 的 \(n\) 阶矩,我们有
$2.4.2 \ \ $ 均值和方差的性质
我们将用随机变量的函数的期望规则导出一些期望和方差的重要性质. 首先考虑随机变量 \(X\) 的线性函数
其中 \(a\) 和 \(b\) 是已知常数. 关于线性函数 \(Y\) 的期望和方差,我们有
进一步地
随机变量的线性函数的均值和方差
设 \(X\) 为随机变量,令 \(Y=aX+b\) ,其中 \(a\) 和 \(b\) 为给定的常数,则
\[\operatorname{E}[Y]=a\operatorname{E}[X]+b,\operatorname{var}(Y)=a^{2}\operatorname{var}(X) \]
此外,还有一个方差的重要公式
用矩表达的方差公式
\[\operatorname{var}(X)=\operatorname{E}[X^2]-(\operatorname{E}[X])^2 \]
$2.4.3 \ \ $ 某些常用的随机变量的均值和方差
例 $2.1 \ \ $ 伯努利随机变量的均值和方差
考虑抛掷一枚硬币,设其正面出现的概率为 \(p\) ,反面出现的概率为 \(1-p\) ,下面给出它的均值、二阶矩和方差的计算公式
例 $2.2 \ \ $ 泊松随机变量的均值和方差
设 \(X\) 的分布列为泊松分布列,即
其中 \(\lambda>0\) 为常数,借助归一化公理,给出它的均值、二阶矩和方差的计算公式
在以后的章节中将用不同的方法导出泊松随机变量的均值和方差
$2.5 \ \ $ 多个随机变量的联合分布列
在一个试验中经常涉及几个随机变量,所谓多个随机变量是指在同一个试验结果之下产生的多个随机变量,它们所涉及的样本空间和概率律是相同的. 这些随机变量的取值是由试验结果确定的,因此它们的取值相互联系. 本节将分布列和期望推广到多个随机变量的情况,以后还要讨论条件和独立这样的概念
现在设在同一个试验中有两个随机变量 \(X\) 和 \(Y\) ,它们的取值概率可以用它们的联合分布列刻画,并且用 \(p_{X,Y}\) 表示,设 \((x,y)\) 是 \(X\) 和 \(Y\) 的可能取值, \((x,y)\) 的概率质量定义位事件 \(\{X=x,Y=y\}\) 的概率:
今后使用简介的表达式 \(P(X=x,Y=y)\) 代替更为准确的表达式 \(P(\{X=x\} \cap \{Y=y\})\)
使用联合分布列可以确定任何由随机变量 \(X\) 和 \(Y\) 所刻画的事件的概率. 例如 \(A\) 是某些 \((x,y)\) 所形成的集合,则
事实上,我们还可以利用 \(X\) 和 \(Y\) 的联合分布列计算 \(X\) 或 \(Y\) 的分布列
为区别起见,我们称 \(p_{X}(x)\) 或 \(p_{Y}(y)\) 的边缘分布列
$2.5.1 \ \ $ 多个随机变量的函数
存在多个随机变量的情况下,就有可能从这些随机变量出发构造出新的随机变量. 特别地,从二元函数 \(Z=g(X,Y)\) 可以确定一个新的随机变量,这个新的随机变量的分布列可以从联合分布列通过下式计算
进一步地,关于随机变量的函数的期望规则可以推广成下列形式
特别地,当 \(g\) 是形如 \(aX+bY+c\) 的线性函数时,我们有
其中 \(a,b,c\) 均为给定常数
上面的结论可以自然地推导到含两个以上的随机变量的情况
$2.6 \ \ $ 条件
本节将讨论条件分布列的性质. 实际上,条件的概念并不是新的,我们只是根据随机变量的特点,重新细述一遍,引进一些新的记号而已
$2.6.1 \ \ $ 某个事件发生的条件下的随机变量
在某个事件 \(A \ (P(A)>0)\) 发生的条件下,随机变量 \(X\) 的条件分布列由下式定义
注意,对于不同的 \(x\) , \(\{X=x\} \cap A\) 是互不相容的事件,它们的并为 \(A\) ,因此
比较两个式子,可以看出
故 \(p_{X|A}\) 符合分布列的要求
$2.6.2 \ \ $ 给定一个随机变量的值的条件下的随机变量
设某一试验中有两个随机变量 \(X\) 和 \(Y\) ,我们假定 \(Y\) 已经取定一个值 \(y \ (p_Y(y)>0)\) ,这个 \(y\) 值提供了关于 \(X\) 取值的部分信息,这些信息就包含于 \(X\) 的给定 \(Y\) 的值的条件分布列 \(p_{X|Y}\) 中,即 \(p_{X|A}\) ,其中事件 \(A\) 为事件 \(\{Y=y\}\)
利用公式
可以计算联合分布列
当然,我们使用不同的记号来表示全概率公式即可以得到计算边缘分布列的公式
最后,我们可以自然地将条件分布列的改列推广到含两个以上的随机变量的情况
$2.6.3 \ \ $ 条件期望
下面列出有关的定义和性质
关于条件期望的小结
设 \(X\) 和 \(Y\) 为某一试验中的两个随机变量
设 \(A\) 为某事件, \(P(A)>0\) ,随机变量在给定 \(A\) 发生的条件下的条件期望为
\[\operatorname{E}[X|A]=\sum_{x}xp_{X|A}(x) \]对于函数 \(g(X)\) ,我们有
\[\operatorname{E}[g(X)|A]=\sum_{x}g(x)p_{X|A}(x) \]给定 \(Y=y\) 的条件下 \(X\) 的条件期望由下式定义
\[\operatorname{E}[X|Y]=\sum_{x}xp_{X|Y}(x|y) \]设 \(A_1,\cdots,A_n\) 是互不相容的事件且形成样本空间的一个分割,假定 \(P(A_i)>0\) 对一切 \(i\) 成立,则
\[\operatorname{E}[X]=\sum_{i=1}^{n}P(A_i)\operatorname{E}[X|A_i] \]进一步假定事件 \(B\) 满足对一切 \(i\) , \(P(A_i \cap B)>0\) ,则
\[\operatorname{E}[X|B]=\sum_{i=1}^{n}P(A_i|B)\operatorname{E}[X|A_i \cap B] \]我们有
\[\operatorname{E}[X]=\sum_{y}P_{Y}(y)\operatorname{E}[X|Y=y] \]
上述最后的三个等式适用于不同的场合,但它们本质上是相互等价的,都可以称作全期望定理,证明留给读者自行推导
例 $2.3 \ \ $ 两个信封的悖论
咕咕咕~

浙公网安备 33010602011771号