程序员的数学_概率统计

概率的定义

三门问题(蒙提霍尔问题)

三门问题的定义:三扇门中有一扇门中有汽车,另两扇门是错误选项,门中有山羊。挑战者需要从三扇门中选择打开一扇门。在挑战者选择好某扇门后,另两扇门中至少有一个是山羊,主持人打开没被选中的门中错误的那扇门,让挑战者确认门后的山羊,并问挑战者是否要重新选择。挑战者是否应该重新选择,还是坚持最初的选择?两种做法是否有区别?

解析:挑战者做出第一次选择后,有1/3的概率正确,2/3的概率不正确。若重新选择,有:1)如果第一次选择正确,重选必定错误;2)如果第一次选择错误,重选必定正确。因此,第一次选择错误的概率就是重选后正确的概率,重选的正确率是2/3。

概率问题的实质和三元组定义

上帝视角:有许多个平行世界,每个世界具有不同的剧本——比如在某一次抛骰子时结果必然为3,每个世界都会按照剧本的内容而发展,也就是说对于特定的世界,所有的结果都已经确定,不存在任何随机事件。

人类视角:人类无法确定抛骰子的结果,也就无法知道自己处于哪个世界。

通过上帝视角和人类视角,将概率问题转化为了面积问题,概率问题的实质是区域的面积。抛两次硬币,第一次结果是正面向上并不意味着第二次也是正面向上。抛硬币第一次与第二次的概率(区域的面积)相同,但这并不表示第一次与第二次的结果是等价的,因为两块区域的形状并不相同

三元组\((\Omega, F, P)\)定义:所有平行世界组成的集合为\(\Omega\)\(\Omega\)中的每一个元素都是一个具体的世界,表示为\(\omega\)\(\Omega\)的子集为随机事件,记为A,其面积为P(A);随机变量是\(\Omega\)中的函数F,对于\(\Omega\)中的各元素\(\omega\),函数\(f(\omega)\)返回的结果就是随机变量。对于所有平行世界\(P(\Omega)=1\)。如果人们无法知道自己处于哪个世界\(\omega\),就不能确定\(f(\omega)\)的值。

概率分布

随机变量涉及具体的平行世界,而概率分布只考虑面积,而不涉及具体的平行世界。只要得到随机变量X,就能求得相应的概率分布,但是反过来不成立,仅凭概率分布,无法求出随机变量的值。

概率分布的性质:

  • 每一项概率都大于等于0且小于等于1
  • 所有概率的和必定为1

简记方式

随机变量:具体写法为\(X(\omega)=a\);简单写法为X,不过需要根据上下文判断字母的含义。

概率分布:\(P(\Omega)\)的子集;P(条件)表示方法,如\(P(2 \le X \le 7)\)表示概率P(A),其中A是“由所有满足\(2 \le X(\omega) \le 7\)\(\omega\)组成的集合”

离散值的概率分布

联合概率和边缘概率

对于两个随机变量X和Y,用P(X=a, Y=b)用于表示X=a且Y=b的概率,这种包含多个条件且所有条件同时成立的概率称为联合概率。与之相对,P(X=a)或P(Y=b)这类仅与单个随机变量有关的概率称为边缘概率。联合概率的一览表称为联合分布,边缘概率的一览表称为边缘分布。

联合概率和边缘概率的关系如下:

  • \(P(X=a) = \sum_b P(X=a, Y=b)\)
  • \(P(Y=b) = \sum_a P(X=a, Y=b)\)

通过联合分布可以计算边缘分布,然而,只知道边缘分布无法求得联合分布。这就像知道加数可以求得和,然而只知道和无法知道每个加数是多少。

条件可以是不等式,如:\(P(X<a, Y>b)\)\(P(X<a)=P(X<a, Y<b)+P(X<a, Y=b)+P(X<a, Y>b)\)

对于三个及以上的随机变量,比如X、Y和Z,联合概率为P(X=a, Y=b, Z=c),而边缘概率有很多,像P(X=a, Y=b)、P(X=a)都是边缘概率。

条件概率

在比较重视程度时,我们不应该比较面积本身,而是比较该类型的面积在整个面积中占的比例。

条件概率的定义:在条件\(\bigcirc \bigcirc\)下,事件\(\bigstar \bigstar\)发生的概率,换个说法,就是在得知X后,对Y出现概率的预测。定义公式为:\(P(Y=b|X=a)=\frac{P(X=a, Y=b)}{P(X=a)}\)

在某条件下,穷举所有事件的值后,所有与这些值对应的概率之和为1:\(\sum_b P(Y=b|X=a)=1\)

练习:

  1. 与B山相比,A山的P(发现松鼠, 下雪)更高,同时,P(发现松鼠, 不下雪)也是A山更高。能否断言A山的P(发现松鼠)更高?
  2. 与D山相比,C山的P(发现松鼠 | 下雪)更高,同时,P(发现松鼠 | 不下雪)也是C山更高。能否断言C山的P(发现松鼠)更高?
  3. 对于E山,有P(发现熊 | 下雪) < P(发现松鼠 | 下雪),P(发现熊 | 不下雪) < P(发现松鼠 | 不下雪)。能否断言E山的P(发现熊) < P(发现松鼠)?

答案:

  1. 能。因为P(发现松鼠)=P(发现松鼠, 下雪) + P(发现松鼠, 不下雪)
  2. 不能。反例:C山,P(下雪)=0.01,P(发现松鼠 | 下雪)=0.8,P(发现松鼠 | 不下雪)=0.1;D山,P(下雪)=0.99,P(发现松鼠 | 下雪)=0.5,P(发现松鼠 | 不下雪)=0。
  3. 能。P(发现熊) = P(发现熊 | 下雪)P(下雪) + P(发现熊 | 不下雪)P(不下雪),P(发现松鼠) = P(发现松鼠 | 下雪)P(下雪) + P(发现松鼠 | 不下雪)P(不下雪)。3与2不同之处在于C山东下雪概率与D山的下雪概率无关。

条件可以是不等式,如:\(P(X<a | Y>b)=\frac{P(X<a, Y>b)}{P(X<a)}\)

对于三个及以上的随机变量,比如X、Y和Z,条件概率为\(P(X=a | Y=b, Z=c)=\frac{P(X=a, Y=b, Z=c)}{P(Y=b, Z=c)}\)

联合概率的分解:

\[\begin{align*} & P(X=a, Y=b, Z=c, W=d)\\ =& P(X=a | Y=b, Z=c, W=d) P(Y=b, Z=c, W=d) \\ =& P(X=a | Y=b, Z=c, W=d) P(Y=b | Z=c, W=d) P(Z=c, W=d) \\ =& P(X=a | Y=b, Z=c, W=d) P(Y=b | Z=c, W=d) P(Z=c | W=d) P(W=d) \end{align*} \]

贝叶斯公式

解决逆问题:通过结果反推原因是什么。也就是,已知所有的P(原因)和P(结果|原因),求P(原因|结果)。其中,P(原因)为先验概率,P(原因|结果)为后验概率。相应的概率分布分别称为先验分布和后验分布。

已知\(P(X=\triangle)\)表示原因为\(\triangle\)的概率,\(P(Y=\bigcirc | X=\triangle)\)表示在原因为\(\triangle\)的前提下,结果为\(\bigcirc\)的条件概率。求在结果为\(\bigcirc\)的前提下,原因为\(\triangle\)的条件概率\(P(X=\triangle | Y=\bigcirc)\)。贝叶斯公式为:

\[\begin{align*} & P(X=\triangle | Y=\bigcirc)\\ =& \frac{P(X=\triangle, Y=\bigcirc)}{P(Y=\bigcirc)} \\ =& \frac{P(X=\triangle | Y=\bigcirc)}{P(X=\blacksquare, Y=\bigcirc) + P(X=\bigstar, Y=b) + ... + P(X=\lozenge, Y=b)} // X的所有可能值 \\ =& \frac{P(Y=\bigcirc | X=\triangle) P(X=\triangle)}{P(Y=\bigcirc | X=\triangle) P(X=\triangle) + P(Y=\bigcirc | X=\blacksquare) P(X=\blacksquare) + ... + P(Y=\bigcirc | X=\lozenge) P(X=\lozenge)} \end{align*} \]

练习:A市有10万人,其中一个是外星人。现在有一台能检测外星人的仪器,它有1%的概率判断错误,也就是说,它有1%的可能性将外星人判断为人类,也有1%的可能性将人类误判为外星人。问:1)如果从10万人中随机抽取一人,检测仪有多大概率将其判断为外星人?2)从10万人中抽取一人后,检测仪将其判断为外星人,求这个人的确是外星人的概率;3)如果连续对该人检测两次,检测仪都将其判断为外星人,那么这个人的确是外星人的概率是多少?

答案:1)

\[\begin{align*} P(Y=外星人) &= P(X=人类, Y=外星人) + P(X=外星人, Y=外星人) \\ &= P(Y=外星人 | X=人类) P(X=人类) + P(Y=外星人 | X=外星人) P(X=外星人) \\ &= 1/100 × (10^5 - 1)/10^5 + 99/100 × 1/10^5 \\ &= 10098/10^7 \\ &\approx 1\% \end{align*} \]

2)

\[\begin{align*} P(X=外星人 | Y=外星人) &= \frac{P(X=外星人, Y=外星人)} {P(Y=外星人)} \\ &= \frac{99/100 × 1/10^5} {10098/10^7} \\ &= 99/10098 \end{align*} \]

该仪器看起来精度很高,因此我们很容易在仪器将检测对象判断为外星人时,相信他就是外星人。然而从计算结果可知,这种情况的概率极低,后验概率仅为0.1%。因此,如果在分析概率问题时没有考虑后验概率,很容易得到错误的结论。

3)

\[\begin{align*} & P(Y=外星人, Z=外星人) \\ =& P(X=人类, Y=外星人, Z=外星人) + P(X=外星人, Y=外星人, Z=外星人) \\ =& P(Y=外星人, Z=外星人 | X=人类) P(X=人类) + P(Y=外星人, Z=外星人 | X=外星人) P(X=外星人) \\ =& P(Z=外星人 | X=人类, Y=外星人) P(Y=外星人 | X=人类) P(X=人类) + \\ & P(Z=外星人 | X=外星人, Y=外星人) P(Y=外星人 | X=外星人) P(X=外星人) \\ =& P(Z=外星人 | X=人类) P(Y=外星人 | X=人类) P(X=人类) + \\ & P(Z=外星人 | X=外星人) P(Y=外星人 | X=外星人) P(X=外星人) \ // Y与Z独立 \\ =& 1/100 × 1/100 × (10^5 - 1)/10^5 + 99/100 × 99/100 × 1/10^5 \\ =& 198/10^7 \end{align*} \]

\[\begin{align*} & P(X=外星人 | Y=外星人, Z=外星人) \\ =& \frac{P(X=外星人, Y=外星人, Z=外星人)} {P(Y=外星人, Z=外星人)} \\ =& \frac{99/100 × 99/100 × 1/10^5} {198/10^7} \\ =& 49.5\% \end{align*} \]

独立性

概率论中的独立性指的是X与Y没有任何关联,即无法通过Y来判断X的值。

事件独立性的表述形式:

  1. \(\bigcirc \bigcirc\)\(\bigstar \bigstar\)独立
  2. 条件概率与条件无关:\(P(\bigstar \bigstar | \bigcirc \bigcirc) = P(\bigstar \bigstar | 非\bigcirc \bigcirc)\)
  3. 添加或去除条件不影响概率:\(P(\bigstar \bigstar | \bigcirc \bigcirc) = P(\bigstar \bigstar)\)
  4. 联合概率之比相同:$P(\bigcirc \bigcirc, \bigstar \bigstar) : P(\bigcirc \bigcirc, 非\bigstar \bigstar) = P(非\bigcirc \bigcirc, \bigstar \bigstar) : P(非\bigcirc \bigcirc, 非\bigstar \bigstar) $
  5. 联合概率是边缘概率的乘积:$P(\bigcirc \bigcirc, \bigstar \bigstar)= P(\bigcirc \bigcirc) × P(\bigstar \bigstar) $

随机变量的独立性与事件的独立性类似。无论a与b取何值,条件“X=a”与条件“Y=b”始终独立,这时称随机变量X和Y独立。

如果联合分布以算式的形式出现,我们可通过第5条规则判断其中的随机变量是否独立。如,假设随机变量X和Y的联合分布为\(P(X=a, Y=b)=\frac{1} {280} a^2(b+1), (a=1,2,3且b=1,2)\),由于等式右边是仅含a的表达式和仅含b的表达式的乘积,因此可以确定X和Y独立。

对于三个及以上的随机变量的独立性,比如X、Y和Z,X与Y独立、X与Z独立、Y和Z独立,这三对随机变量相互独立并不表示X、Y、Z三个随机变量独立,需要额外的约束。三个随机变量的独立性定义为:

\[\left\{ \begin{align*} & P(X=a, Y=b, Z=c) = P(X=a) P(Y=b) P(Z=c) \\ & P(X=a, Y=b) = P(X=a) P(Y=b) \\ & P(X=a, Z=c) = P(X=a) P(Z=c) \\ & P(Y=b, Z=c) = P(Y=b) P(Z=c) \end{align*} \right. \]

离散值的概率一览表

离散值的概率一览表只需满足以下条件:

  • 每一条的概率都大于等于0
  • 所有概率之和为1

练习:随机变量X的概率分布如表所示,求随机变量 Y=X+3 和 Z=(X-3)^2 的概率分布。

该值出现的概率
1 0.4
2 0.1
3 0.1
4 0.1
5 0.1
6 0.2

答案:

Y的值 该值出现的概率
4 0.4
2 0.1
3 0.1
4 0.1
5 0.1
6 0.2
Z的值 X的值 该值出现的概率
0 0.4 0.1
1 2或4 0.1+0.1=0.2
4 1或5 0.4+0.1=0.5
9 6 0.2

二项分布

定义:一次试验的结果只有两种可能,n次试验后其中一个结果出现次数为k次的概率,所有k取值得到的概率构成的离散概率分布就是二项分布。

设进行n次试验,成功的概率是p,失败的概率是q=1-p,成功k次的概率为:\(P(X=k)=C_n^k p^k q^{n-k}\)。二项分布的形状由n和p决定,因此可以记为Bn(n, p)。

期望值

期望值可以理解为所有平行世界体积之和的平均值。期望的定义为:

\[\begin{align*} E[X] &= \sum_k k P(X=k) \\ E[g(X)] &= \sum_k g(k) P(X=k) // g表示某种函数 \end{align*} \]

有常量c,期望值的性质:

  • 当X始终大于c时,有E[X] > c
  • \(E[X + c] = E[X] + c\)
  • \(E[cX] = cE[X]\)
  • \(E[X + Y] = E[X] + E[Y]\),也就是和的期望值等于期望值的和
  • 期望值的乘法运算的注意事项:
    • 如果X和Y独立,则\(E[XY] = E[X]E[Y]\)
    • 如果X和Y不独立,则E[XY]通常与E[X]E[Y]不等

练习:随机变量X和Y的联合分布如表所示,求两者之积XY的期望值E[XY],并与E[X]E[Y]比较。

X=1 X=2 X=4
Y=1 2/8 1/8 1/8
Y=2 1/8 1/8 1/8

答案:

E[XY] = [(各种条件下XY的值) × (该情况发生的概率)] 之和 = (1×1)×P(X=1, Y=1) + (2×1)×P(X=2, Y=1) + (4×1)×P(X=4, Y=1) + (1×2)×P(X=1, Y=2) + (2×2)×P(X=2, Y=2) + (4×2)×P(X=4, Y=2) = 3

E[X] = 1×(2/8+1/8) + 2×(1/8+1/8) + 4×(1/8+1/8) = 17/8

E[Y] = 1×(2/8+1/8+1/8) + 2×(1/8+1/8+1/8) = 11/8

E[X]E[Y] = 187/8

期望值不存在:如果随机变量可以取任意整数,期望值不一定存在。如X是任意正整数,\(E[2^X]\)不存在,期望值发散;又如\(E[(-2)^X]\)是一个待定型(无数个1减无数个1),无法得到具体的期望值。

方差和标准差

方差是“期望值离散程度”的期望值。设随机变量X的期望值为\(E[X]=\mu\),需要计算X的实际取值与期望值之间的差距,用偏差的平方来表示,然而由于X是一个随机值,则偏差的平方也是一个随机值,我们需要一种数值固定的指标,因此进一步计算偏差的平方的期望值。方差的定义为:

\[V[X] = Var[X] = E[(X - \mu)^2] // 其中\mu = E[X] \]

显然,当E[X]=0时,\(V[X]=E[X^2]\)

标准差是方差的平方根,可用于比较数值的离散程度。

有常量c,方差的性质:

  • \(V[Y] = V[X + c] = V[X]\):增加常量c,方差不变

  • \(V[Y] = V[cX] = c^2 V[X]\):乘以常量c,方差变为原来的c^2倍

  • 通过以上性质,可以通过转换随机变量X来获得需要的期望值和方差。将期望值化为0,方差化为1的转换处理称为标准化(或归一化),设\(E[X]=\mu, V[X]=\sigma^2\),只需要令\(W=\frac{X-\mu}{\sigma}\)即可完成标准化。标准化转换公式可通过如下方式进行推导:

    \[\begin{align*} 设W = aX + b(a > 0),& 求特定的a与b,使得E[W]=0且V[W]=1,即求解 \\ E[W] & = a\mu + b = 0, V[W] = a^2 \sigma^2 = 1 \end{align*} \]

  • 如果X和Y独立,则V[X+Y] = V[X] + V[Y]

    练习:计算二项分布的方差

    答案:设独立随机变量为\(Z_1, Z_2,..., Z_n\),它们取值为1的概率为p,取值为0的概率为q=1-p,这些随机变量的和为\(X=Z_1+Z_2+...+Z_n\),并遵从二项分布,因此有\(V[X]=V[Z_1]+V[Z_2]+...+V[Z_n]\)。而\(E[Z_k] = 1×p + 0×q = p, V[Z_k] = E[(Z_k - p)^2] = (1-p)^2×p + (0-p)^2×q = pq\),因此有\(V[X]=npq\)

  • \(V[X] = E[X^2] - E[X]^2\),换个写法是\(E[X^2] = \mu^2 + \sigma^2\)

    练习:当\(E[X]=\mu, V[X]=\sigma^2\)时,证明对于取值恒定的常量a,有\(E[(X-a)^2] = (\mu-a)^2 + \sigma^2\)

    答案:令Y=X-a,有

    \(E[(X-a)^2] = E[Y^2] = E[Y]^2 + V[Y] = E[(X-a)]^2 + V[X-a] = (E[X] - a)^2 + V[X] = (\mu-a)^2 + \sigma^2\)

    在该练习中可以发现,(X与a的平方误差的期望值)=(期望值的平方误差)+方差=(由偏移引起的误差)+(由离散引起的误差)。其中,第一部分称为系统误差(又称偏性误差,表现为数值整体偏移),第二部分称为随机误差(又称机会误差,表现为数值离散)。

大数定律

独立同分布(independent and identically,i.i.d.)的条件:

  • 每一个随机变量对应的分布(边缘分布)都相同
  • 任意随机变量都相互独立

对于遵从独立同分布的随机变量\(X_1, X_2,..., X_n\),它们的平均值为\(Z_n=\frac{X_1 + X_2 + ... + X_n}{n}\),平均值的期望值为\(E[Z_n] = \mu\)(与随机变量的期望值相同),平均值的方差为\(V[Z_n]=\frac{\sigma^2}{n}\)(是随机变量方差的\(\frac{1}{n}\))。如果n无穷大,那么平均值的方差趋向于0。

大数定律:如果随机变量的个数n无限增加,它们的平均值将逐渐收敛于\(\mu\)

大数定律的作用:即使我们只能观测某个特定的世界\(\omega\),只要观测平均值,就能知道只有上帝才能观测的\(\mu\)

连续值的概率分布

连续随机变量概率为0

对于连续随机变量X,即使X的取值在某一范围内的概率为正,X恰好为某个值的概率也必然为0。

概率密度函数

对于连续随机变量X,有累积分布函数:\(F_X(a) = P(X \le a)\),微分累积分布函数可得到随机变量X的概率密度函数:\(f_X(x) = F'_X(x) = \frac{dF_X(x)}{dx}\)。有了概率密度函数,就可以求概率:\(P(a \le X \le b) = \int_a^b f_X(x) dx\)。一般情况下,有\(P(-\infty \lt X \lt \infty) = 1\),因此有\(\int_{-\infty}^{\infty} f_X(x) dx = 1\)

概率密度函数的性质:

  • 值大于等于0
  • 积分为1

均匀分布

均匀分布的定义如下:

\[f_X(x) = \left\{ \begin{align*} & \frac{1}{\beta - \alpha} & (\alpha \le x \le \beta) \\ & 0 & (x \lt \alpha 或 x \gt \beta) \end{align*} \right. \]

也就是说,均匀分布满足一下两个条件:

  • 区间内任意值的概率密度恒定
  • 不会出现区间范围之外的值

概率密度函数的变量变换

设有任意函数g,通过Y=g(X)作变量变换,得到的概率密度函数为:\(f_Y(y) = | \frac{f_X(x)}{g'(x)} |\)

练习:试通过随机变量X的概率密度函数\(f_X\)表示Y=-2X+1的概率密度函数\(f_Y\)。且试判断\(P(0 \le X \le 3)\)\(P(-5 \le Y \le 1)\)是否相等。

答案:

\[f_Y(y) = | \frac{f_X(x)}{g'(x)} | = | \frac{f_X(\frac{1 - y} {2})} {-2} | = \frac{1}{2} f_X(\frac{1 - y} {2}) \\ \begin{align*} P(0 \le X \le 3) &= \int_{x=0}^{x=3} f_X(x)dx = \int_{y=1}^{y=-5}f_X(x)\frac{dx}{dy} dy = \int_{y=1}^{y=-5}f_X(\frac{1 - y} {2}) \frac{-1}{2} dy \\ &= \int_{y=-5}^{y=1} \frac{1}{2} f_X(\frac{1 - y} {2}) dy = \int_{y=-5}^{y=1} f_Y(y)dy = P(-5 \le Y \le 1) \end{align*} \]

多个随机变量概率分布对照表

离散值随机变量与连续值随机变量的概率分布对照表,实质是将概率中的级数运算转换为了概率密度的积分计算。

离散值(概率) 连续值(概率密度)
边缘分布
\(P(X=a) = \sum_y P(X=a, Y=b)\)
\(f_X(a) = \int_{-\infty}^{\infty} f_{X, Y}(a, y)dy\)
条件分布
\(P(Y=b | X=a) = \frac{ P(X=a, Y=b) }{ P(X=a) }\)
\(f_{Y|X}(b|a) = \frac{ f_{X,Y}(a,b) }{ f_X(a) }\)
贝叶斯公式
\(P(X=a | Y=b) = \frac{ P(Y=b | X=a) P(X=a) }{ \sum_x P(Y=b | X = x) P(X=x) }\)
\(f_{X|Y}(a|b) = \frac{ f_{Y|X}(b|a) f_X(a) }{ \int_{-\infty}^{\infty} f_{Y|X}(b|x) f_X(x)dx }\)
独立性的等价表述
\(P(Y=b | X=a)\)的值与a无关
\(P(Y=b | X=a) = P(Y=b)\)
对于多个\(P(X=a, Y=某一特定的值)\),它们的比值恒定,与a无关
\(P(X=a, Y=b) = P(X=a) P(X=b)\)
\(P(X=a, Y=b) = g(a) h(b)\)的形式
\(f_{Y|X}(b|a)\)的值与a无关
\(f_{Y|X}(b|a) = f_Y(b)\)
对于多个\(f_{X,Y}(a,某一特定的值)\),它们的比值恒定,与a无关
\(f_{X,Y}(a,b) = f_X(a) f_Y(b)\)
\(f_{X,Y}(a,b) = g(a)h(b)\)的形式
期望值
$E[X] = “X(\omega)的图像体积” \(<br />\)E[X] = \sum_x x P(X=x)\(<br />\)E[g(X)] = \sum_x g(x)P(X=x)\(<br />\)E[h(X, Y)] = \sum_y \sum_x h(x,y) P(X=x, Y=y)\(<br />\)E[aX + b] = aE[X] + b$
完全相同
\(E[X] = \int_{-\infty}^{\infty} xf_X(x)dx\)
\(E[g(X)] = \int_{-\infty}^{\infty} g(x)f_X(x)dx\)
\(E[h(x,y)] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} h(x,y) f_{X,Y} dx dy\)
完全相同
方差
\(V[X] = E[(X - \mu)^2], \mu = E[X]\)
\(V[aX + b] = a^2 V[X]\)
完全相同
完全相同
标准差
\(\sigma = \sqrt{V[X]}\)
\(\sigma_{aX+b} = |a| \sigma_X\)
完全相同
完全相同
条件期望值
\(E[Y | X=a] = \sum_b b P(Y=b | X=a)\)
\(E[Y | X=a] = \int_{-\infty}^{\infty} y f_Y(y | X=a) dy\)
条件方差
\(V[Y | X=a] = E[(Y - \mu(a))^2 | X=a]\)
完全相同

多个随机变量

任意区域的概率:\(P(a \le X \le b 且 c \le Y \le d) = \int_c^d (\int_a^b f_{X,Y}(x, y) dx) dy = \int_a^b (\int_c^d f_{X,Y}(x, y) dy) dx\)

均匀分布:对于平面上某一特定区域C(C的面积有限),其概率密度函数为:

\[f_{X,Y}(x,y) = \left\{ \begin{align*} & \frac{1}{C的面积} & ( (x,y)在C内 ) \\ & 0 & ( (x,y)在C外 ) \end{align*} \right. \]

变量变换,两个连续值随机变量X和Y:

  • 线性变换

    \(Z = aX + bY, W = cX + dY, 其中(a, b, c, d)均为常量\)。根据线性代数,有

    \[\begin{pmatrix} Z \\ W \end{pmatrix} = \begin{pmatrix} a & b \\ c & d \end{pmatrix} \begin{pmatrix} X \\ Y \end{pmatrix} \]

    因此,线性变换的结果为

    \[f_{Z,W}(z,w) = \frac{ 1 }{ | \det \ A | } f_{X,Y}(x,y), 其中 \begin{pmatrix} x \\ y \end{pmatrix} = A^{-1} \begin{pmatrix} z \\ w \end{pmatrix} \]

    练习1:Z=3X+Y, W=X+2Y, 求变换位置后的概率密度函数。

    答案:|det A| = | 3×2 - 1×1 | = 5。二阶矩阵的逆矩阵有

    \[\begin{pmatrix} a & b \\ c & d \end{pmatrix} ^{-1} = \frac{1}{ ad - bc } \begin{pmatrix} d & -b \\ -c & a \end{pmatrix} \]

    因此变换位置后的概率密度函数为:\(f_{Z,W}(z,w) = \frac{1}{5} f_{X,Y}(\frac{2z - w}{5}, \frac{3w-z}{5})\)。也可以不用矩阵而用联立方程组的形式求解。

    练习2:Z=-2X, W=1.5Y, 求变换位置后的概率密度函数。

    答案:|det A| = | -2×1.5 - 0×0 | = 3,因此\(f_{Z,W}(z,w) = \frac{1}{3} f_{X,Y}(-z/2, w/1.5)\)

  • 非线性变换

    \(Z = g(X,Y), W = h(X,Y)\),且该变换中各点一一对应,即对于某一特定的(Z, W),有且仅有一个(X, Y)与之对应。非线性变换的结果为:

    \[f_{Z,W}(z,w) = \frac{1}{|\partial(z,w) / \partial(x,y) |} f_{X,Y}(x,y) \\ 其中, \frac{ \partial (z,w) }{ \partial (x,y) } = \det \begin{pmatrix} \frac{ \partial z }{ \partial x } & \frac{ \partial z }{ \partial y } \\ \frac{ \partial w }{ \partial x } & \frac{ \partial w }{ \partial y } \end{pmatrix} \]

    练习:\(Z=Xe^Y, W=Y\), 求变换位置后的概率密度函数。

    答案:

    \[\frac{ \partial (z,w) }{ \partial (x,y) } = \det \begin{pmatrix} e^y & xe^y \\ 0 & 1 \end{pmatrix} = \det \begin{pmatrix} e^w & z \\ 0 & 1 \end{pmatrix} \\ f_{Z,W}(z,w) = \frac{1}{e^w} f_{X,Y}(ze^{-w}, w) \]

正态分布与中心极限定理

正态分布是一种实数值概率分布,其中,标准正态分布的概率密度函数为:

\[f(z) = \frac{1}{\sqrt{2 \pi}} e^{- \frac{ z^2 }{2}} \]

标准正态分布的性质有:

  • 左右对称
  • z=0时,f(z)取到最大值
  • 随着z与0的差值不断增大,f(z)值渐渐减小(但不会为负数)
  • 当z趋向正无穷或负无穷,f(z)值趋向于零
  • 期望值为0(均值为0),方差为1
  • 68.268949%的面积在期望值左右的一个标准差范围内;95.449974%的面积在期望值左右两个标准差的范围内;99.730020%的面积在期望值左右三个标准差的范围内;99.993666%的面积在期望值左右四个标准差的范围内

一般正态分布可由标准正态分布平移或缩放后得到。设连续值随机变量Z满足标准正态分布,对Z缩放\(\sigma\)倍后平移\(\mu\)得到连续值随机变量X:\(X = \sigma Z + \mu\)。经过变换后,X的期望值为\(E[X] = E[\sigma Z + \mu] = \sigma E[Z] + \mu = \mu\),X的方差为\(V[X] = V[\sigma Z + \mu] = \sigma^2 V[Z] = \sigma^2\)。这种一般的正态分布可以记为\(X \sim N(\mu, \sigma^2)\),读作“X遵从期望值为\(\mu\),方差为\(\sigma^2\)的正态分布”。类似的,Z可以记为\(Z \sim N(0, 1)\)

一般正态分布的概率密度函数为:

\[f_X(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{- \frac{ (x - \mu)^2 }{ 2 \sigma^2 } } \]

一般正态分布函数(\(X \sim N(\mu, \sigma^2)\))的性质:

  • 如果Y=aX+b,则有\(Y \sim N(a\mu + b, a^2 \sigma^2)\)
  • \((X - \mu) / \sigma\)将遵从标准正态分布
  • 只要随机比变量X的概率密度函数满足\(f_X(x) = 常量 × e^{x的二次式} \ (-\infty \lt x \lt \infty)\),X就遵从正态分布
  • 只要独立的随机变量X与Y中有一个遵从正态分布,它们的和W=X+Y也遵从正态分布

中心极限定理

设n个随机变量\(X_1, X_2,..., X_n\)独立同分布,它们的期望值为\(\mu\),方差为\(\sigma^2\),分布函数为\(W_n = \frac{X_1 + X_2 + ... + X_n - n \mu}{ \sqrt{n} \sigma }\)。当n很大时,\(W_n\)近似服从标准正态分布(中心极限定理)。对于任意数字a,根据中心极限定理,有:

\[P(W_n \le a) = 标准正态分布N(0, 1)中小于等于a的值出现的概率 \]

样本大小必须达到30,中心极限定理才能保证成立,也就是说,每个随机变量的抽取样本要不小于30。

协方差矩阵

协方差与相关系数

协方差用于讨论当某一变量改变时,其他变量将发生多大的变化。

设随机变量X, Y的期望值分别为\(\mu, \nu\),此时协方差为:\(Cov[X,Y] = E[(X - \mu)(Y - \nu)]\)。当协方差的值为正时,有:1)如果一方的取值大于期望值,另一方取值大于期望值的概率也将更大;2)如果一方的取值小于期望值,另一方取值小于期望值的概率也将更大。如果不存在上述相关性,则协方差的值为0。

协方差性质:

  • \(Cov[X+a, Y+b] = Cov[X, Y]\)
  • \(Cov[aX, bY] = ab \ Cov[X, Y]\)
  • \(Cov[X, Y] = E[XY] - E[X]E[Y]\)

协方差的值的大小不能判断分布的倾向,即\(Con[X, Y]\)为正值且越大不能说明当X取值大于期望值时Y倾向于取大于期望值的倾向越明显(如\(Con[X, Y]=3.5\),将X和Y都扩大100倍后\(Con[100X, 100Y]=35000\),而两者的倾向并没有明显的区别)。通过标准化,可以实现不论期望值是否发生位移变化都不会影响协方差,用于去除比例干扰的这一指标称为相关系数\(\rho\)

\[\rho = \frac{ Cov[X, Y] }{ \sqrt{V[X]} \sqrt{V[Y]} } \]

相关系数的性质:

  • 相关系数取值范围为-1到+1
  • 相关系数距离+1越近,(X,Y)就越趋近于一条向右上倾斜的直线(注意,并不是距离+1越近就越往右上倾斜)
  • 相关系数距离-1越近,(X,Y)就越趋近于一条向左上倾斜的直线

相关系数存在的局限性:

  • 相关系数为0不能断言X和Y不相关。如X和Y的分布构成一个圆
  • 相关系数接近+1或-1并不表示变量直接相关,也有可能是间接相关。如X和Y分别与Z直接相关,此时X和Y的相关系数就可能接近+1或-1

协方差矩阵

协方差矩阵是方差与协方差的一览表,用于表示多个随机变量之间的相关性。协方差矩阵是一个对称矩阵:

\[\begin{pmatrix} V[X_1] & Cov[X_1, X_2] & \cdots & Cov[X_1, X_n] \\ Cov[X_1, X_2] & V[X_2] & \cdots & Cov[X_2, X_n] \\ \vdots & \vdots & \ddots & \vdots \\ Cov[X_1, X_n] & Cov[X_2, X_n] & \cdots & V[X_n] \end{pmatrix} \]

\(X_1, X_2, \cdots, X_n\)纵向排列得到的列向量为\(\mathbb{X}\),则协方差矩阵为:

\[V[\mathbb{X}] = E[(\mathbb{X} - \mu)(\mathbb{X} - \mu)^T], 其中\mu = E[\mathbb{X}] \]

协方差矩阵的期望值(其中c为常量,\(\vec{a}\)为取值确定的向量,\(\mathbb{Y}\)为随机变量向量,\(\vec{a}、\mathbb{Y}\)的维数与\(\mathbb{X}\)相同):

  • \(E[c \mathbb{X}] = c E[\mathbb{X}]\)
  • \(E[\mathbb{X} + \vec{a}] = E[\mathbb{X}] + \vec{a}\)
  • \(E[\mathbb{X} + \mathbb{Y}] = E[\mathbb{X}] + E[\mathbb{Y}]\)
  • \(E[\vec{a}] = \vec{a}\)
  • \(E[\vec{a} \cdot \mathbb{X}] = \vec{a} \cdot E[\mathbb{X}]\)

协方差矩阵变量变换(其中\(\vec{a}\)为取值确定的向量,\(\mathbb{A}\)为取值确定的矩阵):

  • \(V[\vec{a}^T \mathbb{X}] = \vec{a}^T V[\mathbb{X}] \vec{a}\)
  • \(V[\mathbb{A} \mathbb{X}] = \mathbb{A} V[\mathbb{X}] \mathbb{A}^T\)

估计与检验

估计理论

描述统计和推断统计的区别:描述统计是在拥有所有的数据情况下,选择特征对数据进行概括;推断统计是在只有部分数据的情况下,选择方法推断所有数据的情况。

中位数:将按照大小排列的数值序列一分为二的边界线。

四分位数:在中位数的基础上,将序列进一步一分为二,即四分之一位置的分界线(除了中位数外的另两个四分之一分界线)。

后面讨论的都是推断统计,需要解决的问题:1)假定实际观测值与真实分布有关,且试图根据观测值推测真实分布;2)由于观测值取值随机,因此由它们计算得到的估计值也是随机值;3)估计方式很多,不同的估计方式得到的估计值也会不同。

非参数统计和参数统计问题:设采集到的数据\(X_1,\cdots,X_n\)都是独立同分布的随机变量,则没有给出分布的具体函数形式的问题称为非参数统计问题,而期望值和方差不确定但遵从正态分布的问题称为参数统计问题。

假设\(X_1,\cdots,X_n\)都遵从某一正态分布\(N(\mu, \sigma^2)\),根据这些数据分布可以由有限维数的向量值参数\(\theta = (\theta_1, \cdots, \theta_k)\)确定,我们需要做的是根据这些数据估计\(\theta\)的值,将\(\theta\)的估计值极为\(\hat{\theta}\)(称为估计量),记为\(\hat{\theta}(X)\)用于明确表示该值由X决定。

多目标优化

对于不同的\(\theta\)值,期望值\(E[|| \hat{\theta}(X) - \theta ||^2]\)都不同,对于不同的\(X_i\),都希望能得到最佳的结果,这称为多目标优化问题。

对于部分数据,估计量\(\hat{\theta_1}\)的期望值最小,而对于其他数据估计量\(\hat{\theta_2}\)的期望值最小,此时就无法判断哪个估计量更优,因此需要添加一些评判规则来确定选择。这些策略有:

  • 减少候选项,以找到尽可能满足所有条件的最佳答案
  • 弱化最优的定义
  • 根据曲线形状,制定单一数值的评价基准

减少候选项——最小方差无偏估计

无偏性用于排除那些没有实际意义又能准确估计某种特定情况的无效估计量(如一直输出确定估计值的估计量),我们希望期望值\(E[\hat{\theta}(X)]\)始终与正确答案\(\theta\)一致,即\(E[\hat{\theta}(X)] = \theta\)。经过该条件筛选过的最优解称为最小方差无偏估计(UMVUE)。例如,对于遵从正态分布\(N(\mu, \sigma^2)\)的独立同分布数据\(X_1, X_2,\cdots,X_n\)(其中\(\mu, \sigma\)未知),由其平均值\(\bar{X} = \frac{X_1 + X_2 +\cdots+ X_n}{n}\)估计期望值\(\mu\)就是一种UMVUE,通过式子\(S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})\)估计方差\(\sigma^2\)也属于UMVUE,即用\(E[S^2]\)估计方差。

弱化最优定义——最大似然估计

即使不是全局最优解,只要满足两条性质就是可以接受的答案:1)一致性,即当样本容量趋于无穷时,估计的结果收敛于正确答案;2)渐进有效性,即当样本容量趋于无穷时,\(n E[(估计结果 - 正确答案)^2]\)收敛于理论边界。

设数据\(X_1,\cdots,X_n\)的测定值为\(\breve{x_1},\cdots, \breve{x_n}\),使概率\(P(X_1 = \breve{x_1},..., X_n = \breve{x_n})\)\(f_{X_1, \cdots, X_n}(\breve{x_1},\cdots, \breve{x_n})\)最大化的参数\(\theta\)就是最大似然估计,而概率或概率密度称为未知参数\(\theta\)的似然函数。实际计算过程中使用它们的对数形式入手,即:

\[\begin{align*} log P(X_1 = \breve{x_1},\cdots, X_n = \breve{x_n}) &= log P(X_1 = \breve{x_1}) \cdots P(X_n = \breve{x_n}) \\ &= log P(X_1 = \breve{x_1}) + \cdots + log P(X_n = \breve{x_n}) \\ log f_{X_1, \cdots, X_n}(\breve{x_1},\cdots, \breve{x_n}) &= log f_{X_1}(\breve{x_1}) \cdots log f_{X_n}(\breve{x_n}) \\ &= log f_{X_1}(\breve{x_1}) + \cdots + log f_{X_n}(\breve{x_n}) \end{align*} \]

最大似然估计和UMVUE相比的优势:

  • 可通过简单计算求得
  • 对参数进行变换后估计结果依然符合要求。设\(\sigma^2\)的最大似然估计为\(\hat{\sigma^2}(X)\)\(\sigma\)的最大似然估计则为\(\sqrt{\hat{\sigma^2}(X)}\)
  • 一致性与渐进有效性可通过恰当的假设条件得到。在样本容量n极大时,最大似然估计和UMVUE几乎等价

以单一数值作为评价基准——贝叶斯估计

为各种情况分配权重,得到综合总分作为评价的标准。在贝叶斯估计中,假设参数\(\theta\)是具有某种概率分布的随机变量,该概率分布称为先验分布。令\(X=(X_1, \cdots, X_n)\),则贝叶斯估计就是求“X在给定\(\theta\)下的条件分布”。

\(\breve{x}\)是数据X的测定值,当\(\hat{\theta} = E[\theta | X=\breve{x}]\)时,条件期望\(E[(\hat{\theta} - \theta)^2 | X = \breve{x}]\)最小。如果直接给出\(X=\breve{x}\)\(\theta\)的条件分布,那么该条件分布称为后验分布。如果后验分布的范围较窄,则估计值的准确度就相对较高;反之,如果后验分布的范围较广,准确度就较低。

练习:某种硬币正面向上的概率为R,且抛掷n次的结果都是正面向上,R的先验分布的概率密度函数如下:

\[f_{R(r)} = \left\{ \begin{align*} & 6r(1 - r) & ( 0 \le r \le 1 ) \\ & 0 & ( r \lt 0 或 r \gt 1 ) \end{align*} \right. \]

求R的后验分布及其(条件)期望值。

答案:设正面向上的次数为S,R的后验分布概率密度函数为:

\[\begin{align*} f_{R|S}(r|n) &= \frac{ P(S=n | R=r) f_R(r) }{ \int_0^1 P(S=n | R=u) f_R(u)du } \\ &= \frac{ r^n \cdot 6r(1-r)}{ \int_0^1 u^n \cdot 6u(1-u)du } \\ &= \frac{ r^{n+1} (1-r)}{ \int_0^1 u^{n+1} (1-u)du } \\ &= r^{n+1} (1-r) (n+2) (n+3), 其中 0 \le r \le 1 \end{align*} \]

其(条件)期望值为:

\[\begin{align*} E[R | S=n] &= \int_0^1 r f_{R|S}(r|n) dr \\ &= (n+2) (n+3) \int_0^1 r^{n+2} (1-r)dr \\ &= (n+2) (n+3) \frac{1}{ (n+3) (n+4) } \\ &= \frac{n+2}{n+4} \end{align*} \]

贝叶斯估计的局限:随着样本数量n的增加,先验分布的作用会减小,且后验分布将越来越复杂。

检验理论

统计假设检验,用于判断样本与样本、样本与总体的差异是由抽样误差引起的还是本质差别造成的。显著性检验是假设检验中最常用的一种方法,基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。

假设检验的思想是“小概率事件”原理,其统计推断方法是带有概率性质的反证法。其中,小概率事件指在一次试验中基本上不会发生,反证法指先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。假设检验包含两种假设:

  • 虚无假设\(H_0\)(零假设、无效假设):样本均数所代表的总体均数\(\mu\)与已知的总体均数\(\mu_0\)相等,两者差异为抽样误差引起,无统计学意义。
  • 对立假设\(H_1\)(备择假设):样本均数所代表的总体均数\(\mu\)与已知的总体均数\(\mu_0\)不相等,两者的差异为本质性差异,有统计学意义。

假设检验分为单侧检验和双侧检验,如果目的是推断两个均数不等,则用双侧检验(\(H_0: \mu = \mu_0, H_1: \mu \ne \mu_0\));如果已知不会出现\(\mu \lt \mu_0\)\(\mu \gt \mu_0\))的情况,则用单侧检验(\(H_0: \mu = \mu_0, H_1: \mu \gt \mu_0\))。

如果\(H_0\)成立,得到\(H_1\)这样的数据的概率仅有p。设\(\alpha\)(称为显著性差异水平)是一个极小的值,一般为0.05或0.01,以p是否大于\(\alpha\)作为判断依据:

  • \(p值 \lt \alpha \rightarrow\)拒绝\(H_0\)(主张\(H_1\)的正确性,统计量来自不同的总体,其差别不能仅有抽样误差来解释,结论为差别有显著性意义)
  • \(p值 \ge \alpha \rightarrow\)无法拒绝\(H_0\)(不否定此样本是来自该总体的结论,结论为差别无显著性意义)

伪随机数

伪随机数生成方式

伪随机数序列\(x_1, x_2, x_3, \cdots\)由以下方式生成:

\[s_{t+1} = g(s_t), x_t = h(s_t), (t = 1, 2, 3, \cdots) \]

也就是:1)通过某一函数g更新内部状态s;2)另一个函数h根据s生成x。内部状态的初始值s1由种子(seed)的值确定,g和h的设计取决于不同的算法。

蒙特卡罗方法

通过大量独立同分布的随机变量(或伪随机数序列)进行模拟实验,并根据所得结果的平均值来估计期望值的方法称为蒙特卡罗方法。

蒙特卡罗方法的优势在于适用范围广泛,只要需要估计的对象能够以期望值的形式表现,我们就可以通过生成大量随机数后再求其均值的方法来得到它的近似结果。劣势是收敛较慢,如果希望将精度提升10倍(也就是标准差减小为原来的1/10),就必须增加100倍的运算。(平均值的期望值与随机变量的期望值相同,平均值的方差是随机变量方差的1/n,因此标准差要开根号)

概率论的各类应用

回归分析与多变量分析

最小二乘法拟合直线

最小二乘法的直线拟合是回归分析中最基础的手段。

\[\vec{Y}=C \vec{a} + \vec{W}, \vec{Y} = \begin{pmatrix} Y_1 \\ \vdots \\ Y_n \end{pmatrix}, C = \begin{pmatrix} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{pmatrix}, \vec{a} = \begin{pmatrix} a \\ b \end{pmatrix}, \vec{W} = \begin{pmatrix} W_1 \\ \vdots \\ W_n \end{pmatrix} \sim N(\vec{0}, \sigma^2 I) \]

其中,C是已知矩阵,\(\vec{a}\)是未知向量(但取值确定),因此,\(\vec{Y}\)遵从n元正态分布\(N(C\vec{a}, \sigma^2 I)\)。此时,概率密度函数为\(f_{\vec{Y}}(\vec{y}) = \square e^{ -\frac{1}{2 \sigma^2} ||\vec{y} - C\vec{a}||^2 }\),其中\(\square\)是一个大于0的常量。

利用最大似然估计,求解当前所得的观测数据\(\breve{y}\)的概率密度,并计算在\(\vec{a}\)为多少时该值最大,等价于让\(||\breve{y} - C \vec{a}||\)取最小值,因此问题转换为:对于给定的矩阵C与向量\(\breve{y}\),求\(\vec{a}\)使\(||\breve{y} - C \vec{a}||\)的取值最小。也就是求a、b,使\(\sum_{i=1}^{n} (\breve{y} - (ax_i + b))^2\)的取值最小(计算偏微分并联立即可求解)。

随机过程

(看似)变化随机的时间序列称为随机变量序列(随机过程)。

随机游走

随机游走的一元等概率左右移动情况的数学表述:设\(Z_1, Z_2, Z_3, \cdots\)是独立同分布的随机变量,且取值为+-1的概率各为0.5,则\(X_t\)的定义为:

\[X_0 = 0, X_t = X_{t-1} + Z_t, (t = 1, 2, \cdots) \]

练习1:在抛硬币游戏中,规定硬币向上时可以得到1元,否则失去1元。求抛硬币20次后最终恰好得到10元的概率。即对于随机游走\(X_t\),求\(X_{20} = 10\)的概率。

答案:要使\(X_{20} = 10\)\(Z_1, Z_2, \cdots, Z_{20}\)中必须包含15个+1和5个-1,因此计算抛硬币20次中有15次正面向上的概率,正面向上的次数遵从二项分布\(B_n(20, 1/2)\),因此结果为

\[C_{20}^{15} (\frac{1}{2})^{15} (1-\frac{1}{2})^{20-15} = \frac{969}{65536} \]

练习2:仍然抛20次硬币,这次计算游戏中途至少获得过5元但最终归为0元的概率。即对于随机游走\(X_t\),求\(P(max(X_0, \cdots, X_{20}) \ge 5 且 X_{20} = 0)\)的值。

答案:假设存在一条路线A,其中\(X_0 = 0\),途中某处\(X_t = 5\),最后又返回\(X_{20} = 0\)。以\(X_t = 5\)为轴,整个翻转该路线的后半部分。设最后一次\(X_t = 5\)的时刻t为T,并按如下方式定义\(Y_t\)

\[Y_t = \left\{ \begin{align*} & X_t & (t \le T) \\ & 10 - X_t & ( t > T ) \end{align*} \right. \]

这便是由\(Y_0 = 0\)\(Y_{20} = 0\)的路线,如果我们知道某条从0到10的路线B(即抛硬币20次后最终恰好得到10元),只要将其后半部分翻转,就能得到一条从0到5再返回0的路线。翻转前后的各点一一对应(反射原理)。根据随机游走的定义,即使后半段翻转,该路线的出现概率依然不变。

练习3:设定与练习1相同,这次不规定抛硬币的次数,而是规定在得到10元时结束游戏。试求恰好在抛硬币20次后结束游戏的概率。也就是说,对于随机游走\(X_t\),求\(P(t=20时X_t=10首次成立)\)的值。

答案:由于\(X_{19}(=Z_1 + \cdots + Z_{19})\)\(Z_{20}\)独立,且\(P(Z_{20}=+1)\)显然等于1/2,此时以下等式成立:

\[\begin{align*} & P(t=20时X_t = 10首次成立) = P(X_{19} = 9且之前没有出现过10) P(Z_{20} = +1) \\ & P(X_{19} = 9 且之前没有出现过10) = P(X_{19} = 9) - P(X_{19}且之前出现过10) \\ & P(X_{19} = 9) = \frac{19!}{14! 5!} \cdot \frac{1}{2^{19}} \\ & 根据反射原理,从0到10再回到9的概率与从0到11的概率相同 \Rightarrow P(X_{19}=11) = \frac{19!}{15! 4!} \cdot \frac{1}{2^{19}} \\ & 答案 = (\frac{19!}{14! 5!} - \frac{19!}{15! 4!}) \cdot \frac{1}{2^{19}} \cdot \frac{1}{2} = \frac{969}{131072} \end{align*} \]

马尔可夫链

当前状态仅与上一个状态有关,而与更久之前的状态无关,这类随机过程称为马尔可夫过程。随机变量的取值范围有限(或无限可数)的马尔可夫过程称为马尔可夫链。

有随机变量序列\(X_0, X_1, \cdots\),且\(X_t\)的取值范围为\(1, \cdots, n\),满足下列等式的随机变量序列称为(离散时间有限状态)马尔可夫链:

\[P(X_{t+1} = x_{t+1} | X_t = x_t, X_{t-1}=x_{t-1}, \cdots, X_0 = x_0) = P(X_{t+1} = x_{t+1} | X_t = x_t) \]

由转移概率\(P_{i \leftarrow j} = P(X_{t+1} = i | X_t = j)\)构成的方阵称为转移概率矩阵(转移矩阵)。因为元素都是概率,因此全都大于等于0,且各列之和都为1。

\[P = \begin{pmatrix} p_{1 \leftarrow 1} & \cdots & p_{1 \leftarrow n} \\ \vdots & & \vdots \\ p_{n \leftarrow 1} & \cdots & p_{n \leftarrow n} \end{pmatrix} \]

\(X_t\)的分布是\(P(X_t = 1), \cdots, P(X_t = n)\)的一览表,将其纵向排列为一个列向量\(\vec{u_t}\),则有\(\vec{u_{t+1}} = P \vec{u_t}\)

\[\vec{u_t} = \begin{pmatrix} P(X_t = 1) \\ \vdots \\ P(X_t = n) \end{pmatrix} \]

马尔可夫链的所有分布都是由初始分布和转移概率矩阵决定。这是因为联合分布由初始分布和转移概率矩阵决定,因此由联合分布得到的边缘分布与条件分布也由其决定,因此有\(\vec{u_t} = P^t \vec{u_0}\)

\[\begin{align*} & P(X_2 = x_2, X_1 = x_1, X_0 = x_0) \\ =& P(X_2 = x_2 | X_1 = x_1, X_0 = x_0) P(X_1 = x_1 | X_0 = x_0) P(X_0 = x_0) \\ =& p_{x_2 \leftarrow x_1} p_{x_1 \leftarrow x_0} P(X_0 = x_0) \end{align*} \]

平稳分布:如果\(P \vec{u_0} = \vec{u_0}\),则其属于平稳分布,也就是说分布从初始分布起就始终不变。

极限分布:无论初始分布\(\vec{u_0}\)如何,经过一定的时间t,总能收敛至某个平稳分布\(\vec{u_t}\),则该分布称为极限分布。

极限分布不存在的情况:1)平稳分布不止一个;2)周期性。

吸收概率:马尔可夫链无需使用历史数据,因此可以解决一些看似困难的问题(利用分类讨论的思想解决)。

隐马尔可夫模型(hidden Markov model, HMM):无法直接观测\(X_t\),只能通过\(X_t\)的估计值\(Y_t\)来了解马尔可夫链,卡尔曼滤波是一种连续值隐马尔可夫模型的应用。其中\(Y_t\)不必始终与\(X_t\)相关,如下定义的\(Y_t\)也符合隐马尔可夫模型的条件:

\[Y_t = \left\{ \begin{align*} & X_t & (0.9的概率) \\ & 与X_t无关 & (0.1的概率) \end{align*} \right. \]

信息论

信息量(或概率分布)的熵的定义:

\[H = \sum_{i=1}^{n} p_i \log_2 \frac{1}{p_i} \]

将离散值随机变量X的分布的熵记为H[X],简称为X的熵。当得到\(X=x\)时,意外程度为\(h(x) = \log_2 \frac{1}{P(X=x)}\),那么\(H[X] = E[h(x)] = \sum_x P(X=x) \log_2 \frac{1}{P(X=x)}\)。如果X的可能取值有m种,那么\(0 \le H[x] \le \log_2 m\)始终成立,如果X是一个取值确定的常量,H[X]=0;如果X遵从均匀分布(X的所有取值都满足\(P(X=x) = \frac{1}{m}\)),则\(H[X] = \log_2 m\)

二元熵

对于离散值随机变量X、Y,当得到\(X=x\)\(Y=y\)时,意外程度为\(h(x, y) = \log_2 \frac{1}{P(X=x, Y=y)}\),联合熵为\(H[X, Y] = E[h(X, Y)] = \sum_x \sum_y P(X=x, Y=y) \log_2 \frac{1}{P(X=x, Y=y)}\)

对于离散值随机变量X、Y,如果\(X=x\)已知,得到\(Y=y\)这一消息时的意外程度为\(h(y | x) = \log_2 \frac{1}{P(Y=y | X=x)}\),条件熵为\(H[Y | X] = E[h(Y | X)] = \sum_x \sum_y P(X=x, Y=y) \log_2 \frac{1}{P(Y=y | X=x)}\)

性质:

  • \(H[X, Y] = E[h(X, Y)] = E[h(Y|X)] + E[h(X)] = H[Y|X] + H[X] = H[X|Y] + H[Y]\)。也就是,“同时得知X与Y这两个事件时的意外程度的期望值”等于“得知事件X时的意外程度的期望值”与“在事件X已知的前提下得知事件Y时意外程度的期望值”之和。
  • \(H[Y|X] \le H[Y], H[X|Y] \le H[X]\)。也就是,“在没有任何准备的情况下得知事件Y时的意外程度的期望值”不小于“在事件X已知的前提下得知事件Y时的意外程度的期望值”。将两者的差称为互信息,其定义为:\(I[X;Y] = H[Y] - H[Y|X]\)

互信息与协方差相关系数的区别:

\[I[X; Y] = 0 \Leftrightarrow X与Y独立 \Rightarrow \rho_{X, Y} = 0 \]

信源编码

如果各种情况的概率不均,熵的值就小(较难压缩);如果各种情况的概率均等,熵的值就大(容易压缩)。

字符串压缩问题

设字符串X的长度为n,且由k种不同的字符\(a_1, \cdots, a_k\)组成(如果X只包含大写字母和空格,则k=27;如果X是0和1组成的比特序列,则k=2)。目标是将X压缩为长度为m的比特序列Y。此时,X有\(k^n\)种可能取值,Y有\(2^m\)种可能的取值,如果\(k^n \le 2^m\)则无需压缩,只需为X与Y制定对应关系;如果\(k^n \gt 2^m\),则可以进行压缩,但是需要注意的是,可能存在无法压缩的情况(当然,不断增大m的值就一定可以成功),即压缩失败。

设X的第一个字符为\(X_1\),第二个字符为\(X_2\),依次类推,它们都是独立同分布随机变量,假设\(k=2, P(X=a_1)=\frac{3}{4}, P(X=a_2) = \frac{1}{4}\),那么单个字符的熵为\(H[X_i] \approx 0.811\)

  • 如果压缩率\(\frac{m}{n} \lt H[X_i]\),只要n足够大,压缩成功率将非常接近1
  • 如果压缩率\(\frac{m}{n} \gt H[X_i]\),只要n足够大,压缩成功率将非常接近0
posted @ 2022-05-25 14:11  sjmuvx  阅读(113)  评论(0编辑  收藏  举报