概率论

Probability Theory

本文章将对概率论与数理统计一科进行简单的总结，主要目的是对概率论整体知识进行串联，避免知识点再大脑中混乱，主要起到复习的作用。

本文并不会详尽的阐述概率论所有的东西，反而是泛泛的提及一些重要的部分。此外，也不会出现任何题目以及解题技巧。

事件和随机变量

概率论全篇分成六个章节，从基础的定义开始由集合论所引出的基本研究对象——事件。通过集合论能够使我们对事件构成进行逻辑运算，包含并、交、补、差等，并利用集合论推导出一个比较基础的公式——贝叶斯公式。

概率论研究的基本对象就是事件，每个事件都是集合内不可分割的单位元素，利用集合论我们可以定义事件的交运算、并运算等。全概率公式则是根据集合内的一个完备事件组，任何事件都可以分割成由完备时间组中的基本事件同研究事件相交再取并构成，即：

如果事件\(A_1,A_2,\dots,A_n\)是一个完备时间组，那么任意事件\(B\)有如下公式成立:

\[P(B) = \sum_{i=1}^nP(B|A_i)P(A_i) \]

假设\(A_1,A_2,\cdots,A_n\)是一个完备事件组，那么有

\[\bigcup_{i=1}^nA_i = \Omega \]
于是

\[\begin{align} B &= B\cap\Omega \\ &= B\cap (\bigcup_{i=1}^nA_i)\\ &= \bigcup_{i=1}^nA_iB \\ P(B) &= \sum_{i=1}^nP(A_iB)\\ &= \sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \]

贝叶斯公式就可以由全概率公式推导而来，贝叶斯公式主要是将研究两个事件的发生关系，尤其是再已知某项结果下反向研究基本事件的可能性。

\[P(A_k|B) = \dfrac{P(B|A_k)P(A_k)}{\sum_{i=1}^nP(B|A_i)P(A_i)} \]

再研究了基本的事件关系后，为了将概率论同数学联系起来，我们定义随机变量的概念，随机变量就是一个函数的自变量，该函数能够将基本事件通过映射变换使之对应到数轴上一个数上面，这个数则有随机事件决定，我们定义这个数叫做随机变量。

随机变量分为离散刑和连续性，为了统一二者的形式，我们再研究概率的时候统一研究随即变量的分布函数——即，\(F(x) = P(X<=x)\)

对于连续性，其分布函数的导函数就是对应随机变量的概率密度，其趋近积分就对应着随机变量落再区间内部的概率。这一规律即便是在多维随机变量下依然适用。

八大分布

概率论的二部分内容就是常见的八大分布，离散型对应五种，连续性三种。

这八大分布最重要的就是其形式，分布函数，和数字特征。这是一个纯粹的记忆过程，并不涉及太多的数学推导。

此外，我们还需要涉及随便变量函数的分布——它们的做法基本是通过已知随机变量函数的分布，利用分布函数的定义来推导函数的分布，如果要求概率密度，则多一步求导的过程。

\[F(Y) = P(Y<=y) = P(f(X) <=y)=P(X<=g(y)) = F(g(y)) \]

多维随机变量

但我们拥有了一维随机变量的知识后，就可以尝试多维随机变量。多位随机变量的概率密度是多元函数，其分布函数是重积分的结果。但是即便是多维的情况下，有时我们也想专注一某一个随机变量的情况，这就要我们求多维随机变量的边缘密度函数。边缘密度函数为了消除其他随机变量的影响，则需要将多维概率密度再其他变量上进行重积分，唯独我们研究的不积分。比如为了求得\(X\)的边缘概率密度

\[f_X = \int_{-\infin}^{+\infin}f(x,y)dy \]

在有了边缘概率的请跨下，我们也可以定义条件概率密度，求得再\(X=x\)条件下，\(Y\)的概率密度，在几何上，就是某条\(x=k\)下的\(y\)的函数。

\[f_{Y|X}(y|x) = \dfrac{f(x,y)}{f_X(x)} \]

对上面的函数进行积分，就可以得到\(Y\)在\(X=k\)条件下的分布函数。

同时，我们还可以研究多维随机变量之间的相关性。协方差定义两个多为随机变量之间的线性关联程度。此部分知识将放到数字特征一节中阐述。

多维随机变量函数的函数\(Z = g(X,Y)\)的分布依然是根据定义法来求，不过其函数分成三类——二维离散型，离散型的分布往往是通过确定\(Z\)的值反向统计对应所有\(X,Y\)的值，在加起来。二维连续型则是通过\(F(z) = P(g(X,Y) \leq z)=\iint_{g(X,Y)\leq z}f(x,y)\ dxdy\)确定。

我们可以总结集中常见的多维随机变量函数的分布。

卷积公式：卷积公式可以解决\(Z=X+Y,Z=X-Y\)的概率密度，比如当\(Z=X+Y\)时：

\[f_Z = \int^{+\infin}_{-\infin}f(x,z-x)dx = \int_{-\infin}^{+\infin}f(z-y,y)dy, \]
如果\(X,Y\)独立，上面的概率密度还可以拆开，变成：

\[f_Z = \int_{-\infin}^{+\infin}f_X(x)f_Y(z-x)dx \]
乘积和商：如果\(Z=XY,Z=\dfrac{X}{Y}\)，则有：

\[if \ Z= XY,\ then\\ f_Z = \int_{-\infin}^{+\infin}\dfrac{1}{|x|}f(x,\dfrac{z}{x})dx\\ if \ Z = \dfrac{X}{Y},\ then \\ f_Z = \int_{-\infin}^{+\infin}|y|f(zy,y)dy \]

数字特征

随机变量的数字特征刻画了随机变量的分布情况，我们需要牢记几个非常重要的数字特征：

期望：数学期望也是随机变量的加权平均值，它刻画了随机变量最可能的取值

如果随机变量的离散型的，数学期望定义为\(E(X) = \sum_{i=1}^nx_iP(X = x_i)\)。首先我们需要说明的是，期望是有可能不存在的。举个例子：

假设随机变量\(X\)服从分布\(P(X= 2^k) = \dfrac{1}{2^k}\)，易证概率之和为一，但是期望无限大。

所以要想让离散型期望存在，上述定义的级数必收敛。

类似的，连续性随机变量定义为\(E(X) = \int_{-\infin}^{+\infin}xf(x)dx\)，如果积分收敛，那么称期望存在。
这里是关于期望一些计算特征的证明
1. 线性性质
  
  对于离散型随机变量，有
\[\begin{align} E(aX) &= \sum_{i=1}^nax_iP(X = x_i)\\ &= a\sum_{i=1}^nx_iP(X=x_i)\\ &= aE(x)\\ \\ E(X + Y) &= \sum_{i=1}^n\sum_{j=1}^m(x_i+y_j)P(X = x_i,Y = y_j)\\ &= \sum_{i=1}^n\sum_{j=1}^mx_iP(X=x_i,Y=y_j) + \sum_{i=1}^n\sum_{j=1}^my_jP(X=x_i,Y=y_j)\\ &= \sum_{i=1}^n \left[ x_i\sum_{j=1}^mP(X = x_i)P(Y=y_j|X=x_i) \right] + \sum_{j=1}^m \left[y_j\sum_{i=1}^nP(Y = y_j)P(X=x_i|Y=y_j) \right]\\ &= \sum_{i=1}^nx_iP(X=x_i) + \sum_{j=1}^my_jP(Y = y_j)\\ &= E(X) + E(Y) \end{align} \]
对于连续型随机变量，以下对积分区间进行了省略（主要是挤在一起不好看）

\[\begin{align} E(aX) &= \int axf(x)dx \\ &= a\int xf(x)dx\\ &= aE(x)\\ \\ E(X+Y) &= \iint (x+y)f(x,y)dxdy \\ &= \iint xf_X(x)f_{Y|X}(y|x)dxdy + \iint yf_Y(y)f_{X|Y}(x|y)dxdy\\ &= \int xf_X(x)dx\int f_{Y|X}(y|x)dy + \int yf_Y(y)dy\int f_{X|Y}(x|y)dx\\ &= \int xf_X(x)dx + \int yf_Y(y)dy\\ &= E(X) + E(Y) \end{align} \]
利用数学归纳法，有

\[E(\sum_{i=1}^na_iX_i) = \sum_{i=1}^na_iE(X_i) \]
1. 独立性质
  
  如果\(X，Y\)相互独立，那么有:
  
  \[\begin{align} E(XY) &= \sum_{i=1}^n\sum_{j=1}^mx_iy_jP(X = x_i,Y = y_j)\\ &= \sum_{i=1}^n\left[ x_iP(X= x_i) \sum_{j=1}^my_jP(Y = y_j)\right]\\ &= \sum_{i=1}^nx_iP(X= x_i)\cdot \sum_{j=1}^my_jP(Y = y_j) \\ &= E(X)E(Y)\\ \\ E(XY) &= \iint xyf(x,y)dxdy \\ &= \int xf(x)dx\int yf(y)dy\\ &= E(X)E(Y) \end{align} \]
  根据数学归纳法，如果随机变量\(X_i\)相互独立，那么有
  
  \[E(\prod_{i=1}^nX_i) = \prod_{i=1}^nE(X_i) \]
方差：方差刻画了随机变量的集中程度，方差越小，说明随机变量的分布越集中，越大则越均匀。方差定义为\(D(X) = E[(X - EX)^2]\)，有：

\[\begin{align} D(X) &= E[(X-EX)^2] \\ &= E[X^2 - 2XE(X)+E(X)^2]\\ &= E(X^2) - 2E(X)^2 + E(X)^2\\ &= E(X^2)- E(X)^2 \end{align} \]

以下是关于方差计算性质的证明

\[\begin{align} D(C) &= E[(C-EC)^2] = 0\\ \\ D(aX) &= E[(aX - E(aX))^2]\\ &= E[a^2(X-EX)^2]\\ &= a^2E[(X-EX)^2]\\ &=a^2D(X)\\ \\ D(X \pm Y) &= E\left\lbrace [(X \pm Y) - E(X \pm Y)]^2\right\rbrace\\ &= E[(X\pm Y)^2] - E(X\pm Y)^2\\ &= E(X^2\pm 2XY +Y^2) - [E(X)\pm E(Y)]^2\\ &= E(X^2)-E(X)^2 + E(Y^2)-E(Y)^2\pm 2[E(XY)-E(X)E(Y)]\\ &= D(X) + D(Y) \pm 2Cov(X,Y) \end{align} \]
如果\(X,Y\)相互独立，那么有\(E(XY) = E(X)E(Y)\)，所以

\[D(X\pm Y) = D(X)+D(Y) \]
所以如果\(X_i\)相互独立，根据数学归纳法，有

\[D(\sum_{i=1}^na_iX_i) = \sum_{i=1}^na_i^2D(X_i) \]
协方差：协方差刻画了两个随机变量之间的线性依赖程度。定义协方差为\(Cov(X,Y) = E[(X-EX)(Y-EY)]\)，那么有

\[\begin{align} Cov(X,Y) &= E[(X-EX)(Y-EY)]\\ &= E(XY)-2E(X)E(Y)+E(X)E(Y)\\ &= E(XY) - E(X)E(Y) \end{align} \]
以下是关于协方差性质的一些证明
1. 对称性
  
  根据乘法交换律，可以得到
  
  \[\begin{align} Cov(X,Y) &= E(XY) - E(X)E(Y)\\ &= E(YX) -E(Y)E(X)\\ &= Cov(Y,X)\\ \end{align} \]
  同时
  
  \[Cov(X,X) = E(X^2)-E(X)^2 = D(X) \]
2. 线性性质
  
  \[\begin{align} Cov(X,C) &= E(CX) - CE(X) = 0\\ \\ Cov(aX,Y) &= E(aXY)-E(aX)E(Y)\\ &= a[E(XY)-E(X)E(Y)]\\ &= aCov(X,Y)\\ \\ Cov(X_1+X_2,Y) &= E[(X_1+X_2)Y]-E(X_1+X_2)E(Y)\\ &= E(X_1Y)-E(X_1)E(Y)+E(X_2Y)-E(X_2)E(Y)\\ &= Cov(X_1,Y)+Cov(X_2,Y)\\ \end{align} \]
  于是，根据数学归纳法，有
  
  \[Cov(\sum_{i=1}^na_iX_i,\sum_{j=1}^mb_jY_j) = \sum_{i=1}^n\sum_{j=1}^ma_ib_jCov(X_i,Y_j) \]
  注意，我们能通过独立性推导出\(Cov(X,Y) = 0\)，但是我们无法通过\(Cov(X,Y)=0\)说明\(X,Y\)相互独立。协方差只能阐述随机变量之间的线性依赖关系，无法得出非线性依赖。

大数定律和中心极限定理

大数定律呈现了在大量随机变量的情况下，其数字特征遵循的规律。

首先会有一个依概率收敛的定义，如果题目要求证明那么往往需要利用切比雪夫不等式来辅助证明。

大数定律

切比雪夫大数定律：切比雪夫大数定律要求随机变量的方差具有一致上界，那么有\(\dfrac{1}{n} \sum_{i=1}^nX_i \to \dfrac{1}{n}\sum_{i=1}^nEX_i\)

根据前提，对一切随机变量\(X_i\)，有\(D(X_i) \leq C\)，令\(Y = \dfrac{1}{n} \sum_{i=1}^nX_i\)，则有

\[E(Y) = \dfrac{1}{n}\sum_{i=1}^nE(X_i) \\ D(Y) = \dfrac{1}{n^2} \sum_{i=1}^nD(X_i) \]
根据切比雪夫不等式：

\[0\leq P(|Y - E(Y)| \ge \epsilon) \leq \dfrac{D(Y)}{\epsilon^2} \]
不等式取极限

\[0 \leq \lim_{n\to \infin}P(|Y - E(Y)| \ge \epsilon) \leq \lim_{n\to \infin} \dfrac{\sum_{i=1}^nD(X_i)}{n^2\epsilon^2} \leq \lim_{n \to \infin} \dfrac{C}{n\epsilon^2} \]
根据夹逼定理，有

\[\lim_{n\to \infin}P(|Y - E(Y)| \ge \epsilon) = 0 \]
得证，当\(n \to \infin\)时，\(\dfrac{1}{n} \sum_{i=1}^nX_i\)依概率收敛到\(\dfrac{1}{n}\sum_{i=1}^nE(X_i)\)
伯努利大数定律：伯努利大数定律则是n重伯努利实验下的切比雪夫大数定律，每一个随机变量\(X_i\)都是一次01分布，那么\(\sum_{i=1}^nX_i\)就变成了事件发生的次数，可知\(Y\)遵循切比雪夫大数定律，即

\[Y \to p \]
辛钦大数定律：如果随机变量都服从独立同分布，那么根据切比雪夫大数定律有

\[\dfrac{1}{n}\sum_{i=1}^nX_i \to E(X) \]

中心极限定理

中心极限定理揭示了概率论中最重要的一个规律。我们不管随机变量的底层分布如何，在大量样本的情况下，样本之和总是呈现正态分布的规律，用数学的话讲，即:

如果有\(E(X_i) = \mu, D(X_i) = \sigma^2\)，那么中心极限定理具有如下规律

\[\lim_{n \to \infin}P\left\lbrace \dfrac{\sum_{i=1}^nX_i - n\mu}{\sqrt n\sigma} \leq x \right\rbrace = \dfrac{1}{\sqrt{2\pi}} \int_{-\infin}^{x}e^{-\frac{t^2}{2}} dt = \Phi(x) \]

数理统计

到了数理统计这一部分，其内容是将概率论的内容落实到应用上。

假设某一个随机变量\(X\)服从某一个分布\(F(x)\)，但是我们无法得知它具体的分布是如何，为了研究它，我们对该分布进行数次抽样，每次抽样的结果记为\(X_i\)，很明显，这些结果的值也是随机，它们互相独立同分布。每次抽样的具体值称为这些样本的观测值。

于是，根据这些样本，我们有：

样本均值：\(\overline X = \dfrac{1}{n}\sum_{i=1}^{n}X_i\)，根据大数定律，在样本足够的情况下，样本均值近似于期望。
样本方差：\(S^2 = \dfrac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\)

具体为什么是除以\(n-1\)，根据公式我们有：

\[\begin{align} E(S^2) &= \dfrac{1}{n-1}E(\sum_{i=1}^{n}(X_i-\overline X)^2) \\ &= \dfrac{1}{n-1}E(\sum_{i=1}^nX_i^2 - \sum_{i=1}^n 2X_i\overline X + \sum_{i=1}^n\overline X^2) \\ &= \dfrac{1}{n-1}E(\sum_{i=1}^nX_i^2 - 2n\overline X^2 + n\overline X^2) \\ &= \dfrac{1}{n-1}E(\sum_{i=1}^nX_i^2 - n\overline X^2) \\ &= \dfrac{1}{n-1} \left[ \sum_{i=1}^nE(X_i^2) - nE(\overline X^2)\right] \\ &= \dfrac{1}{n=1} \left[ \sum_{i=1}^nD(X_i) + \sum_{i=1}^nE(X_i)^2 - n(D(\overline X) + E(\overline X)^2) \right] \\ &= \dfrac{1}{n-1}(n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2)\\ &= \sigma^2 \end{align} \]
可以看到，我们除以\(n-1\)后可以得到无偏差的方差估计量，这是因为我们的样本均值是由样本计算得来的，所以总体上我们n个随机变量的自由度因此减少了一个。
k阶原点矩：\(A_k = \dfrac{1}{n}\sum_{i=1}^nX_i^k\)，所以样本均值也是样本的一阶原点矩。
k阶中心矩：\(B_k = \dfrac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\)，因为分母不同，所以样本方差不是二阶中心矩。

以上的常用统计量根据大数定律具有一些性质，假设总体的期望为\(E(X) = \mu\)，方差为\(D(X) = \sigma^2\)，那么

\[E(X_i) = \mu \\ D(X_i) = \sigma^2 \\ E(\overline X) = \mu \\ D(\overline X) = \dfrac{\sigma^2}{n}\\ E(S^2) = \sigma^2 \]

此外，我们需要了解样本的三大分布，它们是随机变量函数的分布。由最基础的\(\chi^2\)分布，推导出\(t\)分布和\(F\)分布。

\(\chi^2\)分布

假若随机变量\(X_1,X_2,\dots,X_n\)都互相独立且符合标准正态分布，那么它们的平方和\(X = \sum_{i=1}^nX_i^2\)符合自由度\(n\)的\(\chi^2\)分布，记为：

\[\sum_{i=1}^nX_i^2 \sim \chi^2(n) \]

\(\chi^2\)分布的概率情况一般是通过查表得到，通过查询分布的上\(\alpha\)分位点来查询\(P(\chi^2 > \chi_\alpha^2(n)) = \alpha\)的概率。

根据分布的定义，我们有

若\(X_1 \sim \chi^2(n_1), X_2 \sim \chi^2(n_2)\)，那么\(X_1+X_2 \sim \chi^2(n_1+n_2)\)
能推导出\(\chi^2\)的期望和方差：

\[\begin{align} E(X) &= \sum_{i=1}^nE(X_i^2) = n\\ D(X) &= \sum_{i=1}^nD(X_i^2) \\ &= \sum_{i=1}^n\left[ E(X_i^4) - E(X_i^2)^2\right]\\ &= \sum_{i=1}^n\left( \dfrac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}x^4e^{-\frac{x^2}{2}}dx - 1 \right)\\ &= \sum_{i=1}^n\left( \dfrac{3}{\sqrt{\pi}}\Gamma(\dfrac{1}{2}) - 1\right)\\ &= 2n \end{align} \]
额外内容：可求得\(\chi^2(n)\)的概率密度函数：

对于\(n=1\)的情况，即\(Y=X^2\)，有：

\[P(Y\leq y) = P(-\sqrt y \leq X \leq \sqrt y) = \int_{-\sqrt y}^{\sqrt y} \dfrac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}dx \\ then \ f(y) = \dfrac{1}{\sqrt{2\pi y}}e^{-\frac{y}{2}} \]
当\(n=2\)时，我们可以将\(Y = X_1^2 + X_2^2\)看作一个二维随机变量的分布，\(f(X_1,X_2) = f(X_1)f(X_2) = \dfrac{1}{2\pi}e^{-\frac{x_1^2 + x_2^2}{2}}\)，而我们要求的\(Y = X_1^2 + X_2^2\)可以用极坐标来解：

\[\begin{align} P(Y \leq y) &= P(X_1^2+X_2^2 \leq y) = P(\rho^2 \leq y) \\ &= \dfrac{1}{2\pi}\int_0^{2\pi}d\theta\int_0^{\sqrt y}\rho e^{-\frac{\rho^2}{2}}d\rho\\ &= \dfrac{1}{2}e^{-\frac{y}{2}} \end{align} \]
由此，推广到\(n\)的情形\(Y=\sum_{i=1}^nX_i^2\)，因为\(X_i\)相互独立，所以\(f(X_1,X_2,\dots,X_n) = \prod_{i=1}^nf(X_i) = \dfrac{1}{(2\pi)^{\frac{n}{2}}}e^{-\frac{\sum_{i=1}^nx_i^2}{2}}\)，我们可以在n维空间内建立极坐标系，以此来推导\(Y\)的分布函数：

\[\begin{align} P(Y \leq y) &= P(\sum_{i=1}^nX_i^2 \leq y) = P(\rho^2 \leq y) \\ &= \dfrac{1}{(2\pi)^{\frac{n}{2}}}\int_0^{2\pi}d\theta_1\int_0^{\pi}sin \theta_2d\theta_2\dots\int_0^{\sqrt y}\rho^{n-1}e^{-\frac{\rho^2}{2}}d\rho \end{align} \]
可以看到，整个重积分自变量\(y\)只影响最后面的积分，前面关于角度的积分最终会得到一个常数，而该常数只和\(n\)有关，所以分布函数可以写成：

\[F(y) = \dfrac{C(n)}{(2\pi)^{\frac{n}{2}}}\int_0^{\sqrt y}\rho^{n-1}e^{-\frac{\rho^2}{2}}d\rho \]
根据归一化条件，有

\[\dfrac{C(n)}{(2\pi)^{\frac{n}{2}}}\int_0^{+\infin}\rho^{n-1}e^{-\frac{\rho^2}{2}}d\rho = 1 \]
则\(C(n) = \dfrac{2\pi^{\frac{n}{2}}}{\Gamma(\frac{n}{2})}\)，最后求导，得

\[f(y) = \dfrac{y^{\frac{n}{2}-1}e^{-\frac{y}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} \]

\(t\)分布

设随机变量\(X \sim N(0,1), Y\sim \chi^2(n)\)，且\(X,Y\)相互独立，那么\(t = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}\)服从\(t\)分布，即\(\dfrac{X}{\sqrt{\dfrac{Y}{n}}} \sim t(n)\)。

因为\(Y\)的自由度为n，而\(t\)分母的分子只有一个符合正态分布的随机变量，为了保证一对一的结果，我们要对\(Y\)除n并作开放处理保证数量和次幂相同。

\(t\)分布概率密度图像很像正态分布，它关于y轴对称，所以\(t\)分布的期望为0。由此也能得出\(t\)分布上\(\alpha\)分位点的一个等式性质：\(t_{1-\alpha}(n) = -t_\alpha(n)\)

我们推导出了\(\chi^2(n)\)分布的概率密度后，就可以求\(t\)分布的方差了。

\[\begin{align} D(t) &= E(t^2) - E(t)^2 \\ &= nE(X^2)E(\dfrac{1}{Y}) \\ &= nE(\dfrac{1}{Y}) \\ &= n\int_0^{+\infin}\dfrac{1}{y} \cdot \dfrac{y^{\frac{n}{2}-1}e^{-\frac{y}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}dy \\ &= \dfrac{n}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}\int_0^{+\infin}y^{\frac{n}{2}-2}e^{-\frac{y}{2}}dy\\ &= \dfrac{n2^{\frac{n}{2}-1}\Gamma(\frac{n}{2}-1)}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} \\ &= \dfrac{n}{n-2} \end{align} \]

\(F\)分布

设随机变量\(X_1 \sim \chi^2(n_1), X_2 \sim \chi^2(n_2)\)且\(X_1,X_2\)相互独立，那么\(F = \dfrac{X_1/n_1}{X_2/n_2}\)服从自由度为\((n_1,n_2)\)的\(F\)分布，即\(\dfrac{X_1/n_1}{X_2/n_2}\sim F(n_1,n_2)\)

根据定义，\(F\)分布具有如下性质：

若\(F \sim F(n_1,n_2)\)，那么\(\dfrac{1}{F} \sim F(n_2,n_1)\)
\(F_{1-\alpha}(n_1,n_2) = \dfrac{1}{F_\alpha(n_2,n_1)}\)

根据上\(\alpha\)分位点的定义，有：

\[P(F \ge F_\alpha(n_1,n_2)) = \alpha \]
那么它的逆否命题为

\[P(F\leq F_\alpha(n_1,n_2)) = 1-\alpha \\ then \ P(\dfrac{1}{F} \ge \dfrac{1}{F_\alpha(n_1,n_2)}) = 1-\alpha \]
根据性质一，有\(\dfrac{1}{F} \sim F(n_2,n_1)\)

所以

\[\begin{align} P(\dfrac{1}{F} \ge \dfrac{1}{F_\alpha(n_1,n_2)}) = P(\dfrac{1}{F} \ge F_{1-\alpha}(n_2,n_1)) = 1-\alpha \end{align} \]
最终得证

\[F_{1-\alpha}(n_1,n_2) = \dfrac{1}{F_\alpha(n_2,n_1)} \]
\(F\)分布的数字特征

\[\begin{align} E(F) &= \dfrac{n_2}{n_1}E(\dfrac{X_1}{X_2}) = \dfrac{n_2}{n_1}E(X_1)E(\dfrac{1}{X_2})\\ &= n_2E(\dfrac{1}{X_2})\\ &= n_2\int_0^{+\infin}\dfrac{1}{x_2}\cdot \dfrac{x_2^{\frac{n_2}{2}-1}e^{-\frac{x_2}{2}}}{2^{\frac{n_2}{2}}\Gamma(\frac{n_2}{2})}dx_2\\ &= \dfrac{n_2}{n_2-2}\\ \\ D(F) &= \dfrac{n_2^2}{n_1^2}E(\dfrac{X_1^2}{X_2^2}) - E(F)^2\\ &= \dfrac{n_2^2}{n_1^2}E(X_1^2)E(\dfrac{1}{X_2^2}) - (\dfrac{n_2}{n_2-2})^2\\ &= \dfrac{2n_1+n_1^2}{n_1^2}\cdot n_2^2\int_0^{+\infin}\dfrac{1}{x_2^2}\cdot \dfrac{x_2^{\frac{n_2}{2}-1}e^{-\frac{x_2}{2}}}{2^{\frac{n_2}{2}}\Gamma(\frac{n_2}{2})}dx_2 - (\dfrac{n_2}{n_2-2})^2 \\ &= \dfrac{2n_1+n_1^2}{n_1^2}\cdot \dfrac{n_2^2}{(n_2-2)(n_2-4)} - (\dfrac{n_2}{n_2-2})^2\\ &= \dfrac{2n_2(n_1+n_2-2)}{n_1(n_2-2)^2(n_2-4)} \end{align} \]

了解了以上样本的三大分布，我们可以总结出正态总体下的样本规律。

\(\chi^2\)分布描述了标准正态分布的平方和随机变量的分布，所以如果随机变量\(X_1,X_2,X_3,\cdots,X_n\)是正态分布\(N(\mu,\sigma^2)\)总体的\(n\)个样本，那么我们有\(\overline X, S^2\)：

\(\dfrac{\overline X - \mu}{\dfrac{\sigma}{\sqrt n}} \sim N(0,1)\)
将随机变量\(X_i\)都变为标准正态分布\(\dfrac{X_i-\mu}{\sigma}\)，根据\(\chi^2\)分布定义，有\(\sum_{i=1}^n \left( \dfrac{X_i - \mu}{\sigma} \right)^2\sim \chi^2(n)\)
假如我们不知道总体期望\(\mu\)，那么我们可以用样本均值进行代替，因为样本均值是由样本计算得来的，所以自由度要减1，即\(\sum_{i=1}^n \left( \dfrac{X_i - \overline X}{\sigma} \right)^2 \sim \chi^2(n-1)\)

这里可以给出一个简单的公式说明。注意，它并非是严格的证明

\[\begin{align} \sum_{i=1}^n\left( \dfrac{X_i - \overline X}{\sigma} \right) ^ 2 &= \dfrac{1}{\sigma^2}\sum_{i=1}^n \left( X_i - \mu - \overline X + \mu\right)^2 \\ &= \dfrac{1}{\sigma^2} \left[ \sum_{i=1}^n \left( X_i - \mu\right)^2 - 2\sum_{i=1}^n \left( X_i - \mu\right)( \overline X - \mu ) + \sum_{i=1}^n(\overline X - \mu)^2 \right] \\ &= \dfrac{1}{\sigma^2} \left[ \sum_{i=1}^n(X_i - \mu)^2 - 2n(\overline X - \mu)^2 + n(\overline X - \mu)^2 \right] \\ &= \sum_{i=1}^n\left( \dfrac{X_i - \mu}{\sigma} \right)^2 - (\dfrac{\overline X - \mu}{\frac{\sigma}{\sqrt n}} ) ^ 2 \end{align} \]
可以看到左边的符合n个标准正态分布，减号右侧是一个标准正态分布，二者相减后就应该符合自由度为\(n-1\)的\(\chi^2(n-1)\)

此外，上面的式子还可以变形为:

\[\dfrac{(n-1)S^2}{\sigma^2} = \sum_{i=1}^n \left( \dfrac{X_i - \overline X}{\sigma} \right)^2 \sim \chi^2(n-1) \]
假设\(\overline X\)与\(S^2\)相互独立，那么我们在\(\mu\)已知但是\(\sigma\)未知时，有\(\dfrac{\sqrt n(\overline X - \mu)}{S} \sim t(n-1)\)

根据以上性质，我们可以估计一个参数的置信区间，因为\(\dfrac{\overline X - \mu}{\dfrac{\sigma}{\sqrt n}} \sim N(0,1)\)，所以我们可以求得概率

\[P \left\lbrace \left| \dfrac{X_i - \mu}{\dfrac{\sigma}{\sqrt n}} \right| \leq a \right\rbrace = p \\ \\ P\left\lbrace \overline X - \dfrac{\sigma}{\sqrt n}a \leq \mu \leq \overline X + \dfrac{\sigma}{\sqrt n}a \right\rbrace = p \]

假设我们不知道总体客观的期望值\(\mu\)，但是我们可以通过抽样计算样本均值，根据上面的式子划定一个区间\([\overline X - \dfrac{\sigma}{\sqrt n}a, \overline X + \dfrac{\sigma}{\sqrt n}a]\)，说\(\mu\)有\(p\)的概率落在该区间内，那么我们可以通过人为设定概率值来保证我们有多大的把握确定\(\mu\)的范围。

我们称该概率为置信水平，值为\(1-\alpha\)，于是我们找到标准正态分布的上\(\dfrac{\alpha}{2}\)分位点，即置信区间为\([\overline X - \dfrac{\sigma}{\sqrt n}Z_{\frac{\alpha}{2}}, \overline X + \dfrac{\sigma}{\sqrt n}Z_{\frac{\alpha}{2}}]\)

同理，假设我们不知道总体的\(\sigma\)，那么我们可以使用\(\dfrac{\sqrt n(X_i -\overline X)}{S} \sim t(n-1)\)，其置信区间为\([\overline X - \dfrac{S}{\sqrt n}t_{\frac{\alpha}{2}}(n-1), \overline X + \dfrac{S}{\sqrt n}t_{\frac{\alpha}{2}}(n-1)]\)

当我们的概率分布中具有\(k\)个未知的参数\(\theta_1,\theta_2,\cdots \theta_k\)，那么我们可以通过抽取样本，假设样本均值等于期望，反过来估计参数的值。多个参数就需要求样本的\(k\)阶原点矩，令\(\dfrac{1}{n}\sum_{i=1}^nX_i^m = E(X^m),m = 1,2,\cdots,k\)

联立方程组，解得参数的估计量（估计值）。

上面的方法是矩估计法。

第二种方法就是最大似然估计法，其核心思想是求得样本观测值出现的最大概率时，参数的值。

对于\(n\)个样本\(X_1,X_2,\cdots,X_n\)，它们出现的概率为\(\prod_{i=1}^nP(X_i = x_i) = f(\theta)\)，然后通过求\(f(\theta)\)最大值时\(\theta\)的取值，离散情况则是概率密度的乘积，在求导时利用先取对数在求导方便计算。

posted @ 2023-07-20 15:18 ᴮᴱˢᵀ 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部

AlongtheJourney

概率论