概率论 - 基础 - amazzzzzing

概率论 - 基础

概率论作为一门独立的数学分支，引入了大量的概念，初次学习时存在概念不熟悉的问题，因此将相关概念整理至此。
参考书目：《概率论与数理统计·第四版》盛骤谢式千潘承毅

概率论 - 基础

1 随机试验

有一类现象，在一定条件下必然发生，这类现象称为确定性现象。
在大量重复试验或观察中所呈现出的固有规律性，称为统计规律性。
在个别试验中其结果呈现出不确定性，在大量重复试验中其结果又具有统计规律性的现象，称之为随机现象。
随机试验：具有以下三个特点的试验
- 可以在相同条件下重复进行
- 每次试验的可能结果不止一个，并且能预知试验的所有可能结果
- 进行一次试验之前不能预知试验会出现哪个结果
将随机试验 $E$ 的所有可能结果组成的集合称为 $E$ 的样本空间，记为 $S$ ，样本空间的元素，及随机试验 $E$ 的每个结果，称为样本点。
称试验 $E$ 的样本空间 $S$ 的子集为 $E$ 的随机事件，简称事件。在每次试验中，当且仅当这一子集中的一个样本点出现时，称这一事件发生。由一个样本点组成的单元素集合称为基本事件，样本空间 $S$ 作为自己的子集称为必然事件，不含任何样本点的空集称为不可能事件。

2 关系

设试验 $E$ 的样本空间为 $S$ ，包含事件 $A,B,A_k(k=1,2,...)$ 。

若 $A\subset B$ ，则 $A$ 发生必然有 $B$ 发生。
若 $A\subset B$ 且 $B \subset A$ ，则称 $A$ 和 $B$ 相等，记为 $A=B$ 。
事件 $A\cup B=\{x|x\in A\lor x \in B\}$ 称为事件 $A$ 和 $B$ 的和事件。当 $A,B$ 中至少有一个发生时，事件 $A\cup B$ 发生。
事件 $A\cap B=\{x|x\in A \land x \in B\}$ 称为事件 $A$ 和 $B$ 的积事件，记为 $AB$ ，当且仅当 $A,B$ 同时发生时，事件 $AB$ 发生。
事件 $A-B=\{x|x\in A \land x \notin B\}$ 称为事件 $A$ 和 $B$ 的差事件，写作 $A-B$ ，当且仅当 $A$ 发生，$B$ 不发生时，$A-B$ 发生。
若 $AB=\emptyset$ ，则称事件 $A$ 和 $B$ 是互不相容的，或 互斥的。互斥的事件不能同时发生，基本事件都是互斥的事件。
若 $A\cap B=\emptyset$ 且 $A\cup B=S$ ，则称 $A$ 和 $B$ 互为逆事件，或者互为对立事件。每次试验中，$A$ 和 $B$ 中必有且仅有一个发生。

对同一样本空间中的事件 $A,B,C$ ，有以下运算关系。运算关系可以通过观察韦恩图得到。这也启发我们，当碰到集合运算关系不能确定时，可以尝试用韦恩图观察是否成立。

$A\cup B=B\cup A$ ，
$A\cap B=B\cap A$ （交换律）。
$A\cup (B\cup C)=(A\cup B)\cup C$ ，
$A\cap (B\cap C)=(A\cap B)\cap C$ （结合律）。
$A\cap (B\cup C)=(A\cap B)\cup(A\cap C)$ ，亦作 $A(B\cup C)=AB\cup AC$
$A\cup (B\cap C)=(A\cup B)\cap (A\cup C)$ ，亦作 $A\cup(BC)=(A\cup B)(A\cup C)$（分配律）。
$\overline{A\cup B}=\overline{A}\cap \overline{B}$ ，
$\overline{A\cap B}=\overline{A}\cup \overline{B}$ （对偶律）。

3 频率、概率

在相同的条件下进行 $n$ 次试验，事件 $A$ 发生的次数 $n_A$ 称为事件 $A$ 发生的频数，$n_A/n$ 称为事件 $A$ 的频率。
设 $E$ 是随机事件，$S$ 是其样本空间。对于 $E$ 的每一个事件 $A$ 赋予一个实数，记为 $P(A)$，称为事件 $A$ 的概率。如果集合函数 $P(\cdot)$ 满足：
- 非负：对每个事件 $X$ ，有 $P(X)\ge 0$
- 规范：对必然事件 $S$ ，有 $P(S)=1$
- 可列可加：设 $A_1,A_2,...$ 是两两互不相容的事件，有 $P(A_1\cup A_2 \cup ...)=P(A_1)+P(A_2)+...$
  则当 $n\to \infin$ 时，频率 $f_n(A)$ 在一定意义下接近概率 $P(A)$ 。
设 $A,B$ 是两个事件，且 $P(A)>0$ ，称 $P(B|A)=\frac{P(AB)}{P(A)}$ 为在事件 $A$ 发生的条件下事件 $B$ 发生的条件概率。
设 $A,B$ 是两个事件，且满足 $P(AB)=P(A)P(B)$ ，则称事件 $A,B$ 相互独立，简称 $A,B$ 独立。
设 $A_1,A_2,...,A_n$ 是 $n$ 个事件，如果对于其中任意 $k(k\le n)$ 个事件的积的概率，都等于这些事件的概率之和，则称事件 $A_1,A_2,...,A_n$ 相互独立。
实际推断原理：概率很小的事件在一次试验中实际上几乎是不可能发生的
事件的运算关系，类比到概率上就得到事件概率的运算关系。根据概率的基本性质，对于事件的并的概率，如果两个事件是基本事件，则可以分解为两个事件的概率之和。条件概率也具有一样的性质。这可以推导出下列性质。
- $P(A\cup B)=P(A)+P(B)-P(AB)$ （加法公式）
- $P(A-B)=P(A)-P(AB)$ （减法公式）
- $P(AB)=P(A)P(B|A)$ （ $P(A)>0$ ）（乘法公式）
  $P(ABC)=P(AB)P(C|AB)=P(A)P(B|A)P(C|AB)$ （$P(AB)>0$）。
- 设 $B_1,B_2$ 是对样本空间 $S$ 的一个划分，则 $P(A)=P(AB_1)+P(AB_2)$ 。
  
  证：$A=AS=A(B_1+B_2)=AB_1+AB_2$ ，而 $AB_1\cap AB_2=\empty$ ，得证。
事实上，根据概率的性质，只要参与运算的事件之间互斥（不是独立），则事件的并的概率就等于事件的概率的和。利用这个性质可以推导出所有事件的概率运算关系，如 $P(A\overline{B})=P(A)-P(AB)$ 。

4 随机变量

设随机试验的样本空间为 $s=\{e\}$ ，$X=X(e)$ 是定义在样本空间 $S$ 上的实值单值函数，称 $X=X(e)$ 为随机变量。

注意，同一样本空间中的事件之间是集合关系，而随机变量是一个实数，因此两者的含义是不一样的，不要混淆，同时它们的运算的含义也就不一样。例如，事件 $X,Y$ 和随机变量 $X,Y$ 含义是不一样的，事件的交 $XY$ 和随机变量的乘积 $XY$ 的含义也因此不一样。
有些随机变量，其全部可能取到的值是有限个或者可列无限多个，这种随机变量称为离散型随机变量。设离散型随机变量全部可能取的值为 $x_k(k=1,2,...)$ ，$X$ 取各个可能值的概率，即事件 $\{X=x_k\}$ 的概率，为 $P\{X=x_k\}=p_k, k=1,2,...$ ，称其为离散型随机变量 $X$ 的分布律。
设 $X$ 是一个随机变量，$x$ 是任意实数，函数 $F(x)=P\{X\le x\},-\infin<x<\infin$ 称为 $X$ 的分布函数。
常见的离散型随机变量有：0-1分布，二项分布，泊松分布。
如果对于随机变量的分布函数 $F(x)$ ，存在非负可积函数 $f(x)$ ，使对于任何实数 $x$ 有 $F(x)=\int_{-\infin}^\infin f(t)\text{d}t$ ，则称 $X$ 为连续型变量，$f(x)$ 称为 $X$ 的概率密度函数，简称概率密度。
常见的连续型随机变量有：均匀分布，指数分布，正态分布。
设 $(X,Y)$ 是二维随机变量，对于任意实数 $x,y$ ，二元函数 $F(x,y)=P\{(X\le x)\cap(Y\le y)\}\overset{记作}{\implies}P\{X\le x,Y\le y\}$ 称为二维随机变量 $(X,Y)$ 的分布函数，或称为 $X$ 和 $Y$ 的联合分布函数。
对于二维随机变量 $(X,Y)$ 的分布函数 $F(x,y)$ ，如果存在非负可积函数 $f(x,y)$ 使对于任意 $x,y$ 有 $F(x,y)=\int_{-\infin}^y\int_{-\infin}^x f(u,v)\text{d}u\text{d}v$ ，则称 $(X,Y)$ 是连续型的二维随机变量，$f(x,y)$ 称为二维随机变量 $(X,Y)$ 的概率密度，或称为随机变量 $X$ 和 $Y$ 的联合概率密度。
二维随机变量 $(X,Y)$ 作为一个整体，具有分布函数 $F(x,y)$ ，而 $X$ 和 $Y$ 都是随机变量，各自也有分布函数，将它们分别记为 $F_x(x),F_y(y)$ ，依次称为随机变量 $(X,Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布函数。事实上，$F_x(x)=P\{X\le x\}=P\{X\le x, Y\le \infin\}=F(x,\infin)$ ，即 $F_X(x)=F(x,\infin)$ ，同理 $F_Y(y)=F(\infin, y)$ 。
设 $F(x,y)$ 及 $F_X(x)$ ， $F_Y(y)$ 分别是二位随机变量 $(X,Y)$ 的分布函数和边缘分布函数，若对于所有的 $x,y$ 有 $P\{X\le x,Y\le y\}=P\{X\le x\}P\{Y\le y\}$ ，即 $F(x,y)=F_X(x)F_Y(y)$ ，则称随机变量 $X$ 和 $Y$ 是相互独立的。若有相应的概率密度和边缘概率密度，则有 $f(x,y)=f_X(x)f_Y(y)$ 。

5 数字特征

对离散型随机变量 $X$ ，及其分布律 $P\{X=x_k\}=p_k, k=1,2,...$ 。若级数 $\displaystyle\sum_{k=1}^nx_kp_k$ 绝对收敛，则称 $\displaystyle\sum_{k=1}^nx_kp_k$ 为随机变量 $X$ 的数学期望，记为 $E(X)$。
对连续型随机变量 $X$ 的概率密度为 $f(x)$ ，若积分 $\int_{-\infin}^{\infin}xf(x)\text{d}x$ 绝对收敛，则称 $\int_{-\infin}^{\infin}xf(x)\text{d}x$ 的值为随机变量 $X$ 的数学期望。
设 $X$ 是一个随机变量，若 $E\{(X-E(X))^2\}$ 存在，则称 $E\{(X-E(X))^2\}$ 为随机变量 $X$ 的方差。记为 $D(X)$ 或 $Var(X)$ 。$\sqrt{D(X)}$ 称为标准差或均方差，记为 $\sigma(X)$ 。
设随机变量 $X$ 具有数学期望 $E(X)=\mu$ ，方差 $D(X)=\sigma^2\ne 0$，记 $X^*=\frac{X-\mu}{\sigma}$ 为 $X$ 的标准化变量。有 $E(X^*)=0$ ，$D(X^*)=1$ 。
量 $E\{X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 和 $Y$ 的协方差，记为 $Cov(X,Y)$ ，$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ 称为随机变量 $X$ 和 $Y$ 的相关系数。当 $\rho_{XY}=0$ 时，称 $X,Y$ 不相关。相关系数（协方差）描述了两个随机变量的线性相关程度，若一个随机变量能被另一个线性表示，则 $|\rho_{XY}|=1$ 。
设 $X$ 和 $Y$ 是随机变量
- 若 $E(X^k),k=1,2,...$ 存在，则称它为 $X$ 的k阶原点矩，简称k阶矩。
- 若 $E\{[X-E(X)]^2\},k=2,3,...$ 存在，称它为 $X$ 的k阶中心矩。
- 若 $E(X^kY^l),k,l=1,2,...$ 存在，称它为 $X$ 和 $Y$ 的 $k+l$ 阶混合矩。
- 若 $E\{[X-E(X)]^k[Y-E(Y)]^l\}$ 存在，称它为 $X$ 和 $Y$ 的 $k+l$ 阶混合中心矩。
设 $n$ 维随机变量 $(X_1,X_2,...,X_n)$ 的二阶混合中心矩 $c_{ij}=Cov(X_i,X_j)$ 都存在，则称矩阵 $\boldsymbol{C}=\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ ... \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}$ 为 $n$ 维随机变量 $(X_1,X_2,...,X_n)$ 的协方差矩阵。
设连续性随机变量 $X$ 的分布函数为 $F(x)$ ，概率密度为 $f(x)$ ，对于任意正数 $\alpha$ ，称满足条件 $P\{X\le x_0\}=\alpha$ 的数 $x_0$ 为此分布的下 $\alpha$ 分位点。相应可以定义上 $\alpha$ 分位点。
对于标准正态分布，记 $z_{\alpha}$ 为其上 $\alpha$ 分位点，即 $P\{X\ge z_\alpha\}=\alpha$ 。例如，$z_{0.1}=1.282$ ，$z_{0.5}=0$ ，$z_{1-\alpha}=-z_{\alpha}$ 。

6 样本与分布

为研究有关对象的某一项数量指标，为此，考虑与这一数量指标相联系的随机试验，对这一数量指标进行试验或观察。将试验的全部可能的观察值称为总体，每一个可能的观察值称为个体，总体中所包含的个体的容量称为总体的容量，容量为有限的称为有限总体，容量为无限的称为无限总体。
通过从总体中抽取一部分个体，根据获得的数据来对总体分布作出推断。被抽出的部分个体叫做总体的一个样本。
设 $X$ 是具有分布函数 $F$ 的随机变量，若 $X_1,X_2,...,X_n$ 是具有分布函数 $F$ 的、相互独立的随机变量，则称 $X_1,X_2,...,X_n$ 为从分布函数 $F$ （或总体 $F$ 、或总体 $X$）得到的容量为 $n$ 的简单随机样本，简称样本，它们的观察值 $x_1,x_2,...,x_n$ 称为样本值，又称 $X$ 的 $n$ 个独立的观察值。
设 $X_1,X_2,...,X_n$ 是来自总体 $X$ 的一个样本，$g(X_1,X_2,...,X_n) 是 $X_1,X_2,...,X_n$ 的函数，若 $g$ 中不含有未知参数，则称 $g(X_1,X_2,...,X_n)$ 是一统计量。常见的统计量有：
- 样本平均值：$\overline{X}=\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i$
- 样本方差：$S^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})^2$
- 样本标准差：$S=\sqrt{S^2}$
- 样本 $k$ 阶（原点）矩：$A_k=\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i^k,k=1,2,...$
- 样本 $k$ 阶中心矩：$B_k=\frac{1}{n}\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})^k,k=2,3,...$
设 $X_1,X_2,...,X_n$ 是总体 $F$ 的一个样本，用 $S(x),-\infin<x<\infin$ 表示 $X_1,X_2,...,X_n$ 中不大于 $x$ 的随机变量的个数，定义经验分布函数 $F_n(x)=\frac{1}{n}S(x)$ 。
$\chi^2$ 分布：设 $X_1,X_2,...,X_n$ 是来自总体 $N(0,1)$ 的样本，则称统计量 $\chi^2=X_1^2+X_2^2+...+X_n^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布（卡方分布），记为 $\chi^2\sim \chi^2(n)$ 。
若 $\chi^2\sim \chi^2(n)$ ，则 $E(\chi^2)=n$ ，$D(\chi^2)=2n$ 。
设随机变量 $X$ 和 $Y$ 相互独立，且 $X\sim N(0,1)$ ，$Y\sim \chi^2(n)$ ，则称随机变量 $T=\frac{X}{\sqrt{Y/N}}$ 服从自由度为 $n$ 的 $t$ 分布，记作 $T\sim t(Y/n)$ 。
设随机变量 $X$ 和 $Y$ 相互独立，且 $X\sim \chi^2(n_1)$ ，$Y\sim \chi^2(n_2)$ ，则称随机变量 $F=\frac{X/n_1}{Y/n_2}$ 服从自由度为 $(n_1,n_2)$ 的 $F$ 分布。

7 参数估计

设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知，$\theta$ 是待估参数，$X_1,X_2,...,X_n$ 是 $X$ 的一个样本，$x_1,x_2,...,x_n$ 是相应的一个样本值，点估计问题就是要构造一个合适的的统计量 $\hat\theta(x_1,x_2,...,x_n)$ 为 $\theta$ 的估计量，称 $\hat\theta(x_1,x_2,...,x_n)$ 为 $\theta$ 的估计值。也可统称估计量和估计值为估计，并都简记为 $\hat\theta$ 。
设 $X$ 为连续型随机变量，其概率密度为 $f(x;\theta_1,\theta_2,...,\theta_k)$ ，或 $X$ 为离散型随机变量，其分布律为 $P\{X=x\}=p(x;\theta_1,\theta_2,...,\theta_k)$ ，其中 $\theta_1,\theta_2,...,\theta_k$ 为待估参数，$X_1,X_2,...,X_n$ 是来自 $X$ 的样本，假设总体 $X$ 的前 $k$ 阶矩存在。基于样本矩依概率收敛于相应的总体矩，样本矩的连续函数依概率收敛于相应的总体矩的连续函数，就用样本矩作为相应的总体矩的估计量，而以样本矩的连续函数作为相应的作为相应的总体矩的连续函数的估计量，这种估计方法称为矩估计法。
设总体 $X$ 属离散型，其分布律 $P\{X=x\}=p(x;\theta),\theta \in \Theta$ 的形式为已知，设 $X_1,X_2,...,X_n$ 是来自 $X$ 的样本，则 $X_1,X_2,...,X_n$ 的联合分布律为 $\displaystyle\prod_{i=1}^{n}p(x_i;\theta)$ 。设 $x_1,x_2,...,x_n$ 是相应于样本 $X_1,X_2,...,X_n$ 的一个样本值，则事件 $\{X_1=x_1,X_2=x_2,...,X_n=x_n\}$ 的概率为 $L(\theta)=L(x_1,x_2,...,x_n;\theta)=\displaystyle\prod_{i=1}^{n}p(x_i;\theta),\theta\in \Theta$ 。这一概率是 $\theta$ 的函数，$L(\theta)$ 称为样本的似然函数。
由费希尔（$\text{R.A.Fisher}$）引进的最大似然估计法，就是固定样本观察值 $x_1,x_2,...,x_n$ ，在 $\theta$ 取值的可能范围 $\Theta$ 挑选使似然函数最大的参数值 $\hat \theta$ ，作为参数 $\theta$ 的估计值。这样得到的 $\hat\theta$ 和样本值 $x_1,x_2,...,x_n$ 有关，记为 $\hat\theta(x_1,x_2,...,x_n)$ ，称为参数 $\theta$ 的最大似然估计值，而相应的统计量 $\hat\theta(X_1,X_2,...,X_n)$ 称为参数 $\theta$ 的最大似然估计量。

例7-1：（2020考研数学一）设某种元件的使用寿命 $T$ 的分布函数为 $F(t)=\begin{cases} 1-e^{-(\frac{t}{\theta})^{m}}, & t\ge 0 \\ 0, & 其它 \end{cases}$ ，其中 $\theta,m$ 为参数且大于零。
（1）求概率 $P\{T>t\}$ 与 $P\{T>s+t|T>s\}$ ，其中 $s>0,t>0$ 。
（2）任取 $n$ 个这种元件做寿命试验，测得他们的寿命分别为 $t_1,t_2,...,t_n$ ，若 $m$ 已知，求 $\theta$ 的最大似然估计值 $\hat{\theta}$ 。

解：
（1）$P\{T>t\}=1-P\{T\le t\}=1-F(t)=e^{-(\frac{t}{\theta})^{m}}$ 。$P\{T>s+t|T>s\}=\frac{P\{T>s+t,T>s\}}{P\{T>s\}}=\frac{P\{T>s+t\}}{P\{T>s\}}=\frac{e^{-(\frac{s+t}{\theta})^{m}}}{e^{-(\frac{t}{\theta})^{m}}}=e^{(\frac{t}{\theta})^{m}-(\frac{s+t}{\theta})^{m}}$
（2）$f(t)=F'(t)=-e^{-(\frac{t}{\theta})^{m}}\cdot(-1)m(\frac{t}{\theta})^{m-1}\frac{1}{\theta}=\frac{m}{\theta}(\frac{t}{\theta})^{m-1}e^{-(\frac{t}{\theta})^m},t\ge 0$ 。
$L(\theta)=\prod p(x_i,\theta)=\prod f(t_i)=\prod \frac{m}{\theta}(\frac{t_i}{\theta})^{m-1}e^{-(\frac{t_i}{\theta})^m}=m^n\displaystyle\prod_{i=1}^{n}\frac{t_i^{m-1}}{\theta^m}e^{-(\frac{t_i}{\theta})^m}$ 。
有 $\ln(L(\theta))=n\ln m + \displaystyle\sum_{i=1}^{n}[(m-1)\ln {t_i} - m\ln \theta + (-(\frac{t_i}{\theta})^m)]=n\ln m - mn\ln \theta +\displaystyle\sum_{i=1}^{n}[(m-1)\ln t_i-(\frac{t_i}{\theta})^m]$ 。
故 $\frac{\text{d}\ln(L(\theta))}{\text{d} \theta}=-\frac{mn}{\theta}-\displaystyle\sum_{i=1}^{n}m (\frac{t_i}{\theta})^{m-1}(-t_i)\theta^{-2}=-\frac{mn}{\theta}+\displaystyle\sum_{i=1}^{n}m\frac{t_i^m}{\theta^{m+1}}$ ，
令 $\frac{\text{d}\ln(L(\theta))}{\text{d} \theta}=0$ ，即有 $\frac{1}{\theta^{n+1}}[\displaystyle\sum_{i=1}^{n}t_i^m-n\theta ^m]$ ，即有 $\theta^m=\frac{1}{n}\displaystyle\sum_{i=1}^{n}t_i^m$ 。显然该值为最大值。
因此 $\theta$ 的最大似然估计为 $\hat{\theta}=\sqrt[m]{\frac{1}{n}\displaystyle\sum_{i=1}^{n}t_i^m}$ 。

例7-2：（2019考研数学一）设总体 $X$ 的概率密度为 $f(x,\sigma^2)=\begin{cases} \frac{A}{\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},& x\ge \mu\\ 0,& x<\mu \end{cases}$ ，其中 $\mu$ 是已知参数，$\sigma>0$ 是未知参数，$A$ 是常数。$X_1,X_2,...,X_n$ 是来自总体 $X$ 的简单随机样本。
（1）求 $A$ ；
（2）求 $\sigma^2$ 的最大似然估计量。

解：
（1）取正态分布的概率密度为 $g(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ，有 $\int_\mu^\infin g(x)\text{d}x=\frac{1}{2}$ 。对比可知 $\frac{A}{\sigma}=\frac{1}{\sigma}\sqrt{\frac{2}{\pi}}$ ，即 $A=\sqrt{\frac{2}{\pi}}$ 。
（2）设 $X_1,X_2,...,X_n$ 对应的样本值为 $x_1,x_2,...,x_n$ ，则 $P(X_1=x_1,X_2=x_2,...,X_n=x_n)=L(\sigma^2)=\prod f(x_i,\sigma^2)=\prod A\sigma^{-1}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$ ，则 $\ln (L(\sigma^2))=\sum (\ln A-\frac{1}{2}\ln \sigma^2-\frac{(x_i-\mu)^2}{2\sigma^2})$ ，取 $t=\sigma^2$ ，记 $\ln (L(\sigma^2))=k(t)=\sum (\ln A-\frac{1}{2}\ln t-\frac{(x_i-\mu)^2}{2}\cdot t^{-1})$ ，则 $k'(t)=\sum (-\frac{1}{2t}+\frac{(x_i-\mu)^2}{2}\frac{1}{t^2})=\sum \frac{1}{2t}(\frac{(x_i-\mu)^2}{t}-1)=\frac{1}{2t}(\sum \frac{(x_i-\mu)^2}{t}-n)$ 。取 $k'(t)=0$ ，得 $\sigma^2=\frac{1}{n}\sum (x_i-\mu)^2$ 。
故 $\sigma^2$ 得最大似然估计量为 $\hat{\sigma}^2=\frac{1}{n}\sum (X_i-\mu)^2$ 。

矩估计：参考数学题集（2017,23）。

8 假设检验

例：已知随机变量 $X$ 有期望 $\mu_0$ 和方差 $\sigma_0^2$ ，某一次随机抽取到以下样本：$x_1,x_2,...,x_n$ ，有假设 $H_0:\mu=\mu_0$ ， $H_1:\mu\ne \mu_0$ 。问：是否接受假设 $H_0$ ？

分析：

是否接受假设 $H_0$ ，要根据决策之后的错误概率来进行，不妨将该错误概率的允许值记为 $\alpha$ 。所谓决策错误，可以是：假设为真，但是没有接受（第一类错误），或者假设为假，但是接受了（第二类错误）。这里我们控制第一类错误的概率，使其不大于 $\alpha$ 。

在假设为真的情况下，根据中心极限定理，样本符合和假设一致的正态分布，因此根据假设就可以得出样本和的标准化变量符合正态分布：$x^*=\frac{\overline{x_i}-\mu_0}{\sigma_0/\sqrt{n}}\overset{N}{\sim}N(0,1)$ 。也即要控制第一类错误的概率，就要保证样本和的标准化变量满足 $|x^*|<z_{\alpha/2}$ （或者说，如果样本均值不在这个范围内，则假设可以认为不为真）。

例如，取 $\alpha=0.05,\overline{x}=0.511,\mu_0=0.5,\sigma=0.015,n=9$ ，有 $|\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}|=2.2$ ，而 $z_{\alpha/2}=z_{0.025}=1.96$ ，故假设不成立，应该拒绝。

posted on 2020-11-09 14:33 amazzzzzing 阅读(790) 评论(0) 收藏举报

刷新页面返回顶部

amazzzzzing

导航