概率论与数理统计

概率论与数理统计

概率论的基本概念

有一类现象，在一定条件下必然发生，这类现象称为确定性现象。在自然界和社会上存在着另一类现象，它们在一定的条件下可能出现不同的结果，而在试验或观察之前不能预知确切的结果，但人们经过长期实践并深入研究之后，发现这类现象在大量重复试验或观察下，其结果却呈现出某种规律性；这种在大量重复试验或观察中所呈现出的固有规律性就是统计规律性；这种在个别试验中结果呈现不确定性，在大量重复试验中结果又具有统计规律性的现象称为随机现象。

随机试验

将能够获得一定结果的过程，包括科学实验、对某一事物某一特征的观察等，称为试验。

将满足以下条件的试验称为随机试验：

可以在相同条件下重复进行。
每次试验的可能结果不止一个，且能事先明确试验的所有可能结果。
进行一次试验前不能确定会出现那个结果。

样本空间、随机事件

样本空间

将随机试验\(E\)的所有可能结果组成的集合称为\(E\)的样本空间，记为\(S\)；样本空间的元素，即\(E\)的每个可能结果，称为样本点。

随机事件

在实际中，当进行随机试验时，人们常关心满足某种条件的那些样本点组成的集合。一般地，我们称试验\(E\)的样本空间\(S\)的满足某些条件的（当\(S\)有限或可列时一定成立，当\(S\)不可列时需要排除一些病态情况）子集为\(E\)的(随机)事件。在每次试验中，当且仅当这一子集中的样本点出现时，称这一事件发生。特别地，由一个样本点组成的单点集称为基本事件，包含所有样本点的\(S\)称为必然事件，不包含任何样本点的\(\varnothing\)称为不可能事件。

事件间的关系与事件的运算

按集合论来即可。特别地，将事件的并集称为和事件，将事件的交集称为积事件，将事件的差集称为差事件。将交集为空的事件称为互不相容/斥的，将互为补集的两个事件称为互为逆/对立事件。

频率与概率

频率

在相同条件下进行了\(n\in\mathbb{N}^*\)次试验，其中事件\(A\)发生的次数\(n_A\)称为事件\(A\)发生的频数，比值\(f_n(A)=\frac{n_A}{n}\)称为事件\(A\)发生的频率。

概率

设\(E\)是随机试验，\(S\)是其样本空间。对\(E\)的每一事件\(A\)赋予一个实数\(P(A)\)，若函数\(P\)满足以下条件，则称\(P(A)\)是事件\(A\)的概率：

非负性：

\[\forall A\subseteq S\ (P(A)\geq0). \]
规范性：

\[P(S)=1. \]
可列可加性：若\(A_i\subseteq S (i\in\mathbb{N}^*)\)两两互斥，则

\[P\left(\bigcup_{i=1}^{+\infty}A_i\right)=\sum_{i=1}^{+\infty}P(A_i). \]

概率的性质

\[P(\varnothing)=0. \]
有限可加性：若\(A_i\subseteq S (i\in\mathbb{N}^*,\ i\leq n)\)两两互斥，则

\[P\left(\bigcup_{i=1}^nA_i\right)=\sum_{i=1}^nP(A_i). \]
若事件\(A,B\)满足\(A\subseteq B\)，则

\[P(A)\leq P(B). \]
\[\forall A\subseteq S\ (P(A)\leq1). \]
\[\forall A\subseteq\ (P(\overline{A})=1-P(A)). \]
加法公式：

\[P(A\cup B)=P(A)+P(B)-P(A\cap B). \]
这个公式可以用容斥原理推广。

等可能/古典概型

具有以下特点的试验称为等可能/古典概型：

试验的样本空间有限。
试验中每个基本事件发生的可能性相同。

条件概率

设\(A,B\)是两个事件，且\(P(A)>0\)，称

\[P(B|A)=\frac{P(AB)}{P(A)} \]

为在\(A\)发生的条件下\(B\)发生的条件概率。条件概率符合概率定义要求的条件。

乘法定理

乘法公式 设\(P(A)>0\)，则有

\[P(AB)=P(A)P(B|A). \]

一般地，对于事件\(A_i\ (i\in\mathbb{N},\ i\leq n\geq2)\)满足\(P\left(\bigcap_{i=1}^{n-1}A_i\right)>0\)，则有

\[P\left(\bigcap_{i=1}^n A_i\right)=\prod_{i=1}^nP\left(A_i\left|\bigcap_{j=1}^{i-1}A_j\right.\right). \]

全概率公式和Bayes公式

全概率公式 设试验\(E\)的样本空间为\(S\)，集合\(\{A_i\}_{i=1}^n\)是\(S\)的一个划分且\(\forall i\in\mathbb{N}\cap[1,n]\ (P(A_i)>0)\)，\(B\subseteq S\)，则

\[P(B)-\sum_{i=1}^nP(A_i)P(B|A_i). \]

Bayes公式 设试验\(E\)的样本空间为\(S\)，集合\(\{A_i\}_{i=1}^n\)是\(S\)的一个划分且\(\forall i\in\mathbb{N}\cap[1,n]\ (P(A_i)>0)\)，\(B\subseteq S\)且\(P(B)>0\)，则

\[P(A_i|B)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}\ (i\in\mathbb{N}^*,\ i\leq n). \]

独立性

如果事件\(A,B\)满足

\[P(A\cap B)=P(A)P(B), \]

则称\(A,B\)(相互)独立。

若\(P(A),P(B)>0\)，则\(A,B\)独立与\(A,B\)互斥不能同时成立。

\((A,B),(A,\overline{B}),(\overline{A},B),(\overline{A},\overline{B})\)独立都是等价的。

一般地，对于事件\(A_i\ (i\in\mathbb{N}^*,\ i\leq n\geq2)\)，若对任意\(m\in\mathbb{N}\cap[2,n]\)，其中任意\(m\)个事件之积的概率都等于这\(m\)个事件的概率之积，则称这\(n\)个事件(相互)独立。

随机变量及其分布

随机变量

设一个随机试验的样本空间为\(\Omega\)，函数\(X:\Omega\to\mathbb{R}\)，若对任意\(x\in\mathbb{R}\)，集合

\[\{\omega\in\Omega:X(\omega)\leq x\} \]

都有确定的概率，则称\(X\)为随机变量。

离散型随机变量及其分布律

全部可能取到的值是有限个或可列个的随机变量称为离散型随机变量。

设离散型随机变量\(X\)所有可能取的值为\(\mathcal{X}\)，则由概率的定义，\(P(X=x)\ (x\in\mathcal{X})\)满足以下条件：

非负性：

\[\forall x\in\mathcal{X}\ P(X=x)\geq0. \]
归一性：

\[\sum_{x\in\mathcal{X}}P(X=x)=1. \]

式

\[P(X=x)=?\ (x\in\mathcal{X}) \]

称为\(X\)的分布律。分布律也可以用表格的形式表示。

(0-1)分布

若随机试验\(E\)只有成功与失败两个可能结果，则称\(E\)为Bernoulli试验。

进行一次成功概率为\(p\in[0,1]\)的Bernoulli试验，设随机变量\(X=\text{"试验成功"}\)，则称\(X\)服从以\(p\)为参数的(0-1)分布，其分布律为

\[P(X=x)=p^x(1-p)(1-x)\ (x\in\{0,1\})= \begin{cases} 1-p & (x=0)\\ p & (x=1) \end{cases}, \]

也可以表格表示为

\(X\)	\(0\)	\(1\)
\(P\)	\(1-p\)	\(p\)

其期望

\[E(X)=p, \]

方差

\[D(X)=p(1-p). \]

二项/Bernoulli分布

若将某一Bernoulli试验独立重复地进行\(n\in\mathbb{N}\)次，则称这一系列重复的独立试验为\(n\)重Bernoulli试验。

进行每次成功概率为\(p\in[0,1]\)的\(n\)重Bernoulli试验，设随机变量\(X\)表示其中成功的次数，则称\(X\)服从参数为\(n,p\)的二项/Bernoulli分布，记为\(X\sim B(n,p)\)，其分布律为

\[P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}\ (x\in\mathbb{N},\ x\leq n), \]

其期望

\[E(X)=np, \]

方差

\[D(X)=np(1-p). \]

二项分布的可加性 若\(X_i\sim B(n_i,p)\ (i\in\mathbb{N}^*,\ i\leq m)\)，则

\[\sum_{i=1}^mX_i\sim B\left(\sum_{i=1}^mn_i,p\right). \]

特别地，\(B(1,p)\)等价于参数为\(p\)的(0-1)分布。

Poisson分布

设某一事件在单位时间内平均发生\(\lambda\geq0\)次，设单位时间内该发生\(X\)次，则称随机变量\(X\)服从以\(\lambda\)为参数的Poisson分布，记为\(X\sim P(\lambda)\)，其分布律为

\[P(X=x)=\frac{\lambda^x}{\mathrm{e}^\lambda x!}\ (x\in\mathbb{N}), \]

其期望

\[E(X)=\lambda, \]

差

\[D(X)=\lambda. \]

Poinsson分布的可加性 若\(X_i\sim P(\lambda_i)\ (i\in\mathbb{N}^*,\ i\leq n)\)相互独立，则

\[\sum_{i=1}^nX_i\sim P\left(\sum_{i=1}^n\lambda_i\right). \]

Poisson定理 设\(\lambda\geq0\)为常数，\(p_n=\frac{\lambda}{n}\ (n\in\mathbb{N})\)，则

\[\forall x\in\mathbb{N}\ \lim_{n\to+\infty}\binom{n}{x}p_n^x(1-p_n)^{n-x}=\frac{\lambda^x}{\mathrm{e}^\lambda x!}, \]

即当\(n\)很大而\(p\)很小时，二项分布\(B(n,p)\)可用Poisson分布\(P(np)\)近似。这可以理解为，将单位时间平均分成\(n\to+\infty\)段，每段发生事件的概率就是\(\frac{\lambda}{n}\)，那末单位时间里发生事件的总次数也就服从\(B\left(n,\frac{\lambda}{n}\right)\)了。

随机变量的分布函数

设\(X\)是一个随机变量，则函数

\[F:x\mapsto P(X\leq x)\ (x\in\mathbb{R}) \]

称为\(X\)的分布函数（cumulative distribution function, CDF）。于是

\[(\forall l,r\in\mathbb{R},\ l\leq r)\ (P(l<X\leq r)=F(r)-F(l)). \]

根据定义，分布函数\(F\)必满足以下基本性质：

单调递增：\(F\)在\(\mathbb{R}\)上单调递增，因为概率非负。
有界：

\[\forall x\in\mathbb{R}\ 0\leq F(x)\leq1. \]
极限：

\[F(-\infty)=0,\ F(+\infty)=1. \]
右连续：

\[\forall x\in\mathbb{R}\ F(x^+)=F(x). \]

连续型随机变量及其概率密度

如果对于随机变量\(X\)的分布函数\(F\)，存在非负函数\(f\)满足

\[\forall x\in\mathbb{R}\ F(x)=\int_{-\infty}^xf(t)\ \mathrm{d}t, \]

则称\(X\)为连续型随机变量，\(f\)为\(X\)的概率密度函数（probability density function, PDF），简称概率密度。于是

\[(\forall l,r\in\mathbb{R},\ l\leq r)\ (P(l<X\leq r)=F(r)-F(l))=\int_l^rf(t)\ \mathrm{d}t. \]

根据定义，概率密度\(f\)具有以下性质：

非负性：

\[\forall x\in\mathbb{R}\ f(x)\geq0. \]
归一性：

\[\int_{-\infty}^{+\infty}f(t)\ \mathrm{d}t=1. \]
若\(\lim_{x\to x_0}f(x)=f(x_0)\)，则

\[F'(x_0)=f(x_0). \]

连续型随机变量取任意特定实数的概率均为\(0\)，即若\(X\)是连续型随机变量，则

\[\forall x\in\mathbb{R}\ P(X=x)=0, \]

但这并不是说\(X=x\)是不可能事件。

发生概率为\(0\)是一个事件为不可能事件的必要不充分条件。

均匀分布

设\(l,r\in\mathbb{R}\ (l\leq r)\)。若\(X\)落在区间\((l,r)\)内任意等长的子区间内的概率都相等，则称\(X\)在区间\((l,r)\)上服从均匀分布，记为\(X\sim U(l,r)\)，其概率密度函数

\[f:x\mapsto \begin{cases} \frac{1}{r-l} & (a<x<b) \\ 0 & (\text{otherwise}) \end{cases}, \]

分布函数

\[F:x\mapsto \begin{cases} 0 & (x<l) \\ \frac{x-a}{b-a} & (l\leq x<b) \\ 1 & (x\geq r) \end{cases}, \]

期望

\[E(X)=\frac{1}{2}(a+b), \]

方差

\[D(X)=\frac{1}{12}(r-l)^2. \]

指数分布

设某一事件单位时间内平均发生\(\lambda\)次，刚刚发生了一次该事件，到下一次发生该事件等待了\(X\)的时间，则称\(X\)服从参数为\(\lambda\)的指数分布，记为\(X\sim E(\lambda)\)，其概率密度函数

\[f:x\mapsto \begin{cases} \frac{\lambda}{\mathrm{e}^{\lambda x}} & (x>0) \\ 0 & (\text{otherwise}) \end{cases}, \]

分布函数

\[F:x\mapsto \begin{cases} 1-\mathrm{e}^{-\lambda x} & (x>0) \\ 0 & (\text{otherwise}) \end{cases}, \]

期望

\[E(X)=\frac{1}{\lambda}, \]

方差

\[D(X)=\frac{1}{\lambda^2}. \]

指数分布具有无记忆性，即若\(X\sim E(\lambda)\)，则

\[P(X>t_0+\Delta t|X>t_0)=P(X>\Delta t). \]

正态/Gauss分布

世界的真理。

若随机变量\(X\)的概率密度函数为

\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)\ (x\in\mathrm{R}), \]

则称\(X\)服从参数为\(\mu,\sigma\)的正态/Gauss分布，记为\(X\sim N(\mu,\sigma^2)\)，其分布函数

\[F(x)=\varPhi\left(\frac{x-\mu}{\sigma}\right), \]

期望

\[E(X)=\mu, \]

方差

\[D(X)=\sigma^2, \]

其中

\[\varPhi:x\mapsto\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{1}{2}t^2\right)\ \mathrm{d}t \]

是标准正态分布\(N(0,1)\)的分布函数。

正态分布的线性性 若\(X\sim N(\mu,\sigma^2),\ a,b\in\mathbb{R}\)，则

\[aX+b\sim N(a\mu+b,(a\sigma)^2). \]

正态分布的可加性 若\(X_i\sim N(\mu_i,\sigma_i^2)\ (i\in\mathbb{N}^*,\ i\leq n)\)，则

\[\sum_{i=1}^nX_i\sim N\left(\sum_{i=1}^n\mu_i,\sum_{i=1}^n\sigma_i^2\right) \]

Gamma分布

Gamma函数定义为

\[\varGamma(x)=\int_0^{+\infty}\frac{t^{x-1}}{\mathrm{e}^t}\mathrm{d}t\ (\Re (x)>0), \]

它可以视作阶乘运算在\((-1,+\infty)\)乃至复数域的一部分上的推广。它最重要的性质是

\[\begin{array}{c} (\forall x\in\mathbb{C},\ \Re(x)>0)\ \varGamma(x+1)=x\cdot\varGamma(x),\\ \forall n\in\mathbb{N}\ \varGamma(n+1)=n!. \end{array} \]

Gamma分布是对指数分布的推广。

若某个事件在单位时间内平均发生\(\beta>0\)次（即平均\(\frac{1}{\beta}\)个单位时间发生一次），设从刚发生一次该事件（这次不算）后开始，等\(X\)的时间才第\(\alpha>0\)次发生该事件，则称\(X\)服从参数为\(\alpha,\frac{1}{\beta}\)的Gamma分布，记为\(X\sim\varGamma\left(\alpha,\frac{1}{\beta}\right)\)，其中\(\alpha\)称为形状参数、\(\beta\)称为反尺度参数、\(\frac{1}{\beta}\)称为尺度参数，其密度函数

\[f:x\mapsto \begin{cases} \frac{\beta^\alpha x^{\alpha-1}}{\varGamma(\alpha)\mathrm{e}^{\beta x}} & (x>0) \\ 0 & (\text{otherwise}) \end{cases} \]

期望

\[E(X)=\frac{\alpha}{\beta}, \]

方差

\[D(X)=\frac{\alpha}{\beta^2}. \]

Gamma分布对形状参数具有可加性，即若\(X_1\sim\varGamma\left(\alpha_1,\frac{1}{\beta}\right),\ X_2\sim\varGamma\left(\alpha_2,\frac{1}{\beta}\right)\)，则\(X_1+X_2\sim\varGamma\left(\alpha_1+\alpha_2,\frac{1}{\beta}\right)\)。

指数分布\(E(\lambda)\)是Gamma分布的特例\(\varGamma(1,\lambda)\)。

如果\(X\sim N(0,1)\)，则\(X^2\sim\varGamma\left(\frac{1}{2},2\right)\)。

随机变量的函数的分布

设随机变量\(X\)的概率密度函数为\(f_X:\mathbb{R}\to\mathbb{R}\)，函数\(f\in D(\mathbb{R})\)且\(f'\)始终为正或始终为负，则\(Y=f(X)\)是连续型随机变量，且其概率密度函数为

\[f_Y:y\mapsto \begin{cases} \frac{f_X}{|f'|}(f^{-1}(y)) & (\min\{f(-\infty),f(+\infty)\}<y<\max\{f(-\infty),f(+\infty)\})\\ 0 & (\text{otherwise}) \end{cases}. \]

多维随机变量及其分布

二维随机变量

一般地，设随机试验\(E\)的样本空间是\(S\)，设\(X_i\ (i\in\mathbb{N}^*,\ i\leq n)\)都是定义在\(S\)上的随机变量，由它们构成的\(n\)维向量\((X_i)_{i=1}^n\)叫做\(n\)维随机向/变量。

函数

\[F:(x_i)_{i=1}^n\mapsto P(\forall i\in\mathbb{N}\cap[1,n]\ (X_i\leq x_i))\ ((x_i)_{i=1}^n\in\mathbb{R}^n) \]

称为\(n\)维随机变量\((X_i)_{i=1}^n\)的(联合)分布函数。

联合分布函数的性质

单调性：关于每一个自变量(不严格)单调递增。特别地，二维随机变量的联合分布函数的单调性表现为矩形不等式

\[\forall x_1,y_1,x_2,y_2\in\mathbb{R}\ ((x_1<x_2\land y_1<y_2)\to F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\geq0). \]
有界性：

\[(\forall\vec{x}\in\mathbb{R}^n\ 0\leq F(\vec{x})\leq1)\land F(-\infty)_{i=1}^n=0\land F(+\infty)_{i=1}^n=1. \]
右连续性：关于每一个自变量都右连续。

如果\(n\)维随机变量\(\vec{X}\)的取值范围\(\mathcal{X}\)有限或可列，我们就称其为离散型随机变量。其分布可以描述为概率质量函数

\[f:\vec{x}\mapsto P(\vec{X}=\vec{x})\ (\vec{x}\in\mathbb{R}^n). \]

概率质量函数的性质

非负性：

\[\forall\vec{x}\in\mathbb{R}^n\ f(\vec{x})\geq0. \]
归一性：

\[\sum_{\vec{x}\in\mathcal{X}}f(\vec{x})=1. \]

如果存在一个非负可积函数\(f:\mathbb{R}^n\to\mathbb{R}\)，使得对于空间中的任意区域\(D\)，都有

\[P(\vec{X}\in D)=\int_D f(\vec{x})\prod\mathrm{d}\vec{x}, \]

则称\(\vec{X}\)为连续型随机变量，而\(f\)称为其联合概率密度函数。

概率质量函数的性质

非负性：

\[\forall\vec{x}\in\mathbb{R}^n\ f(\vec{x})\geq0. \]
归一性：

\[\int_{\mathbb{R}^n} f(\vec{x})\prod\mathrm{d}\vec{x}=1. \]

边缘分布

设\(n\)维随机变量\(\vec{X}=(X_i)_{i=1}^n\)的联合分布函数为\(F\)，将函数

\[F_{X_i}:x\mapsto F((+\infty)_{j=1}^{i-1},x,(+\infty)_{j=i+1}^n)\ (x\in\mathbb{R})\ (i\in\mathbb{N}^*,\ i\leq n) \]

称为\(\vec{X}\)关于\(X_i\)的边缘分布函数。特别地，若\(\vec{X}\)是取值范围为\(\mathcal{X}\)、概率质量函数为\(f\)的离散型随机变量，则\(X_i\ (i\in\mathbb{N}^*,\ i\leq n)\)的边缘概率质量函数为

\[f_{X_i}:x\mapsto\sum_{(x_i)_{i=1}^n\in\mathcal{X},\ x_i=x}f(x_i)_{i=1}^n\ (x\in\mathbb{R}); \]

若\(\vec{X}\)是概率密度函数为\(f\)的连续型随机变量，则\(X_i\ (i\in\mathbb{N}^*,\ i\leq n)\)的概率密度函数为

\[f_{X_i}:x\mapsto\int_{\mathbb{R}^{i-1}}\left(\prod_{j=1}^{i-1}\mathrm{d}x_j\right)\int_{\mathbb{R}^{n-i-1}}\left(\prod_{j=i+1}^{n}\mathrm{d}x_j\right)f\left((x_j)_{i=1}^{i-1},x,(x_j)_{j=i+1}^n\right)\ (x\in\mathbb{R}). \]

\(n\)维正态分布 若\(n\)维随机变量\(\vec{X}\)的概率密度函数为

\[f:\vec{x}\mapsto\frac{1}{\sqrt{(2\pi)^n\det\varSigma}}\exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^\top\varSigma^{-1}(\vec{x}-\vec{\mu})\right)\ (\vec{x}\in\mathbb{R}^n), \]

其中\(\vec{\mu}\in\mathbb{R}^n\)，\(\varSigma\in\mathbb{R}^{n\times n}\)对称且可逆，则称\(\vec{X}\)服从参数为\(\vec{\mu},\varSigma\)的\(n\)维正态分布。\(\vec{X}\)的期望为\(\vec{\mu}\)，协方差矩阵为\(\varSigma\)。第\(i\ (i\in\mathbb{N}^*,\ i\leq n)\)个分量\(X_i\sim N(\mu_i,\varSigma_{i,i})\)。这表明单由各分量的边缘分布一般不能确定其联合分布；当且仅当\(\varSigma\)是对角阵（\(\vec{X}\)各分量两两线性无关）时，\(f:(x_i)_{i=1}^n\mapsto\prod_{i=1}^nf_{X_i}(x_i)\)即\(\vec{X}\)各分量互相独立。但是，对于两个边缘分布为正态且不相关的变量，可以通过限制其联合取值范围在特定区域内（不独立），使其联合分布不服从正态分布。

条件分布

学校不讲。

相互独立的随机变量

对于\(n\)维随机变量\((X_i)_{i=1}^n\)，若其联合分布函数等于各分量的边缘分布函数的乘积，则称\((X_i)_{i=1}^n\)相互独立。特别地，对于离散型或连续型随机变量，这等价于其联合概率质量函数或概率密度函数等于各分量的边缘概率质量函数或边缘概率密度函数的乘积。相互独立是两两独立的充分不必要条件。

设\(m\)维随机变量\(\vec{X}\)的分布函数是\(F_{\vec{X}}\)，\(n\)维随机变量\(\vec{Y}\)的分布函数是\(F_{\vec{Y}}\)，若\((\vec{X},\vec{Y})\)的分布函数\(F_{(\vec{X},\vec{Y})}=F_{\vec{X}}\cdot F_{\vec{Y}}\)，则称\(\vec{X},\vec{Y}\)相互独立。若\(\vec{X},\vec{Y}\)相互独立，则任意\(i,j\in\mathbb{N}^*,\ i\leq m,\ j\leq n\)有\(X_i,Y_j\)相互独立。若\(\vec{X},\vec{Y}\)相互独立且\(f\in C(\mathbb{R}^m),\ g\in C(\mathbb{R}^n)\)，则\(f(\vec{X}),g(\vec{Y})\)相互独立。

两个随机变量的函数的分布

\(Z=X+Y\)的分布

设\(X,Y\)同为取值范围分别为\(\mathcal{X},\mathcal{Y}\)的离散型或同为连续型随机变量，\(f\)分别是它们的联合概率质量函数或联合概率密度函数，则\(Z=X+Y\)的概率质量函数或概率密度函数为

\[f_Z:z\mapsto\int_{-\infty}^{+\infty}f(x,z-x)\ \mathrm{d}x=\int_{-\infty}^{+\infty}f(z-y,y)\ (z\in\mathbb{R}) \]

或

\[f_Z:z\mapsto\sum_{x\in\mathcal{X}}f(x,z-x)=\sum_{y\in\mathcal{Y}}f(z-y,y)\ (z\in\mathcal{X}+\mathcal{Y}). \]

特别地，若\(X,Y\)相互独立，\(f_X,f_Y\)分别是它们的边缘概率质量函数或边缘概率密度函数，则\(Z=X+Y\)的概率质量函数或概率密度函数为

\[f_Z=f_X*f_Y, \]

其中\(*\)是卷积运算。具体地，若\(X,Y\)是离散型随机变量且取值范围分别是\(\mathcal{X},\mathcal{Y}\)，则

\[f_Z:z\mapsto\sum_{x\in\mathcal{X}}f_X(x)f_Y(z-x)\ (z\in\mathcal{X}+\mathcal{Y}); \]

若\(X,Y\)是连续型随机变量，则

\[f_Z:z\mapsto\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)\ \mathrm{d}x\ (z\in\mathbb{R}). \]

\(Z=Y/X\)的分布、\(Z=XY\)的分布

设二维连续型随机变量\((X,Y)\)的概率密度函数为\(f\)，则\(Z=Y/X\)仍为连续型随机变量，其概率密度函数为

\[f_Z:z\mapsto\int_{-\infty}^{+\infty}|x|f(x,xz)\ \mathrm{d}x, \]

\(Z=XY\)仍为连续型随机变量，其概率密度函数为

\[f_Z:z\mapsto\int_{-\infty}^{+\infty}\frac{1}{|x|}f\left(x,\frac{z}{x}\right)\ \mathrm{d}x. \]

\(Z=\max\{X,Y\}\)及\(Z=\min\{X,Y\}\)的分布

设\(X,Y\)是两个相互独立的随机变量，其分布函数分别为\(F_X,F_Y\)，则\(Z=\max\{X,Y\}\)的分布函数

\[F_Z=F_X\cdot F_Y, \]

\(Z=\min\{X,Y\}\)的分布函数\(F_Z\)满足

\[1-F_Z=(1-F_X)(1-F_Y). \]

随机变量的数字特征

数学期望

设离散型随机变量的取值范围为\(\mathcal{X}\)，若级数

\[\sum_{x\in\mathcal{X}}P(X=x)x \]

绝对收敛，则称该级数为\(X\)的数学期望，记为\(E(X)\)。

设连续型随机变量\(X\)的概率密度函数为\(f\)，若积分

\[\int_{-\infty}^{+\infty}f(x)x\ \mathrm{d}x \]

绝对收敛，则称该积分为\(X\)的数学期望，记为\(E(X)\)。

数学期望简称期望，又称为均值。

一般地，对于任意（离散、连续或混合型）随机变量\(X\)，设其分布函数为\(F\)，则

\[E(X)=\int_{0}^{+\infty}(1-F(x)-F(-x))\ \mathrm{d}x; \]

设其离散点为\(\mathcal{X}\)，其概率质量/密度函数为\(f\)，则

\[E(X)=\sum_{x\in\mathcal{X}}f(x)x+\int_{\mathbb{R}\setminus\mathcal{X}}f(x)x\ \mathrm{d}x. \]

期望的性质

线性性：设\(\{c_i\}_{i=1}^n\)为常数，\(\{X_i\}_{i=1}^n\)为随机变量，则其线性组合的期望
\[E\left(\sum_{i=1}^nc_iX_i\right)=\sum_{i=1}^nc_iE(X_i). \]
独立可乘：若随机变量\(\{X_i\}_{i=1}^n\)相互独立，则其乘积的期望
\[E\left(\prod_{i=1}^nX_i\right)=\prod_{i=1}^nE(X_i). \]

方差

设\(X\)是随机变量，若\(E((X-E(X))^2)=E(X^2)-E(X)^2\)存在，则称其为\(X\)的方差，记为\(D(X)\)或\(Var(X)\)。

方差的性质

线性性：若随机变量\(\{X_i\}_{i=1}^n\)相互独立，则

\[D\left(\sum_{i=1}^nc_iX_i\right)=\sum_{i=1}^nc_i^2D(X_i). \]
随机变量\(X,Y\)之和的方差

\[D(X+Y)=D(X)+2Cov(X,Y)+D(Y). \]
\[D(X)=0\iff P(X=E(X))=1. \]

Chebyshev不等式 设随机变量\(X\)的期望\(E(X)=\mu\)、方差\(D(X)=\sigma^2\)，则

\[\forall\varepsilon>0\ P\left(| X-\mu|\geq\varepsilon\right)\leq\frac{\sigma^2}{\varepsilon^2}. \]

协方差及相关系数

设\(X,Y\)都是随机变量。称

\[E((X-E(X))(Y-E(Y)))=E(XY)-E(X)E(Y) \]

为\(X\)与\(Y\)的协方差，记为\(Cov(X,Y)\)；称

\[\rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \]

为\(X\)与\(Y\)的相关系数。当\(\rho_{X,Y}=1\)时，称\(X\)和\(Y\)不相关。

协方差的性质

设\(a,b\)为常数，\(X,Y\)为随机变量，则

\[Cov(aX,bY)=ab\cdot Cov(X,Y). \]
设\(X,Y,Z\)均为随机变量，则

\[Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z). \]

相关系数的性质

\[|\rho_{X,Y}|\leq1. \]
\[\min_{a,b\in\mathbb{R}}E((Y-(aX+b))^2)=(1-\rho_{X,Y}^2)D(Y). \]
\[|\rho_{X,Y}|=1\iff\exist\text{常数}a,b\ P(Y=aX+b)=1. \]

对于二维正态随机变量\((X,Y)\)来说，\(X\)和\(Y\)不相关等价于\(X\)和\(Y\)相互独立。

矩、协方差矩阵

设\(X,Y\)都是随机变量。若

\[E(X^n)\ (n\in\mathbb{N}^*) \]

存在，则称其为\(X\)的\(n\)阶(原点)矩；若

\[E((X-E(X))^n)\ (n\in\mathbb{N}^*) \]

存在，则称其为\(X\)的\(n\)阶中心矩；若

\[E(X^mY^n)\ (m,n\in\mathbb{N}^*) \]

存在，则称其为\(X\)和\(Y\)的\(m+n\)阶混合矩；若

\[E((X-E(X))^m(Y-E(Y))^n)\ (m,n\in\mathbb{N}^*) \]

存在，则称其为\(X\)和\(Y\)的\(m+n\)阶混合中心矩。

对于\(n\)维随机变量\(\vec{X}=(X_i)_{i=1}^n\)，称矩阵

\[\varSigma=([\Sigma_{i,j}]_{j=1}^n)_{i=1}^n=([Cov(X_i,X_j)]_{j=1}^n)_{i=1}^n \]

为\(\vec{X}\)的协方差矩阵。显然\(\varSigma^\top=\varSigma\)。

大数定律及中心极限定理

大数定律

设\(\{X_i\}_{i=1}^{+\infty}\)是一个随机变量序列，\(x\)为常数。若

\[\forall\varepsilon>0\ \lim_{n\to+\infty}P(| X_n-x|<\varepsilon)=1, \]

则称序列\(\{X_i\}_{i=1}^{+\infty}\)依概率收敛于\(x\)，记作

\[X_n\overset{P}{\to}x. \]

弱/Khinchin大数定理 设随机变量\(\{X_i\}_{i=1}^{+\infty}\)独立同分布，且\(\forall i\in\mathbb{N}^*\ E(X_i)=\mu\)。记\(\overline{X}_n=\frac{1}{n}\sum_{i=1}^nX_i\)，则

\[\overline{X}_n\overset{P}{\to}\mu. \]

Bernoulli大数定理 设\(c_n\)是\(n\)次独立重复试验中某一事件发生的次数，\(p\)是该事件在每次试验中发生的概率，则频率

\[f_n=\frac{c_n}{n}\overset{P}{\to}p. \]

中心极限定理

独立同分布的中心极限定理 设随机变量\(\{X_i\}_{i=1}^{+\infty}\)独立同分布，且有相同的期望\(\mu\)和标准差\(\sigma>0\)，记\(\overline{X}_n=\frac{1}{n}\sum_{i=1}^nX_i\)，则

\[\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\ (n\to+\infty). \]

Lyapunov定理 设随机变量\(\{X_i\}_{i=1}^{+\infty}\)相互独立，其期望和标准差分别为\(\{\mu_i\}_{i=1}^{+\infty},\{\sigma_i\}_{i=1}^{+\infty}\)，若存在\(\delta>0\)满足

\[\lim_{n\to+\infty}\frac{\sum_{i=1}^nE(| X_i-\mu_i|^{2+\delta})}{\left(\sum_{i=1}^n\sigma_i^2\right)^{\frac{1}{2}(2+\delta)}}=0, \]

则\(\sum_{i=1}^nX_i\)的标准化变量

\[Z_n=\frac{\sum_{i=1}^n(X_i-\mu_i)}{\sqrt{\sum_{i=1}^n\sigma_i^2}}\sim N(0,1)\ (n\to+\infty). \]

De Moivre-Laplace定理 设随机变量\(\{X_i\}_{i=1}^{+\infty}\)均服从\(B(n,p)\)，则

\[\frac{X_n-np}{\sqrt{np(1-p)}}\sim N(0,1)\ (n\to+\infty). \]

样本及抽样分布

随机样本

在数理统计中，我们往往研究有关对象的某一数量指标。为此，考虑与这一数量指标相联系的随机试验，对这一数量指标进行试验或观察，我们将试验的全部可能的观察值称为总体，每一个可能的观察值称为个体，总体中包含的个体的个数称为总体的容量。总体中的每一个个体是随机试验的一个观察值，因此它是某一随机变量\(X\)的值，这样，一个总体就对应于一个随机变量\(X\)，我们对总体的研究就是对一个随机变量\(X\)的研究，因此不必区分总体与相应的随机变量，统称为总体\(X\)。在数理统计中，人们都是通过从总体中抽取一部分个体，根据获得的数据来对总体分布作出推断的。被抽出的部分个体叫做总体的一个样本。

从总体抽取一个个体，就是对总体进行一次观察并记录结果。在相同条件下对总体\(X\)进行\(n\)次重复、独立的观察，将结果按试验次序记为\((X_i)_{i=1}^n\)，将其称为来自总体\(X\)的一个简单随机样本，将\(n\)称为这个样本的容量。可以认为\((X_i)_{i=1}^n\)是相互独立且都与\(X\)同分布的随机变量。当\(n\)次观察一经完成，我们就得到一组实数\((x_i)_{i=1}^n\)，它们依次是随机变量\((X_i)_{i=1}^n\)的观察值，称为样本值。

对于有限总体，采用放回抽样就能得到简单随机样本，但出于方便目的，当总体容量\(N\)远大于样本容量\(n\)时，可以将不放回抽样近似地当作放回抽样来处理。对于无限总体，因抽取有限个个体不影响其分布，所以总是可以采用不放回抽样。

设\(X\)是具有分布函数\(F\)的随机变量，若\((X_i)_{i=1}^n\)是具有同一分布函数\(F\)的、相互独立的随机变量，则称\((X_i)_{i=1}^n\)为从分布函数\(F\)/总体\(F\)/总体\(X\)得到的容量为\(n\)的(简单随机)样本，它们的观察值\((x_i)_{i=1}^n\)称为样本值，也成为\(X\)的\(n\)个独立的观察值。

直方图和箱线图

学校不讲。

抽样分布

设\((X_i)_{i=1}^n\)是来自总体\(X\)的一个样本，\(n\)元函数\(f\)中不含未知参数，则称\(f(X_i)_{i=1}^n\)是一统计量。对于样本值\((x_i)_{i=1}^n\)，称\(f(x_i)_{i=1}^n\)是\(f(X_i)_{i=1}^n\)的观察值。

常用的统计量

样本平均值

\[\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i. \]
样本标准差

\[S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}=\sqrt{\frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\overline{X}^2\right)}. \]
样本\(m\)阶(原点)矩

\[\frac{1}{n}\sum_{i=1}^nX_i^m\ (m\in\mathbb{N}^*). \]
样本\(m\)阶中心矩

\[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^m\ (m\in\mathbb{N},\ m\geq2). \]
顺序统计量

\[X_{(i)}\ (i\in\mathbb{N}^*,\ i\leq n). \]
极差

\[R=X_{(n)}-X_{(1)}. \]
第\(p\)分位数。
经验分布函数（学校不讲）

\[F_n:x\mapsto\frac{1}{n}\sum_{i=1}^n(X_i\leq x)\ (x\in\mathbb{R}). \]

Glivenko定理（学校不讲）设总体\(X\)的分布函数为\(F\)，从\(X\)中抽取的\(n\)个样本\((X_i)_{i=1}^n\)的经验分布函数\(F_n\)满足

\[P\left(\lim_{n\to+\infty}\sup_{x\in\mathbb{R}}|F_n(x)-F(x)|=0\right)=1. \]

统计量的分布称为抽样分布。当总体的分布已知时，抽样分布是确定的，但要精确求出一般是困难的。

教材先讲这三种分布，再讲正态总体的样本均值与样本方差的分布，再讲区间估计，大抵是想先给工具，有了工具才能应用。但我以为这种思路是反人类的，是抽象而不利于理解的；人类的思维应当是根据需求创造工具。如果我真有读者的话，你应该将以下三种分布和“正态总体的样本均值与样本方差的分布”最好还有参数估计一起交替着看，或者找别的好书，或者直接找AI。

\(\chi^2\)分布

设\((X_i)_{i=1}^n\)是来自总体\(N(0,1)\)的样本，则称统计量

\[\Chi^2=\sum_{i=1}^nX_i^2 \]

服从自由度（独立变量的个数）为\(n\)的\(\chi^2\)分布，记为\(\Chi^2\sim\chi^2(n)\)。\(\chi^2(1)=\varGamma\left(\frac{1}{2},2\right)\)，利用Gamma分布对形状参数的可加性可得\(\chi^2(n)=\varGamma\left(\frac{1}{2}n,2\right)\)，因此\(\chi^2\)分布也具有可加性，\(\Chi^2\sim\chi^2(n)\)的概率密度函数

\[f:x\mapsto \begin{cases} \frac{y^{\frac{1}{2}n-1}}{2^{\frac{1}{2}n}\varGamma\left(\frac{1}{2}n\right)\mathrm{e}^{\frac{1}{2}y}} & (y>0) \\ 0 & (\text{otherwise}) \end{cases}\ (x\in\mathbb{R}), \]

期望

\[E(\Chi^2)=n, \]

方差

\[D(\Chi^2)=2n. \]

设\(\chi^2_p(n)\ (0<p<1,\ n\in\mathbb{N}^*)\)表示\(\chi^2(n)\)分布的上\(p\)分位数。当\(n\)充分大（通常认为\(n>40\)即可）时，

\[\chi^2_p(n)\approx\frac{1}{2}(z_p+\sqrt{2n-1})^2, \]

其中\(z_p\ (0<p<1)\)表示\(N(0,1)\)分布的上\(p\)分位数。

\(t\)分布

设\(X\sim N(0,1),\ \Chi^2\sim\chi^2(n)\)，则称随机变量

\[T=\frac{X}{\Chi/\sqrt{n}}\ (\Chi=\sqrt{\Chi^2}) \]

服从自由度为\(n\)的(学生氏（Student's）)\(t\)分布记为\(T\sim t(n)\)，其概率密度函数为

\[f:x\mapsto \frac{\varGamma\left(\frac{1}{2}(n+1)\right)}{\sqrt{\pi n}\varGamma\left(\frac{1}{2}n\right)}\left(\frac{1}{n}x^2+1\right)^{-\frac{1}{2}(n+1)}\ (t\in\mathbb{R}). \]

利用\(\varGamma\)的性质可得

\[\lim_{n\to+\infty}f=\varphi, \]

其中\(\varphi\)是标准正态分布\(N(0,1)\)的概率密度函数。

\(t\)分布也满足对称性，因此\(t(n)\)分布的上\(p\in(0,1)\)分位数\(t_p(n)\)满足

\[t_p(n)+t_{1-p}(n)=0. \]

当\(n\)足够大（通常认为\(n>45\)时即可）时，

\[t_p(n)\approx z_p, \]

其中\(z_p\ (0<p<1)\)表示\(N(0,1)\)分布的上\(p\)分位数。

\(F\)分布

设\(\Chi_1^2\sim\chi^2(n_1),\ \Chi_2^2\sim\chi^2(n_2)\)，则称随机变量

\[F=\frac{\Chi_1^2/n_1}{\Chi_2^2/n_2} \]

服从自由度为\((n_1,n_2)\)的\(F\)分布，记为\(F\sim F(n_1,n_2)\)。其概率密度函数

\[f:x\mapsto \begin{cases} \frac{\varGamma\left(\frac{1}{2}(n_1+n_2)\right)\left(\frac{n_1}{n_2}\right)^{\frac{1}{2}n_1}x^{\frac{1}{2}n_1-1}}{\varGamma\left(\frac{1}{2}n_1\right)\varGamma\left(\frac{1}{2}n_2\right)\left(\frac{n_1}{n_2}x+1\right)^{\frac{1}{2}(n_1+n_2)}} & (x>0)\\ 0 & (\text{otherwise}) \end{cases}. \]

根据定义，\(\frac{1}{F}\sim F(n_2,n_1)\)。\(F(n_1,n_2)\)分布的上\(p\in(0,1)\)分位数满足

\[F_p(n_1,n_2)\cdot F_{1-p}(n_2,n_1)=1. \]

正态总体的样本均值与样本方差的分布

\(\overline{X},S^2\)分别是对\(E(X),D(X)\)的无偏估计，即

\[\begin{array}{c} E(\overline{X})=E(X),\\ E(S^2)=D(X). \end{array} \]

设\((X_i)_{i=1}^n\)是来自总体\(N(\mu,\sigma^2)\)的样本，\(\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\)，\(S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\)。有以下几个定理：

由正态分布的可加性可得

\[\overline{X}\sim N(\mu,\sigma^2/n). \]
\[\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1). \]
自由度是\((n-1)\)是因为\(S^2\)中减去\(\overline{X}\)的过程丢失了\(1\)的自由度。
\(\overline{X}\)与\(S^2\)相互独立。
\[\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1). \]

设\((X_{1,i})_{i=1}^{n_1},\ (X_{2,i})_{i=1}^{n_2}\)分别是来自正态总体\(N(\mu_1,\sigma_1^2),\ N(\mu_2,\sigma_2^2)\)的相互独立的样本，设

\[\begin{array}{rl} \overline{X_i}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{i,j} \\ S_i=\sqrt{\frac{1}{n_i-1}\sum_{j=1}^{n_i}(X_{i,j}-\overline{X_i})^2}, & (i\in\{1,2\})\\ S=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{(n_1-1)+(n_2-1)}}, \end{array} \]

则有以下几个定理

\[\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1). \]
当\(\sigma_1=\sigma_2=\sigma\)时，

\[\frac{(\overline{X_2}-\overline{X_1})-(\mu_2-\mu_1)}{S/\sqrt{\frac{1}{\frac{1}{n_1}+\frac{1}{n_2}}}}\sim t(n_1+n_2-2). \]

参数估计

统计推断的基本问题可以分为两大类：估计问题和假设检验问题。

点估计

设总体\(X\)的分布函数的形式已知，但它的某些参数未知。借助总体\(X\)的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。

设总体\(X\)的在未知参数\(\theta\)下的分布函数\(F(\cdot;\theta)\)已知，\((X_i)_{i=1}^n\)是\(X\)的一个样本，\((x_i)_{i=1}^n\)是相应的样本值。点估计问题就是要构造一个适当的统计量\(\hat{\theta}(X_i)_{i=1}^n\)（称为\(\theta\)的估计量），以其观察值\(\hat{\theta}(x_i)_{i=1}^n\)（称为\(\theta\)的估计值）作为未知参数\(\theta\)的近似值。在不致混淆的情况下统称\(\theta\)的估计量和估计值为估计，并都简记为\(\hat{\theta}\)。

矩估计法

因为\(m\ (m\in\mathbb{N}^*)\)阶样本矩依概率收敛于\(m\)阶总体矩，样本矩的连续函数依概率收敛于相应总体矩的连续函数，我们可以用样本矩作为相应总体矩的估计量，进而以样本矩的连续函数作为相应的总体矩的连续函数的估计量，从而反解出\(m\)个参数。这种估计方法称为矩估计法。

具体地，根据总体\(X\)的分布函数\(F\)求出在参数\((\theta_i)_{i=1}^m\)下的\(m\)阶原点矩

\[E(X^i)=\mu_i(\theta_j)_{j=1}^m\ (i\in\mathbb{N}^*,\ i\leq m), \]

从这个\(m\)元方程组中反解出

\[\theta_i=\hat{\theta_i}(E(X^j))_{j=1}^m\ (i\in\mathbb{N}^*,\ i\leq m), \]

依次计算样本的前\(m\)阶矩

\[M_i=\frac{1}{n}\sum_{j=1}^nX^j\ (i\in\mathbb{N}^*,\ i\leq m), \]

代入得\(\theta_i\ (i\in\mathbb{N^*,\ i\leq m})\)的估计量

\[\hat{\theta_i}(M_j)_{j=1}^m. \]

这种估计量称为矩估计量，矩估计量的观察值称为矩估计值。

最大似然估计法

设参数\(\theta\)的取值范围为\(\varTheta\)，\(f(\cdot;\theta)\)是\(X\)的在参数\(\theta\)下的概率密度函数或概率质量函数。在参数\(\theta\)下取到样本值\((x_i)_{i=1}^n\)的概率为

\[L(\theta;(x_i)_{i=1}^n)=\prod_{i=1}^nf(x_i;\theta), \]

将函数\(L(\cdot,(X_i)_{i=1}^n)\)称为样本的似然函数。将使样本在某一观察值下的似然函数最大的\(\theta\)作为其估计值，称为\(\theta\)的最大似然估计值，相应的统计量

\[\hat{\theta}(X_i)_{i=1}^n=\max_{\theta\in\varTheta}L(\theta;(X_i)_{i=1}^n) \]

称为\(\theta\)的最大似然估计量。

特别地，由于在很多情况下\(L\)都可导，我们可以从方程

\[\frac{\partial}{\partial\theta}L(\theta;(X_i)_{i=1}^n)=0 \]

的解中寻找最大值点；又因为似然函数定义中的那一大坨乘积不方便求导，似然函数总是非负（而且对于观察值肯定也非\(0\)），取对数不会改变其单调性，所以可以用对数似然函数

\[\ln L(\theta;(X_i)_{i=1}^n)=\sum_{i=1}^n\ln f(X_i;\theta) \]

代替似然函数，其最大值点也可以从方程

\[\frac{\partial}{\partial\theta}L(\theta;(X_i)_{i=1}^n)=0 \]

的解中寻找。这个方程称为对数似然方程(组)。

设双射\(\eta:\varTheta\to H\)，\(\hat{\theta}\)是对\(X\)下关于\(\theta\)的最大似然估计，则\(\eta(\hat{\theta})\)会是对\(X\)下\(\eta\)的最大似然估计。这一性质称为最大似然估计的不变性。

基于截尾样本的最大似然估计

学校不讲。

估计量的评选标准

设总体\(X\)的分布依赖未知参数\(\theta\in\varTheta\)，\((X_i)_{i=1}^n\)是从\(X\)中抽取的一个样本。

无偏性

若估计量

\[\hat{\theta}(X_i)_{i=1}^n \]

的期望\(E(\hat{\theta}(X_i)_{i=1}^n)\)存在，且

\[\forall\theta\in\varTheta\ E(\hat{\theta}(X_i)_{i=1}^n)=\theta, \]

则称\(\hat{\theta}(X_i)_{i=1}^n\)是\(\theta\)的无偏估计量。其含义是，\(\hat{\theta}(X_i)_{i=1}^n\)对真实值\(\theta\)的估计是没有系统误差的。

任意\(m\in\mathbb{N}^*\)阶样本矩

\[M_i=\frac{1}{n}\sum_{i=1}^nX_i^m \]

都是对\(m\)阶总体矩\(E(X^m)\)的无偏估计量。

一个未知参数可以有不同的无偏估计量。

有效性

有效性是为了比较两个无偏估计量的优劣而引入的。当两个估计量都以真实值为期望时，方差更小的那一个肯定更好。

设\(\hat{\theta}_1(X_i)_{i=1}^n\)和\(\hat{\theta}_2(X_i)_{i=1}^n\)都是对\(\theta\)的无偏估计。若

\[(\forall\theta\in\varTheta\ D(\hat{\theta}_1(X_i)_{i=1}^n)\leq D(\hat{\theta}_2(X_i)_{i=1}^n))\land (\exist\theta\in\varTheta\ D(\hat{\theta}_1(X_i)_{i=1}^n)<D(\hat{\theta}_2(X_i)_{i=1}^n))), \]

则称\(\hat{\theta}_1(X_i)_{i=1}^n\)比\(\hat{\theta}_2(X_i)_{i=1}^n\)有效。

相合性

无偏性和有效性都是对于某一确定的样本容量而言的。我们希望随着样本容量增大，估计量的值会稳定在真实值附近，即依概率收敛于真实值。

设\(\hat{\theta}_1(X_i)_{i=1}^n\)是\(\theta\)的估计量。若

\[\forall\theta\in\varTheta\ (\hat{\theta}_1(X_i)_{i=1}^n\overset{P}{\to}\theta\ (n\to+\infty)), \]

则称\(\hat{\theta}_1(X_i)_{i=1}^n\)是\(\theta\)的相合估计量。

相合性是对一个估计量的基本要求。

区间估计

对于一个未知量，人们在测算时常不以得到近似值为满足，还想估计其误差范围。

设总体\(X\)的分布依赖于一个未知参数\(\theta\in\varTheta\)。对于给定值\(\alpha\in(0,1)\)，若由从\(X\)中抽取的样本\((X_i)_{i=1}^n\)确定的两个统计量\(\underline{\theta}(X_i)_{i=1}^n,\overline{\theta}(X_i)_{i=1}^n\)满足

\[P(\underline{\theta}(X_i)_{i=1}^n<\theta<\overline{\theta}(X_i)_{i=1}^n)\geq1-\alpha, \]

则称随机区间\((\underline{\theta}(X_i)_{i=1}^n,\overline{\theta}(X_i)_{i=1}^n)\)是\(\theta\)的置信水平为\((1-\alpha)\)的置信区间，\(\underline{\theta}(X_i)_{i=1}^n,\overline{\theta}(X_i)_{i=1}^n\)分别为置信水平为\((1-\alpha)\)的双侧置信区间的置信下限,置信上限，\((1=\alpha)\)为置信水平。

应使\(P(\underline{\theta}(X_i)_{i=1}^n<\theta<\overline{\theta}(X_i)_{i=1}^n)\)在至少为\((1-\alpha)\)的条件下尽可能接近\((1-\alpha)\)。

对于给定置信水平的置信区间并不是唯一的；置信区间越短，表示其估计精度越高。

通常为了方便起见，我们需要寻找一个函数\(Q(\cdot,\cdot)\)，使统计量\(Q((X_i)_{i=1}^n,\theta)\)的分布不依赖于任何未知参数（称具有这种性质的函数\(Q\)为枢轴量（pivot quantity）），然后对于给定的置信水平\((1-\alpha)\)，定出两个常数\(\underline{q_{\alpha}},\overline{q_{\alpha}}\)，使

\[P(\underline{q_{\alpha}}<Q((X_i)_{i=1}^n,\theta)<\overline{q_{\alpha}})=1-\alpha, \]

若能从

\[\underline{q_{\alpha}}<Q((X_i)_{i=1}^n,\theta)<\overline{q_{\alpha}} \]

反解出等价的不等式

\[\underline{\theta}(X_i)_{i=1}^n<\theta<\overline{\theta}(X_i)_{i=1}^n, \]

则区间

\[(\underline{\theta}(X_i)_{i=1}^n,\overline{\theta}(X_i)_{i=1}^n,) \]

就是\(\theta\)的一个置信水平为\((1-\alpha)\)的置信区间。

枢轴量的构造通常可以从\(\theta\)的点估计着手考虑。

正态总体均值与方差的区间估计

对于概率密度函数不对称的枢轴量（如服从\(\chi^2\)分布或\(F\)分布的），习惯上仍取对称的分位点来确定置信区间。

单个正态总体

设置信水平为\((1-\alpha)\in(0,1)\)，\((X_i)_{i=1}^n\)是从总体\(N(\mu,\sigma^2)\ (\sigma>0)\)中抽取的样本，\(\overline{X},S\)分别是样本均值和样本标准差。

均值的置信区间

方差已知

取枢轴量

\[\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1), \]

由此得置信区间为

\[\left(\overline{X}\pm\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\right), \]

其中\(z_p\ (0<p<1)\)是标准正态分布\(N(0,1)\)的上\(p\)分位数。

方差未知

利用\(S^2\)是对\(\sigma^2\)的无偏估计，取枢轴量

\[\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1), \]

于是置信区间为

\[\left(\overline{X}\pm\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1)\right), \]

其中\(t_p(n)\ (0<p<1,\ n\in\mathbb{N}^*)\)表示\(t(n)\)的上\(p\)分位数。

方差的置信区间

取枢轴量

\[\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1), \]

于是近似得置信区间

\[\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right), \]

其中\(\chi^2_p(n)\ (0<p<1,\ n\in\mathbb{N}^*)\)表示\(\chi^2(n)\)的上\(p\)分位数。

两个正态总体

设置信水平为\((1-\alpha)\in(0,1)\)，\((X_{i,j})_{j=1}^{n_i}\ (i\in\{1,2\})\)分别是从总体\(N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2)\ (\sigma_1,\sigma_2>0)\)中抽取的相互独立的样本，\(\overline{X_1},\overline{X_2}\)分别是两个样本的均值，\(S_1,S_2\)分别是两个样本的标准差，\(S\)是两个样本的总标准差。

均值差的置信区间

方差已知

因为\(\overline{X_1}\sim N(\mu_1,\sigma_1^2/n_1),\ \overline{X_2}\sim N(\mu_2,\sigma_2^2/n_2)\)，由正态分布的可加性知

\[\overline{X_2}-\overline{X_1}\sim N\left(\mu_2-\mu_1,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right), \]

所以可以取枢轴量

\[\frac{(\overline{X_2}-\overline{X_1})-(\mu_2-\mu_1)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1), \]

于是得置信区间

\[\left((\overline{X_2}-\overline{X_1})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\right), \]

其中\(z_p\ (0<p<1)\)是标准正态分布\(N(0,1)\)的上\(p\)分位数。

方差未知但相等

\(\sigma_1=\sigma_2=\sigma\)未知。取枢轴量

\[\frac{(\overline{X_2}-\overline{X_1})-(\mu_2-\mu_1)}{S/\sqrt{\frac{1}{\frac{1}{n_1}+\frac{1}{n_2}}}}\sim t(n_1+n_2-2), \]

于是得置信区间

\[\left((\overline{X_2}-\overline{X_1})\pm t_{\alpha/2}(n_1+n_2-2)S\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right), \]

其中\(t_p(n)\ (0<p<1,\ n\in\mathbb{N}^*)\)表示\(t(n)\)的上\(p\)分位数。

方差比的置信区间

仅讨论总体均值均未知的情况。

取枢轴量

\[\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1), \]

于是得置信区间

\[\left(\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)}\frac{S_1^2}{S_2^2},\frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}\frac{S_1^2}{S_2^2}\right), \]

其中\(F_p(n_1,n_2)\ (0<p<1,\ n_1,n_2\in\mathbb{N}^*)\)是\(F(n_1,n_2)\)的上\(p\)分位数。

(0-1)分布参数的区间估计

没学。

单侧置信区间

假设检验

通常选取正常情况作为原/零假设\(H_0\)，其否定即为备择假设\(H_1\)。假设检验可能犯两类错误，第I类错误是拒真错误（\(H_0\)为真但拒绝了\(H_0\)），第II类错误是取伪错误（\(H_0\)为假却接受了\(H_0\)）。一般来说，当样本容量固定时，犯两类错误的概率是此消彼长的；要使二者均减小，除非增加样本容量。在给定样本容量的情况下，一般来说我们总是控制犯第I类错误（拒真错误）的概率不超过给定的显著性水平\(\alpha\)。选择合适的检验统计量\(X\)。根据\(\alpha\)来计算拒绝域\(R\)，使\(P(X\in R)=\alpha\)。这种只控制犯第I类错误的概率而不管犯第II类错误的概率的检验称为显著性检验。

正态总体均值的假设检验

单个正态总体均值的检验

方差已知，关于均值的检验（\(Z\)检验）

已知总体\(X\sim N(\mu,\sigma^2)\)，其中\(\sigma\)已知而\(\mu\)未知，猜测\(H_0:\mu=\mu_0\)，现有一批从\(X\)中抽取的样本\(\{X_i\}_{i=1}^n\)，需要据此判断\(H_0\)是否成立。

利用\(H_0\)为真时检验统计量

\[Z=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1) \]

可得拒绝域为

\[\mathbb{R}\setminus(-z_{\alpha/2},z_{\alpha/2}), \]

其中样本均值\(\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\)，\(z_p\ (0<p<1)\)是标准正态分布的上\(p\)分位数。

这种检验法常称为\(Z\)检验法。

方差未知，关于均值的检验（\(t\)检验）

已知总体\(X\sim N(\mu,\sigma^2)\)，其中\(\mu,\sigma\)均未知，猜测\(H_0:\mu=\mu_0\)，现有一批从\(X\)中抽取的样本\(\{X_i\}_{i=1}^n\)，需要据此判断\(H_0\)是否成立。

利用\(H_0\)为真时检验统计量

\[T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1) \]

可得拒绝域为

\[\mathbb{R}\setminus(-t_{\alpha/2}(n-1),t_{\alpha/2}(n-1)), \]

其中样本均值\(\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\)，样本标准差\(S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\)，\(t_p(n-1)\ (0<p<1)\)是自由度为\((n-1)\)的\(t\)分布的上\(p\)分位数。

上述利用\(T\)统计量得出的检验法称为\(t\)检验法。

两个正态总体均值差的检验

不学。

方差已知，关于均值差的检验（\(Z\)检验）

已知总体\(X_1\sim N(\mu_1,\sigma_1^2),\ X_2\sim N(\mu_2,\sigma_2^2)\)，其中\(\sigma_1,\sigma_2\)已知而\(\mu_1,\mu_2\)未知，猜测\(H_0:\mu_2-\mu_1=\delta\)，现有一批从\(X_1\)中抽取的样本\(\{X_{1,i}\}_{i=1}^{n_1}\)和从\(X_2\)中抽取的样本\(\{X_{2,i}\}_{i=1}^{n_2}\)，需要据此判断\(H_0\)是否成立。

利用\(H_0\)为真时检验统计量

\[Z=\frac{(\overline{X_2}-\overline{X_1})-\delta}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) \]

可得拒绝域为

\[\mathbb{R}\setminus(-z_{\alpha/2},z_{\alpha/2}), \]

其中样本均值\(\overline{X_i}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_j\ (i\in\{1,2\})\)。

方差未知，关于均值差的检验（\(t\)检验）

已知总体\(X_1\sim N(\mu_1,\sigma^2),\ X_2\sim N(\mu_2,\sigma^2)\)，其中\(\mu_1,\mu_2,\sigma\)均未知，猜测\(H_0:\mu_2-\mu_1=\delta\)，现有一批从\(X_1\)中抽取的样本\(\{X_{1,i}\}_{i=1}^{n_1}\)和从\(X_2\)中抽取的样本\(\{X_{2,i}\}_{i=1}^{n_2}\)，需要据此判断\(H_0\)是否成立。

利用\(H_0\)为真时检验统计量

\[T=\frac{(\overline{X_2}-\overline{X_1})-\delta}{S/\sqrt{\frac{1}{\frac{1}{n_1}+\frac{1}{n_2}}}}\sim t((n_1-1)+(n_2-1)) \]

可得拒绝域为

\[\mathbb{R}\setminus(-t_{\alpha/2}(n_1+n_2-2),t_{\alpha/2}(n_1+n_2-2)), \]

其中样本均值\(\overline{X_i}=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{i,j}\ (i\in\{1,2\})\)，样本总标准差\(S=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{(n_1-1)+(n_2-1)}}\)。

正态总体方差的假设检验

单个总体的情况（\(\chi^2\)检验法）

已知总体\(X\sim N(\mu,\sigma^2)\)，其中\(\mu,\sigma\)均未知，猜测\(H_0:\sigma=\sigma_0\)，现有一批从\(X\)中抽取的样本\(\{X_i\}_{i=1}^n\)，需要据此判断\(H_0\)是否成立。

利用\(H_0\)为真时检验统计量

\[\Chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1) \]

可得拒绝域为

\[R\text{ s.t. }P(\Chi^2\in R)=\alpha. \]

\(\chi^2\)分布的密度函数并不对称，但为计算方便起见，习惯上还是取拒绝域为

\[\mathbb{R}\setminus(\chi^2_{1-\alpha/2}(n-1),\chi^2_{\alpha/2}(n-1)), \]

其中样本标准差\(S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\)，样本均值\(\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\)，\(\chi_p(n-1)\ (0<p<1)\)表示自由度为\((n-1)\)的\(\chi^2\)分布的上\(p\)分位数。

以上检验法称为\(\chi^2\)检验法。

两个总体的情况

不学。

posted @ 2025-12-27 18:10 我就是蓬蒿人阅读(21) 评论(0) 收藏举报

刷新页面返回顶部

仰天大笑出门去

概率论与数理统计

概率论与数理统计

概率论的基本概念

随机试验

样本空间、随机事件

样本空间

随机事件

事件间的关系与事件的运算

频率与概率

频率

概率

等可能/古典概型

条件概率

条件概率

乘法定理

全概率公式和Bayes公式

独立性

随机变量及其分布

随机变量

离散型随机变量及其分布律

(0-1)分布

二项/Bernoulli分布

Poisson分布

随机变量的分布函数

连续型随机变量及其概率密度

均匀分布

指数分布

正态/Gauss分布

Gamma分布

随机变量的函数的分布

多维随机变量及其分布

二维随机变量

边缘分布

条件分布

相互独立的随机变量

两个随机变量的函数的分布

\(Z=X+Y\)的分布

\(Z=Y/X\)的分布、\(Z=XY\)的分布

\(Z=\max\{X,Y\}\)及\(Z=\min\{X,Y\}\)的分布

随机变量的数字特征

数学期望

方差

协方差及相关系数

矩、协方差矩阵

大数定律及中心极限定理

大数定律

中心极限定理

样本及抽样分布

随机样本

直方图和箱线图

抽样分布

\(\chi^2\)分布

\(t\)分布

\(F\)分布

正态总体的样本均值与样本方差的分布

参数估计

点估计

矩估计法

最大似然估计法

基于截尾样本的最大似然估计

估计量的评选标准

无偏性

有效性

相合性

区间估计

正态总体均值与方差的区间估计

单个正态总体

均值的置信区间

方差已知

方差未知

方差的置信区间

两个正态总体

均值差的置信区间

方差已知

方差未知但相等

方差比的置信区间

(0-1)分布参数的区间估计

单侧置信区间

假设检验