本文主要介绍概率与数理统计中的一些常见的基本概念。

样本空间

对于随机试验，尽管在每次试验之前不能预知试验的结果，但是试验的所有可能结果集合是已知的，我们将随机试验E的所有可能的结果组成的集合称为E的样本空间，记为S。样本空间的的元素，即E的每个可能结果，称为样本点。比如事件E：抛一枚硬币，观察正面H，反面T出现的情况，S={H，T}。

频率(Frequency) 概率(Probability)

频率描述了事件发生的频繁程度，一般采用多次试验的结果得到。

概率描述的是一次试验中，事件发生的可能性大小。

如果试验的次数足够多，频率将在一定意义下接近于概率。

条件概率(Conditional Probability)

设A，B是两个事件，且P(A)>0，称：

$\large P(B|A) = \frac {P(AB)}{P(A)}$

为事件A发生的条件下事件B发生的概率。

乘法定理（Product rule）

设P(A)>0，则：

$\large P(AB)=P(B|A)P(A)$

$\large P(ABC)=P(C|AB)P(B|A)P(A)$

这个定理也很容易推广到多个事件的情况

加法定理(Sum rule)

设试验E的样本空间为S，A为E的事件，$B_1$，$B_2$，$\ldots$，$B_n$为S的一个划分，且 $P(B_i)>0$，则：

$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $

贝叶斯公式(Bayes' theorem)

$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$

先验概率(Prior probability) 后验概率(Posterior probability)

例子：某种设备，调整良好时，产品合格率为90%，发生故障时，合格率为30%，每天早上开工时，设备调整良好的概率为75%，已知早上第一件产品是合格品，问设备调整良好的概率是多少？如果定义事件A为产品合格，事件B为设备调整良好，显然有P(A|B)=0.9，P(A|B')=0.3，P(B)=0.75，P(B')=0.25，要求的是P(B|A)。P(B)称为先验概率，是根据以往的经验数据得到的，P(B|A)是得到了第一件产品为合格品之后对P(B)做的修正，称为后验概率，后验概率让我们对设备的情况有了更进一步的了解。

独立事件

如果A，B两个事件满足

$\large P(AB)=P(A)P(B)$

称A，B为互相独立的事件。这个式子也很容易推广到多个事件的情况。

随机变量

如果将随机试验的结果数量化，比如抛硬币，用 1 代表正面，用 0 代表反面。如果将这个数量化的结果用一个变量X表示，X就是随机变量，根据实验结果的不同而不同。正规的定义是：设E是随机试验，样本空间是S={e}，如果对于每一个e属于S，都有一个实数X(e)与之对应，这样就得到一个定义在S上的单值函数X=X(e)，称为随机变量。如果X能取到的值是有限个或者可列无限个，则X称为离散性随机变量。

概率分布

如果离散性随机变量X的所有取值为 $x_k(k=1,2,...)$，X取各个值得概率为：

$\large P\{ X=x_k \}=p_k$

称为离散性随机变量X的概率分布或者分布律。

分布函数(Cumulative distribution fucntion)

对于非离散性随机变量X，其可能的取值不能一一列举出来，所以不能用像离散性随机变量那样用分布律来吗描述，为此引入随机变量分布函数的概率。

设X是一随机变量，x是任意实数，函数：

$\large F(x) = P \{ X \leq x \}$

称为X的分布函数。虽然对离散性随机变量，可以完全用分布律来描述，但为了数学上的统一，定义了对离散性随机变量和非离散性随机变量都适用的分布函数。

连续性随机变量概率密度(Probability density function)

如果随机变量X的分布函数是F(x)，存在非负函数f(x)，使得对于任意实数x有：

$\large F(x) = \int_{-\infty}^{x}f(t)dt $

则称X为连续性随机变量，f(x)称为X的概率密度函数，简称概率密度。

概率密度具有以下性质：

（1）$\large f(x) \geq 0 $

（2）$\large \int_{-\infty}^{\infty}f(x)dx = 1$

（3）$\large P \{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx $

期望(Expectation)

设离散性随机变量X的分布律为：

$\large P\{ X=x_k \}=p_k$

如果级数

$\large \sum_{k=1}^{\infty}x_k p_k $

绝对收敛，则称为随机变量X的期望。记作E(X)。

对于连续性随机变量X的概率密度为f(x), 期望为：

$\large \int_{-\infty}^{\infty}xf(x)dx$

如果有函数Y=g(x)，则Y的期望为：

$\large \int_{-\infty}^{\infty}g(x)f(x)dx$

期望又称均值。

方差(Variance)

设X是一个随机变量，如果$E\{[X-E(X)]^2\}$存在，则称为X的方差，记为D(X)或者Var(X)。

方差可以按照公式 $D(X) = E(X^2) - [E(X)]^2 $计算。

方差开方$\sqrt {D(x)}$记为 $\sigma(X)$，称为标准差或者均方差。

矩

设X是随机变量

X的k阶原点矩：$E(X^k)$

X的k阶中心矩：$E\{ [X-E(X)]^k\}$

显然X的期望是X的一阶原点矩，方差是X的二阶中心矩

常见概率分布

0-1分布伯努利分布(Bernoulli distribution)

离散性随机变量的概率分布，随机变量X只能取0和1两个值，它的分布律是

$\large P\{ X=k \} = p^k(1-p)^{1-k}, k=0,1$

$E(X) = p$, $D(X) = p(1-p)$

二项分布(Binomial distribution)

随机变量X表示n重伯努利试验中事件A发生的次数，例如重复抛n次硬币，出现正面的次数。X的分布律是：

$\large P\{ X=k \} = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,...,n$

$E(X) = np$, $D(X) = np(1-p)$

泊松分布(Poisson distribution)

设随机变量X所有的可能取值为0,1,2,...,而取各个值得概率为

$\large P\{ X=k \} = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,...$

则称X服从参数为 $\lambda$的泊松分布。

$E(X) = \lambda$, $D(X) = \lambda$

在实际事例中，当一个随机事件，以固定的平均瞬时速率λ（或称密度）随机且独立地出现时，那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布。因此，泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。例如：

（1）某一服务设施在一定时间内到达的人数

（2）电话交换机接到呼叫的次数

（3）汽车站台的候客人数

（4）机器出现的故障数

（5）自然灾害发生的次数

（6）一本书一页中的印刷错误

（7）显微镜下单位分区内的细菌分布数

（8）某放射性物质单位时间发射出的粒子数

（9）某地区一天内丢失的邮件数

（10）某医院一天内的急诊人数

均匀分布(Uniform distribution)

设连续性随机变量X具有概率密度

$\large f(x) = \left \{ {\frac {1} {b-a}, \qquad a<x<b, \atop 0, \qquad \text{其他}} \right.$

则称X在区间[a,b]上服从均匀分布

$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$

正态分布(Normal distribution, Gaussian distribution)

设连续性随机变量X的概率密度为：

$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $

则称X服从参数为 $\mu$, $\sigma$的正态分布，正态分布又叫高斯分布。

$E(X)=\mu$, $D(X)=\sigma^2$

大数定理

随机试验中，随着试验次数的增加，人们发现事件发生的频率逐渐稳定于某个常数（想想抛硬币的例子），在实践中，人们还认识到大量测量值的算数平均值也具有稳定性，这种稳定性就是大数定理的客观背景。这里我们介绍其中的一个大数定理：

辛钦定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立，服从同一分布(independent and identically distributed, i.i.d.)，且具有相同的数学期望，$E(X_k)=\mu$，则：

$\large \lim_{n \to \infty} P \{ |\frac {1} {n} \sum_{k=1}^{n} X_k - \mu |<\varepsilon \} = 1$

中心极限定理

在客观实际中有许多随机变量，他们是由大量相互独立的随机因素的综合影响形成的，而其中每一个个别因素在总的影响中所起的作用都是微小的，这种随机变量往往近似地服从正态分布，这种现象就是中心极限定理的客观背景。这里只介绍独立同分布的中心极限定理。

独立同分布的中心极限定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立，服从同一分布，且具有相同的数学期望，$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$，则随机变量：

$\large Y_n = \frac {\sum_{k=1}^{n} X_k - E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k - n\mu}{\sqrt{n}\sigma}$

在n很大时趋近于标准正态分布。

当这些随机变量不是服从同一分布的时候，他们的和在n很大时仍然服从正态分布，这就是正态分布为什么概率中特别重要的原因。在很多问题中，所考虑的随机变量可以表示成很多独立的随机变量之和，例如，在任一指定时刻，一个城市的耗电量是大量用户的耗电量的总和，一个物理实验的测量误差是许多观察不到的，可加的微小误差所合成的，他们往往近似的服从正态分布。

参数估计

点估计

设总体X的分布函数形式已知，但有一个或者多个未知参数，借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。常用的点估计方法有矩估计法和最大似然估计法。

例子：设总体 X 的均值 $\mu$ 和方差 $\sigma^2$均未知，已知$X_1,X_2,\ldots,X_n$ 是一个样本，估计均值 $\mu$ 和方差 $\sigma^2$

矩估计

分别计算样本矩和总体矩的前k阶矩，利用样本矩依概率收敛于总体矩的性质，构造相应的方程组，用方程组的解作为参数的估计量，这时候的估计量称为矩估计量。

用矩估计法解上面的例子：

易知总体矩：

$\large \mu_1 = E(X) = \mu $

$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $

计算样本矩：

$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $

$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $

联立方程组

$A_1 = \mu_1 $

$A_2 = \mu_2 $

解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

最大似然估计(Maximum likelihood)

设总体X属于离散性，其分布律为 $P(X=x)=p(x;\theta)$，形式已知，但参数$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一个样本，则$X_1,X_2,\ldots,X_n$的联合分布律为：

$ \large \Pi_{i=1}^{n}p(x_i;\theta)$

设$x_1,x_2,\ldots,x_n$是相应于样本$X_1,X_2,\ldots,X_n$的一个样本值，已知样本取到$x_1,x_2,\ldots,x_n$的概率为，也即事件 $\{ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n\}$ 发生的概率为：

$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $

这一概率随 $\theta$的变化而变化，是$\theta$的函数，称为样本的似然函数。

用使似然函数取得最大值的$\theta$作为原分布律未知参数的估计值，称为极大似然估计值。

当总体X属于连续型时，考虑的是样本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的领域内的概率，和离散性的表达形式一样。

用最大似然估计解上面的例子

X的概率密度为：

$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

似然函数为：

$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

取对数，然后分别对 $\mu$, $\sigma^2$求偏导数，并令偏导数为0，解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

和用矩估计法求得的估计值完全相同。

估计量的评选标准

评价一个估计量的好坏，有很多常用的标准，这里只介绍最常用的两个标准，无偏性和有效性。

无偏性

如果估计量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在，而且有：

$\large E(\hat{\theta}) = \theta $

则称$\hat {\theta}$为$\theta$的无偏估计量。

检验上面例子中的估计值：

$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $

所以估计量$\hat {\theta}$是有偏的。

有效性

设估计量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估计量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的无偏估计量，如果：

$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$

则称 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

练习题

最后附上CMU的一套简单测试题，可以用来你是否具备学习机器学习入门的数学基础。

参考资料

[1]: 概率论与数理统计高等教育出版社

[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B

转载 http://www.cnblogs.com/dudi00/p/4063470.html

posted on 2015-12-08 01:02 刺猬的温驯阅读(1140) 评论(0) 收藏举报

刷新页面返回顶部

君子博学而日参省乎己则知明而行无过矣

公告

样本空间

频率(Frequency) 概率(Probability)

条件概率(Conditional Probability)

乘法定理（Product rule）

加法定理(Sum rule)

贝叶斯公式(Bayes' theorem)

先验概率(Prior probability) 后验概率(Posterior probability)

独立事件

随机变量

概率分布

分布函数(Cumulative distribution fucntion)

连续性随机变量概率密度(Probability density function)

期望(Expectation)

方差(Variance)

矩

常见概率分布

0-1分布伯努利分布(Bernoulli distribution)

二项分布(Binomial distribution)

泊松分布(Poisson distribution)

均匀分布(Uniform distribution)

正态分布(Normal distribution, Gaussian distribution)

大数定理

辛钦定理

中心极限定理

独立同分布的中心极限定理

参数估计

点估计

矩估计

最大似然估计(Maximum likelihood)

估计量的评选标准

无偏性

有效性

练习题

参考资料

君子博学而日参省乎己 则知明而行无过矣

公告

样本空间

频率(Frequency) 概率(Probability)

条件概率(Conditional Probability)

乘法定理（Product rule）

加法定理(Sum rule)

贝叶斯公式(Bayes' theorem)

先验概率(Prior probability) 后验概率(Posterior probability)

独立事件

随机变量

概率分布

分布函数(Cumulative distribution fucntion)

连续性随机变量 概率密度(Probability density function)

期望(Expectation)

方差(Variance)

矩

常见概率分布

0-1分布 伯努利分布(Bernoulli distribution)

二项分布(Binomial distribution)

泊松分布(Poisson distribution)

均匀分布(Uniform distribution)

正态分布(Normal distribution, Gaussian distribution)

大数定理

辛钦定理

中心极限定理

独立同分布的中心极限定理

参数估计

点估计

矩估计

最大似然估计(Maximum likelihood)

估计量的评选标准

无偏性

有效性

练习题

参考资料

君子博学而日参省乎己则知明而行无过矣

连续性随机变量概率密度(Probability density function)

0-1分布伯努利分布(Bernoulli distribution)