【机器学习】统计学与概率论知识点汇总
- 常见分布
- 正态分布:
- 标准正态分布:
- 对数正态分布:
- 均匀分布:
- 指数分布:
- 伽玛分布:
,其中
分布:
- 设
是来自正态总体
的一个样本,则
- 若
是来自标准正态分布的一样样本,则其平方和
服从自由度为n的
分布。
- 贝塔分布:
- t分布:
,t分布是正态总体的一个样本
的样本均值与样本标准差的特定函数
。当自由度较大(如
)时,t分布可以用标准正态分布近似。
- F分布:设随机变量
,且两者独立,则
的密度函数为
,此分布为自由度为n与m的F分布,记为
。
为自由度为n与m的F分布p分位数,有
- 分布特征数
- 特征数定义
分布的特征数刻画分布的位置、散布、偏度、峰度。其中偏度与峰度都是描述分布形状的特征数,他们都是以正态分布为基准。
- 数学期望:
。
- 方差:称
为偏差,则偏差平方的数学期望
为随机变量X(或相应分布)的方差,记为
。
- 标准差:方差的平方根称为随机变量X(或相应分布)的标准差,记为
或
。
- 变异系数:标准差与数学期望的比值,即
,变异系数是无单位的量。
- 偏度系数:
,偏度系数是描述分布偏离对称性程度的一个特征数。
称分布为正偏或右偏,
称分布为负偏或左偏,
分布关于
是对称的。
- 峰度系数:
,峰度是描述分布尖峭程度和尾部粗细的一个特征数,是相对与正态分布而言的超出量。
- 常见分布的特征数
分布 | 均值 | 方差 | 偏度 | 峰度 |
均匀分布 |
|
| 0 | -1.2 |
正态分布 |
|
| 0 | 0 |
指数分布 |
|
| 2 | 6 |
伽玛分布 |
|
|
|
|
- 假设检验
根据所获样本,运用统计分析方法对总体X的某种假设
做出判断,具体包含建立假设,寻找检验统计量,构造拒绝域,直到最后做出判断四个步骤。
- 建立假设
一般假设检验问题需要建设两个假设:原假设与备择假设。假设全网客户Arpu服从正态分布
,需要检测全网客户平均Arpu是否为40,则可建立以下两个假设:
原假设
备择假设
(双侧检验问题)
某些情况下,Arpu允许过高不得过低或允许过低不得过高,则可建立以下两对假设:
原假设
备择假设
(单侧检验问题)
原假设
备择假设
(单侧检验问题)
- 选择检验统计量
为样本的Arpu均值,那么在原假设为真的情况下,经标准化变化可得
这里的u就是检验统计量,分子的绝对值是样本均值与总体均值之间的距离,其大小表征系统误差大小,分母是随机误差大小,两者比值表征系统误差是随机误差的倍数。可见若u的绝对值越大,系统误差越大,这是应倾向于拒绝
;相反则倾向于不拒绝
。即是寻找临界值c,使得:
当
,拒绝
;
当
,不拒绝
。
则称
为该双侧检验问题的拒绝域,记为W。临界值c的确定将用控制犯错误概率确定。
- 根据显著性水平
,确定临界值
在假设检验中可能犯的错误有如下两类:
第I类错误(拒真):原假设为真,由于抽样随机性,样本落在拒绝域,从而导致拒绝原假设,其发生概率记为
,又称为显著性水平。
第Ⅱ类错误(取伪):原假设不真,单由于抽样随机性,样本未落在拒绝域,从而导致接受原假设,其发生概率为
。
由此可见,
=P(犯第I类错误)=P(
为真时拒绝
)。
这个概率是
成立下,计算拒绝域
的概率,此时
,则:
,其中
为标准正态分布函数,由上式知,
是c的严减函数,即
越小,拒绝域越小。
一般理论研究表明:随着
的减小,
在增加;随着样本量的增加,
与
在减小。
- P值判断
一个假设检验问题中不同的显著性水平会导致不同的结论,而显著性水平的选择又带有人为因素,因此提出"p值"的概念,即:在一个假设检验问题中,拒绝原假设的最小显著性水平称为p值。
若
值,则拒绝原假设;若
值,则接受原假设。
- 卡方拟合优度检验(
检验)
- 定义
检验需要将总体分类为有限类,检验结论依赖于分组,不同分组有可能得出不同的结论,故在
检验在连续分布场合有一定的不足之处。
将总体分为有限类(分组经验公式
,n为样本量),每类中的观察频数为
,根据原假设每类中的期望频数为
,则
为
检验的检验统计量。当n充分大时,
近似服从自由度为
的
分布,其中
为分类组数,
为假设分布的未知参数个数。对于显著性水平
,拒绝域为
。
每类中的期望频数
不应过小,建议取
。
- 列联表的独立性检验
检验可应用于检验两个分类随机变量之间的独立性。
X | 行和 | |||||
|
| … |
| |||
Y |
|
|
| … |
|
|
|
|
| … |
|
| |
… | … | … | … | … | ||
|
|
| … |
|
| |
列和 |
|
| … |
| n | |
X与Y独立时,对一切的i和j有
,因此假设检验为:
原假设 
备择假设
至少有一对i,j,使得
,其拒绝域为
,其中
,这里仍然要求
。

,其中

是来自正态总体
的一个样本,则
是来自标准正态分布的一样样本,则其平方和
服从自由度为n的
分布。
,t分布是正态总体的一个样本
的样本均值与样本标准差的特定函数
。当自由度较大(如
)时,t分布可以用标准正态分布近似。
,且两者独立,则
的密度函数为
,此分布为自由度为n与m的F分布,记为
。
为自由度为n与m的F分布p分位数,有
。
为偏差,则偏差平方的数学期望
为随机变量X(或相应分布)的方差,记为
。
或
。
,变异系数是无单位的量。
,偏度系数是描述分布偏离对称性程度的一个特征数。
称分布为正偏或右偏,
称分布为负偏或左偏,
分布关于
是对称的。
,峰度是描述分布尖峭程度和尾部粗细的一个特征数,是相对与正态分布而言的超出量。










,确定临界值
检验)





















浙公网安备 33010602011771号