概率论与数理统计

基本概念

 

随机试验:一种试验,其结果不可预测。

样本空间:随机试验所有可能结果的集合。

事件:样本空间的子集,表示随机试验的某些结果。

概率:事件发生的可能性大小,通常在0到1之间。

古典概率:假设所有结果等可能时的概率计算。

互斥事件:不能同时发生的事件。

全概率:一系列互斥且完备的事件的概率总和。

条件概率:在一个事件发生的条件下,另一个事件发生的概率。

独立事件:一个事件的发生不影响另一个事件的发生概率。

 

概率公式与定理

 

贝叶斯定理:用于根据新信息更新概率估计。

随机变量:赋值给随机试验结果的变量。

离散随机变量:取值为离散的随机变量。

连续随机变量:取值为连续的随机变量。

概率分布:描述随机变量取各种值的概率。

累积分布函数(CDF):随机变量小于或等于某值的概率。

概率密度函数(PDF):连续随机变量在某个特定值的概率密度。

期望值:随机变量的平均值。

方差:衡量随机变量波动性的指标。

标准差:方差的平方根,同样衡量波动性。

协方差:两个随机变量共同变动的程度。

相关系数:衡量两个随机变量线性相关程度的指标。

 

分布类型

 

伯努利分布:单次成功/失败试验的概率分布。

二项分布:多次伯努利试验的成功次数分布。

泊松分布:描述单位时间(或单位面积)内随机事件发生的次数。

均匀分布:所有结果等可能的分布。

正态分布:钟形曲线,描述许多自然现象的分布。

指数分布:描述事件间发生时间的分布。

伽马分布:指数分布的推广,用于描述等待n个事件发生的时间。

贝塔分布:在[0,1]区间上的连续概率分布。

卡方分布:用于描述样本方差的分布。

t分布:用于小样本情况下均值估计的分布。

F分布:用于描述两个独立卡方分布变量的比率。

 

高级概念

 

联合概率:两个或多个事件同时发生的概率。

边缘概率:不考虑其他变量时,单个变量的概率。

多维随机变量:同时考虑多个随机变量。

协方差矩阵:描述多个随机变量协方差的矩阵。

矩母函数:描述随机变量分布特征的函数。

特征函数:另一种描述随机变量分布特征的函数。

矩:随机变量的数学期望的幂。

偏度:描述分布不对称性的指标。

峰度:描述分布尖峭程度的指标。

顺序统计量:基于样本数据排序的统计量。

 

统计推断

 

极大似然估计:寻找最有可能产生观察数据的参数值。

贝叶斯估计:结合先验信息和数据来更新参数估计。

点估计:用单个值估计未知参数。

区间估计:用区间估计未知参数,包含置信区间。

假设检验:判断样本数据是否支持某个假设。

原假设:假设检验中默认为真的假设。

备择假设:与原假设相对立的假设。

显著性水平:拒绝原假设时犯错误的概率上限。

p值:观察到极端结果或更极端结果的概率。

第一类错误:错误地拒绝原假设。

第二类错误:错误地接受原假设。

功效:正确拒绝原假设的概率。

 

检验与模型

 

单样本t检验:检验单个样本均值与已知值是否有差异。

双样本t检验:检验两个独立样本均值是否有差异。

方差分析(ANOVA):检验多个均值是否存在差异。

配对t检验:检验配对样本均值是否有差异。

卡方检验:检验分类变量之间的独立性。

非参数检验:不基于特定分布的统计检验。

秩和检验:一种非参数检验方法。

符号秩检验:另一种非参数检验方法。

回归分析:研究变量之间关系的统计方法。

线性回归:假设因变量与自变量之间存在线性关系。

多元回归:涉及两个或更多自变量的线性回归。

逻辑回归:用于因变量是二元(如成功/失败)的情况,预测事件发生的概率。

残差分析:分析回归模型中预测值与实际值之间的差异。

模型选择:选择最佳统计模型的过程。

 

统计方法

 

Bootstrap方法:通过有放回抽样来估计统计量的分布。

贝叶斯统计:基于贝叶斯定理的统计推断方法。

似然比检验:比较不同模型拟合数据的好坏。

信息准则:如AIC、BIC,用于模型选择的标准。

交叉验证:通过将数据分为训练集和验证集来评估模型的性能。

蒙特卡洛方法:使用随机抽样来解决可能难以直接解决的问题。

 

随机过程

 

随机过程:一系列随机变量的集合,通常随时间变化。

马尔可夫链:未来状态仅依赖于当前状态,不依赖于过去状态的随机过程。

隐马尔可夫模型:内部状态不可直接观测的马尔可夫模型。

时间序列分析:分析随时间变化的数据序列。

 

其他概念

 

联合概率:两个或多个事件同时发生的概率。

条件概率:在一个事件发生的条件下,另一个事件发生的概率。

边缘概率:不考虑其他变量时,单个事件的概率。

多维随机变量:具有两个或更多维度的随机变量。

协方差矩阵:描述多个随机变量之间协方差的矩阵。

矩母函数:随机变量的所有矩的生成函数。

特征函数:另一种描述随机变量分布的函数。

矩:随机变量的平均值,如一阶矩(期望值)、二阶矩(方差)等。

偏度:描述分布不对称程度的指标。

峰度:描述分布尖峭程度的指标。

顺序统计量:基于样本数据排序的统计量。

 

补充概念

 

相关性分析:研究两个或多个变量之间的相关性。

因子分析:识别隐藏在数据中的不可观测变量(因子)。

聚类分析:将数据分为不同组(簇)的过程。

主成分分析(PCA):通过线性变换将数据投影到较低维空间。

典型相关分析(CCA):研究两组变量之间的相关性。

路径分析:用于研究变量之间复杂关系的一种统计方法。

生存分析:分析时间到事件发生的数据,常用于医学研究。

事件历史分析:研究事件发生时间和相关因素的方法。

风险模型:评估特定事件发生的风险。

机器学习:利用数据进行预测和决策的算法和统计模型。

posted @ 2025-02-12 23:08  Augustone  阅读(32)  评论(0)    收藏  举报