概率论与数理统计
基本概念
随机试验:一种试验,其结果不可预测。
样本空间:随机试验所有可能结果的集合。
事件:样本空间的子集,表示随机试验的某些结果。
概率:事件发生的可能性大小,通常在0到1之间。
古典概率:假设所有结果等可能时的概率计算。
互斥事件:不能同时发生的事件。
全概率:一系列互斥且完备的事件的概率总和。
条件概率:在一个事件发生的条件下,另一个事件发生的概率。
独立事件:一个事件的发生不影响另一个事件的发生概率。
概率公式与定理
贝叶斯定理:用于根据新信息更新概率估计。
随机变量:赋值给随机试验结果的变量。
离散随机变量:取值为离散的随机变量。
连续随机变量:取值为连续的随机变量。
概率分布:描述随机变量取各种值的概率。
累积分布函数(CDF):随机变量小于或等于某值的概率。
概率密度函数(PDF):连续随机变量在某个特定值的概率密度。
期望值:随机变量的平均值。
方差:衡量随机变量波动性的指标。
标准差:方差的平方根,同样衡量波动性。
协方差:两个随机变量共同变动的程度。
相关系数:衡量两个随机变量线性相关程度的指标。
分布类型
伯努利分布:单次成功/失败试验的概率分布。
二项分布:多次伯努利试验的成功次数分布。
泊松分布:描述单位时间(或单位面积)内随机事件发生的次数。
均匀分布:所有结果等可能的分布。
正态分布:钟形曲线,描述许多自然现象的分布。
指数分布:描述事件间发生时间的分布。
伽马分布:指数分布的推广,用于描述等待n个事件发生的时间。
贝塔分布:在[0,1]区间上的连续概率分布。
卡方分布:用于描述样本方差的分布。
t分布:用于小样本情况下均值估计的分布。
F分布:用于描述两个独立卡方分布变量的比率。
高级概念
联合概率:两个或多个事件同时发生的概率。
边缘概率:不考虑其他变量时,单个变量的概率。
多维随机变量:同时考虑多个随机变量。
协方差矩阵:描述多个随机变量协方差的矩阵。
矩母函数:描述随机变量分布特征的函数。
特征函数:另一种描述随机变量分布特征的函数。
矩:随机变量的数学期望的幂。
偏度:描述分布不对称性的指标。
峰度:描述分布尖峭程度的指标。
顺序统计量:基于样本数据排序的统计量。
统计推断
极大似然估计:寻找最有可能产生观察数据的参数值。
贝叶斯估计:结合先验信息和数据来更新参数估计。
点估计:用单个值估计未知参数。
区间估计:用区间估计未知参数,包含置信区间。
假设检验:判断样本数据是否支持某个假设。
原假设:假设检验中默认为真的假设。
备择假设:与原假设相对立的假设。
显著性水平:拒绝原假设时犯错误的概率上限。
p值:观察到极端结果或更极端结果的概率。
第一类错误:错误地拒绝原假设。
第二类错误:错误地接受原假设。
功效:正确拒绝原假设的概率。
检验与模型
单样本t检验:检验单个样本均值与已知值是否有差异。
双样本t检验:检验两个独立样本均值是否有差异。
方差分析(ANOVA):检验多个均值是否存在差异。
配对t检验:检验配对样本均值是否有差异。
卡方检验:检验分类变量之间的独立性。
非参数检验:不基于特定分布的统计检验。
秩和检验:一种非参数检验方法。
符号秩检验:另一种非参数检验方法。
回归分析:研究变量之间关系的统计方法。
线性回归:假设因变量与自变量之间存在线性关系。
多元回归:涉及两个或更多自变量的线性回归。
逻辑回归:用于因变量是二元(如成功/失败)的情况,预测事件发生的概率。
残差分析:分析回归模型中预测值与实际值之间的差异。
模型选择:选择最佳统计模型的过程。
统计方法
Bootstrap方法:通过有放回抽样来估计统计量的分布。
贝叶斯统计:基于贝叶斯定理的统计推断方法。
似然比检验:比较不同模型拟合数据的好坏。
信息准则:如AIC、BIC,用于模型选择的标准。
交叉验证:通过将数据分为训练集和验证集来评估模型的性能。
蒙特卡洛方法:使用随机抽样来解决可能难以直接解决的问题。
随机过程
随机过程:一系列随机变量的集合,通常随时间变化。
马尔可夫链:未来状态仅依赖于当前状态,不依赖于过去状态的随机过程。
隐马尔可夫模型:内部状态不可直接观测的马尔可夫模型。
时间序列分析:分析随时间变化的数据序列。
其他概念
联合概率:两个或多个事件同时发生的概率。
条件概率:在一个事件发生的条件下,另一个事件发生的概率。
边缘概率:不考虑其他变量时,单个事件的概率。
多维随机变量:具有两个或更多维度的随机变量。
协方差矩阵:描述多个随机变量之间协方差的矩阵。
矩母函数:随机变量的所有矩的生成函数。
特征函数:另一种描述随机变量分布的函数。
矩:随机变量的平均值,如一阶矩(期望值)、二阶矩(方差)等。
偏度:描述分布不对称程度的指标。
峰度:描述分布尖峭程度的指标。
顺序统计量:基于样本数据排序的统计量。
补充概念
相关性分析:研究两个或多个变量之间的相关性。
因子分析:识别隐藏在数据中的不可观测变量(因子)。
聚类分析:将数据分为不同组(簇)的过程。
主成分分析(PCA):通过线性变换将数据投影到较低维空间。
典型相关分析(CCA):研究两组变量之间的相关性。
路径分析:用于研究变量之间复杂关系的一种统计方法。
生存分析:分析时间到事件发生的数据,常用于医学研究。
事件历史分析:研究事件发生时间和相关因素的方法。
风险模型:评估特定事件发生的风险。
机器学习:利用数据进行预测和决策的算法和统计模型。
浙公网安备 33010602011771号