统计学基础
参考:[统计学杂记 | 关键档案陋室](https://www.sprite.pub/post/statistics/ )
概率(Probability)
频率学派概率(Frequentist Probability)和事件发生的频率相关;而贝叶斯学派概率(Bayesian Probability)是对事件发生的确定程度。
试验(Experiment)满足如下条件。
- 可以在相同的条件下重复进行;
- 每次试验的可能结果不只一个,并能够事先明确所有可能的试验结果;
- 进行一次试验之前不能确定是哪一个结果出现。
抛掷一枚硬币而观察正反面出现的情况是最经典的试验。
样本空间(Sample Space)又称结果空间(Outcome Space),是一个试验所有可能结果的集合。样本空间的任何一个子集都被称为一个事件(Event)。随机变量(Random Variable)对应事件的每一个可能结果,分为离散(Discrete)和连续(Continuous)两种。多维随机变量即随机变量构成的一个向量。
随机变量的数字特征
期望(Expectation)又称均值(Average)。对于离散型随机变量,期望的定义如下。
其中,为离散型随机变量的概率质量函数。
对于连续型随机变量,期望的定义如下。
其中,为连续型随机变量的概率密度函数。
方差(Variance)用于度量随机变量与其均值的偏离程度,定义如下。标准差(Standard Deviation)即方差的平方根。
协方差(Covariance)用于度量两个随机变量线性相关的强度,定义如下。随机变量组的协方差矩阵(Covariance Matrix)是一个阶方阵,且满足下式。协方差矩阵主对角线的元素是方差,即。
相关系数(Correlation Coefficient)研究变量之间的线性相关程度,定义如下。相关系数的取值范围是,可以视作无量纲的协方差。
分布(Distribution)
分布即描述随机变量在每一个可能取值的可能性大小。使用表示随机变量所遵循的分布。
常用概率分布
伯努利分布(Bernoulli Distribution)得名于瑞士数学家雅各布·伯努利,其概率质量函数如下式。最常用的概率分布是正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),其概率密度函数如下式。有时使用表示分布的精度。
标准正态分布(Standard Normal Distribution)是且的正态分布,即下式。正态分布可以推广至空间,即多维正态分布(Multivariate Normal Distribution),如下式。
其中,参数为正定对称矩阵,是分布的协方差矩阵。
指数分布(Exponential Distribution)在处取得最高概率,其概率密度函数如下式。双指数分布(Double Exponential Distribution)又称拉普拉斯分布(Laplace Distribution),得名于法国数学家皮埃尔-西蒙·拉普拉斯,可视作两平移指数分布的拼接,允许在任意一点处设置概率质量的峰值,其概率密度函数如下式。
概率质量函数(PMF; Probability Mass Function)
又称概率分布律,对应离散型随机变量的取值规律,记为,通常以表格的形式呈现。PMF必须满足如下的条件。
- 的定义域必须是所有可能状态的集合;
- ;
- 。
概率密度函数(PDF; Probability Density Function)
对应连续型随机变量的取值规律,记为。PDF必须满足如下的条件。
- 的定义域必须是所有可能状态的集合;
- (注意此处并不要求);
- 。
累积分布函数(CDF; Cumulative Distribution Function)
随机变量落于的概率,记为。
对于离散型随机变量,有下式。对于连续型随机变量,有下式。
条件概率(Conditional Probability)
即事件在另一事件发生的条件下发生的概率,下的概率记为。
联合概率(Joint Probability)表示两个事件共同发生的概率,和共同发生的概率记为。
边缘概率(Marginal Probability)表示某事件子集发生的概率,记为。
条件概率可通过下式计算。联合概率向条件概率的分解遵循如下的链式法则。如果两个事件的发生是不相关的,则两个事件分别对应的两个随机变量是独立(Independent)的,否则称为依赖(Dependent)的。随机变量的独立性可从如下角度考虑。
- 条件概率的角度:;
- 联合概率的角度:。
贝叶斯定理(Bayes' Theorem)是关于随机事件和的条件概率的一则定理,内容如下。
统计(Statistics)
统计即运用样本来研究总体的方法、过程和模式。描述统计学(Descriptive Statistics)描述数据的集中和离散情形;推理统计学(Inferential Statistics)建立数学模型以由样本数据推断总体数量特征。
大数定律(Law of Large Numbers)
大数定律描述随机试验中,样本数量越多,试验结果的算术平均值就有越高的概率接近期望值。
弱大数定律(WLLN; Weak Law of Large Numbers)
弱大数定律又称辛钦大数定律(Khintchine's Law of Large Numbers)是常用的大数定律之一,指出样本均值依概率收敛于期望值,即对任意正数有下式。
其中,为服从同一分布且相互独立的随机变量,且。
伯努利大数定律(Bernoulli's Law of Large Numbers)即分布为二项分布时的情况,是辛钦大数定律的重要推论,对任意正数有下式。
其中,为次独立重复试验中事件发生的次数,为其每次发生的概率。
强大数定律(SLLN; Strong Law of Large Numbers)
强大数定律指出样本均值以概率1收敛于期望值,即下式。
其中,为服从同一分布且相互独立的随机变量,且。
中心极限定理(CLT; Central Limit Theorem)
中心极限定理认为,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。
估计理论(Estimation Theory)
估计理论是统计学的分支,通过样本来估计概率分布参数的数值,估计的结果称为估计值(Estimate)。估计结果为具体数值的估计称为点估计(Point Estimation),或称定值估计;估计结果为在可信度下的最可能的区间的估计称为区间估计(Interval Estimation)。
矩估计(Method of Moments)
又称矩法估计。矩(Moment)又称动差,若为概率密度函数,总体的阶总体矩定义如下。取出大小为的样本,则阶样本矩的定义如下。
其中,。
将样本矩代入总体矩,估计值由前阶矩的方程确定。
最大似然估计(MLE; Maximum Likelihood Estimation)
若为概率密度函数,样本的似然函数如下。则参数估计值的计算如下式。通常可微,可转换为微积分中的最值问题,为计算方便使用「对数似然」将乘积转化为求和,参数估计值可通过如下方程确定。最大似然估计也适用于多个参数的情况,即上式的方程可改写为如下数学形式。
其中,。
信息论(Information Theory)
见计算机科学常识整理的信息论。
机器学习(Machine Learning)
机器学习关乎参数优化,可被视为统计学的分支,见机器学习相关整理。

浙公网安备 33010602011771号