概率论中的检验

检验

在概率论中,检验是一种方法,用于判断一个假设是否成立。

这个假设通常被称为“零假设”,它表示不存在显著的差异或关联。在检验中,我们收集样本数据,并计算出一个检验统计量,以检验这个假设的真实性。如果检验统计量的值超出了我们预先设定的“显著性水平”,我们就会拒绝零假设,并认为假设不成立。

通常,我们还有一个反向假设,即“备择假设”,它表示存在显著的差异或关联。如果我们拒绝了零假设,那么我们就会接受备择假设。

检验的目的是为了对假设进行验证,而不是对假设进行证明。因此,即使在拒绝零假设的情况下,我们也不能完全确定备择假设的真实性。

检验方法

检验方法有很多种,具体取决于检验的目的、样本的性质和分布以及可用的数据。一些常见的检验方法包括:

  • 均值检验:用于比较两个或多个样本的平均值是否有显著差异。常见的均值检验有 t 检验、单边 t 检验、双边 t 检验、配对 t 检验、分层 t 检验等。

  • 方差检验:用于比较两个或多个样本的方差是否有显著差异。常见的方差检验有 F 检验和双方差检验。

  • 卡方检验:用于比较实际观察到的分类数据与期望分类数据是否有显著差异。常见的卡方检验有单边卡方检验、双边卡方检验、卡方拟合度检验、卡方独立性检验等。

  • 相关检验:用于检验两个变量之间是否存在线性关系。常见的相关检验有皮尔逊相关系数检验、斯皮尔曼相关系数检验、卡方相关检验等。
    这只是检验方法的一小部分,实际上还有很多其他方法,如线性回归分析、分类与回归树分析、集成方法等。

t检验是一种常用的均值检验方法,用于检验两个独立样本的平均值是否有显著差异。t检验通常用于两组数据的均值之差的检验,也可以用于检验一组数据的均值是否等于某个值。


t检验

t检验的基本步骤如下:

  1. 确定检验的假设和备择假设:对于检验两组数据的均值之差,通常的假设是两组数据的均值相等(即 \(H_0: \mu_1 = \mu_2\)),备择假设是两组数据的均值不相等(即 \(H_1: \mu_1 \ne \mu_2\))。对于检验一组数据的均值是否等于某个值,假设和备择假设分别是均值等于该值(即 \(H_0: \mu = \mu_0\))和均值不等于该值(即 \(H_1: \mu \ne \mu_0\))。

  2. 确定显著性水平:显著性水平是指在拒绝零假设的概率,通常设为 \(0.05\)\(0.01\)

  3. 计算 t 检验的检验统计量。检验统计量的计算公式为:

\[t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

其中 \(\bar{x}_1\)\(\bar{x}_2\) 分别是两组数据的平均值,\(s_1^2\)\(s_2^2\) 分别是两组数据的方差,\(n_1\)\(n_2\) 分别是两组数据的样本数。

需要注意的是,这个公式只适用于两组独立样本的 t 检验。如果是检验一组数据的均值是否等于某个值,则可以使用类似的公式,具体见具体情况。

  1. 根据自由度计算 t 分布的临界值:自由度 \(df\) 的计算公式为:

\[df = n_1 + n_2 - 2 \]

其中 \(n_1\)\(n_2\) 分别是两组数据的样本数。临界值的计算方法是,在 t 分布表中查找自由度为 \(df\) 的 t 分布,然后查找显著性水平为 \(0.05\)\(0.01\) 的临界值。

  1. 根据检验统计量的值和临界值比较,得出结论:如果检验统计量的值超过临界值,则拒绝零假设,否则不拒绝零假设。

F检验

  1. 确定检验的假设和备择假设。假设是指在没有证据反驳的情况下假定的命题,备择假设是假设的反面命题。
    对于检验两组数据的方差是否相等,通常的假设是两组数据的方差相等(即 \(H_0: \sigma_1^2 = \sigma_2^2\)),备择假设是两组数据的方差不相等(即 \(H_1: \sigma_1^2 \ne \sigma_2^2\))。对于检验一组数据的方差是否等于某个值,假设和备择假设分别是方差等于该值(即 \(H_0: \sigma^2 = \sigma_0^2\))和方差不等于该值(即 \(H_1: \sigma^2 \ne \sigma_0^2\))。

  2. 确定显著性水平:显著性水平是指在拒绝零假设的概率,通常设为 \(0.05\)\(0.01\)

  3. 计算检验统计量:对于两组数据,检验统计量 \(F\) 的计算公式为:

\[F = \frac{s_1^2}{s_2^2} \]

其中 \(s_1^2\)\(s_2^2\) 分别是两组数据的方差。

  1. 根据自由度计算 F 分布的临界值:自由度 \(df_1\)\(df_2\) 的计算公式分别为:

\[df_1 = n_1 - 1, df_2 = n_2 - 1 \]

其中 \(n_1\)\(n_2\) 分别是两组数据的样本数。临界值的计算方法是,在 F 分布表中查找自由度为 \(df_1\)\(df_2\) 的 F 分布,然后查找显著性水平为 \(0.05\)\(0.01\) 的临界值。

  1. 根据检验统计量的值和临界值比较,得出结论:如果检验统计量的值超过临界值,则拒绝零假设,否则不拒绝零假设。

卡方检验

  1. 确定假设和备择假设。假设是我们想要检验的命题,而备择假设则是我们的假设的否定命题。

    在卡方检验中,我们的假设通常是两组数据的分布相同,即 \(H_0:\) 两组数据的分布相同。而备择假设则是两组数据的分布不同,即 \(H_1:\) 两组数据的分布不同。

  2. 确定检验的显著性水平:卡方检验的显著性水平是指在拒绝零假设的概率(即假设为真的概率)超过一定值的情况下,拒绝零假设的阈值。常用的显著性水平有 \(0.1\)\(0.05\)\(0.01\),其中 \(0.05\) 是最常用的。

  3. 计算卡方统计量:卡方统计量的计算公式如下:

\[\chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i} \]

其中,\(O_i\) 是第 \(i\) 类观测值,\(E_i\) 是第 \(i\) 类期望值,\(n\) 是类别数。

  1. 根据自由度计算卡方分布的临界值:自由度的计算公式为:

\[df = (r-1)(c-1) \]

其中 \(r\)\(c\) 分别是分类变量的类别数和样本的类别数。临界值的计算方法是,在卡方分布表中查找自由度为 \(df\) 的卡方分布,然后查找显著性水平为 \(0.1\)\(0.05\)\(0.01\) 的临界值。

  1. 根据卡方统计量的值和临界值比较,得出结论:如果卡方统计量的值大于等于临界值,则拒绝零假设,并得出结论:两组数据的分布不同。反之,如果卡方统计量的值小于临界值,则不拒绝零假设,并得出结论:两组数据的分布相同。

卡方检验的结论是有一定概率的,因此我们不能绝对地接受或拒绝结论。而是要根据结论的可信度来进行判断。在进行卡方检验时,如果我们选择的显著性水平较低,则拒绝零假设的可信度较高,结论较为可靠;反之,如果显著性水平较高,则拒绝零假设的可信度较低,结论较为不可靠。
卡方检验有一些局限性,比如需要满足观测值大于等于 5 的条件,并且对于小样本数据,卡方检验的效果并不是很好。

此外,卡方检验只能用于检验两组数据的分布是否相同,而不能用于检验两组数据的平均值是否相同。如果要检验两组数据的平均值是否相同,可以使用 t 检验或 F 检验。

总的来说,卡方检验是一种常用的统计检验方法,它可以用于检验两组分类数据的分布是否有显著差异。卡方检验的结论是有一定概率的,因此要根据结论的可信度来进行判断。

方差

方差是衡量数据的离散程度的度量,是数据的平方差的平均值。具体来说,对于一组数据 \(x_1,x_2,...,x_n\),它的方差 \(s^2\) 可以用下列公式计算:

\[s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} \]

其中 \(\bar{x}\) 是数据的平均值,\(n\) 是数据的个数,\((x_i - \bar{x})^2\) 是每个数据与平均值的差的平方。

如果需要计算两组数据的方差的差异,可以使用如下的公式:

\[F = \frac{s_1^2}{s_2^2} \]

其中 \(s_1^2\)\(s_2^2\) 分别是两组数据的方差。

需要注意的是,方差的计算依赖于样本数据的分布情况,如果数据的分布不符合正态分布或其他假设,则方差的计算可能会受到影响。

如何选择

T检验,F检验,和卡方检验是三种常用的统计检验方法。他们的选择取决于你的研究目的,所收集的数据的类型,以及你所假设的数据分布情况。

  1. T检验用于比较两个独立样本的平均值是否有显著差异。这种情况下,你需要满足以下条件:

    • 样本数据服从正态分布
    • 样本来自相同的总体,并且两个样本之间没有显著的差异
    • 样本的方差非常相似
  2. F检验用于比较两个样本的方差是否有显著差异。这种情况下,你需要满足以下条件:

    • 样本数据服从正态分布
    • 样本来自相同的总体,并且两个样本之间没有显著的差异
  3. 卡方检验用于比较两个分类变量之间是否存在显著差异。这种情况下,你需要满足以下条件:

    • 样本数据是分类变量
    • 样本来自同一总体
    • 分类变量的每个类别都具有足够的样本数(通常大于5)
posted @ 2023-01-09 13:10  zh-jp  阅读(517)  评论(0编辑  收藏  举报