游程检验与卡方检验

游程检验与卡方检验学习总结

1.游程检验


游程检验亦称“连贯检验”,主要目的就是检验取值为二分类并且按某种顺序(例如时间顺序)排列的数据资料,是否确实是随机出现的,可以通俗理解为检验样本数据的随机性。

  • 基本原理
    比如原始数据为:1100001110110000111100;原始数据中0和1交替出现,也有可能连续出现0或1。

出现连续的0或1(单个0或1也算)构成的串列称为一个游程

一个游程中数据的个数称为游程长度

一个序列中游程个数用R表示。表示0和1交替轮换的频繁程度

上图中数据游程长度分别是2,4,3,1,2,4,4,2;游程个数R=8。

如果游程个数过多,则说明0和1交替特征明显

如果游程个数过少,则说明0和1相对比较集中

无论游程个数过多,也或者过少,极端情况都说明数据不具有随机性。因而可以通过游程个数过多或过少来定义假设检验的拒绝域,也即通过游程个数来分析数据是否为随机数据。


原则:如果序列为真随机序列,那么游程的总数应该不太多也不太少。如果游程的总数极少,就说明样本缺乏独立性,内部存在一定的趋势或者结构,这可能由于观察值间不独立,或者来自不同的总体。如果样本间存在大量游程,则可能有系统的短周期波动影响观察结果,同样认为序列非随机。

检验原理:将数据分为两类(以平均数或者中数或者众数或者自定义的值为基准,小于此基准的为一类,大于此基准的为一类),看前一个个案的是否影响后一个个案的,若不影响,进而得到数据是随机抽取的。

2.卡法检验

  • 基本原理

卡方检验的目标就是检查观测值的频数与期望频数之间的差异显著性。由于卡方检验要求便于对个案进行分类并计算频数,因此卡方检验通常基于定类数据或低测度定序数据,并基于它们分类计算个案的实际频数,然后通过实际频数与期望频数的距离,来判定实际频数是否与预期目标存在差异。

  • 卡方检验

由于卡方检验的目标是检查观测频数与期望频数之间的差异性水平,因此卡方检验的核心内容就是计算出观测值的频数与期望频数总体差距的统计量,就是卡方距离。

这个距离可以通过“观测值频数与期望频数差值的平方与期望频率之比的累积和”来体现:

卡方值越大,表示距离越大,差异性越强。可以根据卡方值查表推导出卡方检验的概率值,然后根据概率值判定卡方检验的判断结论。

  • 总结:简单的用法就是用拟合优度检验来进行计算p值。

总结


对于这两种检验方法的理解只是限于理论理解,游程检验原理易懂,打算以编程的方式尝试编写一下检验代码。而卡方检验更偏重于理论,打算找一个不长的有限序列手工推算一遍来体验检验过程。

以上是前一段时间的学习笔记,如有不足请老师指正。

posted @ 2020-04-03 15:21  乔延松20199316  阅读(1696)  评论(0编辑  收藏  举报