非参数统计:第三章 两样本数据
成对数据检验
成对数据化为单样本数据检验需要满足以下条件:
- 每一对数据来自同一个或者可比较的相似对象
- 对之间相互独立
- 都是连续变量
检验方法
记两样本分别为\(X_i\),\(Y_i\),构造\(D_i=X_i-Y_i\);对\(D_i\)数据进行单样本位置参数的检验即可。
两样本位置参数检验
Brown-Mood中位数检验
基本思想
若两样本中位数相同,则将样本数据混合后,样本数据应均匀分布在混合后的中位数两侧。
检验步骤
第一步:提出原假设
\(H_0:M_X=M_Y\);\(H_1:M_x\neq M_Y\)
第二步:构造检验统计量
根据混合排序后的结果可绘制2×2列联表:
| \(X\) | \(Y\) | 总和 | |
|---|---|---|---|
| \(\geq M_{XY}\) | \(A\) | \(B\) | \(t\) |
| \(\leq M_{XY}\) | \(C\) | \(D\) | \((m+n)-t\) |
| 总和 | \(m\) | \(n\) | \(m+n\) |
当\(m\),\(n\)和\(t\)固定时,\(A\)的服从超几何分布:
\(A\sim H(t,m,m+n)\)
第三步:计算伴随概率
\(p(A=k)=\dfrac{\binom{m}{k}\binom{n}{t-k}}{\binom{m+n}{t}}\)
第四步:做出统计推断
略
大样本近似检验
在大样本条件下,\(A\)近似服从正态分布:
\(A\sim N(mt/(m+n),mnt(m+n-t)/(m+n^3))\)
大样本双边检验可使用Pearson\(\quad\chi^2\)检验:
\(K=\dfrac{(2a-m)^2(m+n)}{mn}\sim \chi^2(1)\)
Wilcoxon(Mann-Whitney)秩和检验
基本思想
将两样本混合后,两样本在混合样本中的秩和相等。
使用条件
两总体分布形状类似(否则使用B-M检验效果更好)
检验步骤
第一步:提出原假设
\(H_0:M_X=M_Y\);\(H_1:M_x\neq M_Y\)
第二步:构造检验统计量
记混合后\(X\)样本的秩和为\(W_X\),\(Y\)样本的秩和为\(W_Y\);
\(W_{XY}\)表示混合样本中\(Y\) 大于\(X\)的个数,\(W_{YX}\)表示混合样本中\(X\) 大于\(Y\)的个数;
则存在以下关系:
\(W_Y=W_{XY}+\dfrac{1}{2}n(n+1)\)
\(W_X=W_{YX}+\dfrac{1}{2}m(m+1)\)
\(W_{XY}+W_{YX}=mn\)
令\(W=\min\{W_{XY},W_{YX}\}\)
第三步:计算伴随概率
递推公式为:
\(P(W=k)=P_{m,n}(k)=\dfrac{n}{m+n}P_{m,n-1}(k-m)+\dfrac{m}{m+n}P_{m-1,n}(k)\)
第四步:做出统计推断
略
大样本近似检验
在大样本条件下,\(W_{XY}\)近似服从正态分布:
\(W_{XY}\sim N(mn/2,mn(m+n+1)/12)\)
配对二元数据(McNemar检验)
基本思想
绘制列联表,数据集中在主对角线上,说明两样本一致性强。
检验步骤
第一步:提出原假设
\(H_0:\pi_a=\pi_b\);\(H_1:\pi_a\neq \pi_b\)
第二步:构造检验统计量
构造卡方统计量:
\(\chi^2=\dfrac{(n_{12}-n_{21})^2}{n_{12}+n{21}}\sim \chi^2(1)\)
第三步:计算伴随概率
此处查表即可
第四步:做出统计推断
略
大样本近似检验
大样本条件下,\(\chi\)近似服从标准正态分布。
多元分类数据一致性度量(Cohen‘s Kappa系数)
基本思想
绘制列联表,数据集中在主对角线上,说明两样本一致性强。
计算方式
Cohen's Kappa一致性系数定义为:
\(\kappa = \dfrac{p_a-p_e}{1-p_e}\)
其中\(p_a=\sum_{i=1}^{I}n_{ii}/n\)表示对角线(一致性)元素在样本中的占比;\(p_e=\sum_{i=1}^{I}n_{i+}n_{+i}/n^2\)表示非对角线元素在样本中的占比。

浙公网安备 33010602011771号