【抽样调查】其他抽样

第6部分其他抽样

第6部分其他抽样

系统抽样

系统抽样概述

系统抽样：设总体中\(N\)个单元按某种顺序排列，编号为\(1:N\)。抽样程序是首先抽取一个或一组起始单元的编号，然后按某种确定的规则选取其他单元的编号，直到满\(n\)个为止。

系统抽样中除第一个样本点的抽取是随机的，其余样本点都不是随机的。
系统抽样的优点是简便易行、对抽样框要求不高；样本单元在总体中分布均匀，代表性较好。
系统抽样的缺点是样本量不唯一，故不存在严格意义上的无偏估计量，难以估计抽样误差。

等距系统抽样：设总体中\(N\)个单元按某种顺序排列，编号为\(1:N\)。抽样程序是先按简单随机抽样方式抽取一个起始单元的编号，然后按照固定间隔\(k\)选取其他单元的编号，直到满\(n\)个为止。这里的\(k\)称为抽样间隔，一般取不大于但最接近于\(\displaystyle{\left[\frac{N}{n} \right]}\)的一个整数。由于\(N\)不一定是\(n\)的整数倍，故样本点数可能是\(\displaystyle{\left[\frac{N}{k} \right]}\)或\(\displaystyle{\left[\frac{N}{k} \right]+1}\)。

\(N=nk\)：直线等距抽样。即样本量为\(\displaystyle{\left[\frac{N}{k} \right]}\)的情形。

此时先从前\(k\)个单元编号中随机抽出一个单元编号\(r\)作为随机起点，然后每隔\(k\)个单元编号抽出一个单元编号，直到抽出\(n\)个单元编号为止。

抽取的样本是：\(r+(j-1)k\)，\(j=1,2,\cdots,n\)。
\(N\ne nk\)：圆形等距抽样。此时\(\displaystyle{n=\left[\frac{N}{k} \right]+1}\)。

此时将样本看作首尾相接的一个环，并从\(1:N\)中简单随机抽样抽取一个单元编号作为随机起点\(r\)，然后每隔\(k\)抽取一个单元编号，直到抽出\(n\)个单元编号为止。

抽取的样本是：

\[\left\{\begin{array}{} i=r+(j-1)k,& r+(j-1)k\le N\\ i=\min\{r+(j-1)k,r+(j-1)k-N\},& r+(j-1)k>N \end{array}\right.\\ j=1,2,\cdots,n. \]
简化处理方式：随机选出\(k_d=N-nk\)个单元扔掉，使总体规模略微缩减满足\(N=nk\)。

等概率系统抽样

以下均假设\(N=nk\)，根据从\(1:k\)中抽取随机起点的结果，可以分出\(k\)组样本，故将样本排列如下：

\[\begin{array}{c|c} \hline & 1 & 2 & \cdots & j & \cdots & n & \text{ave} \\ \hline 1 & Y_1 & Y_{k+1} & \cdots & Y_{(j-1)k+1} & \cdots & Y_{(n-1)k+1} & \bar{Y}_{1\cdot} \\ 2 & Y_2 & Y_{k+2} & \cdots & Y_{(j-1)k+2} & \cdots & Y_{(n-1)k+2} & \bar Y_{2\cdot} \\ \vdots \\ r & Y_{r} & Y_{k+r} & \cdots & Y_{(j-1)k+r} & \cdots & Y_{(n-1)k+r} & \bar Y_{r\cdot} \\ \vdots \\ k & Y_{k} & Y_{2k} & \cdots & Y_{jk} & \cdots & Y_{nk} & \bar Y_{k\cdot} \\ \hline \text{ave} & \bar{Y}_{\cdot 1} & \bar{Y}_{\cdot 2} & \cdots & \bar{Y}_{\cdot j} & \cdots & \bar{Y}_{\cdot n} & \bar{Y} \\ \hline \end{array} \]

由此，系统抽样可看成从以上\(k\)行中按简单随机抽样方式，抽取一行作为样本。为方便讨论，在上述矩阵中，将第\(r\)行第\(j\)列的样本记作\(Y_{rj}=Y_{(j-1)k+r}\)，此时每一行可以视为一个群，每一列可以视为一个层，由此可以将整群抽样、分层抽样的结论加以运用。

在上述书写形式下，采用以下的符号规定。

总体均值：\(\bar{Y}=\displaystyle{\frac{1}{N}\sum_{r=1}^{k}\sum_{j=1}^{n}Y_{rj}=\frac{1}{nk}\sum_{r=1}^{k}\sum_{j=1}^{n}Y_{rj}}\)。
总体方差：\(\displaystyle{S^2=\frac{1}{N-1}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar Y)^2}\)。
群内均值：\(\bar{Y}_r=\bar{Y}_{r\cdot}=\displaystyle{\frac{1}{n}\sum_{j=1}^{n}Y_{rj}}\)。样本群内均值：\(\bar{y}_r=\displaystyle{\frac{1}{n}\sum_{j=1}^{n}y_{rj}=\frac{1}{n}\sum_{j=1}^{n}Y_{rj}=\bar{Y}_r}\)。
群内方差：\(\displaystyle{S_{wsy}^2=\frac{1}{k}\sum_{r=1}^{k}\frac{1}{n-1}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2}\)。

总体均值的估计

系统抽样的样本均值是总体均值的估计量，为

\[\hat{\bar Y}=\bar{y}_{sy}=\bar{y}_r=\frac{1}{n}\sum_{j=1}^{n}y_{rj}=\bar{Y}_r, \]

类似地，总体总值的估计量为

\[\hat Y_{sy}=N\bar y_{sy}=nk\bar{y}_{sy}. \]

定理：\(\bar{y}_{sy}\)是\(\bar {Y}\)的无偏估计，即

\[\mathbb{E}(\bar{y}_{sy})=\bar{Y}. \]

当\(N=nk\)时，每一个样本被抽中的可能性为\(\dfrac{1}{k}\)，故

\[\mathbb{E}(\bar{y}_{sy})=\sum_{r=1}^{k}\frac{1}{k}\cdot \bar{Y}_r=\frac{1}{k}\sum_{r=1}^{k}\frac{1}{n}\sum_{j=1}^{n}Y_{rj}=\frac{1}{nk}\sum_{r=1}^{k}\sum_{j=1}^{n}Y_{rj}=\bar{Y}. \]

系统均值误差估计

由\(\mathbb{E}(\bar{y}_{sy})=\bar{Y}\)，得到\(\bar{y}_{sy}\)的方差为

\[\mathbb{D}(\bar{y}_{sy})=\mathbb{E}(\bar{y}_{sy}-\bar{Y})^2=\frac{1}{k}\sum_{r=1}^{k}(\bar{Y}_r-\bar{Y})^2. \]

注意里的定义中，我们采用的是\(\dfrac{1}{k}\)而非\(\dfrac{1}{k-1}\)作为权数，即这里的方差是基于期望定义的。

定理：\(\bar{y}_{st}\)的方差为

\[\mathbb{D}(\bar{y}_{st})=\frac{N-1}{N}S^2-\frac{k(n-1)}{N}S_{wsy}^2 \]
这里

\[S^2=\frac{1}{N-1}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2,\\ S_{wsy}^2=\frac{1}{k}\sum_{r=1}^{k}\frac{1}{n-1}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2. \]
分别代表总体方差和群内方差。

将总体方差进行分解，得到

\[\begin{aligned} (N-1)S^2&=\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2\\ &=\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2+\sum_{r=1}^{k}\sum_{j=1}^{n}(\bar{Y}_r-\bar{Y})^2\\ &=n\sum_{r=1}^{k}(\bar{Y}_r-\bar{Y})^2+\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2\\ &=\frac{N}{k}\sum_{r=1}^{k}\left(\bar{Y}_r-\bar{Y} \right)^2+\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2\\ \frac{1}{k}\sum_{r=1}^{k}(\bar{Y}_{r}-\bar{Y})^2&=\frac{N-1}{N}S^2-\frac{1}{N}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2. \end{aligned} \]

上式左端即为\(\mathbb{D}(\bar{y}_{sy})\)，而

\[\frac{k(n-1)}{N}S_{wsy}^2=\frac{1}{N}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2, \]

这就证明原式。

结论：系统抽样比简单随机抽样更为精确的条件是

\[\mathbb{D}(\bar{y}_{sy})<\mathbb{D}(\bar{y}_{srs})\Rightarrow S_{wsy}^2>S^2. \]
这里\(S_{wsy}^2\)是群内方差。故如想提升系统抽样的精度，需想办法设计一个排序方式，使系统样本群内方差尽可能大，这是为使每一个系统样本都接近理想的群：群内差异大，群间差异小。

由\(\displaystyle{\mathbb{D}(\bar{y}_{srs})=\frac{1-f}{n}S^2}\)，结合\(f=\dfrac{n}{N}=\dfrac{1}{k}\)，可得

\[\begin{aligned} \mathbb{D}(\bar{y}_{sy})-\mathbb{D}(\bar{y}_{srs})&=\frac{N-1}{N}S^2-\frac{k(n-1)}{N}S_{wsy}^2-\frac{1-f}{n}S^2\\ &=\left(\frac{N-1}{N}-\frac{N-n}{Nn} \right)S^2-\frac{k(n-1)}{N}S_{wsy}^2\\ &=\frac{N-k}{N}S^2-\frac{k(n-1)}{N}S_{wsy}^2\\ &=\frac{N-k}{N}(S^2-S_{wsy}^2). \end{aligned} \]

从而只要\(S_{wsy}^2>S^2\)，就有\(\mathbb{D}(\bar{y}_{sy})<\mathbb{D}(\bar{y}_{srs})\)。

定理：利用整群抽样的结果，\(\bar{y}_{sy}\)的方差可表示为

\[\mathbb{D}(\bar{y}_{sy})=\frac{S^2}{n}\left(\frac{N-1}{N} \right)[1+(n-1)\rho_{wsy}], \]
这里\(\rho_{wsy}\)为群内相关系数，即

\[\rho_{wsy}=\frac{\mathrm{E}(Y_{rj}-\bar{Y})(Y_{ru}-\bar{Y})}{\mathrm{E}(Y_{rj}-\bar{Y})^2}, \]
\(\mathrm{E}\)代表所有这种类型的算式的平均值。

定理：利用分层抽样的结果，\(\bar{y}_{sy}\)的方差可表示为

\[\mathbb{D}(\bar{y}_{sy})=\frac{1-f}{n}S_{wst}^2[1+(n-1)\rho_{wst}], \]
这里\(S_{wst}^2\)为层内方差，\(\rho_{wst}\)为同一系统样本内对层均值离差的相关系数，有

\[S_{wst}^2=\frac{1}{n(k-1)}\sum_{j=1}^{n}\sum_{r=1}^{k}(y_{rj}-\bar{y}_{\cdot j})^2,\\ \rho_{wst}=\frac{\mathrm{E}(y_{rj}-\bar{y}_{\cdot j})(y_{ru}-\bar{y}_{\cdot u})}{\mathrm{E}(y_{rj}-\bar{y}_{\cdot j})}. \]
当\(\rho_{wst}>0\)时，系统抽样的精度低于分层随机抽样；当\(\rho_{wst}<0\)时，系统抽样的精度高于分层随机抽样。

最后，以下定理指出，对同一总体的所有可能排序进行系统抽样，如果样本量\(n\)相等，则对应于\(N\)个单元所有可能排列顺序的\(\mathbb{D}(\bar{y}_{st})\)，有

\[\mathbb{E}[\mathbb{D}(\bar{y}_{st})]=\mathbb{D}(\bar{y}). \]

这里\(\mathbb{D}(\bar y)\)是简单随机抽样的样本均值的方差。

不等概系统抽样概述

不等概系统抽样基于\(\mathrm{\pi PS}\)抽样进行。

对\(N\)个初级单元的某种确定排列顺序，设第\(i\)个初级单元所包含的次级或基本单元数为\(M_i\)，\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。令包含概率为

\[\pi_i=\frac{nM_i}{M_0}, \]
这样\(\displaystyle{\sum_{i=1}^{N}\pi_i=n}\)。
随机抽取\(r\in[0,1]\)，使满足条件

\[\sum_{j=1}^{ik-1}\pi_j<r+k, \\ \sum_{j=1}^{ik}\pi_j\ge r+k.\\ k=0,1,\cdots,n-1 \]
的第\(i_0,i_1,\cdots,i_{n-1}\)个初级单元进入样本。

二重抽样

二重抽样概述

二重抽样指在抽样时分两步，每一步抽取一个样本。一般抽取一个较大的样本\(n'\)，对其进行调查获取总体的某些辅助信息；再进行第二重抽样，抽取相对小的样本\(n\)，但第二重抽样才是主调查。换言之，第一次抽取是为了获得分层资料，调查费用较低，然后利用第一次调查获得的分层资料进行一次小样本的分层抽样。

利用简单随机抽样，从总体的\(N\)个单位中，随机抽取第一重样本，样本单位数为\(n'\)。
根据已知的分层标志将第一重样本分层，第\(h\)层的单元数为\(n_h'\)，令\(w_h'=\dfrac{n_k'}{n'}\)，\(h=1,2,\cdots,L\)，则\(w'\)是总体层权\(W_h\)的无偏估计。
利用分层随机抽样，从第一重样本中抽取第二重样本，样本单位数为\(n\)，第\(h\)层样本单位数为\(n_h\)，\(n=\displaystyle{\sum_{h=1}^{L}n_h}\)。

注意到二重抽样也是一种两阶段抽样，故两阶段抽样的基本原则仍然适用；而其第一阶段是简单随机抽样，第二阶段是一种分层随机抽样，故在\(w_h'=W_h\)的前提下，分层抽样的结果仍然适用。

在进行下述讨论前，首先规定符号：

层数：用\(h\)表示，\(h=1,2,\cdots,L\)。
单元数：总体第\(h\)层单元数用\(N_h\)表示，第一重样本第\(h\)层的单元数用\(n_h'\)表示，第二重样本第\(h\)层的单元数用\(n_h\)表示。显然有

\[N=\sum_{h=1}^{L}N_h,\quad n'=\sum_{h=1}^{L}n_h',\quad n=\sum_{h=1}^{L}n_h. \]
层权与抽样比：总体第\(h\)层的权重为\(W_h=\dfrac{N_h}{N}\)，第一重样本第\(h\)层的权重为\(w_h'=\dfrac{n_h'}{n'}\)，第二重样本第\(h\)层的抽样比为\(f_{sD}=\dfrac{n_h}{n_h'}\)。
相关统计指标：第二重样本第\(h\)层第\(j\)单元观测值为\(y_{hj}\)。

总体均值的估计

以下，\(\bar y'\)为第一重抽样的样本均值，为对其进行估计，对第二重样本采用分层随机抽样，则

\[\mathbb{E}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)=\bar{y}',\quad \mathbb{D}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)=\sum_{h=1}^{L}\frac{w_h'^{2}s_h'^{2}}{n_h}-\sum_{h=1}^{L}\frac{w_h'^{2}s_h'^{2}}{n'}. \]

采用二重分层抽样，对总体均值\(\bar{Y}\)的估计量为：

\[\bar{y}_{stD}=\sum_{h=1}^{L}w_h'\bar{y}_h. \]

定理：\(\bar{y}_{stD}\)是\(\bar{Y}\)的无偏估计，即

\[\mathbb{E}(\bar{y}_{stD})=\bar{Y}. \]

此时，第二重样本第\(h\)层样本均值\(\bar{y}_h\)是第一重样本第\(h\)层均值\(\bar{y}_h'\)的无偏估计，则

\[\begin{aligned} \mathbb{E}(\bar{y}_{stD})&=\mathbb{E}_1\mathbb{E}_2(\bar{y}_{stD})\\ &=\mathbb{E}_1\mathbb{E}_2\left(\sum_{h=1}^{L}w'_h\bar{y}_h \right)\\ &=\mathbb{E}_1\left(\sum_{h=1}^{L}w_h'\bar{y}_h' \right)\\ &=\mathbb{E}_1(\bar{y}')\\ &=\bar{Y}. \end{aligned} \]

此处，第三个等式利用\(\mathbb{E}_2(\bar{y}_h)=\bar{y}_h'\)。

定理：\(\bar{y}_{stD}\)的方差为

\[\mathbb{D}(\bar{y}_{stD})=\left(\frac{1}{n'}-\frac{1}{N} \right)S^2+\sum_{h=1}^{L}\frac{W_hS_h^2}{n'}\left(\frac{1}{f_{hD}}-1 \right). \]

此时

\[\mathbb{D}(\bar{y}_{stD})=\mathbb{D}_1\mathbb{E}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)+\mathbb{E}_1\mathbb{D}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right), \]

第一项有

\[\mathbb{D}_1\mathbb{E}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)=\mathbb{D}_1\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)=\mathbb{D}_1(\bar{y}')=\left(\frac{1}{n'}-\frac{1}{N} \right)S^2. \]

第二项有

\[\begin{aligned} \mathbb{E}_1\mathbb{D}_2\left(\sum_{h=1}^{L}w_h'\bar{y}_h \right)&=\mathbb{E}_1\left[\sum_{h=1}^{L}{w_h'^{2}s_h'^2}\left(\frac{1}{n_h}-\frac{1}{n_h'} \right) \right]\\ &=\mathbb{E}_1\left[\frac{w_h's_h'^2}{n'}\left(\frac{1}{f_{hD}}-1 \right) \right]\\ &=\frac{1}{n'}\sum_{h=1}^{L}\left(\frac{1}{f_{hD}}-1 \right)\mathbb{E}_1(w_h's_h'^2)\\ &=\sum_{h=1}^{L}\frac{W_hS_h^2}{n'}\left(\frac{1}{f_{hD}}-1 \right). \end{aligned} \]

这里，\(\mathbb{E}_1(w_h's_h'^2)=W_hS_h^2\)，需要基于\(w_h'\)固定的条件。

定理：为估计\(\mathbb{D}(\bar{y}_{stD})\)，其近似无偏估计为

\[v(\bar{y}_{stD})=\sum_{h=1}^{L}\left(\frac{1}{n_h}-\frac{1}{n_h'} \right)w_h'^2s_h^2+\left(\frac{1}{n'}-\frac{1}{N} \right)\sum_{h=1}^{L}w_h'(\bar{y}_h-\bar{y}_{stD})^2. \]
当\(\dfrac{n_h}{n_h'}\)和\(\dfrac{n'}{N}\)都可以忽略不计时，上式简化为

\[v(\bar{y}_{stD})\approx \sum_{h=1}^{L}\frac{w_h'^2s_h^2}{n_h}+\frac{1}{n'}\sum_{h=1}^{L}w_h'(\bar{y}_h-\bar{y}_{stD}). \]

样本量分配

假设第一重抽样的单位平均调查费用为\(c_1\)，第二重抽样第\(h\)层的平均调查费用为\(c_{2h}\)，则费用函数为

\[C_{T}=c_1n'+\sum_{h=1}^{L}c_{2h}n_h,\\ \mathbb{E}(C_{T})=C_{T}^*=c_1n'+n'\sum_{h=1}^{L}c_{2h}f_{hD}W_h. \]

定理：在一定的约束下使估计方差最小化，有

\[f_{hD}=S_h\sqrt{\frac{c_1}{c_{2h}\left(S^2-\sum\limits_{h=1}^{L}W_hS_h^2 \right)}},\\ n'=\frac{C_{T}^*}{c_1+\sum\limits_{h=1}^{L}c_{2h}W_hf_{hD}}. \]

二重抽样比估计

在实际工作中，如果辅助变量的信息未知，可以利用二重抽样进行比估计。其步骤为

从总体的\(N\)个单位中随机抽取单位数为\(n'\)的第一重样本，仅观察其辅助变量信息，用辅助变量的样本均值\(\bar{x}'=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i'}\)估计总体均值\(\bar{X}\)。
从第一重样本中随机抽取单位数为\(n\)的第二重样本，观测其研究变量\(y\)和辅助变量\(x\)，计算\(\hat{R}=\dfrac{\bar{y}}{\bar{x}}\)，构造比估计。

基于此思想，构造出的比估计为

\[\bar{y}_{RD}=\frac{\bar{y}}{\bar{x}}x'. \]

其相关性质如下：

二重抽样比估计\(\bar{y}_{RD}\)是有偏估计，当第二重样本容量\(n\)足够大时，\(\bar{y}_{RD}\)是近似无偏估计，即

\[\mathbb{E}(\bar{y}_{RD})\approx\bar{Y}. \]
\(\bar{y}_{RD}\)的方差近似为

\[\mathbb{D}(\bar{y}_{RD})\approx\left(\frac{1}{n'}-\frac{1}{N} \right)S_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(S_y^2+R^2S_x^2-2RS_{yx}). \]
通常\(\dfrac{1}{N}\)可忽略，于是

\[\mathbb{D}(\bar{y}_{RD})\approx\frac{1}{n}S_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(R^2S_x^2-2RS_{yx}). \]
为估计\(\mathbb{D}(\bar{y}_{RD})\)，常使用

\[v(\bar{y}_{RD})=\frac{1}{n}s_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(\hat{R}^2s_x^2-2\hat{R}s_{yx}). \]

比估计的样本分配问题：由于第二重抽样采用简单随机抽样，故令抽样比为\(f=\dfrac{n}{n'}\)，费用函数为

\[C_{T}^*=c_1n'+c_2n'f, \]

有

\[f=\sqrt{\frac{c_1(S_y^2+R^2S_x^2-2RS_{yx})}{c_2(2RS_{yx}-R^2S_x^2)}},\\ n'=\frac{C_{T}^*}{c_1+c_2f}. \]

捕获再捕获抽样

即标记重捕法，符号规定为：

\(n_1\)：第一次抽样的样本量。
\(n_2\)：第二次抽样的样本量。
\(m\)：第二次捕获带标记的动物数量。

在上述记号下，有偏的比率估计为

\[\hat{N}=\frac{n_1n_2}{m}. \]

比率估计同时也是极大似然估计，其方差估计为

\[v(\hat{N})=\frac{n_1^2n_2(n_2-m)}{m^3}. \]

如果样本量较少，\(\hat{N}\)的偏差可能会很大，尤其是\(m=0\)是\(\hat{N}=\infty\)。

Chapman提出一个偏差较小的估计：

\[\tilde{N}=\frac{(n_1+1)(n_2+1)}{m+1}-1,\\ v(\tilde{N})=\frac{(n_1+1)(n_2+1)(n_1-m)(n_2-m)}{(m+1)^2(m+2)}. \]

posted @ 2021-06-29 10:16 江景景景页阅读(1203) 评论(0) 收藏举报

刷新页面返回顶部

江景景景页

【抽样调查】其他抽样

第6部分 其他抽样

系统抽样

系统抽样概述

等概率系统抽样

总体均值的估计

系统均值误差估计

不等概系统抽样概述

二重抽样

二重抽样概述

总体均值的估计

样本量分配

二重抽样比估计

捕获再捕获抽样

公告

第6部分其他抽样