样本和统计量

1. 样本空间

   随机试验 $E$ 的所有基本结果组成的集合为 $E$ 的样本空间。样本空间中的数据元素具有唯一性,不能重复。

 

2. 总体

   所研究对象的某项数量指标取值的全体称为总体,用随机变量 $X$ 表示。比如我们要研究亚洲人的身高分布,那所有亚洲人的身高数据就构成

   总体。总体中数据个数大于等于样本空间中的数据个数,比如 100 个人身高全为 2m,那么总体就是 100 个 2m,而样本空间就只有一个 2m。

 

3. 个体

   总体中的一个元素称为个体。比如某一个人的身高。

 

4. 简单随机样本

   由于总体太过庞大,我们总不能真的统计全部亚洲人的身高,于是我们采用抽样的手段,在亚洲人中抽出 10000 人,用这 10000 人的身高分布来代

   表总体的身高分布,这 10000 次抽样相互独立。我们现在只研究一次抽样:假如总体是 $\left \{ 0.1, 0.2, 0.2, 0.3, 0.3, 0.3 \right \}$,那么可以认为我们抽取出

   个人有 $\frac{1}{6}$ 的概率身高为 0.1,有 $\frac{1}{3}$ 的概率身高为 0.2,有 $\frac{1}{2}$ 的概率身高为 0.3。由于每次抽样之前,不会知道抽样的结果,所以一个机变量

   来示,将这 10000 次的抽样结果记为随机变量 $X_{1},X_{2},...X_{n}$,称为简单随机样本,简称样本,它们的具体观察值 $x_{1},x_{2},...x_{n}$ 称为样本值

   样本与总体同分布,每一个个体都是一维随机变量,所以样本是多维,总体是一维。这就和投硬币一样.投一次是一维随机变量.投多次是多维随机变量。

   注意:总体是概率分布角度,是理论上的,样本是统计角度,是实际观察到的,两者是不同的。

 

5. 统计量

   样本 $X_{1},X_{2},...X_{n}$ 不含参数的函数 $T = T(X_{1},X_{2},...X_{n})$ 称为统计量,也称样本统计量常见的样本统计量有:样本均值、样本方差等。

   我们需要认识到样本统计量本身也是一个随机变量,这是因为每次抽样的结果具有不确定性,即样本具有不确定性,那么样本的函数当然也具有不确定性。

 

6. 抽样分布

   样本统计量这个随机变量的分布即为抽样分布。总体数据那么大不可能一个一个的进行分析,只能拿一些样本分析,这样就需要抽样,但是我们要研

   究的并不是单纯的数据,而是数据的一些特征,如均值、方差等,所以对数据进行加工换算,得到样本统计量。以样本均值为例:

$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$$

   每经过一轮抽样(每轮 $n$ 次),会算出不同的样本均值,随着样本量 $n$ 的增大,不论总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布。

   那这个统计量如何同总体的特征联系起来呢?两者之间通过大数定律进行联系,当样本容量 $n$ 足够大时,有

$$\frac{1}{n}\sum_{i=1}^{n}X_{i}\overset{P}{\rightarrow}E(X)$$

   所以,样本足够大时,可以用样本均值来估计总体均值。

   那为什么研究统计量的分布呢?通过研究这个分布,目的是评估样本估计的合理性、有效性及误差等,如可以证明样本均值是总体均值的无偏估计:

$$E(\overline{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_{i}) = \frac{1}{n}\sum_{i=1}^{n}E(X_{i}) = \frac{1}{n} \cdot n \cdot E(X)=E(X)$$

 

posted @ 2020-07-11 20:27  _yanghh  阅读(1624)  评论(0编辑  收藏  举报