数据统计分析 — 抽样分布

统计推断

从数据得到关于现实世界的结论的过程就叫做 统计推断(statistical inference)

就是根据你拥有的信息来对现实世界进行某种判断
我们在生活中的推断
可以根据一个人的衣着、言谈和举止判断其身份
看一个脸色，来判断心情好坏，身体状况
统计中的推断也不例外，只不过它是完全依据数据做出的
因为我们在实际工作中，往往只能通过样本去推估总体，所以统计推断非常重要
重要提示：任何一个总体参数都可以进行统计推断
例：配件日消耗量的均数、中位数、标准差等等，都是可以进行统计推断的
但是目前比较成熟，用的最多的就是对于均值的推断
应用场景：

基于配件A的领用历史数据，我们能否估计出其总体日均领用量的大致范围？

解决方案：
最简单的方式：样本均数就等于总体均数，但是这个到底对不对，有点太没有说服力了给定一个范围是不是更准确一些

抽样误差与标准误

抽样误差： 由样本导致的样平均数与相应的总体均数在数值上的差异

抽样误差 = 总体均数 - 样平均数

但不知道总体均数，实际上抽样误差是无法计算的，所以考虑进行无限多次抽样，看是不是存在某种规律，根据规律再去估算抽样误差大小

从统计总体的角度来看，其实就是要回答对于一个相同的总体，如果我们从中进行抽样研究的话，则相应的样本统计量(例如均数)的离散程度是怎样的。

例：研究人群为上海成年男性，研究指标为脉搏每分钟跳动次数
假设随机在华东地区按样本量为25抽取样本，并测量其脉搏，每个样本计算样本均数，如果重复10000次抽样，则会得到10000次样本均数

显然，样本均数存在随机变异，但在大量重复观察的情况下，可以证明同样有一定的规律，即：样本均数的概率分布。

中心极限定理
设从均值为 μ，方差为 \(\sigma^2\) （有限）的任意一个总体中抽取样本量为n样本，当n充分大时，样本均值 \(\bar{x}\) 的抽样分布近似服从均值为μ，方差为 \(\sigma^2/n\) 的正态分布。

也就是说，你抽取n个样本，每个样本的均值近似服从的正态分布。

https://www.bilibili.com/video/BV1ye4y1E7dn 8分10秒

大数定律和中心极限定理
大数定理是在当时间发生次数趋近无穷之后，强调样本平均数会依概率收敛与原分布的期望，比如投一枚硬币正反两面都可以，正面记为1，反面为0，那么期望为0.5。当次数无穷之后(或者理解为很大)那么那么多时间的平均期望会离0.5非常近。

中心极限定理用一句话来理解，次数发生很多之后(次数要求没有大数定理的次数高)，样本均值近似服从N(μ,\(\sigma^2/n\))的正态分布。
然后再来看，当我们中心极限定理的n次数非常大，就会发现方差无限接近于0，就意味着一直在均值附近了，那么也就是我们的大数定理了
当样本量大于等于30时，样本均数则默认是服从正态分布，对于总体是否是正态都适用。

显然，影响抽样误差大小的因素有两个

总体内各个体间的变异程度
样本含量N的大小

如：1、2、3、4、5、6 ，随机抽取 2、4、5，
样本均值 = (2+4+5)/3
总体均值 = （1+2+3+4+5+60)/6

使用标准误，我们就可以知道如果使用样本统计量(如均数)来估计总体参数，可能的变动范围是多大，从而提高结论的实用性。
但是实际上，我们对于总体标准差并不知道，因此只能用样本标准差S来代替，从而均数标准误的估计公式为

如果使用总体标准差进行计算，则

是服从标准正态分布的

但是如果用样本标准差进行估计，则

是服从t分布的

由标准正态分布推导出的其他分布：卡方分布、t分布、F分布

从总体（容量为N个体）多次取出样本（容量为n个体），通过n的某个统计量的情况，来预估总体的情况

抽样

从有限总体的抽样

简单随机样本（有限总体）：从容量N的有限总体中抽取一个容量n的样本，如果容量为n的每一个可能的样本都以相等的概率被抽出，则称该样本为简单随机样本
从无限总体的抽样

随机样本（无限总体）：如果从一个无限总体中抽取一个容量为n的样本，抽取的每个个体来自同一总体，每个个体的抽取是独立的，则称该样本是一个随机样本

抽样分布

样本均值 \(\bar{x} \Rightarrow\) 总体均值 \(\mu\) ，样本的均值是总体均值的点估计

我们从总体N中抽取样本n，抽一次我们可以得出这个样本的均值 \(\bar{x}\) 1，再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 2，再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 3 ··········

可以看出样本均值 \(\bar{x}\) 是一个随机变量，它是对每一次试验结果的一个数值描述，样本均值 \(\bar{x}\) 也有均值，标准差和概率分布。

即： \(\bar{x}\) 的抽样分布是样本均值 \(\bar{x}\) 的所有可能值的概率分布。

性质：

\(E(\bar{x}) = \mu\) ，式中， \(E(\bar{x})\) 是 \(\bar{x}\) 的数学期望， \(\mu\) 是总体均值
这个意思是说，对于简单随机抽样， \(\bar{x}\) 的抽样分布的均值或数学期望等于总体的均值【看这里，我们通过不断抽样样本得到的一系列均值，然后这些均值的均值就是总体的均值】

\(\bar{x}\) 的标准差（为了跟总体的标准差区别，我们称它为标准误差）

有限总体

无限总体

在实际抽样中，我们发现虽然总体是有限的，但容量很“大”，相对而言样本容量很“小”，这是可以忽略有限总体和无限总体标准差的区别。

我们采用的一个指导方针或经验法则，当 n / N ≤ 0.05时， \(\bar{x}\) 的标准差是：

\(\bar{x}\) 的抽样分布的形状

总体服从正态分布

当总体服从正态分布，在任何样本容量下 \(\bar{x}\) 的抽样分布都是正态分布

总体不服从正态分布

上一篇说了正态分布超级重要，这里你看总体不服从正态分布，那我的样本咋个搞，数学家和统计学家教你做人，“中心极限定理”了解一下，总之总是能给你靠近正态分布，就是这么不讲道理。

中心极限定理： 从总体中抽取容量为n的简单随机样本，当样本容量很大时，样本均值 \(\bar{x}\) 的抽样分布近似服从正态分布。

那样本容量达到多少时近似正态，对于大多数应用，假定当 样本容量 ≥30 时， \(\bar{x}\) 的抽样分布可用正态分布近似，当总体是严重偏态或出现异常点，可能需要样本容量达到 50

点估计

无偏性

如果样本统计量期望等于总体统计量，则这是个无偏估计
有效性
对同一总体参数，如果有多个无偏估计量，那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数，它还必须和总体参数的离散程度比较小
一致性
一致性是指随着样本量的增大，点估计的值越来越接近被估计的总体的参数

区间估计

因为不可能期望点估计能给出总体参数的精确值，所以经常在点估计上加减一个被称为边际误差的值来计算区间估计，故区间估计的形式为：点估计 ± 边际误差

1.总体均值的区间估计： \(\sigma\) 已知情况

举个例子，一个公司每周选择100名顾客组成一个简单随机样本，目的是为了了解他们每次购物的消费额 x，样本均值 \(\bar{x}\) 是公司全体顾客每次购物消费额的总体均值 \(μ\) 的点估计，历史数据表明数据总体服从正态分布， \(\sigma\) =20.

最近一周，公司抽取了100名顾客，得到样本均值 \(\bar{x}\) =82，每次购物消费额的样本均值是总体均值的点估计，再确定 \(\bar{x}\) 的抽样分布的标准误差（由上面公式可得）等于2，而抽样分布的 \(\bar{x}\) 是分布在总体均值 \mu 附近的。

我们通过查标准正态分布表，任何正态分布随机变量都有95%的值在均值 ± 1.96×标准误差以内，这里计算后写成：在n=100的样本容量下， \(\bar{x}\) 的所有值中有95%落在总体均值 \(\mu\pm3.92\) 以内，如下图：

这里的95%是我们自己定的，这个值叫做“置信水平”或者“置信系数”，而区间 \(\mu\pm3.92\) 叫做“置信区间”，最后我们总结一下公式形式：

总体σ已知时，总体均值的区间估计

式中，1 - \(\alpha\) 是置信系数， \(z_{\alpha/2}\) 表示标准正态概率分布右侧面积为 \(\alpha/2\) 时的 \(z\) 值.

常用的置信水平下的 z 值

2.总体均值的区间估计： \(\sigma\) 未知情况

当总体的 \(\mu，\sigma\) 都是未知参数时，咋个搞？我们可以用样本标准差 s 去估计 \(\sigma\) ，此时边际误差和总体均值的区间估计都以 t 分布的概率分布为依据，虽然t 分布的数学推导假设抽样总体服从正态分布，但实践表明，即使总体分布显著偏离正态分布，利用t 分布的效果还是不错的（没错，正态分布就是这么不讲道理）

t 分布是由一类相似的概率分布组成的分布族，某个特定的t 分布依赖于“自由度”参数，随着自由度的增大，t分布与标准正态分布的差别越来越小（正态分布NB），且t 分布的均值为0

所以上面的公式我们变形一下：

总体σ未知时，总体均值的区间估计

式中，s为样本标准差，1-α 为置信系数，自由度为n-1的t 分布中， \(t_{\alpha/2}\) 上侧的面积恰好等于 \(\alpha/2\)

s 作为总体标准差的估计值，与式中t值对应的自由度为n -1，标准差公式为：

样本标准差
自由度是计算 \(\sum_{}^{}{(x_{i}-\bar{x})^{2}}\) 时所用到的独立信息个数，因为任何数据集 \(\sum_{}^{}{(x_{i}-\bar{x})}=0\) ，因此只要知道n-1个值就可以确定余下的值（就是说知道n-1个数就知道了n个数），因此上面区间估计公式中t 分布的自由度是n-1.

注：

如果总体服从正态分布，以上的区间估计公式所给出的置信区间是精确的，并适用于任何样本容量。如果总体不服从正态分布，这给出的置信区间时近似的，近似的程度依赖于总体分布和样本容量。

在绝大部分应用中，样本容量n≥30已经足够大了，如果总体分布严重偏斜或有异常点，建议样本容量增加到50及以上，如果总体分布不是正态分布但大致对称，则样本容量达到15就可以了。

https://zhuanlan.zhihu.com/p/123314439

posted @ 2023-11-01 12:21 VipSoft 阅读(482) 评论(0) 收藏举报

刷新页面返回顶部