数据统计分析 — 抽样分布

统计推断

从数据得到关于现实世界的结论的过程就叫做 统计推断(statistical inference)

就是根据你拥有的信息来对现实世界进行某种判断
我们在生活中的推断
可以根据一个人的衣着、言谈和举止判断其身份
看一个脸色,来判断心情好坏,身体状况
统计中的推断也不例外,只不过它是完全依据数据做出的
因为我们在实际工作中,往往只能通过样本去推估总体,所以统计推断非常重要
重要提示:任何一个总体参数都可以进行统计推断
例:配件日消耗量的均数、中位数、标准差等等,都是可以进行统计推断的
但是目前比较成熟,用的最多的就是对于均值的推断
应用场景:

基于配件A的领用历史数据,我们能否估计出其总体日均领用量的大致范围?

解决方案:
最简单的方式:样本均数就等于总体均数,但是这个到底对不对,有点太没有说服力了给定一个范围是不是更准确一些

抽样误差与标准误

抽样误差: 由样本导致的样平均数与相应的总体均数在数值上的差异

抽样误差 = 总体均数 - 样平均数

但不知道 总体均数,实际上抽样误差是无法计算的,所以考虑进行无限多次抽样,看是不是存在某种规律,根据规律再去估算抽样误差大小

从统计总体的角度来看,其实就是要回答对于一个相同的总体,如果我们从中进行抽样研究的话,则相应的样本统计量(例如均数)的离散程度是怎样的。

例:研究人群为上海成年男性,研究指标为脉搏每分钟跳动次数
假设随机在华东地区按样本量为25抽取样本,并测量其脉搏,每个样本计算样本均数,如果重复10000次抽样,则会得到10000次样本均数

显然,样本均数存在随机变异,但在大量重复观察的情况下,可以证明同样有一定的规律,即:样本均数的概率分布。
image
image

中心极限定理
设从均值为 μ,方差为 \(\sigma^2\) (有限)的任意一个总体中抽取样本量为n样本,当n充分大时,样本均值 \(\bar{x}\) 的抽样分布近似服从均值为μ,方差为 \(\sigma^2/n\) 的正态分布。

也就是说,你抽取n个样本,每个样本的均值近似服从的正态分布。
image
https://www.bilibili.com/video/BV1ye4y1E7dn 8分10秒

大数定律和中心极限定理
大数定理是在当时间发生次数趋近无穷之后,强调样本平均数会依概率收敛与原分布的期望,比如投一枚硬币正反两面都可以,正面记为1,反面为0,那么期望为0.5。当次数无穷之后(或者理解为很大)那么那么多时间的平均期望会离0.5非常近。

中心极限定理用一句话来理解,次数发生很多之后(次数要求没有大数定理的次数高),样本均值近似服从N(μ,\(\sigma^2/n\))的正态分布。
然后再来看,当我们中心极限定理的n次数非常大,就会发现方差无限接近于0,就意味着一直在均值附近了,那么也就是我们的大数定理了
当样本量大于等于30时,样本均数则默认是服从正态分布,对于总体是否是正态都适用。
image
显然,影响抽样误差大小的因素有两个

  • 总体内各个体间的变异程度
  • 样本含量N的大小

如:1、2、3、4、5、6 ,随机抽取 2、4、5,
样本均值 = (2+4+5)/3
总体均值 = (1+2+3+4+5+60)/6

使用标准误,我们就可以知道如果使用样本统计量(如均数)来估计总体参数,可能的变动范围是多大,从而提高结论的实用性。
但是实际上,我们对于总体标准差并不知道,因此只能用样本标准差S来代替,从而均数标准误的估计公式为
image
如果使用总体标准差进行计算,则
image
是服从标准正态分布的

但是如果用样本标准差进行估计,则
image
是服从t分布的

由标准正态分布推导出的其他分布:卡方分布、t分布、F分布

从总体(容量为N个体)多次取出样本(容量为n个体),通过n的某个统计量的情况,来预估总体的情况

抽样

  • 从有限总体的抽样

    简单随机样本(有限总体):从容量N的有限总体中抽取一个容量n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本

  • 从无限总体的抽样

    随机样本(无限总体):如果从一个无限总体中抽取一个容量为n的样本,抽取的每个个体来自同一总体,每个个体的抽取是独立的,则称该样本是一个随机样本

抽样分布

样本均值 \(\bar{x} \Rightarrow\) 总体均值 \(\mu\) ,样本的均值是总体均值的点估计

我们从总体N中抽取样本n,抽一次我们可以得出这个样本的均值 \(\bar{x}\) 1,再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 2,再抽一次又可以得出这个新样本的均值 \(\bar{x}\) 3 ··········

可以看出样本均值 \(\bar{x}\) 是一个随机变量,它是对每一次试验结果的一个数值描述,样本均值 \(\bar{x}\) 也有均值,标准差和概率分布。

即: \(\bar{x}\) 的抽样分布是样本均值 \(\bar{x}\) 的所有可能值的概率分布。

性质:

\(E(\bar{x}) = \mu\) ,式中, \(E(\bar{x})\)\(\bar{x}\) 的数学期望, \(\mu\) 是总体均值
这个意思是说,对于简单随机抽样, \(\bar{x}\) 的抽样分布的均值或数学期望等于总体的均值【看这里,我们通过不断抽样样本得到的一系列均值,然后这些均值的均值就是总体的均值】

\(\bar{x}\) 的标准差(为了跟总体的标准差区别,我们称它为标准误差
image
有限总体
image
无限总体

在实际抽样中,我们发现虽然总体是有限的,但容量很“大”,相对而言样本容量很“小”,这是可以忽略有限总体和无限总体标准差的区别。

我们采用的一个指导方针或经验法则,当 n / N ≤ 0.05时, \(\bar{x}\) 的标准差是:
image

\(\bar{x}\) 的抽样分布的形状

总体服从正态分布

当总体服从正态分布,在任何样本容量下 \(\bar{x}\) 的抽样分布都是正态分布

总体不服从正态分布

上一篇说了正态分布超级重要,这里你看总体不服从正态分布,那我的样本咋个搞,数学家和统计学家教你做人,“中心极限定理”了解一下,总之总是能给你靠近正态分布,就是这么不讲道理。

中心极限定理: 从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值 \(\bar{x}\) 的抽样分布近似服从正态分布。
image
那样本容量达到多少时近似正态,对于大多数应用,假定当 样本容量 ≥30 时, \(\bar{x}\) 的抽样分布可用正态分布近似,当总体是严重偏态或出现异常点,可能需要样本容量达到 50

点估计

  • 无偏性
    image
    如果样本统计量期望等于总体统计量,则这是个无偏估计

  • 有效性
    对同一总体参数,如果有多个无偏估计量,那么标准差最小的估计量更有效。因为一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须和总体参数的离散程度比较小

  • 一致性
    一致性是指随着样本量的增大,点估计的值越来越接近被估计的总体的参数

区间估计

因为不可能期望点估计能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差的值来计算区间估计,故区间估计的形式为:点估计 ± 边际误差

1.总体均值的区间估计: \(\sigma\) 已知情况

举个例子,一个公司每周选择100名顾客组成一个简单随机样本,目的是为了了解他们每次购物的消费额 x,样本均值 \(\bar{x}\) 是公司全体顾客每次购物消费额的总体均值 \(μ\) 的点估计,历史数据表明数据总体服从正态分布, \(\sigma\) =20.

最近一周,公司抽取了100名顾客,得到样本均值 \(\bar{x}\) =82,每次购物消费额的样本均值是总体均值的点估计,再确定 \(\bar{x}\) 的抽样分布的标准误差(由上面公式可得)等于2,而抽样分布的 \(\bar{x}\) 是分布在总体均值 \mu 附近的。

我们通过查标准正态分布表,任何正态分布随机变量都有95%的值在均值 ± 1.96×标准误差以内,这里计算后写成:在n=100的样本容量下, \(\bar{x}\) 的所有值中有95%落在总体均值 \(\mu\pm3.92\) 以内,如下图:
image
这里的95%是我们自己定的,这个值叫做“置信水平”或者“置信系数”,而区间 \(\mu\pm3.92\) 叫做“置信区间”,最后我们总结一下公式形式:

总体σ已知时,总体均值的区间估计

式中,1 - \(\alpha\) 是置信系数, \(z_{\alpha/2}\) 表示标准正态概率分布右侧面积为 \(\alpha/2\) 时的 \(z\) 值.

常用的置信水平下的 z 值

2.总体均值的区间估计: \(\sigma\) 未知情况

当总体的 \(\mu,\sigma\) 都是未知参数时,咋个搞?我们可以用样本标准差 s 去估计 \(\sigma\) ,此时边际误差和总体均值的区间估计都以 t 分布的概率分布为依据,虽然t 分布的数学推导假设抽样总体服从正态分布,但实践表明,即使总体分布显著偏离正态分布,利用t 分布的效果还是不错的(没错,正态分布就是这么不讲道理)

t 分布是由一类相似的概率分布组成的分布族,某个特定的t 分布依赖于“自由度”参数,随着自由度的增大,t分布与标准正态分布的差别越来越小(正态分布NB),且t 分布的均值为0

所以上面的公式我们变形一下:

总体σ未知时,总体均值的区间估计

式中,s为样本标准差,1-α 为置信系数,自由度为n-1的t 分布中, \(t_{\alpha/2}\) 上侧的面积恰好等于 \(\alpha/2\)

s 作为总体标准差的估计值,与式中t值对应的自由度为n -1,标准差公式为:
image

样本标准差
自由度是计算 \(\sum_{}^{}{(x_{i}-\bar{x})^{2}}\) 时所用到的独立信息个数,因为任何数据集 \(\sum_{}^{}{(x_{i}-\bar{x})}=0\) ,因此只要知道n-1个值就可以确定余下的值(就是说知道n-1个数就知道了n个数),因此上面区间估计公式中t 分布的自由度是n-1.

注:

如果总体服从正态分布,以上的区间估计公式所给出的置信区间是精确的,并适用于任何样本容量。如果总体不服从正态分布,这给出的置信区间时近似的,近似的程度依赖于总体分布和样本容量。

在绝大部分应用中,样本容量n≥30已经足够大了,如果总体分布严重偏斜或有异常点,建议样本容量增加到50及以上,如果总体分布不是正态分布但大致对称,则样本容量达到15就可以了。

https://zhuanlan.zhihu.com/p/123314439

posted @ 2023-11-01 12:21  VipSoft  阅读(79)  评论(0编辑  收藏  举报