[Statistic] 置信度

背景

调研总体的情况时，常因调研成本等原因难以对总体情况逐一调研给出完全准确的结论。常以随机抽样的方式，通过统计样本估计总体。

单次随机抽样的结果可以看做是对总体结果的近似，但仍有不准确性。比如某次抽样的准确率为64.7%。

那么在不知道总体真实值的情况下，此次抽样结果是否可信呢？或者可以以多大的概率相信呢？

这就引入了“置信度”的度量指标。

在不确定总体数据分布的条件下，是很难直接得到某一个抽样值对应的置信度的，(如果可以就相当于可以获取总体真实值了)，但是可以通过统计的方法，获取抽样结果在某一区间的置信度。

比如，我们很难说 64.7%这个抽样统计值的置信度是多少，但是我们可以通过统计的方法获取抽样值落在 63%~66%的概率有多大，即抽样统计值落在 63%~67%区间内的置信度是多少。

各个区间内的置信度如何获取呢？

如果进行多次随机抽样，会得到随机抽样结果的分布。如64.7%， 65.3%，63%，67%...

我们可以根据这些结果得到随机抽样结果的概率分布图。那么

$$ 统计值落在给定区间(a, b] 的置信度 = 随机抽样结果在(a, b]内的个数 / 总的随机抽样结果个数 $$

ex. 总体有3亿，但每次抽样1000个样本进行统计，抽样100次，其中抽样准确率在 (63%, 66%]的个数有80个，那么可以说，抽样结果在 (63%, 66%] 的置信度为80%。

如果某次抽样结果为64.7%，是落在(63%, 66%] 范围内的，那么可以说，我们以 80%的置信度认为总体的准确率为64.7%。

参考链接：

posted @ 2021-01-08 18:06 listenviolet 阅读(1225) 评论(0) 收藏举报

刷新页面返回顶部