打赏

[Statistic] 置信度

背景

调研总体的情况时,常因调研成本等原因难以对总体情况逐一调研给出完全准确的结论。常以随机抽样的方式,通过统计样本估计总体。

单次随机抽样的结果可以看做是对总体结果的近似,但仍有不准确性。比如某次抽样的准确率为64.7%。

那么在不知道总体真实值的情况下,此次抽样结果是否可信呢?或者可以以多大的概率相信呢?

这就引入了“置信度”的度量指标。

计算方法

在不确定总体数据分布的条件下,是很难直接得到某一个抽样值对应的置信度的,(如果可以就相当于可以获取总体真实值了),但是可以通过统计的方法,获取抽样结果在某一区间的置信度。

比如,我们很难说 64.7%这个抽样统计值的置信度是多少,但是我们可以通过统计的方法获取 抽样值落在 63%~66%的概率有多大,即抽样统计值落在 63%~67%区间内的置信度是多少。

 

各个区间内的置信度如何获取呢?

如果进行多次随机抽样,会得到随机抽样结果的分布。如64.7%, 65.3%,63%,67%...

我们可以根据这些结果得到 随机抽样结果的概率分布图。那么

$$ 统计值落在给定区间(a, b] 的置信度 = 随机抽样结果在(a, b]内的个数 / 总的随机抽样结果个数 $$

 

ex. 总体有3亿,但每次抽样1000个样本进行统计,抽样100次,其中抽样准确率在 (63%, 66%]的个数有80个,那么可以说,抽样结果在 (63%, 66%] 的置信度为80%。

如果某次抽样结果为64.7%,是落在(63%, 66%] 范围内的,那么可以说,我们以 80%的置信度认为 总体的准确率为64.7%。

 

参考链接:

1. 机器之心:https://baijiahao.baidu.com/s?id=1596169784713150436&wfr=spider&for=pc

2. 原文链接:https://towardsdatascience.com/a-very-friendly-introduction-to-confidence-intervals-9add126e714

 

posted @ 2021-01-08 18:06  listenviolet  阅读(977)  评论(0编辑  收藏  举报