置信区间的理解

作者:匿名用户
链接:https://www.zhihu.com/question/26419030/answer/1662491473
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

首先我们要清楚我们面对的问题是什么:我们有一些data(X1,X2....Xn),n是样本的个数,n是固定的,这些data来自某一种分布,比方说 [公式] , 已知 [公式] ,不知道 [公式] 是什么,但这个[公式] 是客观存在的某个常数,就是我们感兴趣的参数。

我们希望通过手上有的data来猜测这个[公式]是什么。要注意的是在你拿到这些data之前你也不知道你的X1, X2...Xn 会取什么值,你只知道他们服从 [公式]

假设你现在拿到了一组data,它们是(1,2,3,4,5),(所以 n = 5 )那这时候你会猜[公式]是什么呢?

 

##点估计

你可以猜 [公式] 是它们的平均值[公式],也有的人觉得后面来的两个data很不靠谱,就猜前三个数的平均值,也有的人很牛逼,data都不看,闭眼猜 [公式] 是0,这些都是估计量,叫estimator。(只不过肯定有好有坏吧?而如何衡量这种好坏?一般来说就是选一个loss function然后通过比较loss function来决定。这里我不展开了)就拿平均值这个estimator来说吧,因为在很多标准下,它还不错。所以,对每一组随机生成出来的data,我都用这组data的平均值[公式] 来猜测[公式]

estimator: [公式] (注意哦这个[公式]也是个随机变量哦!每一次拿到不同的data,都有不同的平均值,一份data就只有一个估计)

问题来了,这样会不会有点太草率?我就给出一个数字,比如上面的例子,平均值是3,我就猜[公式]是3,这样是不是太草率了?

如果我要是猜[公式]可能的取值范围是在[2,4] 是否更合理一些?

所以人们想出来了区间估计的概念

##区间估计

严谨地给出定义来说,confidence interval (CI) 是confidence region的一个特例,confidence region 就是一堆堆随机变量 (RV)的集合CI就是当这个集合是一个区间形式的特例,[L(X), U(X)] 这时候的CI就由两个随机变量所决定。

注意,L(X) and U(X) 都是RV,和上面的单个的点估计里的[公式]一样都是随机变量。

但这还不完整,CI还有一个概念就是这个 [公式] (就是题目中的95% 的概念)。这个[公式]的意义其实就在于,你既然要给出一个区间,那要给出一个多宽的区间呢?你不猜3,想猜[2,4]那能不能猜[1, 5]呢?可以!这个 [公式] 的作用就是在于衡量你这个区间的长度的。

所以我们说CI的时候,是不能离开[公式]来说的。先比方说假设人为选择了[公式]=0.05,那么我们就有了(1-[公式])= 95%CI的概念了。

而所谓的*参数的95%的CI*准确的数学定义是,我感兴趣的参数 [公式] (fixed constant)被这个CI(记住!是由两个随机变量所决定!)所cover的概率是95%

[公式] (*)

你看,点估计就是给一个estimator(比如 [公式] ,which is also a RV,根据你的data来取值的) 而区间估计也是给RV,不过给了两个,然后围成一个interval而已。

记住啊![公式]是确确定定的,fixed的,上帝决定的!你的办法是想出L(X), U(X)使得上面的式子成立。期中L(X), U(X)都是随机变量,是X的function。

比如你可以猜L(X) = [公式] - c1, U(X) = [公式] + c2. 其中的c1,c2是某两个常数你要选好的,并且满足(*)

比如利用[公式][公式] 这个事实,我们有这个事实:

[公式]

变一下式子你就发现:

[公式]

yeah!那我们不就找到了L(X) 和U(X) 了嘛!!

[公式]

也就是说你不简简单单猜 [公式] = [公式], 你猜的是 [公式]

回到上面那个例子,你拿到的那组data的时候,你不想暴力的就给一个点估计,猜测[公式] = [公式] = 3,

你给出了一个区间,你猜测 [公式] (假设 [公式] =1)

okay,回顾上面的过程,你就会发现,你有一组data(1,2,3,4,5)的时候,你就可以给出一个相应的CI,和之前的点估计一个道理,他们本是随机变量,一份data相当于一个realization,一份data就只能得到一次估计值。

而当你拿到N组这样的data的时候,你就可以construct相应的N个CI。

而你再回过头看看CI的定义的时候,你就知道,那个95%的含义是什么了。就是说在100次你拿到的data里,你construct的100个CI里,有大约95%的概率也就是大约有95个会cover这个真实的 [公式]

而当你只有一组数据的时候,你就只construct了一个CI,这个时候,这个CI要么cover [公式] 要么不cover!(再说一遍![公式]是固定好的,上帝知道的常数!)

那种什么“这个CI有95%的概率cover这个theta的说法”都是错误的!这个CI要么cover要么不cover!95%指的是你建立这个CI的*过程*中或者说在不同组data的realization下有95%概率cover

另外,其实只要满足了(*)的L(X), U(X) 就是95% CI,所以,L(X), U(X)当然不是唯一的,相应的你也可以找别的c1,c2,只要满足(*)就行。只不过人们通常选择1.96那个formula

posted @ 2022-07-22 18:10  鸭子船长  阅读(141)  评论(0编辑  收藏  举报