置信区间的理解

作者：匿名用户
链接：https://www.zhihu.com/question/26419030/answer/1662491473
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先我们要清楚我们面对的问题是什么：我们有一些data（X1，X2....Xn)，n是样本的个数，n是固定的，这些data来自某一种分布，比方说 $N(\theta, 1)$ , 已知 $\sigma^2 = 1$ ，不知道 $\theta$ 是什么，但这个 $\theta$ 是客观存在的某个常数，就是我们感兴趣的参数。

我们希望通过手上有的data来猜测这个 $\theta$ 是什么。要注意的是在你拿到这些data之前你也不知道你的X1, X2...Xn 会取什么值，你只知道他们服从 $N(\theta, 1)$ 。

假设你现在拿到了一组data，它们是（1，2，3，4，5），（所以 n = 5 ）那这时候你会猜 $\theta$ 是什么呢？

##点估计

你可以猜 $\theta$ 是它们的平均值 $\bar{X}$ ，也有的人觉得后面来的两个data很不靠谱，就猜前三个数的平均值，也有的人很牛逼，data都不看，闭眼猜 $\theta$ 是0，这些都是估计量，叫estimator。（只不过肯定有好有坏吧？而如何衡量这种好坏？一般来说就是选一个loss function然后通过比较loss function来决定。这里我不展开了）就拿平均值这个estimator来说吧，因为在很多标准下，它还不错。所以，对每一组随机生成出来的data，我都用这组data的平均值 $\bar{X}$ 来猜测 $\theta$ 。

estimator: $\bar{X}$ (注意哦这个 $\bar{X}$ 也是个随机变量哦！每一次拿到不同的data，都有不同的平均值，一份data就只有一个估计）

问题来了，这样会不会有点太草率？我就给出一个数字，比如上面的例子，平均值是3，我就猜 $\theta$ 是3，这样是不是太草率了？

如果我要是猜 $\theta$ 可能的取值范围是在[2，4] 是否更合理一些？

所以人们想出来了区间估计的概念

##区间估计

严谨地给出定义来说，confidence interval (CI) 是confidence region的一个特例，confidence region 就是一堆堆随机变量（RV）的集合，CI就是当这个集合是一个区间形式的特例，[L(X), U(X)] 这时候的CI就由两个随机变量所决定。

注意，L(X) and U(X) 都是RV，和上面的单个的点估计里的 $\bar{X}$ 一样都是随机变量。

但这还不完整，CI还有一个概念就是这个 $\alpha$ （就是题目中的95% 的概念）。这个 $\alpha$ 的意义其实就在于，你既然要给出一个区间，那要给出一个多宽的区间呢？你不猜3，想猜[2，4]那能不能猜[1, 5]呢？可以！这个 $\alpha$ 的作用就是在于衡量你这个区间的长度的。

所以我们说CI的时候，是不能离开 $\alpha$ 来说的。先比方说假设人为选择了 $\alpha$ =0.05，那么我们就有了（1- $\alpha$ ）= 95%CI的概念了。

而所谓的*参数的95%的CI*准确的数学定义是，我感兴趣的参数 $\theta$ （fixed constant）被这个CI（记住！是由两个随机变量所决定！）所cover的概率是95%

$P (\theta \in [L(X), U(X)]) = P(\theta \leq U(X)) + 1 - P(\theta \leq L(X))= 0.95$ （*）

你看，点估计就是给一个estimator（比如 $\bar{X}$ ，which is also a RV，根据你的data来取值的) 而区间估计也是给RV，不过给了两个，然后围成一个interval而已。

记住啊！ $\theta$ 是确确定定的，fixed的，上帝决定的！你的办法是想出L(X), U(X)使得上面的式子成立。期中L(X), U(X)都是随机变量，是X的function。

比如你可以猜L(X) = $\bar{X}$ - c1, U(X) = $\bar{X}$ + c2. 其中的c1，c2是某两个常数你要选好的，并且满足（*）

比如利用 $\bar{X}$ ～ $N ( \theta , \frac{\sigma^2}{n})$ 这个事实，我们有这个事实：

$P( - 1.96*\frac{\sigma}{\sqrt n } \leq \bar{X} - \theta \leq 1.96*\frac{\sigma}{\sqrt n } ) = 0.95$

变一下式子你就发现：

$P( \bar{X} - 1.96*\frac{\sigma}{\sqrt n } \leq \theta \leq \bar{X} + 1.96*\frac{\sigma}{\sqrt n } ) = 0.95$

yeah！那我们不就找到了L(X) 和U(X) 了嘛！！

$L(X) = \bar{X} - 1.96*\frac{\sigma}{\sqrt n }, U(X) = \bar{X} + 1.96*\frac{\sigma}{\sqrt n }$

也就是说你不简简单单猜 $\theta$ = $\bar{X}$ ，你猜的是 $\theta \in [ \bar{X} - 1.96*\frac{\sigma}{\sqrt n }, \bar{X} + 1.96*\frac{\sigma}{\sqrt n } ]$

回到上面那个例子，你拿到的那组data的时候，你不想暴力的就给一个点估计，猜测 $\theta$ = $\bar{X}$ = 3，

你给出了一个区间，你猜测 $\theta \in [ 3- 1.96*\frac{1}{\sqrt 5 }, 3+ 1.96*\frac{1}{\sqrt 5 } ]$ （假设 $\sigma$ =1）

okay，回顾上面的过程，你就会发现，你有一组data(1,2,3,4,5)的时候，你就可以给出一个相应的CI，和之前的点估计一个道理，他们本是随机变量，一份data相当于一个realization，一份data就只能得到一次估计值。

而当你拿到N组这样的data的时候，你就可以construct相应的N个CI。

而你再回过头看看CI的定义的时候，你就知道，那个95%的含义是什么了。就是说在100次你拿到的data里，你construct的100个CI里，有大约95%的概率也就是大约有95个会cover这个真实的 $\theta$

而当你只有一组数据的时候，你就只construct了一个CI，这个时候，这个CI要么cover $\theta$ 要么不cover！（再说一遍！ $\theta$ 是固定好的，上帝知道的常数！）

那种什么“这个CI有95%的概率cover这个theta的说法”都是错误的！这个CI要么cover要么不cover！95%指的是你建立这个CI的*过程*中或者说在不同组data的realization下有95%概率cover

另外，其实只要满足了（*）的L(X), U(X) 就是95% CI，所以，L(X), U(X)当然不是唯一的，相应的你也可以找别的c1，c2，只要满足（*）就行。只不过人们通常选择1.96那个formula

posted @ 2022-07-22 18:10 鸭子船长阅读(141) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

鸭子船长

置信区间的理解

##区间估计

公告