因果推断学习笔记02.潜在结果框架

潜在结果框架（Potential Outcome Framework） 是一套用来描述因果关系的符号语言，也被称为Rubin因果模型或者Neyman模型。本文对应丁鹏老师讲义A First Course in Causal Inference的第二章，结合丁老师在清华大学的授课内容，主要介绍潜在结果框架的基本知识。

基本记号

假设有n个实验单元\(i=1,2,\dots n,\)考虑最简单的情况，实验因素只有两个水平：处理组(1)和对照组(0)。假设我们感兴趣的变量为Y，对于个体i，Y只可能出现两个值\(Y_{(i)}(1),Y_{(i)}(0)\)，它们分别代表个体在对照组和处理组中得到的结果。

注意，对于单一的个体来说，\(Y_{(i)}(1),Y_{(i)}(0)\)是两个确定的值，它们本身不存在随机性，而对于关心的总体来说，\({Y_{(i)}(1),Y_{(i)}(0)}\)被我们看作一个随机向量，这体现了样本的两重性。而重要的是，我们只能观察到其中之一。

个体因果效应的定义： \(\tau_i=Y_{(i)}(1)-Y_{(i)}(0)\)
平均因果效应（average causal effect, ACE）\(\tau=\frac1n\sum_{i=1}^n (Y_{(i)}(1)-Y_{(i)}(0)).\)

两条假设

在潜在结果框架中，存在一些基本假设，其中最著名的是D.Rubin于1980年提出的SUTVA(Stable Unit Treatment Value Assumption)

1.个体i的潜在结果不依赖于其他个体的处理。
2.试验因素的每个水平都是良好定义的，也就是说，潜在结果唯一确定。

假设1在传染病或者社交网络的研究中通常不满足。比如说，如果我的朋友感染了病毒，那么我的朋友打不打疫苗对我是否得病是有影响的。

假设2是说，对于同一种处理，不能存在多种版本。比如研究“每天运动半小时对体重的影响”，处理组是运动，对照组是不额外运动。然而，运动的形式、强度都不确定，跑步5km和游泳1km都属于处理组，但是对应的潜在结果很可能不同。在这种情况下，需要对实验因素设置更多的水平数，以保证每个水平下潜在结果唯一。

值得注意的是，并不是所有的因果推断研究都建立在这两条假设之上。

分配机制

假设\(Z_i\)是二值的随机变量，\(Z_i=1\)代表个体\(i\)接受处理，反之代表对照，观察到个体\(i\)的结果设为\(Y_i\)（\(Y_i\)也是随机变量），那么：

\[\begin{aligned} Y_i & = \begin{cases}Y_i(1), & \text { if } Z_i=1 \\ Y_i(0), & \text { if } Z_i=0\end{cases} \\ & =Z_i Y_i(1)+\left(1-Z_i\right) Y_i(0) \\ & =Y_i(0)+Z_i\left\{Y_i(1)-Y_i(0)\right\} \\ & =Y_i(0)+Z_i \tau_i . \end{aligned} \]

可以看出，一旦随机向量\(Z\)的分布确定，分配机制也就随之确定。一般来说，在没有协变量的实验设计中，\(Z\)服从均匀分布；如果有协变量，我们可以采取分层等方法提高效率与精度。这一点与有限总体的抽样方法类似，我们会在后面进行介绍。

posted @ 2023-08-16 17:44 zxytimes 阅读(995) 评论(0) 收藏举报

刷新页面返回顶部