因果推断学习笔记02.潜在结果框架

潜在结果框架(Potential Outcome Framework) 是一套用来描述因果关系的符号语言,也被称为Rubin因果模型或者Neyman模型。本文对应丁鹏老师讲义A First Course in Causal Inference的第二章,结合丁老师在清华大学的授课内容,主要介绍潜在结果框架的基本知识。

基本记号

假设有n个实验单元\(i=1,2,\dots n,\)考虑最简单的情况,实验因素只有两个水平:处理组(1)和对照组(0)。假设我们感兴趣的变量为Y,对于个体i,Y只可能出现两个值\(Y_{(i)}(1),Y_{(i)}(0)\),它们分别代表个体在对照组和处理组中得到的结果。

注意,对于单一的个体来说,\(Y_{(i)}(1),Y_{(i)}(0)\)是两个确定的值,它们本身不存在随机性,而对于关心的总体来说,\({Y_{(i)}(1),Y_{(i)}(0)}\)被我们看作一个随机向量,这体现了样本的两重性。而重要的是,我们只能观察到其中之一。

个体因果效应的定义: \(\tau_i=Y_{(i)}(1)-Y_{(i)}(0)\)
平均因果效应(average causal effect, ACE)\(\tau=\frac1n\sum_{i=1}^n (Y_{(i)}(1)-Y_{(i)}(0)).\)

两条假设

在潜在结果框架中,存在一些基本假设,其中最著名的是D.Rubin于1980年提出的SUTVA(Stable Unit Treatment Value Assumption)

  • 1.个体i的潜在结果不依赖于其他个体的处理。

  • 2.试验因素的每个水平都是良好定义的,也就是说,潜在结果唯一确定。

假设1在传染病或者社交网络的研究中通常不满足。比如说,如果我的朋友感染了病毒,那么我的朋友打不打疫苗对我是否得病是有影响的。

假设2是说,对于同一种处理,不能存在多种版本。比如研究“每天运动半小时对体重的影响”,处理组是运动,对照组是不额外运动。然而,运动的形式、强度都不确定,跑步5km和游泳1km都属于处理组,但是对应的潜在结果很可能不同。在这种情况下,需要对实验因素设置更多的水平数,以保证每个水平下潜在结果唯一。

值得注意的是,并不是所有的因果推断研究都建立在这两条假设之上

分配机制

假设\(Z_i\)是二值的随机变量\(Z_i=1\)代表个体\(i\)接受处理,反之代表对照,观察到个体\(i\)的结果设为\(Y_i\)\(Y_i\)也是随机变量),那么:

\[\begin{aligned} Y_i & = \begin{cases}Y_i(1), & \text { if } Z_i=1 \\ Y_i(0), & \text { if } Z_i=0\end{cases} \\ & =Z_i Y_i(1)+\left(1-Z_i\right) Y_i(0) \\ & =Y_i(0)+Z_i\left\{Y_i(1)-Y_i(0)\right\} \\ & =Y_i(0)+Z_i \tau_i . \end{aligned} \]

可以看出,一旦随机向量\(Z\)的分布确定,分配机制也就随之确定。一般来说,在没有协变量的实验设计中,\(Z\)服从均匀分布;如果有协变量,我们可以采取分层等方法提高效率与精度。这一点与有限总体的抽样方法类似,我们会在后面进行介绍。

posted @ 2023-08-16 17:44  zxytimes  阅读(995)  评论(0)    收藏  举报