因果推断学习笔记02.潜在结果框架
潜在结果框架(Potential Outcome Framework) 是一套用来描述因果关系的符号语言,也被称为Rubin因果模型或者Neyman模型。本文对应丁鹏老师讲义A First Course in Causal Inference的第二章,结合丁老师在清华大学的授课内容,主要介绍潜在结果框架的基本知识。
基本记号
假设有n个实验单元\(i=1,2,\dots n,\)考虑最简单的情况,实验因素只有两个水平:处理组(1)和对照组(0)。假设我们感兴趣的变量为Y,对于个体i,Y只可能出现两个值\(Y_{(i)}(1),Y_{(i)}(0)\),它们分别代表个体在对照组和处理组中得到的结果。
注意,对于单一的个体来说,\(Y_{(i)}(1),Y_{(i)}(0)\)是两个确定的值,它们本身不存在随机性,而对于关心的总体来说,\({Y_{(i)}(1),Y_{(i)}(0)}\)被我们看作一个随机向量,这体现了样本的两重性。而重要的是,我们只能观察到其中之一。
个体因果效应的定义: \(\tau_i=Y_{(i)}(1)-Y_{(i)}(0)\)
平均因果效应(average causal effect, ACE)\(\tau=\frac1n\sum_{i=1}^n (Y_{(i)}(1)-Y_{(i)}(0)).\)
两条假设
在潜在结果框架中,存在一些基本假设,其中最著名的是D.Rubin于1980年提出的SUTVA(Stable Unit Treatment Value Assumption)
-
1.个体i的潜在结果不依赖于其他个体的处理。
-
2.试验因素的每个水平都是良好定义的,也就是说,潜在结果唯一确定。
假设1在传染病或者社交网络的研究中通常不满足。比如说,如果我的朋友感染了病毒,那么我的朋友打不打疫苗对我是否得病是有影响的。
假设2是说,对于同一种处理,不能存在多种版本。比如研究“每天运动半小时对体重的影响”,处理组是运动,对照组是不额外运动。然而,运动的形式、强度都不确定,跑步5km和游泳1km都属于处理组,但是对应的潜在结果很可能不同。在这种情况下,需要对实验因素设置更多的水平数,以保证每个水平下潜在结果唯一。
值得注意的是,并不是所有的因果推断研究都建立在这两条假设之上。
分配机制
假设\(Z_i\)是二值的随机变量,\(Z_i=1\)代表个体\(i\)接受处理,反之代表对照,观察到个体\(i\)的结果设为\(Y_i\)(\(Y_i\)也是随机变量),那么:
可以看出,一旦随机向量\(Z\)的分布确定,分配机制也就随之确定。一般来说,在没有协变量的实验设计中,\(Z\)服从均匀分布;如果有协变量,我们可以采取分层等方法提高效率与精度。这一点与有限总体的抽样方法类似,我们会在后面进行介绍。

潜在结果模型的基本记号与SUTVA
浙公网安备 33010602011771号