Multiple testing 多次测试
目的
- 多次测试及相关概念的定义。
- 处理方法(FWER & FDR)
- 更正R中的多次测试
Ⅰ型错误与Ⅱ型错误
H0为真 | H0为假 | |
接受H0 |
正确的决定 1-α |
错误的决定 Ⅱ型错误 β |
拒绝H0 |
错误的决定 Ⅰ型错误 α |
正确的决定 β |
多次测定的重要性 (Why this method matters)
基因组学=大量数据=大量假设检验
一个典型的微阵列实验可能需要执行10000次的独立的假设检验。如果我们使用标准的p值阈值为0.05,我们预计会有500个基因被偶然认为是“重要的”。
- 一般,如果我们进行m个假设检验,至少有1个假阳性的概率是多少?
P(犯错)=α
P(正确)=1-α
P(m次检验不犯错)=(1-α)m
P(m次检验至少犯一次错误)=1-(1-α)m
由幂次曲线可知,随着测验次数m的增加,至少一个假阳性的概率逐步增加,最后趋近于1.
计数错误
假定进行了m次检验H1,H2...Hm,
m0=假设为真的次数, R=拒绝假设的次数; V=Ⅰ型错误的次数【假阳性】
无效假设 真 |
备择假设 真 |
总 |
|
不显著 | U | T | m-R |
显著 | V | S | R |
m0 | m-m0 | m |
校正多重测试的意义?
- 常说的“假设检验执行次数的校正p值”,指的是控制Ⅰ型错误率。
- Very active area of statistics-描述了多种不同的统计方法
- 这些统计方法殊途同归
控制Ⅰ型错误的方法
Per comparison error rate (PCER) I类错误数对假设数的期望值 PCER = E(V)/m
Per-family error rate (PFER): Ⅰ型错误的期望数, PFE = E(V).
Family-wise error rate: 至少一种Ⅰ性错误的概率 FEWR = P(V ≥ 1)
False discovery rate (FDR) 被拒绝的假设类型中Ⅰ型错误的预期比例 FDR = E(V/R | R>0)P(R>0)
Positive false discovery rate (pFDR): 阳性错误发现率 the rate that discoveries are false pFDR = E(V/R | R > 0)
拓展p值
在所有多重测试过程中都隐含着这样一个假设,即p值的分布是“正确的”
这一假设对于p值是通过渐近理论获得的基因组数据通常是不成立的。
因此,经常使用重采样方法来计算计算的p值。
- 分析问题:仔细思考无效假设和备择假设
- 选择统计数据
- 计算观测的原始标签的测试统计数据
- 置换标签并重新计算测试统计量
-
- 执行所有排列:精确检验
- 随机选择子集:蒙特卡洛检验
5. 通过比较观察到的统计值在统计排列分布中的位置来计算p值
示例:置换哪些内容?
4例患者和4例对照组m基因表达矩阵测定
gene | case1 | case2 | case3 | case4 | control1 | control2 | control3 | control1 |
1 | X11 | X12 | X13 | X14 | X15 | X16 | X17 | X18 |
2 | X21 | X22 | X23 | X24 | X25 | X26 | X27 | X28 |
3 | X31 | X32 | X33 | X34 | X35 | X36 | X37 | X38 |
4 | X41 | X42 | X43 | X44 | X45 | X46 | X47 | X48 |
... | ... | |||||||
m | Xm1 | Xm2 | xm3 | xm4 | xm5 | xm6 | xm7 | xm8 |
谁更关注不犯Ⅰ型错误?
防止不犯任何假阳性错误,采用FWER
很多情况下,尤其是基因组学,可以忍受一定数量的假阳性。
更需要关注FDR错误发现率。
Benjamini and Hochberg FDR
在δ水平控制错误发现率
1.对未校正的p值排序:P1≤P2≤P3≤...≤Pm
2.找到最高排名的检验,其p值小于或等于(j/m)*δ
3. 宣布检验的排名,j是显著 P(j)≤δ*j/m
斯托里阳性FDR(PFDR)
BH : FDR = E [V/ R | R > 0]P(R > 0)
Storey : pFDR = E[ V /R | R > 0]
- 由于在大多数基因组学实验中,P(R>0)是~1,所以FDR和pFDR非常相似
- 省略P(R>0)有助于根据每个假设的FDR制定重要性度量
何为q值?
定义:“特征”显著时可达到的最小FDR("特征“显著时产生假阳性的预期比例)
估计的q值是该测试p值及测试组的整组p值的分布函数。
因此在差异表达的矩阵研究中,如果基因x的q值=0.013,意味着显示至少1.3%的基因与X基因一样是假阳性。
估计无效假设为真的比例
- 零假设条件下,p值均匀分布在0到1之间。
- 备择假设的p值趋近于0
- 对于大于0.5的p值,我们可以假设他们主要来自零假设的观测
定义π0
- π0是无效假设为真的比例:ˆ π0 = #{pi >λ;i =1,2,...,m}/ m(1-λ)
- 1-π0是有效备择假设的比例(非常重要)