Multiple testing 多次测试

目的

  • 多次测试及相关概念的定义。
  • 处理方法(FWER & FDR)
  • 更正R中的多次测试

 

Ⅰ型错误与Ⅱ型错误

  H0为真 H0为假
接受H0

正确的决定

1-α

错误的决定

Ⅱ型错误

β

拒绝H0

错误的决定

Ⅰ型错误

α

正确的决定

β

 

 

 

 

 

 

 

 

 

 

多次测定的重要性 (Why this method matters)

基因组学=大量数据=大量假设检验

一个典型的微阵列实验可能需要执行10000次的独立的假设检验。如果我们使用标准的p值阈值为0.05,我们预计会有500个基因被偶然认为是“重要的”。

  • 一般,如果我们进行m个假设检验,至少有1个假阳性的概率是多少?

P(犯错)=α

P(正确)=1-α

P(m次检验不犯错)=(1-α)m

P(m次检验至少犯一次错误)=1-(1-α)m

 

 

 由幂次曲线可知,随着测验次数m的增加,至少一个假阳性的概率逐步增加,最后趋近于1.

计数错误

假定进行了m次检验H1,H2...Hm,

m0=假设为真的次数, R=拒绝假设的次数; V=Ⅰ型错误的次数【假阳性】

 

无效假设

备择假设

不显著 U T m-R
显著 V S R
  m0 m-m0 m

 

 

 

 

 

 

校正多重测试的意义?

  • 常说的“假设检验执行次数的校正p值”,指的是控制Ⅰ型错误率。
  • Very active area of statistics-描述了多种不同的统计方法
  • 这些统计方法殊途同归

控制Ⅰ型错误的方法

Per comparison error rate (PCER)   I类错误数对假设数的期望值 PCER = E(V)/m

Per-family error rate (PFER): Ⅰ型错误的期望数, PFE = E(V).

Family-wise error rate: 至少一种Ⅰ性错误的概率    FEWR = P(V ≥ 1)

False discovery rate (FDR) 被拒绝的假设类型中Ⅰ型错误的预期比例    FDR = E(V/R | R>0)P(R>0)

Positive false discovery rate (pFDR): 阳性错误发现率  the rate that discoveries are false pFDR = E(V/R | R > 0)

拓展p值

在所有多重测试过程中都隐含着这样一个假设,即p值的分布是“正确的”

这一假设对于p值是通过渐近理论获得的基因组数据通常是不成立的。

因此,经常使用重采样方法来计算计算的p值。

  1. 分析问题:仔细思考无效假设和备择假设
  2. 选择统计数据
  3. 计算观测的原始标签的测试统计数据
  4. 置换标签并重新计算测试统计量
    • 执行所有排列:精确检验
    • 随机选择子集:蒙特卡洛检验

         5. 通过比较观察到的统计值在统计排列分布中的位置来计算p值

示例:置换哪些内容?

4例患者和4例对照组m基因表达矩阵测定

gene case1 case2 case3 case4 control1 control2 control3 control1
1 X11 X12 X13 X14 X15 X16 X17 X18
2 X21 X22 X23 X24 X25 X26 X27 X28
3 X31 X32 X33 X34 X35 X36 X37 X38
4 X41 X42 X43 X44 X45 X46 X47 X48
... ...              
m Xm1 Xm2 xm3 xm4 xm5 xm6 xm7 xm8

 

 

 

 

 

 

 

 

谁更关注不犯Ⅰ型错误?

防止不犯任何假阳性错误,采用FWER

很多情况下,尤其是基因组学,可以忍受一定数量的假阳性。

更需要关注FDR错误发现率。

 

 

 

Benjamini and Hochberg FDR

在δ水平控制错误发现率

1.对未校正的p值排序:P1≤P2≤P3≤...≤Pm

2.找到最高排名的检验,其p值小于或等于(j/m)*δ

3. 宣布检验的排名,j是显著   P(j)≤δ*j/m

斯托里阳性FDR(PFDR)

BH : FDR = E [V/ R | R > 0]P(R > 0) 

Storey : pFDR = E[ V /R | R > 0]

  • 由于在大多数基因组学实验中,P(R>0)是~1,所以FDR和pFDR非常相似
  • 省略P(R>0)有助于根据每个假设的FDR制定重要性度量

何为q值?

定义:“特征”显著时可达到的最小FDR("特征“显著时产生假阳性的预期比例)

估计的q值是该测试p值及测试组的整组p值的分布函数。

因此在差异表达的矩阵研究中,如果基因x的q值=0.013,意味着显示至少1.3%的基因与X基因一样是假阳性。

估计无效假设为真的比例

  • 零假设条件下,p值均匀分布在0到1之间。

 

 

  • 备择假设的p值趋近于0

 

 

  • 对于大于0.5的p值,我们可以假设他们主要来自零假设的观测

定义π0

  • π0是无效假设为真的比例:ˆ π0 = #{pi >λ;i =1,2,...,m}/ m(1-λ)
  • 1-π0是有效备择假设的比例(非常重要)

 

posted @ 2021-09-29 15:23  Tsui-Ming-Ming  阅读(798)  评论(0)    收藏  举报