统计学也会犯错误-全-
统计学也会犯错误(全)
原文:
zh.annas-archive.org/md5/392c34a4817eda6dc9cda36671a3540d译者:飞龙
第一章 统计显著性简介
大多数实验科学归结于测量差异。某种药物是否比另一种更有效?某一版本基因的细胞是否比另一版本的细胞合成更多的酶?某种信号处理算法是否比另一种更有效地检测脉冲星?某种催化剂是否比另一种更有效地加速化学反应?
我们用统计学来判断这些差异。由于运气和随机变异,我们总会观察到一些差异,因此统计学家提到统计显著的差异时,是指这种差异大到不容易由运气产生。所以首先我们必须学会如何做出这个判断。
p 值的威力
假设你正在测试感冒药物。你新的药物承诺能将感冒症状的持续时间缩短一天。为了证明这一点,你找到 20 名感冒的患者,一半给他们服用新药,另一半给他们服用安慰剂。然后你追踪他们的感冒时长,并计算在有药和没有药的情况下,感冒的平均时长是多少。
但并不是所有感冒都是一样的。也许平均感冒持续一周,但有些可能只持续几天,其他的可能会拖延两周或更长时间。你研究中的 10 名接受了有效药物治疗的患者可能都得了非常短的感冒。你如何证明你的药物有效,而不是仅仅证明有些患者运气好?
统计假设检验提供了答案。如果你知道典型感冒案例的分布——大致有多少患者感冒时间短,多少患者感冒时间长,多少患者感冒时间正常——你就能判断一个随机样本中的患者感冒时间比平均值长或短的概率有多大。通过进行假设检验(也叫显著性检验),你可以回答这样一个问题:“即使我的药物完全无效,我的实验产生当前观察结果的几率有多大?”
如果你只在一个人身上测试药物,那么她的感冒比平时稍微短一点也不算太令人惊讶。大多数感冒并不是完全平均的。但如果你在 1000 万名患者身上测试该药物,那么所有这些患者恰好都得到了更短的感冒的可能性就非常小了。更可能的情况是,你的药物实际上有效。
科学家通过一个叫做p 值的概念来量化这种直觉。p 值是指在假设没有真正效果或没有真正差异的前提下,收集到的数据显示出的差异,是否等于或超过你实际观察到的极端差异的概率。
所以,如果你将药物给 100 名患者,并发现他们的感冒平均缩短了一天,那么这个结果的p值是指,如果你的药物实际上没有任何效果,感冒的平均时间比对照组短一天的可能性仅仅是运气的结果。正如你可能猜到的那样,p值取决于效应的大小——感冒缩短四天的情况比感冒缩短一天的情况要少见——以及你测试药物的患者数量。
记住,p值不是衡量你有多正确或差异有多重要的标准。相反,把它看作是惊讶的衡量标准。如果你假设你的药物无效,且除运气外没有任何理由让两个组之间有所不同,那么p值越小,结果就越令人惊讶和幸运——或者你的假设是错误的,药物确实有效。
如何将p值转化为这个问题的答案:“这些组之间真的存在差异吗?”一个常见的经验法则是,当p < 0.05 时,差异是统计显著的。选择 0.05 并不是因为有什么特别的逻辑或统计原因,而是经过几十年的常用,已成为科学界的惯例。
请注意,p值的工作方式是假设你的实验组之间没有差异。这是显著性检验的一个反直觉特性:如果你想证明你的药物有效,你需要通过展示数据与药物无效不一致来证明。由于这个原因,p值可以扩展到任何你能用数学方式表达的假设,你想推翻它。
但是,p值有其局限性。记住,p值是惊讶的衡量标准,值越小,意味着你应该越感到惊讶。它不是效应大小的衡量标准。你可以通过测量一个巨大的效应——“这种药物让人活得长四倍”——或者通过以极高的准确性测量一个微小的效应,得到一个很小的p值。而且,因为任何药物或干预通常都会有某些实际效果,你总是可以通过收集大量数据,检测出极其微小但相对不重要的差异,从而获得统计显著的结果。正如布鲁斯·汤普森所写,
统计显著性检验可能涉及一个自我循环的逻辑,疲惫的研究人员在收集了数百名受试者的数据后,再进行统计检验,以评估是否有足够多的受试者,而这些研究人员已经知道这一点,因为他们收集了数据并知道自己很疲劳。这种自我循环的逻辑在知识积累方面造成了相当大的损害。^(1)
简而言之,统计显著性并不意味着你的结果具有任何实际意义。至于统计不显著,它并不能告诉你太多。一个统计上不显著的差异可能只是噪音,或者它可能代表一个真实的效应,只不过需要更多的数据才能确认。
没有任何数学工具能告诉你你的假设是对还是错;你只能看它是否与数据一致。如果数据稀疏或不清晰,你的结论将会不确定。
心理统计学
在其局限性背后,p 值存在一些更微妙的问题。回想一下,p 值是在假设幸运(而不是你的药物或干预)是实验中唯一因素的前提下计算的,而 p 的定义是得到一个结果等于或更极端的概率。这意味着 p 值迫使你去推理那些实际上没有发生的结果——也就是说,比你观察到的结果更极端的结果。得到这些结果的概率取决于你的实验设计,这使得 p 值变得“心理学化”:两个设计不同的实验可能产生相同的数据,但 p 值不同,因为未观察到的数据是不同的。
假设我问你一系列 12 个关于统计推断的真/假问题,你正确回答了其中 9 个。我想检验你是否是通过随机猜测来回答这些问题。为此,我需要计算你通过随机选择真或假来回答每个问题时,至少答对 9 个问题的概率。假设你以相等的概率选择真或假,我计算得出 p = 0.073。^([3]) 由于 p > 0.05,因此有可能是你在随机猜测。如果是的话,你 7.3%的时间会答对 9 个或更多的问题。^(2)
但或许最初我并没有打算只问你 12 个问题。也许我有一台计算机,它能够生成无限数量的问题,并且不停地问问题,直到你答错了 3 个。现在,我必须计算你在被问了 15、20 或 47 个问题后,答错 3 个问题的概率。甚至,我还得考虑一个极小的可能性,那就是你在答错 3 个问题之前,已经回答了 175,231 个问题。做这个数学计算后,我发现 p = 0.033。由于 p < 0.05,我得出结论,随机猜测不太可能得到这个结果。
这很麻烦:两个实验可以收集相同的数据,但得出不同的结论。某种程度上,p 值似乎能读取你的意图。
内曼-皮尔逊检验
为了更好地理解p值的问题,你需要了解一点统计学的历史。统计显著性检验中有两种主要的思维方式。第一种是由 R.A.费舍尔在 1920 年代提出并普及的。费舍尔将p值视为一种便捷的、非正式的方法,用来查看一组数据的惊讶程度,而不是某种严格的正式假设检验程序的一部分。p值结合实验者的先前经验和领域知识时,可能在决定如何解释新数据时非常有用。
在费舍尔的工作引入后,耶日·内曼和埃贡·皮尔森解决了一些未解答的问题。例如,在感冒药物测试中,你可以选择通过均值、中位数或其他你可能编造的公式来比较两组,只要你能够得出一个* p *值来进行比较。但你怎么知道哪个方法最好呢?在假设检验中,“最好”到底意味着什么?
在科学中,限制两种错误非常重要:假阳性,即你得出一个效果存在的结论,但实际并没有效果;以及假阴性,即你未能注意到一个真实的效果。从某种意义上讲,假阳性和假阴性是同一枚硬币的两面。如果我们太容易对效果做出结论,我们就容易得到假阳性;如果我们过于保守,我们则容易犯假阴性错误。
内曼和皮尔森认为,尽管完全消除假阳性和假阴性是不可能的,但的确可以制定一个正式的决策过程,确保假阳性仅在某个预定义的比例下发生。他们将这个比例称为α,他们的想法是让实验者根据经验和预期设定一个α。例如,如果我们愿意接受 10%的假阳性率,我们将设定α = 0.1。但是,如果我们需要在判断上更加保守,我们可能会将α设置为 0.01 或更低。为了确定哪种测试程序最好,我们需要看在给定的α选择下,哪种方法具有最低的假阴性率。
这一过程在实践中如何运作?在内曼–皮尔森系统下,我们定义一个原假设——即没有效果的假设——以及一个备择假设,例如“效果大于零”。然后我们构建一个比较这两个假设的测试,并确定如果原假设为真,我们期望看到的结果。我们使用p值来执行内曼-皮尔森检验程序,当p < α时拒绝原假设。与费舍尔的方法不同,这种方法故意不处理任何单一实验中的证据强度;现在我们仅关注是否拒绝原假设的决定。p值的大小不用于比较实验或得出任何结论,除了“可以拒绝原假设”。正如内曼和皮尔森所写,
我们倾向于认为,就某个特定假设而言,任何基于概率理论的测试都不能单独提供该假设的真假证据。
但我们也可以从另一个角度来看待测试的目的。我们无需希望知道每一个假设是否真实,我们可以寻找一些规则来指导我们在这些假设上的行为,遵循这些规则能确保我们在长期的经验中不会经常出错。^(3)
尽管 Neyman 和 Pearson 的方法在概念上与 Fisher 的方法不同,实践中的科学家常常将两者混淆。(4),(5),^(6) Neyman-Pearson 方法就是我们得到“统计显著性”的方法,这种方法有一个预先选定的* p 值阈值,保证长期的假阳性率。但是假设你进行了一项实验并获得了 p * = 0.032。如果你的阈值是传统的* p * < 0.05,那么这个结果就是统计显著的。但如果你的阈值是* p * < 0.033,它依然是统计显著的。所以这就很诱人——也是一种常见的误解——说“我的假阳性率是 3.2%。”
但这样说是不合理的。单个实验并没有假阳性率。假阳性率是由你的程序决定的,而不是单个实验的结果。你不能声称每个实验的假阳性率就是* p *,无论最终结果是多少,因为你使用的程序是为了获得长期的假阳性率α。
对区间保持信心
显著性测试往往会受到很多关注,“统计显著”这一术语现在已经成为流行语。研究结果,尤其是在生物学和社会科学领域,通常会呈现* p 值。但 p 并不是评估证据权重的唯一方式。置信区间可以回答与 p *值相同的问题,且具有更多信息并且更易于解释的优点。
置信区间将一个点估计与该估计的不确定性结合在一起。例如,你可能会说你的新实验药物能减少感冒的平均持续时间 36 小时,并给出 95%的置信区间,介于 24 小时到 48 小时之间。(该置信区间是针对平均持续时间的;每个病人的感冒持续时间可能会有很大的差异。)如果你进行 100 次相同的实验,约 95 个置信区间会包含你想要测量的真实值。
置信区间量化了你结论中的不确定性,提供的信息比p值要丰富得多,因为p值根本没有关于效应大小的任何信息。如果你想检验一个效应是否显著不同于零,你可以构建一个 95%的置信区间,并检查该区间是否包含零。在这个过程中,你还可以获得额外的好处,了解你的估计有多精确。如果置信区间太宽,你可能需要收集更多的数据。
例如,如果你进行临床试验,你可能会得出一个置信区间,表明你的药物能将症状减少 15%到 25%之间。这个效应是统计显著的,因为该区间不包括零,现在你可以根据你对相关疾病的临床知识来评估这个差异的重要性。就像你使用p值时一样,这一步是很重要的——你不应该在没有在上下文中评估的情况下就宣称这个结果是一个重大发现。如果症状已经相当无害,也许 15%到 25%的改善并不那么重要。另一方面,对于像自发性人类自燃这样的症状,你可能会对任何改善感到兴奋。
如果你能将结果写成置信区间,而不是p值,那么你应该这么做。^(7) 置信区间避开了与p值相关的大部分解释性细节,使得研究结果更加清晰。那么,为什么置信区间如此不受欢迎呢?在实验心理学研究期刊中,97%的研究论文涉及显著性检验,但只有大约 10%的论文报告了置信区间——而且这些论文中的大部分并没有将置信区间作为支持其结论的证据,而是依赖于显著性检验。^(8) 即便是享有盛誉的期刊Nature也未能做到:89%的文章报告了p值,但没有任何置信区间或效应量,导致其结果在上下文中无法解读。^(9) 一位期刊编辑指出,“p值就像蚊子”,因为它们“有一个进化上的生态位,而且[不幸的是]无论怎么抓、拍打或喷洒,都无法把它们赶走。”^(10)
一种可能的解释是,置信区间未被报告,因为它们通常过于宽泛,令人尴尬。^(11) 另一个原因是同行评审的压力过大——最好按照大家都在做的方式进行统计,否则审稿人可能会拒绝你的论文。或者,可能是关于p值的广泛混淆掩盖了置信区间的好处。又或者,统计学课程中过度强调假设检验意味着大多数科学家不知道如何计算和使用置信区间。
期刊编辑们有时试图强制要求报告置信区间。1980 年代中期,作为《美国公共卫生杂志》的副主编,肯尼斯·罗思曼开始返回投稿并附上措辞严厉的信件:
所有涉及统计假设检验和统计显著性的内容都应从论文中删除。我要求你删除p值以及关于统计显著性的评论。如果你不同意我的标准(关于显著性检验不恰当的观点),你可以自由地辩论这一点,或者干脆忽略我可能被认为是错误的观点,选择在其他地方发表。^(12)
在罗思曼担任副主编的三年期间,仅报告p值的论文比例急剧下降。虽然在他离开后,显著性检验又重新出现,但随后的编辑们成功地鼓励研究人员同时报告置信区间。然而,尽管报告了置信区间,少数研究人员在他们的文章中讨论这些区间或使用它们来得出结论,而更倾向于仅仅将它们视为显著性检验的一部分。^(12)
罗思曼随后创办了期刊《流行病学》,该期刊有着严格的统计报告政策。刚开始时,习惯于显著性检验的作者更倾向于在报告置信区间的同时报告p值,但经过 10 年后,态度发生了变化,仅报告置信区间成为了常见的做法。^(12)
或许勇敢(且耐心的)期刊编辑可以效仿罗思曼(Rothman)的例子,改变他们领域中的统计实践。
^([3]) 我使用一种叫做二项分布的概率分布来计算这个结果。在下一段中,我将使用另一种分布,称为负二项分布,来计算p值。本书的重点不在于概率分布的详细解释;我们更关心如何解释p值,而不是如何计算它们。
第二章. 统计功效与统计不足
你已经看到,如果没有收集足够的数据,可能会错过真实的效应。你可能会错过一种有效的药物,或未能注意到一个重要的副作用。那么,如何知道收集多少数据呢?
统计功效的概念提供了答案。研究的功效是其区分某一特定效应与纯粹运气的概率。一项研究可能很容易发现药物的巨大效益,但发现微小的差异则远不容易。
功效曲线
假设我确信我的宿敌有一枚不公平的硬币。与其每次正面和反面各占一半,它偏向于 60%的时间出现某一面,这让他能够在无聊的抛硬币赌博游戏中作弊。我怀疑他在作弊——但是如何证明这一点呢?
我不能仅仅拿起硬币,抛掷 100 次,然后统计正面朝上的次数。即使是完全公平的硬币,也不一定每次都会出现 50 次正面朝上,正如图 2-1 中所示的实线所显示的那样。

图 2-1. 抛掷公平硬币(实线)或有偏硬币(虚线)100 次时,出现不同次数正面朝上的概率。偏向正面的硬币 60%的时间是正面。
即使 50 次正面朝上是最可能的结果,它仍然不到 10%的概率发生。我同样有合理的可能性得到 51 次或 52 次正面。事实上,在抛掷公平硬币 100 次时,95%的概率正面朝上的次数会在 40 到 60 次之间。另一方面,远远超出这个范围的结果不太可能出现:使用公平硬币时,得到超过 63 次或少于 37 次正面的概率仅为 1%。得到 90 次或 100 次正面几乎是不可能的。
将此与图 2-1 中的虚线进行比较,虚线显示的是硬币偏向正面 60%的概率分布。两条曲线有重叠,但你可以看到不公平的硬币比公平的硬币更可能出现 70 次正面。
让我们来计算一下数学问题。假设我进行了 100 次试验并统计了正面朝上的次数。如果结果不是恰好 50 次正面,我会计算一个公平硬币出现如此大偏差或更大偏差的概率。这个概率就是我的p值。如果p值小于 0.05,我会认为它具有统计学意义,因此如果p值小于 0.05,我就会认为这枚硬币是不公平的。
我通过这种方法找到硬币是否存在偏差的可能性有多大?一个功效曲线,如图 2-2 中所示,可以告诉我。横轴表示硬币正面朝上的真实概率——即它的偏差程度。纵轴表示我得出结论认为硬币被操控的概率。
任何假设检验的功效是指其得出统计学显著结果的概率(在本例中定义为p < 0.05)。公平硬币在 95%的试验中会显示出 40 到 60 次正面,因此对于不公平硬币,功效就是出现超出这个 40 到 60 次正面范围的结果的概率。功效受三个因素的影响:
-
你正在寻找的偏差的大小。 一个巨大的偏差比一个微小的偏差更容易检测。
-
样本大小。 通过收集更多的数据(更多的硬币翻转),你可以更容易地检测到小的偏差。
-
测量误差。 计数硬币翻转很容易,但许多实验涉及的是更难测量的值,例如医学研究中调查疲劳或抑郁症状。

图 2-2. 100 次和 1,000 次硬币翻转的功效曲线,显示不同偏差大小的检测概率。垂直线表示正面朝上的概率为 60%。
让我们从偏差的大小开始。图 2-2 中的实线显示,如果硬币被调整为 60%的几率出现正面,那么在 100 次翻转后,我有 50%的机会得出结论认为硬币是作弊的。(也就是说,当正面出现的真实概率为 0.6 时,功效为 0.5。)另一半时间,我会得到少于 60 次正面的结果,并无法检测到偏差。仅仅 100 次翻转,数据量太少,总是无法将偏差与随机波动区分开来。如果硬币有极大的偏差——例如,正面超过 80%的概率——我几乎能在 100%的情况下发现这个偏差。
另一个问题是,即使硬币是完全公平的,我也会有 5%的概率错误地指责它存在偏差。我设计的测试是将P值小于 0.05 的结果解释为偏差的迹象,但即使硬币是公平的,这些结果确实会发生。
幸运的是,增加样本量可以提高敏感性。虚线显示,当进行 1,000 次投掷时,我可以轻松判断硬币是否被操控。这是有道理的:如果我能够公平地投掷硬币 1,000 次并且得到超过 600 次正面,那么这种情况几乎是不可能的。我会有 95%的几率得到 469 到 531 次正面。很不幸,我并没有时间去测试我的死对头的硬币是否公平,进行 1,000 次投掷。通常,由于纯粹的实际原因,进行一个足够强大的测试是不现实的。
现在,计算正面和反面很简单,但如果我正在进行智商测试呢?智商得分并不衡量一个潜在的“真相”,而是根据测试中的问题和受试者的心情,每天都会有所不同,从而引入了随机噪声。如果你要比较两组人的智商,你不仅会看到每个人之间的正常智力差异,还会看到个体得分中的随机变化。像需要主观评分的智商测试这样高变异性的测试,其统计功效相对较低。
更多的数据有助于区分信号和噪声。但这说起来容易做起来难:许多科学家没有足够的资源来进行具有足够统计功效的研究,以便检测他们所要寻找的东西。它们在开始之前就注定会失败。
功效不足的危险
想象一下一个试验,测试两种不同的药物 Fixitol 和 Solvix 治疗同一种病症。你想知道哪种药物更安全,但副作用很少见,因此即使你在 100 名患者身上测试这两种药物,每组中只有少数人会遭遇严重副作用。就像很难分辨一个硬币 50%正面和 51%正面之间的区别一样,3%和 4%的副作用率之间的差异也很难察觉。如果四名服用 Fixitol 的患者出现严重副作用,而只有三名服用 Solvix 的患者出现副作用,你不能确定这种差异是否是由于 Fixitol 所致。
如果一个试验的功效不足以检测出它所寻找的效果,我们称之为功效不足。
你可能认为,统计功效的计算对于医学试验是至关重要的;科学家可能想知道需要多少患者来测试一种新药,而快速的统计功效计算可以提供答案。通常,当统计功效达到 0.8 或更高时,科学家们会感到满意,这对应于 80%的几率检测到预期大小的实际效果。(如果真实效果实际上更大,研究的功效将更强。)
然而,很少有科学家进行这样的计算,也很少有期刊文章提到统计功效。在著名期刊Science和Nature中,不到 3%的文章在开始研究前计算统计功效。^(1) 事实上,许多试验得出的结论是“组间不良反应差异无统计学意义”,却没有指出数据不足以检测出任何差异,除了最大差异之外。^(2) 如果这些试验之一是在比较两种药物的副作用,医生可能错误地认为这些药物是同样安全的,而实际上其中一种药物可能比另一种药物危险得多。
也许这个问题只存在于稀有副作用的情况下,或者仅在药物效果较弱时才会出现?并不是。在一项发表于 1975 至 1990 年间的著名医学期刊的研究样本中,超过五分之四的随机对照试验报告的负面结果没有收集足够的数据来检测治疗组之间主要结果的25%差异。也就是说,即使某种药物的症状减轻程度比另一种药物高出 25%,也没有足够的数据得出这个结论。而且,几乎三分之二的负面试验没有足够的能力检测出 50%的差异。^(3)
最近一项关于癌症研究中的试验的研究发现了类似的结果:只有大约一半的负面结果研究具有足够的统计功效来检测出其主要结果变量中的大差异。^(4) 这些研究中不到 10%解释了为什么它们的样本量如此之小。类似的问题在其他医学领域也持续存在。(5),(6)
在神经科学领域,这个问题更为严重。每项神经科学研究收集的数据如此有限,以至于中位数研究只有 20%的机会能够检测到它所寻找的效应。你可以通过汇总多篇研究中收集的数据来弥补这一点,前提是这些研究都在调查相同的效应。但是,由于许多神经科学研究使用动物作为实验对象,这就引发了重大的伦理问题。如果每项研究的统计功效不足,那么只有在完成并分析了多项涉及大量动物的研究之后,才能发现真实的效应——这比如果研究在一开始就进行得当所使用的动物数量要多得多。^(7) 如果伦理审查委员会知道某项试验无法检测到它所要寻找的效应,就不应批准该试验。
为什么统计功效这么差?
奇怪的是,低功效研究的问题已经存在了几十年,但如今仍然像最初被指出时那样普遍存在。1960 年,雅各布·科恩(Jacob Cohen)研究了发表在《异常与社会心理学期刊》上的研究的统计功效^(8),并发现平均研究的功效仅为 0.48,用于检测中等效应。^([4]) 他的研究被引用了数百次,随后进行了许多类似的评论,所有这些评论都强调了功效计算和更大样本量的必要性。然后,在 1989 年,一项回顾性研究显示,在科恩研究后的几十年里,平均研究的功效实际上下降了。^(9) 这种下降是因为研究人员意识到另一个问题,即多重比较问题,并通过一种降低研究功效的方式进行补偿。(我将在第四章中讨论多重比较问题,在那里你会看到研究的功效和多重比较校正之间有一个不幸的权衡。)
那么,为什么功效计算常常被忽视呢?一个原因是我们直观上对于样本量的感觉与功效计算结果之间存在差异。人们很容易想,“这些受试者应该足够了,”即使研究的功效极差。例如,假设你正在测试一种新的心脏病发作治疗方案,期望将死亡风险从 20%降低到 10%。你可能会倾向于认为,“如果在 50 名患者中使用这种治疗方法没有看到差异,显然效果太小,不值得应用。”但为了达到 80%的功效来检测这个效果,你实际上需要400名患者——每组控制和治疗各 200 人。^(10) 也许临床医生并没有意识到,看似足够的样本量实际上远远不够。
数学也是功效计算如此罕见的另一个可能解释:分析计算功效可能很困难,甚至是完全不可能的。计算功效的技术通常不会在初级统计课程中教授。而且一些市售的统计软件并不包含功效计算功能。通过简单地模拟成千上万的数据集(这些数据集具有你预期的效应大小),并在模拟数据上运行统计测试,你可以避免复杂的数学计算。功效就是你获得统计显著结果的数据集所占的比例。但这种方法需要编程经验,而且模拟真实数据也可能比较棘手。
即便如此,你会认为科学家会注意到他们的功效问题并尝试纠正它;经过五六项没有显著结果的研究后,科学家可能会开始怀疑自己做错了什么。但一项平均水平的研究不会进行一次假设检验,而是进行许多检验,因此有很大机会发现某种显著结果。^(11) 只要这个显著结果足够有趣,足以在论文中展示,科学家就不会觉得自己的研究功效不足。
电力不足的危险并不意味着科学家在声明他们未发现两组之间有显著差异时是在撒谎。但假设这些结果意味着没有真正的差异是误导的。可能确实存在差异,甚至是一个重要的差异,但研究样本太小,发现这一差异的几率微乎其微。让我们考虑一个我们每天都能看到的例子。
红灯右转的误区
在 1970 年代,美国的许多地方开始允许驾驶员在红灯时右转。在此之前的许多年里,道路设计师和土木工程师曾争论,允许红灯右转会成为安全隐患,导致更多的交通事故和行人死亡。但 1973 年的石油危机及其后果促使交通机构考虑允许红灯右转,以节省由于通勤者在红灯前等待而浪费的燃料,最终国会要求各州允许红灯右转,将其视为一种节能措施,就像建筑隔热标准和更高效的照明一样。
有几项研究调查了这一变化对安全性的影响。在一项研究中,弗吉尼亚州公路与交通部的顾问对 20 个开始允许红灯右转的交叉口进行了前后对比研究。在变化之前,这些交叉口发生了 308 起事故;而在相似时间段之后,这一数字增加到了 337 起。但这一差异在统计学上并不显著,顾问在报告中指出了这一点。当报告被转交给州长时,公路与交通部的专员写道:“我们没有发现实施红灯右转对驾驶员或行人造成显著危害。”^(12) 换句话说,他把统计学上的不显著性转化为了实际上的不显著性。
随后的几项研究得出了类似的结论:事故数量略有增加,但数据不足以得出这些增加是显著的结论。正如一份报告总结的那样,
没有理由怀疑,在采纳[红灯右转]后,涉及 RT 操作(右转)的行人事故是否有所增加。
当然,这些研究的样本量不足。但越来越多的城市和州开始允许红灯时右转,且这一做法在整个美国变得广泛。显然,没有人试图将这些小规模研究的数据汇总,以生成一个更有用的数据集。与此同时,越来越多的行人被撞倒,更多的车辆发生了碰撞。直到几年后,才有研究显示,在涉及右转的事故中,碰撞发生的频率大约增加了 20%,行人被撞的比例增加了 60%,骑自行车的人被撞的数量翻倍了。(13),(14),^([5])
可惜,交通安全领域从这个例子中学到的东西不多。例如,2002 年的一项研究考虑了铺设路肩对乡村道路交通事故率的影响。不出所料,铺设路肩减少了事故的风险——但由于数据不足,无法宣称这种减少具有统计学意义,因此作者认为铺设路肩的成本不值得。因为他们将微小的差异视为没有差异,所以没有进行成本效益分析,尽管他们收集到的数据表明铺设路肩确实改善了安全性!证据并不强大到能达到他们期望的p值门槛。^(12) 一个更好的分析应该承认,虽然路肩没有任何好处是有可能的,但这些数据同样也支持它们具有显著好处的可能性。这意味着要考虑置信区间。
置信区间与赋能
比起声明实验结果在统计学上不显著,更有用的是给出一个置信区间,提供关于效应的可能大小。即使置信区间包含零,其宽度也能告诉你很多信息:如果置信区间很窄且包含零,就意味着效应很可能很小(如果小效应在实际应用中不重要,那可能就是你需要知道的全部);而如果置信区间很宽,则明显表明测量不够精确,无法得出结论。
物理学家通常使用置信区间来界定那些与零无显著差异的量。例如,在寻找新基本粒子的过程中,单纯说“信号在统计学上不显著”并没有帮助。相反,物理学家可以利用置信区间来对粒子在研究中的碰撞过程中产生的速率设定一个上限,然后将这个结果与预测其行为的竞争理论进行比较(并迫使未来的实验者建造更大的仪器来发现它)。
以置信区间的角度来看待结果为实验设计提供了一种新的思路。与其专注于显著性检验的功效,不如问问自己:“我需要收集多少数据才能以我想要的精度测量这个效应?”即使是一个强大的实验,也可能会产生显著的结果,但其置信区间极宽,使得结果难以解释。
当然,我们的置信区间的大小因实验而异,因为我们的数据在不同的实验中会有所不同。与其选择一个样本量来达到某个功效水平,不如选择一个样本量,使得置信区间在 99%的情况下(或 95%;目前对于这个数字没有标准约定,它被称为保证,决定了置信区间必须达到目标宽度的频率)足够狭窄。^(16)
基于保证的样本大小选择方法已经为许多常见的统计检验开发出来,尽管并非所有方法都已覆盖;这是一个新的领域,统计学家们尚未完全探索它。^(17)(这些方法被称为参数估计的准确性,或称为AIPE。)统计功效远比保证方法使用得更为广泛,而保证方法在任何领域的科学家中还没有得到广泛采用。尽管如此,这些方法仍然极为有用。统计显著性常常是一种拐杖,虽然听起来更吸引人,但却是一个不太信息丰富的替代品,无法替代一个好的置信区间。
真相膨胀
假设 Fixitol 在安慰剂上减少了 20%的症状,但你用来测试它的试验样本量太小,无法可靠地检测到这个差异。我们知道小规模的试验结果往往有所不同;很容易遇到 10 个幸运的病人,他们的感冒比平时要轻,但要找到 10,000 个病人都如此就要困难得多。
现在假设你运行多个相同的试验。有时你可能碰到运气不佳的病人,因此没能从药物中看到任何统计学显著的改善。有时你的病人恰好是平均水平,治疗组的症状减少了 20%——但你没有足够的数据来称其为统计学上显著的增加,所以你忽视了它。有时病人运气很好,症状减少的幅度远超过 20%,于是你终止试验并宣称,“看!它有效!”你可以在图 2-3 中绘制这些结果,图中展示了每次试验会产生某种效应大小估计的概率。

图 2-3。如果你将试验进行数千次,你会看到效果大小在症状百分比减少方面呈广泛分布。垂直虚线表示效果大小足够大,以至于具有统计学意义。真实的改善是 20%,但你看到的效果从 10%的损失到 50%的增益不等。只有幸运的试验才具有统计学意义,从而夸大了效果大小。
你正确地得出结论,Fixitol 是有效的,但由于你的研究统计功效不足,你夸大了它的效果大小。
这种效应被称为真相膨胀、M 型错误(M代表大小)或赢家的诅咒,发生在许多研究者进行相似实验并竞争发表最“激动人心”结果的领域:药理学试验、流行病学研究、基因关联研究(“基因 A 导致 B 病”)和心理学研究经常表现出症状,并且是医学文献中被引用最多的论文之一。(18),(19) 在基因学等快速发展的领域中,最早发表的结果往往是最极端的,因为期刊最希望发表新颖且激动人心的结果。后续研究通常显示出更小的效果。^(20)
还要考虑到,顶级期刊,如《自然》和《科学》,倾向于发表具有突破性结果的研究——也就是说,在少有前期研究的创新领域中,效果大小较大的研究。这是慢性真相膨胀的完美组合。有证据表明,期刊的影响因子(衡量期刊知名度和重要性的粗略指标)与其研究高估效果大小的倍数之间存在相关性。那些产生较少“激动人心”结果的研究更接近真实,但对主要期刊编辑来说则不那么有趣。(21),(22)
当一项研究声称通过相对较小的样本检测到一个大效应时,你的第一反应不应该是“哇,他们发现了什么重大结果!”而应该是“哇,这项研究的统计功效不足!”^(23) 这是一个例子。从 2005 年开始,金泽发布了一系列关于性别比例的论文,最终以“美丽的父母有更多女儿”作为高潮。他随后出版了一本书,讨论了这一主题以及他发现的其他“政治不正确的真理”。当时这些研究在媒体中很受欢迎,特别是因为它们报告了较大的效应大小:金泽声称最美丽的父母有 52%的概率会有女儿,而最不吸引人的父母只有 44%的概率会有女儿。
对生物学家来说,一个小的效应——也许一两个百分点——是可信的。特里弗斯-威拉德假说表明,如果父母有一种对女孩比对男孩更有利的特征,那么他们将会有更多的女孩而非男孩(反之亦然)。如果你假设女孩比男孩更能从美貌中受益,那么该假说将预测美丽的父母平均会有更多的女儿。
但金泽声称的效应大小是异常大的。结果证明,他在统计分析中犯了几个错误。一项修正后的回归分析发现,他的数据确实显示吸引人的父母更可能有女孩,几率高达 4.7%——但置信区间从 13.3%更可能到 3.9%更不可能。^(23) 尽管金泽的研究使用了近 3,000 个父母的数据,但这些结果并不具有统计学意义。
检测小差异需要大量的数据。想象一下一个更现实的效应大小——比如 0.3%。即便有 3,000 个父母,观察到 0.3%的差异也远远小到无法与运气区分开来。你可能幸运地仅有 5%的概率获得统计学显著的结果。这些结果将至少将真实效应夸大 20 倍,而 40%的结果将会产生一个极端的误差,支持男孩而非女孩。^(23)
即使金泽进行了完美的统计分析,他仍然可能偶尔会碰运气,得到像“工程师有更多儿子,护士有更多女儿”这样的论文^([6]),并对真实的微小效应做出过高的估计。他进行的这种规模的研究根本无法检测出你事先预期的效应大小。事先的功效分析本可以告诉他这一点。
小的极端值
真实性膨胀的出现是因为小规模、能力不足的研究结果差异很大。偶尔,你可能会很幸运地得出一个统计上显著但严重高估的结果。但这种广泛的波动即便在没有进行显著性测试的情况下也会带来麻烦。假设你负责公立学校改革。在你研究最佳教学方法时,你调查了学校规模对标准化测试成绩的影响。小学校的表现是否优于大规模学校?你应该尝试建造许多小学校还是几所大学校?
为了回答这个问题,你列出了你所知道的表现最好的学校。平均学校有大约 1000 名学生,但得分最高的 10 所学校几乎都比这个数字小。看起来,小学校的表现最好,也许是因为教师能更好地了解每个学生,并为他们提供个别帮助。
然后你看看那些表现最差的学校,原本以为它们是大城市的学校,学生有成千上万,老师们超负荷工作。结果却让你惊讶!它们其实也是小学校。
怎么回事呢?看看图 2-4 中测试成绩与学校规模的关系图。小学校的测试成绩波动较大,因为它们的学生人数较少。学生少意味着用于确定教师“真实”表现的数据点也少;少数异常成绩可能会显著影响学校的平均成绩。随着学校规模增大,测试成绩的波动变小,实际上平均成绩反而提高了。^(24)

图 2-4。学生人数更多的学校在测试分数上具有较少的随机波动。这些数据是模拟的,但基于对宾夕法尼亚州公立学校的真实观察。
另一个例子:在美国,肾癌发病率最低的县通常是中西部、南部和西部的农村县。为什么会这样呢?也许是农村人运动量更多,或者吸入的空气污染较少。又或者他们的生活压力较小。
另一方面,肾癌发病率最高的县通常是中西部、南部和西部的农村县。
当然,问题在于农村县的居民人数最少。一个只有 10 名居民的县里有一个肾癌患者,这个县的肾癌发病率就成了全国最高的。因此,小县城的肾癌发病率有更大的波动,仅仅因为它们的居民数量太少。^(25) 这些县的癌症发病率的置信区间也相应较大。
应对这一问题的一个流行策略叫做收缩。对于居民较少的县,可以通过将县的癌症率和全国平均癌症率的加权平均值作为估计值,从而将癌症率估算值“收缩”到全国平均水平。当县的居民较少时,更加重视全国平均值的权重;而当县的居民较多时,则更加重视该县的数据。收缩方法现在已成为构建癌症率地图等应用中的常见做法。^([7]) 不幸的是,这种方法会使结果偏向相反的方向:小县的癌症率如果与全国平均值相差较大,估算值往往会被推测得更接近全国平均水平。
解决这个问题没有单一的办法。最佳的替代方案是完全避免这种做法:与其按县估算癌症率,不如使用国会选区,在美国,国会选区是设计为人口大致相等的。尽管如此,国会选区通常比县要大,而且由于选区划分的影响,形状经常很奇怪。基于选区的地图虽然在统计学上不易产生误导,但仍然很难进行解释。
当然,强制要求样本量相等并不总是可行的。例如,在线购物网站需要根据顾客评分对产品进行排序,但它们无法强制每个产品获得相同数量的顾客评分。另一个例子是像 reddit 这样的讨论网站,它可以根据用户评分对评论进行排序;评论可能会因发布的时间、地点或发布者的不同而获得大相径庭的投票数。在这种情况下,收缩方法非常有帮助。在线商店可以使用产品评分的加权平均值和一些全球平均值来处理这种情况。评分较少的产品将被视为普通平均水平,而有成千上万投票的产品则根据其真实的个别评分进行排序。
对于像 reddit 这样使用简单的上下投票而不是星级评分的网站,一种替代方法是为正面投票的比例生成置信区间。当评论只有少量投票时,区间开始较宽;随着评论的积累,区间逐渐收窄至一个确定值(“70%的投票者喜欢这条评论”);按照置信区间的下限对评论进行排序。新的评论开始时通常排在最底部,但其中最受欢迎的评论会积累投票并随着置信区间的收窄逐渐上升到页面上。而且,由于评论是按正面投票的比例而不是总投票数排序的,新评论可以与那些已经积累了数千票的评论竞争。(26),(27)
提示
-
在设计研究时,计算统计功效以确定适当的样本量。不要节省这方面的开支。可以参考像 Cohen 的经典著作《行为科学中的统计功效分析》,或向统计学顾问咨询。如果样本量不切实际,要清楚了解研究的局限性。
-
当你需要精确测量一个效应,而不仅仅是测试显著性时,使用置信度而非功效:设计你的实验以测量假设效应,直到达到你所需的精确度。
-
请记住,“统计上不显著”并不意味着“零”。即使你的结果不显著,它也代表了基于你收集的数据的最佳估计。“不显著”并不意味着“不存在”。
-
对明显样本不足的研究结果持怀疑态度。这些结果可能由于事实膨胀而被夸大。
-
使用置信区间来确定与你的数据一致的答案范围,而不管其统计显著性。
-
在比较不同大小的组时,计算置信区间。这些区间将反映在较大组中你拥有的更多确定性。
^([4]) Cohen 将“中等大小”定义为组间的 0.5 标准差差异。
^([5]) 需要注意的是,涉及右转的事故很少发生:这些变化每年在美国造成的死亡人数不到 100 人。^(15) 即便是小范围内 60%的增长仍然是微小的——但统计错误每年依然导致数十人死亡!
^([6]) 这是他于 2005 年在理论生物学杂志上发表的真实论文。
^([7]) 然而,收缩通常采用比简单加权平均值更复杂的方法实现。
第三章:伪重复:明智地选择你的数据
在随机对照试验中,测试对象会随机分配到实验组或对照组,而不是基于任何系统性原因。虽然“随机”一词让这些研究听起来有些不科学,但除非是随机对照试验,否则医学试验通常不会被认为是具有决定性的。为什么?随机化到底有什么重要性?
随机化可以防止研究人员在测试组之间引入系统性偏倚。否则,他们可能会将虚弱的病人分配到风险较低或要求较少的治疗中,或将富裕的病人分配到新治疗中,因为他们的保险公司会支付费用。但随机化没有隐藏的偏倚,它能保证每个组的大致人口学特征相同;任何混杂因素——即使是你不知道的——都不能影响你的结果。当你获得统计显著的结果时,你知道唯一可能的原因就是你的药物或干预。
伪重复的应用
让我回到一个医学实例。我想比较两种降压药,所以我招募了 2,000 个病人,并将他们随机分为两组。然后,我给病人服用药物。等到药物起效一个月后,我测量每个病人的血压,并比较这两组,找出哪组的平均血压较低。我可以进行普通的假设检验,得到普通的p值;凭借每组 1,000 个病人的样本量,我将拥有良好的统计功效来检测药物之间的差异。
现在假设一种替代实验设计。不是每组 1,000 个病人,而是我只招募 10 个病人,但在几个月内我会测量每个病人的血压 100 次。这样,我就可以更准确地了解他们的个体血压,这些血压可能会因日常波动而有所不同。或者,也许我担心我的血压计没有完美校准,所以我每天使用不同的血压计进行测量。^([8]) 这样,我每组仍然有 1,000 个数据点,但只有 10 个独特的病人。由于样本量看起来相同,我可以用相同的统计功效进行假设检验。
但是我真的需要吗?大样本量应该确保组间的任何差异都是由于我的治疗引起的,而不是基因或既有病症。但在这种新设计中,我并没有招募新的病人。我只是重复测量每个现有病人的基因 100 次。
这个问题被称为假拟重复,并且相当常见。^(1) 例如,在测试一个培养物中的细胞后,生物学家可能通过测试更多来自同一培养物的细胞来“重复”他的结果。或者神经科学家可能从同一只动物中测试多个神经元,声称从两只老鼠中获得了几百个神经元的大样本量。一位海洋生物学家可能在水族馆中的鱼类上做实验,却忘记了在同一水族馆中的鱼并不是独立的:它们的条件可能会相互影响,还可能受到所测试的处理的影响。^(2) 如果这些实验旨在揭示老鼠或鱼类的一般趋势,那么它们的结果将具有误导性。
你可以将假拟重复看作是收集了错误问题的答案。例如,动物行为学家经常尝试通过播放不同的鸟鸣声给鸟类并评估它们的反应来理解鸟鸣声。鸟鸣声在不同地理区域之间有所不同,就像人类口音一样,这些方言可以进行比较。在 1990 年代之前,进行这些实验的常见方法是从每种方言中录制一首具有代表性的鸟歌,然后将这些歌曲播放给 10 到 20 只鸟并记录它们的反应。^(3) 观察的鸟越多,样本量就越大。
但研究问题是关于不同的歌曲方言,而不是单独的歌曲。无论任何一首歌曲多么“具有代表性”,将它播放给更多的鸟并不能提供证据证明方言 A 比方言 B 更吸引雄性黄腹啄木鸟;它仅仅是那个特定歌曲或录音的证据。要正确回答研究问题,需要从两种方言中采集大量的歌曲样本。
假拟重复现象也可能由于在不同时间对同一对象进行单独测量(自相关)而引起,正如我在血压实验中所做的那样。同一患者的血压测量在不同日期之间具有自相关性,就像一个公司的年度收入数据一样。这些自相关的数学结构可能非常复杂,并且会因患者或企业的不同而有所不同。如果无意间将这些数据当作每次测量相互独立来处理,研究人员就会得到假拟重复——从而误导性的结果。
处理假拟重复现象
小心的实验设计可以打破测量之间的依赖关系。一个农业田间实验可能会比较不同作物品种在每个田地中的生长速度。但如果土壤或灌溉质量因田地而异,即使你在每个田地中测量了大量植物,也无法将作物品种差异与土壤条件差异区分开来。一个更好的设计方法是将每个田地分成小块,并随机将作物品种分配给每块。通过足够数量的块,土壤差异就不会系统性地让某一作物比其他作物受益更多。
如果你无法改变实验设计,统计分析可以帮助应对伪重复。统计技术并不会神奇地消除测量之间的依赖性,也不会让你通过糟糕的实验设计获得良好的结果。它们仅提供了量化依赖性的方法,帮助你正确解读数据。(这意味着它们通常会给出比简单分析更宽的置信区间和更大的p值。)以下是一些选项:^(4)
-
对依赖数据点进行平均。 例如,对单个患者的所有血压测量值进行平均,并将平均值视为一个数据点。这并不完美:如果你对某些患者的测量频率较高,这一事实不会在平均值中体现。为了让你的结果反映测量的置信度(随着测量次数的增加而提高),你需要进行加权分析,对测量更为精确的患者赋予更高的权重。
-
单独分析每个依赖数据点。 与其将所有患者的血压测量值合并,不如分析每个患者的血压,例如只分析第五天的数据,忽略其他所有数据点。但要小心:如果你对每一天的测量都进行重复分析,你将遇到多重比较问题,稍后我会在下一章中讨论。
-
通过调整你的p值和置信区间来修正依赖关系。** 存在许多方法可以估算数据点之间的依赖性并加以修正,包括聚类标准误差、重复测量检验和层次模型。(5),(6),^(7)
批量生物学
新技术已经导致生物学数据的爆炸性增长。廉价的芯片实验室——微阵列允许生物学家同时追踪成千上万的蛋白质或基因的活动。微阵列包含数千个探针,这些探针会与不同的蛋白质或基因化学结合;荧光染料允许扫描仪检测每个探针结合的物质数量。特别是在癌症研究中,这些新技术带来了巨大好处:研究人员可以追踪癌细胞和健康细胞中成千上万基因的表达,这可能会导致新的靶向癌症治疗方法,从而避免损伤健康组织。
微阵列通常是在处理荧光染料的机器上按批次处理的。在大型研究中,可能会有不同的实验室使用不同的设备来处理不同的微阵列。一个天真的实验设计可能是收集十二个癌症样本和十二个健康样本,将它们注入微阵列,然后将所有癌症样本在周二通过处理机器,而健康样本在周三进行处理。
你可能已经能猜到接下来的内容了。微阵列的结果在处理批次之间差异很大:机器的校准可能发生变化,实验室温度的差异会影响化学反应,不同瓶子的化学试剂在处理微阵列时可能会被使用。有时,实验数据中最大的不确定来源仅仅是微阵列处理的日期。更糟糕的是,这些问题不会以相同的方式影响整个微阵列——事实上,当微阵列在不同批次中处理时,基因对之间的活动相关性可能会完全反转。^(8)因此,额外的样本不一定能为生物实验增加数据点。如果新样本与旧样本在同一批次中处理,它们只是测量设备引入的系统误差——而不是关于癌细胞的一般信息。
再次强调,谨慎的实验设计可以缓解这个问题。如果测试的是两种不同的生物组,你可以将每组样本均匀分配到不同批次,以确保系统性差异不会以不同方式影响各组。此外,要确保记录每个批次的处理方式、每个样本的存储方式以及处理过程中使用的化学试剂;将这些信息提供给分析数据的统计学家,以便他们利用这些信息检测潜在问题。
例如,统计学家可以对数据进行主成分分析,以确定不同批次是否给出了截然不同的结果。主成分分析可以确定数据中哪些变量的组合对结果中的最大变化负责。如果它显示批次号对结果有高度影响,则可以将批次号作为混杂变量考虑,分析数据时加以考虑。
同步伪重复制
伪复制也可以通过不那么明显的途径发生。举个例子,假设你想看看草本植物的嫩芽中的化学物质是否对可爱的小啮齿动物的生殖季节起着作用:你的假设是,当春天草芽发芽时,这些小动物吃掉这些草并开始交配季节。为了测试这一点,你将一些动物放入实验室,给它们一半普通食物,另一半混合了这些草,看看它们的生殖周期什么时候开始。
等等:你隐约记得曾读过一篇论文,提到生活在群体中的哺乳动物的生殖周期可以同步——好像是关于它们的 feromone(信息素)的事。所以,也许每个群体中的动物并不完全彼此独立。毕竟,它们都在同一个实验室,暴露于相同的信息素中。一旦其中一只进入发情期,它的信息素可能会使其他动物也跟着进入发情期,不管它们吃了什么。这样一来,你的样本量实际上就是一个。
你在想的研究是一篇著名的 1970 年代初期的论文,发表于Nature杂志,由玛莎·麦克林托克(Martha McClintock)撰写,指出女性的月经周期如果生活在紧密接触的环境中,会同步。10 其他研究也在金色仓鼠、挪威大鼠和黑猩猩身上得到了类似的结果。这些结果似乎表明,同步现象可能在你的研究中引发伪复制。太好了。那么,这是否意味着你得建造防信息素笼子,把小动物们隔离开来?
不完全是。你可能会想,如何证明月经或发情周期会同步呢?事实上,证明这一点是做不到的。那些“证明”各种动物同步的研究本身就存在伪复制的隐秘问题。
麦克林托克对人类月经周期的研究大致是这样进行的:
-
找到那些生活在紧密接触中的女性群体——比如,宿舍中的大学生。
-
每个月左右,询问每位女性她上次月经开始的时间,并列出她花时间最多的其他女性。
-
使用这些列表将女性分成倾向于一起度过时间的小组。
-
对每组女性,查看每位女性的月经开始日期与平均值的偏差有多大。
小的偏差意味着女性的周期是对齐的,都在差不多的时间开始。然后,研究人员测试偏差是否随着时间减少,这将表明女性的周期在同步。为了做到这一点,他们检查了研究过程中五个不同时间点的平均偏差,测试偏差是否减少得超出了随机预期的范围。
不幸的是,他们使用的统计检验假设,如果没有同步,偏差将会随机地在一个周期到另一个周期之间增加或减少。但假设有两位女性参与了研究,她们开始时周期是同步的。一个人的周期平均间隔 28 天,另一个大约 30 天。随着研究的进行,她们的周期将会持续地分开,最初是相差两天,然后是四天,依此类推,只有少量的随机变化,因为月经并非完全准确地同步。类似地,两个女性即使起初不同步,还是可能会逐渐同步。
做个比较,如果你曾被困在交通中,你可能见过两辆车的转向信号灯以不同的频率闪烁,最终会逐渐同步,然后又会错开。如果你在交叉路口等得足够久,你会看到这种现象多次发生。但据我所知,转向信号灯没有信息素。
所以我们实际上会预期两个不同步的月经周期会暂时同步。研究人员未能在他们的统计检验中考虑到这个效应。
他们在研究开始时计算同步时也犯了一个错误:如果一位女性的月经在研究开始前四天来潮,另一位则在研究开始后四天来潮,那么她们之间的差异仅为八天。但研究开始之前的月经周期未被计算在内,因此记录的差异是从研究开始第四天到第一位女性下一次月经的差异,可能长达三周。
这两个错误结合在一起意味着,科学家们即使在没有信息素以外的同步效应发生的情况下,也能够获得统计学上显著的结果。(11),(12)
研究人员通过更多月经周期追踪受试者收集的附加数据点,并未提供任何同步的证据。这些数据只是更多的统计证据,表明即使没有信息素,基于随机性也会发生同步。统计检验实际上回答了一个与科学家们原本想要提问的不同问题。
对于声称小型毛茸茸的哺乳动物或黑猩猩会同步发情周期的研究也存在类似的问题。后续使用更正统计方法的研究未能找到任何发情或月经同步的证据(尽管这一点存在争议)。^(13) 我们曾认为我们的啮齿动物实验可能存在伪复制现象,因为我们相信了一项伪复制的研究。
不要嘲笑你的朋友,如果她们抱怨月经同步的事情。假如平均周期为 28 天,那么两位平均女性的月经开始时间最多相差 14 天。(如果你的月经在朋友的 20 天后开始,那其实是在她下次月经开始的前 8 天。)这是最大的差距,因此平均相差 7 天,而因为月经周期可能持续 5 到 7 天,它们经常会重叠,即使周期随着时间的推移趋同或发散。
提示
-
确保你的统计分析确实回答了你的研究问题。额外的测量如果高度依赖于之前的数据,并不能证明你的结果能推广到更广泛的人群——它们仅仅增加了你对特定样本的确信。
-
使用统计方法,如分层模型和聚类标准误差,来考虑测量之间的强依赖关系。
-
设计实验以消除变量之间潜在的相关性。如果这不可能,记录下混杂因素,以便通过统计方法进行调整。但如果你从一开始就没有考虑到这种依赖关系,可能会发现无法挽救你的数据。
^([8]) 我只是想找个借口使用血压计这个词。
第四章:p值和基率谬误
你已经看到了p值很难解释。得到一个统计学上不显著的结果并不意味着两组之间没有差异。那么,得到一个显著的结果又该如何理解呢?
假设我正在测试 100 种潜在的癌症药物。这些药物中只有 10 种有效,但我不知道哪种有效;我必须进行实验来找出它们。在这些实验中,我将寻找p < 0.05 的结果,表明该药物具有显著的效果。
图 4-1 展示了这种情况。网格中的每个方格代表一种药物。实际上,只有顶行的 10 种药物有效。因为大多数实验无法完美地检测出每种有效药物,所以我假设我的实验具有 0.8 的统计效能,尽管你知道大多数研究的统计效能要低得多。所以,在 10 种有效药物中,我将正确地检测出大约 8 种,显示为深灰色。

图 4-1。每个方格代表一种候选药物。网格的第一行代表那些肯定有效的药物,但我只对 8 种深灰色的药物得到了统计学上显著的结果。黑色的格子代表假阳性。
因为我的p值阈值是 0.05,所以我有 5%的机会错误地认为一种无效的药物有效。由于我测试的 90 种药物都是无效的,这意味着我会错误地认为大约 5 种药物有显著效果。这些药物在图中显示为黑色。
我进行实验并得出结论,有 13 种“有效”药物:8 种有效药物和 5 种假阳性。因此,任何一项“有效”药物真正有效的概率是 8/13——仅为 62%! 从统计学的角度来看,我的假发现率——即那些统计上显著但实际上是假阳性的结果所占的比例——为 38%。
由于有效癌症药物的基率非常低(仅为 10%),我有很多机会得到假阳性。将情况极端化:如果我不幸地得到了一大车完全无效的药物,基率为 0%,那么我将不可能获得真正显著的结果。然而,我会对车里的 5%的药物得到p < 0.05 的结果。
基率谬误
你常常看到新闻报道引用低p值作为错误不太可能的标志:“这个结果作为统计偶然的机会只有 1/10,000,因为p = 0.0001。”不!这不可能是真的。在癌症药物的例子中,p < 0.05 的阈值导致任何给定统计显著结果为偶然的概率达到 38%。这种误解被称为基础概率谬误。
记住p值的定义:p值是在假设没有真实效应或没有真实差异的情况下,收集数据的概率,这些数据表现出一个与实际观察结果相同或更极端的差异。
一个p值是在假设药物无效的前提下计算出来的。它告诉我获得当前数据或更极端数据的概率。它并不告诉我药物有效的概率。一个小的p值是更强的证据,但要计算药物有效的概率,你还需要考虑基础概率。
当来自大型强子对撞机的新闻宣布物理学家发现了希格斯玻色子的证据时,每篇文章都试图引用一个概率:“这个结果作为偶然事件的机会只有 1/174 万”,或者类似的说法。但是每个新闻来源引用的数字都不同。他们不仅忽略了基础概率并误解了p值,而且连计算也不准确。
所以当有人引用一个低p值来说明他们的研究可能是正确的时,记住,实际上错误的概率几乎肯定更高。在大多数假设被证明是错误的领域,比如早期药物试验(大多数早期药物未能通过试验),大多数统计显著结果,p < 0.05,实际上很可能是偶然的。
快速小测验
一项 2002 年的研究发现,绝大多数统计学学生和教师未能通过一个关于p值的简单测验。^(1) 尝试这个测验(为本书稍作调整)来看看你对p值的真正含义理解得怎么样。
假设你正在测试两种药物,Fixitol 和 Solvix。你有两个治疗组,一个服用 Fixitol,另一个服用 Solvix,然后你测量他们在某项标准任务(例如健身测试)上的表现。你使用简单的显著性检验比较每组的平均得分,并获得p = 0.01,表明均值之间存在统计显著差异。
根据以下内容,判断每个陈述是对还是错:
-
你已经完全驳斥了零假设(“均值之间没有差异”)。
-
零假设为真的概率是 1%。
-
你已经完全证明了备择假设(“均值之间有差异”)。
-
你可以推断出备择假设成立的概率。
-
你知道,如果你决定拒绝零假设,你犯错的概率。
-
你有一个可靠的实验结果,换句话说,如果你重复实验多次,你将在 99%的试验中获得显著结果。
你可以在脚注中找到答案。^([9])
医学检测中的基本比率谬误
对于使用乳腺 X 光检查筛查乳腺癌,存在一些争议。有些人认为,假阳性结果的危险——这会导致不必要的活检、手术和化疗——超过了早期发现癌症的好处;美国预防服务工作组等医生团体和监管机构最近已停止建议 50 岁以下女性进行常规乳腺 X 光检查。这是一个统计学问题,回答这个问题的第一步是问一个更简单的问题:如果你的乳腺 X 光检查出现癌症迹象,你实际患有乳腺癌的概率是多少?如果这个概率太低,大多数阳性结果都是假阳性,浪费大量时间和精力却没有任何好处。
假设接受乳腺 X 光检查的女性中有 0.8%患有乳腺癌。在 90%的乳腺癌患者中,乳腺 X 光检查能够正确检测出癌症。(这就是该检测的统计功效。这是一个估算值,因为如果我们不知道癌症的存在,很难判断我们漏掉了多少病例。)然而,在没有乳腺癌的女性中,大约 7%的人仍然会在乳腺 X 光检查中得到阳性结果。(这相当于具有p < 0.07 的显著性阈值。)如果你得到乳腺 X 光检查的阳性结果,你患乳腺癌的概率是多少?
如果忽略你作为男性读者的可能性,^([10])答案是 9%。
我是如何计算的呢?假设随机选择了 1,000 名女性进行乳腺 X 光检查。平均而言,0.8%的筛查女性患有乳腺癌,因此我们研究中大约有 8 名女性会患癌。乳腺 X 光检查能正确检测 90%的乳腺癌病例,所以大约 7 名患者会被发现患有癌症。然而,有 992 名没有乳腺癌的女性,7%的人会在乳腺 X 光检查中得到假阳性结果。这意味着大约 70 名女性将被错误告知她们患有癌症。
总的来说,我们有 77 名乳腺 X 光检查结果为阳性的女性,其中 7 名实际上患有乳腺癌。只有 9%的阳性乳腺 X 光结果女性患有乳腺癌。
即使是医生也会犯这个错误。如果你问他们,三分之二的人会错误地得出结论,认为p < 0.05 的结果意味着该结果有 95%的概率是正确的。^(2) 但正如你在这些例子中所看到的,阳性乳腺 X 光结果意味着癌症的可能性取决于实际患有癌症的女性的比例。幸运的是,在任何时候,患乳腺癌的女性比例都很小。
如何通过吸烟统计数据来撒谎
知名的统计学专家也会陷入基本概率谬误。一例引人注目的案例是记者达雷尔·哈夫,他是 1954 年畅销书如何通过统计数据撒谎的作者。
尽管如何通过统计数据撒谎并没有关注统计学的学术意义——或许更适合命名为如何通过图表、图形和误导性数字撒谎——这本书仍然被广泛采用于大学课程,并被渴望智胜营销人员和政治家的公众阅读,使哈夫成为统计学领域的公认专家。所以,当美国外科医生的著名报告吸烟与健康在 1964 年发布,称烟草吸烟会导致肺癌时,烟草公司寻求哈夫提供公开的反驳^([11])。
为了利用哈夫在公众中的声望,烟草行业委托他在国会作证,并随后撰写一本书,暂定名为如何通过吸烟统计数据撒谎,内容涉及指控外科医生报告中存在的许多统计和逻辑错误。哈夫完成了这本手稿,烟草公司支付了他超过 9,000 美元(相当于 2014 年约 60,000 美元),这本书得到了芝加哥大学统计学家(也是烟草行业付费顾问)K.A.布朗利的好评。尽管这本书从未出版,但哈夫友好、易懂的写作风格可能会给公众留下深刻印象,为茶水间辩论提供了话题。
在他的第七章中,他讨论了他所称的过于精确的数字——那些没有置信区间或任何不确定性指示的数字。例如,外科医生报告中提到的“死亡率比为 1.20”,这是“在 5%显著性水平下具有统计意义的”。这大概意味着该比率显著不同于 1.0,且p < 0.05。哈夫同意将结果表示为死亡率比是完全合适的,但他指出:
这确实带来了一个不幸的结果:它让人看起来我们现在能准确知道两类群体的实际死亡率比,精确到小数点后位。读者必须理解,这个看起来相当精确的数字其实只是一个近似值。从附带的显著性声明(“5%显著性水平”)中,我们发现实际上所知道的只是第二组的死亡率比第一组高的几率是 19 比 1。第一组到第二组的实际差异可能远低于所示的 20%,也可能更高。
对于这段引用的前半部分,我真想为哈夫加油:是的,统计学上的显著性并不意味着我们知道精确的两位小数的数字。(置信区间本来是表达这一数字的更合适方式。)但是接下来,哈夫声称显著性水平表明死亡率的差异的概率是 19 比 1。也就是说,他将p值解释为结果是偶然的概率。
甚至哈夫也无法避免基准率谬误!我们不知道“第二组的死亡率是否真的高于第一组”的概率。我们所知道的是,如果真实的死亡率比是 1,那么在 20 次实验中,我们只有一次会观察到一个大于 1.20 的死亡率比。
哈夫对过于精确数字的抱怨,实际上是极度精确的。值得注意的是,K.A. 布朗利阅读了这条评论——以及哈夫在整个手稿中所做的几次类似评论——并没有提出异议。相反,他指出,在一个案例中,哈夫错误地引用了赔率为 20 比 1,而不是 19 比 1。似乎他没有注意到更为根本的基准率谬误。
反击基准率谬误
你不必进行高级癌症研究或早期癌症筛查才能遇到基准率谬误。假如你在做社会研究呢?假设你想调查美国人自卫时使用枪支的频率。毕竟,枪支管控的争论集中在自卫权上,所以了解枪支是否常用于防卫,以及这种使用是否超过了其负面影响(如凶杀案件)是非常重要的。
收集这些数据的一种方式是通过调查。你可以询问一部分具有代表性的美国人,他们是否拥有枪支,如果有,他们是否曾在入室盗窃或防止被抢劫时用枪支保护自己或家人。你可以将这些数字与执法机构关于枪支在凶杀案件中使用的统计数据进行对比,从而做出是否枪支管控的好处大于弊端的明智决定。
这类调查已经做过,结果也很有意思。1992 年的一项电话调查估算,美国平民在那一年使用枪支进行自卫的次数高达 250 万次。这些案件中大约 34%是入室盗窃案件,也就是说有 845,000 起盗窃案件被枪支持有者制止了。但在 1992 年,实际发生的家庭盗窃案件只有 130 万起。三分之二的案件发生在房主熟睡时,只有在小偷离开后才被发现。那剩下的 43 万起盗窃案件是房主在家且清醒时与小偷对峙的,而我们被告知其中 845,000 起案件是被持枪居民阻止的。^(3)
哎呀。
一种解释可能是,入室盗窃案件被严重低报。入室盗窃的总数来自国家犯罪受害者调查(NCVS),该调查通过详细的访谈向成千上万的美国人询问他们的犯罪经历。也许那些用枪防卫成功的受访者没有报告犯罪——毕竟,没有任何财物被盗,且小偷逃跑了。但是,要解释这种差异,必须假设存在大规模的入室盗窃案件未被报告。实际上,三分之二的针对清醒房主的入室盗窃案件需要没有报告。
更可能的答案是,调查高估了自卫时使用枪支的情况。怎么高估的呢?就像乳腺 X 光检查高估了乳腺癌的发生率一样:假阳性的机会远多于假阴性。如果 99.9%的人在过去一年没有使用过枪支进行自卫,但其中 2%的人由于某种原因(例如为了取乐,或记错了很久以前的事件,误认为发生在过去一年内)回答了“是”,那么真实的使用率 0.1%看起来会接近 2.1%,被夸大了 21 倍。
那么,假阴性呢?这种效应能否通过那些即使上周刚击倒抢劫犯的人,仍然回答“没有”来平衡?受访者可能是非法携带枪支,或不愿意在电话中承认使用过枪支。但是即便如此,如果很少有人真正使用枪支进行自卫,那么假阴性的机会就很少。即便有一半使用枪支的人在电话调查中不承认使用过,他们也远远少于那些撒谎或记错的非使用者群体,而调查结果将会显得比实际高出 20 倍。
由于假阳性率是这里的主要误差因素,因此犯罪学家们的重点是减少这一误差。一个有效的做法是进行极其详细的调查。由司法部主办的 NCVS 使用详细的面对面访谈,受访者会被要求提供关于犯罪和自卫时使用枪支的细节。只有报告自己是受害者的人才会被询问如何进行自卫,因此,可能会撒谎或记错自卫情形的人,只有在他们也撒谎或记错自己是受害者的情况下,才会有机会报告。NCVS 还通过定期对同一受访者进行多次访谈,试图检测到记忆错误的日期(这是一个常见问题)。如果受访者报告自己在过去六个月内成为犯罪的受害者,但六个月前他们报告的相同犯罪发生在几个月前,访谈员可以提醒他们这一不一致。
1992 年 NCVS 的估计数字比电话调查低得多——大约每年 65,000 起事件,而不是数百万起。^(4) 这个数字不仅包括防范入室盗窃,还包括抢劫、强奸、袭击和汽车盗窃等案件。即便如此,它的数字仍然比电话调查给出的估计值小了近 40 倍。
诚然,人们可能对向联邦政府机构承认非法枪支使用感到紧张;原始电话调查的作者声称,大多数防御性枪支使用都涉及非法持枪。^(5)(这引发了另一个研究问题:为什么这么多受害者非法携带枪支?)这使得 NCVS 调查结果偏低。也许真相就在两者之间。
不幸的是,膨胀的电话调查数据仍然经常被枪支权利团体引用,误导了公众对枪支安全的辩论。与此同时,NCVS 的结果保持在远低于的数据上。枪支管控的辩论显然比单一统计数据要复杂得多,但有根据的辩论只能从准确的数据开始。
如果一开始你没有成功,继续尝试
基本率谬误表明,统计学上显著的结果往往是假阳性,远比p < 0.05 显著性标准所暗示的要频繁。这种谬误在现代研究中的影响更为显著,因为现代研究通常不仅仅进行一次显著性测试。更多时候,研究会比较多种因素,寻找那些影响最重要的因素。
例如,想象一下通过测试每种果冻豆颜色对痤疮的影响来测试果冻豆是否引起痤疮,正如图 4-2")所示。


图 4-2。来自 xkcd 的漫画,Randall Munroe 创作 (xkcd.com/882/)
正如漫画所示,进行多次比较意味着多次发生假阳性的机会。我执行的测试越多,至少有一个假阳性结果的机会就越大。例如,如果我测试 20 种完全不会引起痤疮的果冻豆口味,并在p < 0.05 的显著性水平下寻找相关性,我有 64%的机会得到至少一个假阳性结果。如果我测试 45 种口味,至少一个假阳性的机会高达 90%。如果我改为使用置信区间来寻找非零的相关性,同样的问题也会出现。
注意
这些数字背后的数学相当简单。假设我们有 n 个独立的假设要测试,且这些假设都不成立。我们将显著性标准设为 p < 0.05。在 n 次测试中获得至少一个假阳性的概率如下:
P(假阳性) = 1 – (1 – 0.05)^(n)
对于 n = 100,假阳性概率增加到 99%。
多重比较并不总是像测试 20 种果冻豆颜色那样显而易见。追踪患者症状几周,并在任何一周测试显著的效益:噢,这样就有了 12 次比较。如果你还要检查 23 种不同的潜在危险副作用的发生情况?唉!你犯了个错误。
如果你发送一份 10 页的调查问卷,询问核电厂距离、牛奶消费量、年龄、男性表兄弟数量、最喜欢的披萨配料、当前袜子颜色以及其他几十个因素,你可能会发现至少有一个因素与癌症有关。
粒子物理学家称这一现象为他处观察效应。像大型强子对撞机寻找希格斯玻色子的实验,涉及搜索粒子碰撞数据,寻找小的异常现象,以指示新粒子的存在。例如,要计算在 5 吉电子伏特能量下,异常现象的统计显著性,物理学家会问:“在 5 吉电子伏特的能量下,偶然看到如此大或更大异常现象的概率有多大?”但他们也可以在其他地方查找——他们在多个能量范围内寻找异常,其中任何一个都可能产生假阳性。物理学家们已经开发了复杂的程序来处理这个问题,并正确地限制假阳性率。^(6)
如果我们希望同时进行多次比较,但控制整体假阳性率,p值应该在假设没有任何差异是真实的前提下计算。如果我们测试 20 种不同的果冻豆,我们不会感到惊讶如果其中一种“引起”了痤疮。但当我们计算某种特定口味的p值时,就好像每个比较都是独立的,我们其实是在计算这个特定小组幸运的概率——一个不太可能的事件,而不是 20 种中的任意一种。因此,我们检测到的异常看起来比实际更为显著。^(7)
1980 年代对医学试验的调查发现,平均每个试验进行了 30 次治疗比较。在超过一半的试验中,研究人员进行了如此多的比较,以至于假阳性几乎是必然的,这使得他们报告的统计显著结果受到怀疑。他们可能发现了一个统计显著的效果,但它也可能只是一个假阳性。^(8) 这种情况在心理学和其他高度依赖统计学的领域也类似。
也有一些技术可以用来修正多重比较问题。例如,本费罗尼校正方法允许你像平常一样计算p值,但指出如果在试验中进行n次比较,那么显著性的标准应该是p < 0.05/n。这样可以降低假阳性的概率,使其接近于仅进行一次比较时p < 0.05 的情况。然而,正如你可以想象的那样,这会降低统计功效,因为你要求在得出统计显著性结论之前,必须有更强的相关性。在某些领域,由于对多重比较问题的认识增加,近年来统计功效已经系统性地下降。
除了这些实际问题外,一些研究人员还从哲学角度反对使用本费罗尼校正方法。本费罗尼程序隐含地假设在多个比较中测试的每一个零假设都是正确的。但几乎从来都不是这样,两个群体之间的差异并非完全为零,某些药物的效果也不可能与安慰剂完全相同。那么,为什么一开始就假设零假设成立呢?
如果这个反对意见听起来很熟悉,那是因为你之前曾听过类似的论点——这是针对零假设显著性检验的一般反对,而不仅仅是针对本费罗尼校正。与仅检查每个效应是否可能为零相比,准确估计差异的大小要有趣得多。这也更有理由使用置信区间和效应大小估计,而不是显著性检验。
大脑成像中的“红鲱鱼”问题
神经科学家在进行功能性磁共振成像(fMRI)研究时会进行大量比较,在此类研究中,研究者会在受试者执行某个任务之前和之后分别拍摄三维的大脑图像。这些图像显示了大脑的血流情况,从而揭示出人们在执行不同任务时,大脑的哪些部分最为活跃。
那么,究竟如何判断大脑哪些区域是活跃的呢?一种简单的方法是将大脑图像分成小立方体,称为体素(voxels)。将“前”图像中的一个体素与“后”图像中的体素进行比较,如果血流差异显著,就得出大脑的某一部分参与了任务的结论。问题是,需要比较数万个体素,因此存在很多假阳性的机会。
例如,一项研究测试了“开放性思维任务”对参与者的影响。受试者观看了一系列“展示人在特定社交情境中、带有特定情感色彩的照片”,并被要求“判断照片中的人可能正在体验的情感”。你可以想象,在此测试过程中,大脑的各种情感和逻辑中心会被激活。
数据经过分析,发现某些大脑区域在任务期间活动发生了变化。对“心智化任务”前后图像的比较显示,在大脑的一个 81mm³ 区域,p = 0.001 存在差异。
研究参与者?不是那些通常为参加者支付 10 美元的大学生。不是的,测试对象是一条重 3.8 磅的“大西洋三文鱼”,它“在扫描时已经不再活跃。”^([13])
神经科学家们通常通过要求有 10 个或更多显著体素的簇,并使用严格的 p < 0.005 阈值来限制这个问题,但在一个包含数万个体素的脑扫描中,假阳性几乎是无法避免的。像 Bonferroni 校正这样的技术,能够在进行成千上万次统计检验时控制假阳性率,目前在神经科学文献中已很常见。很少有论文会犯像死三文鱼实验中那样严重的错误。不幸的是,几乎每篇论文都是以不同的方式处理这个问题。一项关于 241 份 fMRI 研究的综述发现,它们使用了 207 种独特的统计方法、数据收集策略和多重比较校正组合,给研究人员提供了极大的灵活性,以获得统计显著的结果。^(9)
控制假发现率
正如我之前提到的,Bonferroni 校正的一个缺点是它大大降低了实验的统计效能,这使得你更有可能错过真正的效应。确实存在比 Bonferroni 校正更复杂的方法,这些方法对统计效能的影响较小,但即便如此,它们也不是灵丹妙药。更糟的是,它们并不能避免基本率谬误。你仍然可能会被你的 p 阈值误导,错误地声称“我错的概率只有 5%”。像 Bonferroni 校正这样的程序只帮助你消除一些假阳性。
科学家们更关心的是限制 假发现率:即统计显著结果中假阳性的比例。在本章开头提到的癌症药物例子中,我的假发现率为 38%,因为我所有统计显著结果中有三分之一都是偶然的。当然,你之所以知道哪些药物确实有效,是因为我事先告诉了你这个数字。一般来说,你并不知道你测试的假设中有多少是真的;你只能通过猜测来计算假发现率。但理想情况下,你应该通过数据来揭示这一点。
1995 年,Yoav Benjamini 和 Yosef Hochberg 提出了一个异常简单的程序,用来告诉你哪些 p 值在统计上是显著的。到目前为止,我一直在帮你避开数学细节,但为了说明这个程序有多简单,给你看看它的具体内容:
-
进行你的统计检验并获得每个检验的 p 值。列出这些结果,并按升序排序。
-
选择一个假发现率,并将其称为 q。将统计测试的数量称为 m。
-
找到最大的 p 值,使得 p ≤ iq/m,其中 i 是 p 值在排序列表中的位置。
-
将 p 值以及所有小于它的值称为统计显著。
完成了!该程序保证,在所有统计显著的结果中,平均而言,不超过 q 百分比会是假阳性。^(10) 我希望这个方法在直觉上是有意义的:如果你正在寻找更小的假发现率(更小的 q)或进行更多比较(更高的 m),则 p 截止值会变得更加保守。
Benjamini–Hochberg 程序既快速又有效,且已被统计学家和科学家广泛采用。当测试数百个假设并且预期大多数是假设为假时,它尤其适用,比如将基因与疾病相关联。(绝大多数基因与某种特定疾病无关。)该程序通常提供比 Bonferroni 校正更好的统计功效,且假发现率比假阳性率更易于解释。
小贴士
-
记住,p < 0.05 并不等同于你的结果有 5% 的概率是错误的。
-
如果你正在测试多个假设或寻找许多变量之间的相关性,使用类似于 Bonferroni 或 Benjamini–Hochberg 程序(或它们的各种衍生版本和改编)的程序来控制假阳性过多的问题。
-
如果你的领域经常进行多重测试,例如神经影像学,学习专门为处理你数据而开发的最佳实践和技术。
-
学会使用基准率的先验估计来计算给定结果是假阳性的概率(如乳腺 X 光例子)。
^([9]) 我希望你已经得出结论,每个陈述都是错误的。前五个陈述忽略了基准率,而最后一个问题询问的是实验的功效,而不是它的 p 值。
^([10]) 做男性并不会真正排除你得乳腺癌的可能性,但这种可能性要小得多。
^([11]) 以下叙述基于《遗产烟草文献库》中的信件和报告,这是一个在线收集的烟草行业文档库,是“烟草主和解协议”产生的结果。
^([12]) 物理学家拥有最棒的单位名称。吉电子伏特、时刻、倒数飞秒巴恩——作为一名转行统计学的物理学家,我唯一的遗憾是再也没有借口使用这些术语了。
^([13]) “在头部线圈内放置泡沫垫,以限制扫描过程中鲑鱼的移动,但证明它在很大程度上是多余的,因为受试者的运动异常低。”
第五章 不良的显著性评判者
使用过多的统计显著性检验是获得误导性结果的一个好方法,但也有可能声称一个未明确测试过的差异具有显著性。误导性的误差条可能会让你认为某个检验是多余的,或者两种治疗的统计显著性差异可能会让你相信它们之间存在统计学上的显著差异。让我们从后者开始。
显著性中的无意义差异
“我们将 A 治疗、B 治疗与安慰剂进行了比较。A 治疗相较于安慰剂显示出了显著的益处,而 B 治疗没有显著的统计学益处。因此,A 治疗比 B 治疗更好。”
我们经常听到这种说法。这是一种简单的比较药物、手术干预、疗法和实验结果的方法。它很直接,看似合理。
然而,显著性差异并不总是意味着显著差异。^(1)
其中一个原因是p < 0.05 的临界值具有任意性。我们可能会得到两个非常相似的结果,一个p = 0.04,另一个p = 0.06,并错误地认为它们明显不同,因为它们位于临界值的两侧。第二个原因是p值并不是效应大小的度量,因此相似的p值不一定意味着效应相似。两个具有相同统计显著性的结果仍然可能相互矛盾。
但我们应该考虑统计功效。如果我们将新实验药物 Fixitol 和 Solvix 与安慰剂进行比较,但实验样本量不足以提供足够的统计功效,那么我们可能未能发现它们的益处。如果它们的效果相同,但我们的统计功效仅为 50%,那么我们很有可能会说 Fixitol 有显著的益处,而 Solvix 没有。再次进行实验时,也同样有可能 Solvix 显得有益而 Fixitol 没有。
计算这些内容相对简单。假设两种药物与安慰剂相比有相同的非零效果,并且我们的实验具有统计功效B。这意味着我们将检测到每组与对照组差异的概率是B,因此我们检测到 Fixitol 的效果而不检测到 Solvix 的效果的概率是B(1 – B)。同样,检测到 Solvix 的效果而不检测到 Fixitol 的效果的概率也是如此。将这些概率加起来,我们会发现,得出一个药物有显著效果而另一个没有的概率是 2B(1 – B)。这个结果在图 5-1 的图,表示即使两种药物效果相同,一个药物出现显著结果而另一个药物出现无显著结果的概率。当统计功效非常低时,两种药物的结果都不显著;当统计功效非常高时,两种药物的结果都显著。")中有所展示。
我们不应当单独将每种药物与安慰剂进行比较,而应当将它们互相比较。我们可以检验它们是否同样有效,或者构建一个置信区间来衡量 Fixitol 相对于 Solvix 的额外效益。如果该区间包括零,那么它们可能同样有效;如果不包括零,那么就意味着某种药物明显优胜。这不会提高我们的统计能力,但可以防止得出药物之间存在差异的错误结论。我们应当把寻找差异显著性的倾向转变为对差异显著性的检验。

图 5-1。2B(1–B)的图示,表示在两种药物效应完全相同的情况下,其中一药显示显著结果而另一药显示无显著结果的概率。当统计功效非常低时,两种药物的结果都不显著;当统计功效非常高时,两种药物的结果都显著。
这一微妙的区别非常重要,特别是在解释复制研究结果时,研究人员尝试再现先前研究的结果时。某些复制研究将其负面结果框架化为显著性:“原文获得了显著结果,但这项更为严谨的研究却没有。”但即便复制实验的设计具备足够的统计功效来检验初始研究中报告的效应,可能还是存在“真实效应膨胀”的问题——最初的研究可能高估了效应。由于检测较小效应需要更大的样本,复制实验的真实统计功效可能低于预期,因此完全可能获得一个统计学上不显著的结果,而该结果与早期的研究依然一致。
另一个例子是,2007 年,英国药品连锁店 Boots 的 No. 7 保护与修复美容精华液在 BBC 报道了一项临床试验后成为畅销产品,该试验据称证明了其在减少皮肤皱纹方面的有效性。根据《英国皮肤病学杂志》发表的试验,精华液使 43%的受试者皱纹数量减少,这具有统计学显著性,而对照组(未含活性成分的同款精华液)仅有 22%的受试者受益,统计学上没有显著改善。广告中宣传的含义是,该精华液已经通过科学证明是控制皱纹的最佳选择——尽管作者在论文中不得不承认,组间差异在统计学上并不显著。^(2)
不幸的是,这种统计数据的误用并不限于企业营销部门。例如,神经科学家在进行组间比较时大约一半的时间使用了不正确的方法。^(3)你可能还记得 2006 年一项研究的新闻,研究表明有多个哥哥的男性更可能是同性恋。(4)他们是如何得出这个结论的呢?作者通过指出,当他们分析各种因素对同性恋的影响时,只有哥哥的数量对同性恋有统计学上的显著影响,而姐姐的数量或非亲生哥哥的数量(即养兄弟或继兄弟)没有显著影响。但正如我们所见,这并不能保证这些不同影响组之间有显著的差异。事实上,仔细观察数据后我们发现,拥有哥哥和拥有姐姐的影响之间没有统计学上的显著差异。不幸的是,论文中没有发布足够的数据来计算这一比较的*p*值。(1)
对不确定结果的误解助长了公众对医生无法做出决定的印象,认为他们不清楚哪些药物和食物对你有益或有害。例如,降胆固醇药物(他汀类药物)因其可以降低血液胆固醇水平而广受欢迎,因为高胆固醇与心脏病相关。但这种关联并不能证明降低胆固醇水平会对患者有益。一系列涉及数万名患者记录的大型荟萃分析旨在回答这个问题:“对于没有心血管疾病病史的患者,他汀类药物是否能降低死亡率?”
三项研究得出的结论是:他汀类药物确实可以降低死亡率。另有两项研究认为,没有足够的证据表明他汀类药物有效^5。阅读这些文章的医生、患者和记者无疑会感到困惑,可能会认为关于他汀类药物的研究结论存在矛盾且不确定。但正如图 5-2 所示,所有五项荟萃分析对他汀类药物的效果给出了相似的估计:相对风险的估算值均接近 0.9,表明在试验期间,服用他汀类药物的患者死亡率比对照组低了 10%。尽管两项研究的置信区间确实与相对风险为 1 重叠——这表示治疗组与对照组之间没有差异——但它们的效应大小估算与其他研究结果一致。因此,声称这些研究之间存在严重分歧是不合理的。

图 5-2:五项大型荟萃分析估算的服用他汀类药物患者的相对死亡风险的置信区间。相对风险小于 1 表示死亡率低于对照组。荟萃分析以首席作者的姓名和发表年份标记。
寻找显著性
在上一节中,我提到如果我们要比较 Fixitol 和 Solvix,应该使用显著性检验来直接比较这两者,而不是分别与安慰剂对比。为什么我必须这么做?为什么不能仅仅通过查看两个置信区间来判断它们是否重叠?如果置信区间重叠,那么这两种药物的效果可能相同,因此它们之间没有显著差异,对吧?实际上,在判断是否存在显著差异时,科学家们通常通过肉眼观察,利用类似图 5-3 这样的图表进行初步判断。

图 5-3。使用 Fixitol 或 Solvix 的患者恢复时间。Fixitol 似乎更有效,但误差条有重叠。
想象一下,图中两个标记的点表示两组各 10 名患者从某种疾病中恢复的估计时间。这些误差条的宽度可能代表三种不同的含义。
-
计算测量值的标准差。计算每个观测值与平均值的差距,平方每个差值,然后取平均值并开根号。这就是标准差,它衡量了测量值与其均值之间的分布情况。标准差条从均值下方一个标准差延伸到均值上方一个标准差。
-
估计值的 95%置信区间。
-
估计值的两倍标准误差,另一种衡量误差范围的方式。如果你进行大量相同的实验并从每次实验中获得 Fixitol 效果的估计值,那么标准误差就是这些估计值的标准差。误差条从均值下方一个标准误差延伸到均值上方一个标准误差。在最常见的情况下,标准误差条的宽度约为 95%置信区间的一半。
需要注意的是这些的区别。标准差衡量的是个体数据点的分散情况。如果我正在测量患者在服用 Fixitol 时恢复所需的时间,高标准差会告诉我,Fixitol 对某些患者的效果比其他患者要好得多。而置信区间和标准误差则估计了平均值与真实平均值之间的差距——即如果我能够将 Fixitol 提供给每个得病的人,得到的平均值。因此,了解误差条代表的是标准差、置信区间还是标准误差是非常重要的,尽管论文中通常不会明确说明。^([14])
现在,我们假设图 5-3 显示了两个 95%的置信区间。由于它们重叠,许多科学家会得出结论,认为两组之间没有统计学意义上的差异。毕竟,组一和组二可能没有区别——例如,两组的平均恢复时间可能都是 25 天,差异仅仅是因为组一这次运气更好。
但这真的意味着差异没有统计学意义吗?它的p值会是多少呢?
我可以使用t检验来计算p值,这是标准的统计检验方法,用于判断两组的均值是否有显著差异。在将 Fixitol 和 Solvix 的数字代入后,我发现p < 0.05!即使置信区间重叠,它们之间仍然存在统计学上的显著差异。
不幸的是,许多科学家跳过数学推导,直接浏览图表查看置信区间是否重叠。由于区间可以重叠但仍表示统计学上显著的差异,因此这种做法实际上是一种更保守的检验——它总是比要求p < 0.05 更严格。^(6) 因此,显著差异可能会被忽略。
之前,我们假设图 5-3 中的误差条代表置信区间。但如果它们是标准误差或标准差呢?我们能通过仅仅观察误差条是否重叠来发现显著差异吗?正如你可能猜到的那样,不能。对于标准误差,我们面临与置信区间条相反的问题:两次观察可能具有不重叠的标准误差,但它们之间的差异并不具有统计学显著性。而标准差则没有足够的信息来判断显著性,无论它们是否重叠。
一项对心理学家、神经科学家和医学研究人员的调查发现,大多数人通过置信区间重叠来判断显著性,许多科学家混淆了标准误差、标准差和置信区间。^(7) 另一项对气候科学论文的调查发现,大多数对比两组误差条的论文都犯了这个错误。^(8) 甚至一些实验科学的入门教材,比如约翰·泰勒的误差分析导论,也教学生通过目测判断,几乎完全不提正式的假设检验。
只有一种情况,目测检查置信区间是有效的,那就是将置信区间与一个固定值进行比较,而不是与另一个置信区间进行比较。如果你想知道一个数字是否可能为零,你可以检查它的置信区间是否与零重叠。当然,也有正式的统计程序能够生成可以通过目测比较的置信区间,且自动纠正多重比较的影响。不幸的是,这些程序仅在特定情况下有效;例如,Gabriel 比较区间很容易通过目测解释,但要求每个被比较的组具有相同的标准差。^(9) 其他程序可以处理更一般的情况,但仅是近似的,并且不是以容易绘制的方式进行的。^(10)(另一种做法是对每一对可能的变量进行单独检验,然后使用 Bonferroni 校正来进行多重比较,但这种方法既繁琐又保守,降低了统计功效,比其他程序更严格。)
置信区间重叠并不意味着两个值没有显著差异。检查置信区间或标准误差会误导你。最好使用适当的假设检验,毕竟你的眼睛并不是一个精确定义的统计程序。
提示
-
直接使用适当的统计检验来比较组,而不是简单地说:“这个显著,那个不显著。”
-
不要凭眼睛判断差异的显著性,要使用统计检验。
-
记住,如果你比较多个组,必须调整以避免多重比较带来的影响!
^([14]) 由于标准误差条大约是 95%置信区间宽度的一半,许多论文会报告“标准误差条”,这些误差条实际上跨越了均值上下两个标准误差,从而形成置信区间。
第六章 数据中的双重检查
之前我们讨论了“真相膨胀”,这是一种过度使用显著性检验的症状。在寻求显著性的过程中,研究人员只会选择最幸运和最夸张的结果,因为这些结果是唯一能通过显著性筛选的。但是,这并不是研究结果偏向夸张结论的唯一方式。
统计分析通常是探索性的。在探索性数据分析中,你不会提前选择一个假设进行验证。你收集数据,并对其进行探索,看是否有有趣的细节会浮现出来,理想情况下这会导致新的假设和新的实验。这个过程涉及制作大量图表,尝试一些统计分析,并跟随任何有希望的线索。
但是,盲目地探索数据意味着有很多假阳性和真相膨胀的机会。如果在探索中你发现了一个有趣的相关性,标准程序是收集一个新的数据集并再次验证假设。测试一个独立的数据集可以过滤掉假阳性,留下任何真正的发现。(当然,你需要确保你的测试数据集有足够的统计能力来复制你的发现。)因此,探索性发现应该被视为暂定的,直到得到确认。
如果你没有收集一个新的数据集,或者你的新数据集与旧数据集高度相关,那么“真相膨胀”将会反噬你。
循环分析
假设我想在一只猴子的脑中植入电极,将其信号与我将在屏幕上投射的图像进行关联。我的目标是理解大脑如何处理视觉信息。电极将记录猴子视觉皮层中神经元之间的通信,我想看看不同的视觉刺激是否会导致不同的神经元放电模式。如果我得到统计学上显著的结果,我甚至可能会出现在关于“读取猴子思想”的新闻报道中。
当可植入电极首次问世时,它们很大,而且一次只能记录少数几个神经元。如果电极放置不当,它可能根本无法检测到任何有用的信号,因此为了确保它能够清晰地记录与视觉相关的神经元活动,电极会在猴子观看刺激时缓慢移动。当出现清晰的反应时,电极会被固定在原位,实验就开始了。因此,探索性分析通过完整实验得到了确认。
放置电极是一种探索性分析:我们尝试一些神经元,直到有一个似乎每当猴子观看图像时就会放电。但一旦电极就位,我们就收集一组新的数据,并测试比如神经元放电率是否能够告诉我们猴子是看到绿色还是紫色的图像。新的数据与旧的数据是独立的,如果我们仅仅是在放置电极时得到了一个幸运的相关性,那么我们将在完整实验中无法复制这一发现。
现代电极要小得多,且更为复杂。一个和一毛钱硬币大小的单个植入物包含了数十个电极,因此我们可以植入芯片,之后选择那些看起来能够提供最佳信号的电极。一个现代实验可能是这样的:展示各种刺激给猴子,并用电极记录神经反应。分析每个电极的信号,看看它是否表现出高于正常背景发放率的反应,这将表明它正在接收我们感兴趣的神经元的信号。(这个分析可能会进行多重比较校正,以防止高假阳性率。)
利用这些结果,我们丢弃掉那些未能击中目标的电极数据,进一步分析其余数据,测试它们的放电模式是否随我们呈现的不同刺激而变化。这是一个两阶段的过程:首先挑选出信号良好且与视觉相关的电极;然后确定它们的信号在不同刺激之间是否存在差异。由于我们不需要移动电极,重新使用我们已经收集的数据是很诱人的。实际上,这是一种散弹枪式的方法:使用多个小电极,其中一些肯定会击中正确的神经元。经过筛选掉不好的电极后,我们可以测试剩余的电极是否在响应不同刺激时以不同的速率放电。如果它们这样做了,那我们就了解了猴子大脑中视觉处理的某些位置。
好吧,差不多。如果我按照这个计划进行,我就会使用相同的数据两次。我用来寻找神经元和视觉刺激之间相关性的统计测试假设p值为零——也就是说,它假设零假设,即神经元随机发放。但是在探索阶段之后,我特意选择了那些在反应视觉刺激时似乎发放更多的神经元。实际上,我只会测试那些幸运的神经元,因此我应该始终期望它们与不同的视觉刺激相关联。^(1)我甚至可以在一条死三文鱼身上做相同的实验并得到积极的结果。
这个问题,双重检验数据,会导致结果严重夸大。而双重检验并不仅限于神经电极;这里有一个来自 fMRI 测试的例子,fMRI 旨在将大脑特定区域的活动与刺激或行为联系起来。MRI 机器检测到血流变化,表明大脑的哪些区域正在更加努力地处理刺激。因为现代 MRI 机器提供了非常高分辨率的图像,所以在大脑中提前选择感兴趣的区域非常重要;否则,我们将不得不在成千上万的个体点之间进行比较,这就需要大规模的多重比较校正,并大大降低研究的统计效能。感兴趣的区域可能基于生物学或先前的结果来选择,但通常没有明确的区域可供选择。
比如说,我们向受试者展示两种不同的刺激:海象和企鹅的图像。我们不知道大脑的哪个部分处理这些刺激,所以我们进行一个简单的测试,看看海象引起的活动与受试者没有任何刺激时的活动是否有差异。我们标记出那些具有统计学显著结果的区域,并对这些区域进行完整分析,测试两种刺激下的活动模式是否存在差异。
如果海象和企鹅在大脑的某个区域引起相等的激活,我们的筛选很可能会选择该区域进行进一步分析。然而,我们的筛选测试也可能选出了那些因随机变异和噪声而引起海象更大表观激活的区域。因此,我们的完整分析将显示海象的激活平均值高于企鹅。我们会比测试的假阳性率所建议的更频繁地检测到这种不存在的差异,因为我们只在那些幸运的区域进行测试。^(2) 海象确实有真实的效果,所以我们并没有发明一个虚假的相关性——但我们确实膨胀了其效果的大小。
当然,这是一个刻意构造的例子。如果我们同时使用两种刺激来选择感兴趣的区域,会怎样呢?那么我们就不会错误地认为海象引起的激活比企鹅更强烈。相反,我们可能会错误地高估两者的影响。具有讽刺意味的是,使用更严格的多重比较校正来选择感兴趣的区域反而使问题变得更糟。这又是“真实膨胀”现象的重现。那些显示平均或低于平均反应的区域未被纳入最终分析,因为它们的显著性不足。只有那些随机噪声最强的区域才会进入进一步分析。
有几种方法可以缓解这个问题。一种方法是将数据集分成两半,使用前半部分选择感兴趣的区域,并用后半部分进行深入分析。不过,这样做会降低统计能力,因此我们需要收集更多的数据来弥补。另一种方法是使用其他标准来选择感兴趣的区域,而不是依赖对海象或企鹅刺激的反应,比如之前的解剖学知识。
这些规则在神经影像学文献中经常被违反,可能高达 40%的时间,导致相关性膨胀和假阳性结果。^(2) 进行这种错误的研究通常会发现刺激和神经活动之间的相关性比实际情况更大,这与脑成像固有的随机噪声和误差不符。^(3) 类似的问题也出现在基因学家收集成千上万基因数据并挑选子集进行分析,或者流行病学家筛选人口统计数据和风险因素,寻找与疾病相关的因素时。^(4)
回归均值
想象一下追踪某个量随时间变化的情况:比如企业的表现、患者的血压,或者任何其他随着时间逐渐变化的事物。现在,挑选一个日期,并选择所有突出表现的对象:营收最高的企业,血压最高的患者,等等。那么,下次我们测量这些对象时,会发生什么情况?
好吧,我们已经挑选出了所有表现最好的企业和长期高血压的患者。但我们也挑选了一些企业,它们有一个异常幸运的季度,或者是一些经历了特别紧张一周的患者。这些幸运和不幸运的对象不会永远保持异常;几个月后再测量它们,它们将恢复到正常的表现。
这种现象被称为回归均值,它不是血压或企业的特殊属性。它只是一个观察结果:运气不会永远持续下去。平均而言,每个人的运气都是平均的。
弗朗西斯·高尔顿早在 1869 年就观察到了这一现象。^(5) 在追溯著名人物的家谱时,他注意到,名人后代往往不那么出名。他们的孩子可能继承了让父母如此出名的音乐或智力基因,但他们通常不会像父母一样杰出。后来的研究揭示了同样的现象在身高上的表现:异常高的父母有更为普通的孩子,而异常矮的父母则有通常会更高的孩子。
回到血压的例子,假设我挑选了高血压患者来测试一种实验性药物。导致他们血压偏高的原因有很多,例如糟糕的基因、不良的饮食、糟糕的一天,甚至是测量误差。尽管基因和饮食相对恒定,其他因素可能导致某人的血压在不同的日子里波动。当我挑选高血压患者时,他们中的许多人可能只是遇到了糟糕的一天,或者他们的血压袖带校准不准确。
而虽然你的基因会伴随你一生,但一个校准不准确的血压袖带却不会。对于那些不幸运的患者来说,他们的运气很快会改善,无论我是否治疗他们。我的实验存在偏倚,因为我选择研究对象的标准本身就偏向于发现效果。为了正确估计药物的效果,我需要随机地将样本分为治疗组和对照组。只有当治疗组的平均血压改善明显好于对照组时,我才能宣称药物有效。
另一个回归均值的例子是考试成绩。在关于统计功效的章节中,我讨论了在较小的学校中随机变化较大,因为个别学生的运气对学校的平均成绩影响更大。这也意味着,如果我们挑选出表现最好的学校——那些拥有优秀学生、优秀教师和好运气的学校——我们可以预期它们在明年会表现得较差,因为好运气是短暂的。就像坏运气一样:最差的学校可以预期在明年会表现得更好——这可能会让管理者认为他们的干预措施奏效了,尽管那实际上只是回归均值的结果。
一个最终的、著名的例子可以追溯到 1933 年,当时数学统计学领域刚刚起步。西北大学的统计学教授霍勒斯·塞克里斯特发表了《商业中的平庸胜利》(The Triumph of Mediocrity in Business),文章中认为,异常成功的企业往往会变得不那么成功,而不成功的企业则往往变得更加成功:这是企业趋向平庸的证据。他认为这不是统计学的伪现象,而是市场竞争力量的结果。塞克里斯特用大量数据和无数的图表来支持自己的论点,甚至引用了加尔顿在回归均值方面的一些研究成果。显然,塞克里斯特并没有理解加尔顿的观点。
Secrist 的书由哈罗德·霍特林(Harold Hotelling),一位有影响力的数学统计学家,为《美国统计学会杂志》所审阅。霍特林指出了其中的谬误,并提到可以轻松使用相同的数据来证明商业趋势远离平庸:与其挑选最优秀的企业并追踪它们随时间的衰退,不如追踪它们从成为最佳之前的进展。你将不可避免地发现它们在改进。Secrist 的论点“实际上并没有证明任何东西,只不过表明相关的比例有徘徊的趋势。”^(5)
终止规则
医学试验成本高昂。为数十名患者提供实验性药物,并在几个月的时间内追踪他们的症状需要大量的资源,因此许多制药公司会制定终止规则,允许研究人员在实验药物效果明显时提前结束研究。例如,如果试验还未完成一半,但新药物已经在症状上产生了具有统计学意义的差异,研究人员可能会终止研究,而不是收集更多数据来加强结论。事实上,如果你已经知道某种药物是有效的,拒绝为对照组提供该药物被视为不道德的。
然而,如果操作不当,过早地进入数据可能会导致假阳性结果。
假设我们正在比较两组患者,一组服用我们的实验性新药 Fixitol,另一组服用安慰剂。我们测量他们血液中的某种蛋白质水平,以观察 Fixitol 是否有效。假设 Fixitol 根本没有产生任何变化,且两组患者的平均蛋白质水平相同。即便如此,蛋白质水平在个体之间仍会有所波动。
我们计划在每组中使用 100 名患者,但从 10 名开始,逐步招募额外的患者,以将他们分配到治疗组和对照组。随着研究的进行,我们会进行显著性检验,以比较两组之间是否存在统计学显著差异。如果我们看到统计学显著性,我们将提前停止。我们可能会看到类似于图 6-1 的结果。

图 6-1. 每加入一对新患者后进行的显著性检验结果。各组之间没有真正的差异。虚线表示p = 0.05 的显著性水平。
图表显示了随着我们收集更多数据,不同组之间差异的p值,虚线表示p = 0.05 的显著性水平。最初,看起来似乎没有显著差异。但随着我们收集越来越多的数据,p值降到虚线以下。如果我们提前停止实验,就会错误地得出组间存在显著差异的结论。只有当我们收集更多数据时,才会意识到差异并不显著。
你可能会认为p值的下降不应该发生,因为组间并没有真正的差异。毕竟,收集更多数据不应该让我们的结论变得更糟,对吧?确实,如果我们重新进行实验,可能会发现最初组间没有显著差异,并且随着数据的增加,差异始终不存在;或者组间一开始差异巨大,但很快回归到没有差异。但如果我们足够等待,并在每次数据点之后进行测试,最终我们将跨越任何任意的统计显著性界限。我们通常无法收集无限样本,因此在实际操作中这种情况并不总是发生,但执行不当的停止规则仍会显著增加假阳性率。^(6)
进行实验的目的在这里非常重要。如果我们事先选择了固定的组大小,那么p值就是获得更极端结果的概率,针对该组大小而言。但由于我们允许根据结果调整组大小,p值必须考虑到这一点来进行计算。为了解决这些问题,顺序分析领域应运而生,研究人员要么选择一个更严格的p值阈值,考虑到多重检验,要么使用不同的统计检验方法。
除了假阳性外,采用提前停止规则的实验还往往会受到过度膨胀的影响。许多提前停止的实验结果其实是因为幸运的患者,而非出色的药物。通过停止实验,研究人员剥夺了自己获得更多数据的机会,无法真正判断差异。实际上,提前停止的医学实验比那些没有提前停止的相似研究夸大了 29%的效果。^(7)
当然,我们无法知道任何研究药物的“真相”。如果知道了,我们根本不需要进行研究!所以我们无法判断某项研究是否因幸运而提前停止,或是真的证明药物有效。但许多提前停止的研究甚至没有公布原定的样本量或用来终止研究的停止规则。^(8) 一项实验的提前停止并不自动证明其结果存在偏倚,但它确实具有提示作用。
现代临床试验通常要求提前注册其统计协议,并且通常只预选少数几个评估点来检验其证据,而不是在每次观察后都进行检验。这样的注册研究只会使假阳性率略微增加,可以通过仔细选择所需的显著性水平和其他序贯分析技术来加以控制。^(9) 但大多数其他领域并不使用协议注册,研究人员可以自由使用他们认为合适的方法。例如,在对学术心理学家的调查中,超过一半的人承认,在检查结果是否显著后,他们决定是否收集更多的数据,通常会在发表时隐瞒这一做法。^(10) 而且考虑到研究人员可能不愿意承认可疑的研究做法,实际的比例可能更高。
提示
-
如果你使用数据来决定分析程序,那么请使用独立的数据进行分析。
-
如果你使用显著性检验来挑选出你数据样本中最幸运(或最不幸)的人,那么不要惊讶,如果他们的“好运”在未来的观察中不再持续。
-
在分析前,务必仔细规划停止规则,并对多重比较进行调整。
第七章 连续性错误
到目前为止,本书的重点是组间比较。是安慰剂还是药物更有效?允许红灯右转的交叉口比不允许的交叉口造成更多的死亡吗?你为每个组生成一个统计数据——例如交通事故的平均数量——然后查看这些统计数据是否在各组之间显著不同。
但如果你无法将测试对象分为明确的组怎么办?一项关于肥胖对健康影响的研究可能会测量每个参与者的体重指数(BMI)、血压、血糖、静息心率等等。但并没有两个明显的患者组;而是一个从体重过轻到肥胖的光谱。假设你想在这个光谱的两端之间观察健康趋势。
解决这种情况的一种统计技术叫做回归建模。它估算每个变量的边际效应——即每增加一磅体重对健康的影响,而不仅仅是基于任意临界点两侧的组间差异。这比单纯的组间比较能得出更精细的结果。
但是科学家们经常简化他们的数据,以避免进行回归分析。“超重的人患心脏病的概率高出 50%”这句话比“每增加一个单位的都市相对体重,心脏病的对数几率增加 0.009”更具明显的临床意义。即使有可能建立一个捕捉数据每个细节的统计模型,统计学家也可能出于实际原因选择一个简单的分析方法,而非技术上更优秀的分析方法。正如你所见,简单的模型仍然可能被错误地使用,而简化数据的过程则引入了更多的错误空间。让我们从简化过程开始;在下一章,我将讨论使用完整回归模型时常见的错误。
不必要的二分法
一种常见的简化技术是通过将连续测量拆分为两个独立的组来二分化变量。在肥胖研究的例子中,例如,你可能会将患者分为“健康”组或“超重”组。通过拆分数据,你就不必为选择正确的回归模型而烦恼。你可以仅仅通过t检验来比较这两个组。
这就提出了一个问题:你如何决定在哪里划分数据?也许有一个自然的临界点或者一个广泛接受的定义(比如肥胖),但通常没有。一个常见的解决方案是沿着样本的中位数来划分数据,将数据分为两个相等大小的组——这就是所谓的中位数划分。这种方法的一个缺点是,不同的研究者在研究相同的现象时可能会得出不同的划分点,这使得他们的结果难以比较或在荟萃分析中合并。
中位数分割的替代方法是选择给出组间最小p值的分界点。你可以将其理解为选择分离组别,使它们“最为不同”。正如你可能想象的那样,这种方法更容易产生假阳性。寻找具有最佳p值的分界点实际上是在进行许多假设检验,直到得到你想要的结果。结果与之前的多重比较相同:假阳性率最多增加了 10 倍。^(1) 你的效应大小的置信区间也会误导性地变窄。
二分法问题出现在 1990 年代初期多篇关于 S 期分数的乳腺癌研究论文中,S 期分数是指肿瘤中正在复制和合成新 DNA 的细胞比例。肿瘤学家认为这一比例可能预测癌症的最终进程,从而使医生能够更有效地为患者制定治疗方案。研究人员在研究中将患者分为两组:S 期分数较大的患者和 S 期分数较小的患者。
当然,每个研究选择了不同的“大小”分界点,选择了中位数或给出最佳p值的分界点。毫不奇怪,那些选择了“最佳”分界点的研究得出了统计显著的结果。但是当这些结果进行了多重比较校正后,没有一个结果是统计显著的。
进一步的研究表明,S 期分数确实与肿瘤预后相关,但多年来证据薄弱。在其缺陷被公开后,这一方法继续在癌症研究中使用了几年,并且 2005 年发布的癌症预后因素研究报告指南指出:“尽管进行了多年的研究,并且关于肿瘤标志物的报告已有数百篇,但作为临床有用标志物出现的标志物数量仍然非常少。”^(2) 除了统计效能差、结果报告不完整以及抽样偏差外,选择“最佳”分界点被认为是这一问题的主要原因。
统计布朗现象
对二分法的主要反对意见是它丢失了信息。你并没有为每个病人或观察值使用精确的数字,而是将观察值分为几个组并丢弃了数字。这降低了研究的统计效能——在很多研究本身就缺乏效能的情况下,这是一个主要问题。你会得到更不精确的相关性估计,并且经常低估效应大小。通常,效能和精确度的损失相当于你丢弃了三分之一的数据。^(3)
让我们回到那个研究肥胖对健康影响的例子。假设你基于体重指数(BMI)将患者分为“正常”和“超重”组,假设 25 是正常范围的最大值。(这是临床实践中使用的标准分割点。)但这样你就失去了这个分割点以上的所有 BMI 之间的区别。如果心脏病发病率随体重增加而上升,你就很难判断它上升了多少,因为你没有记录像轻度超重和重度肥胖患者之间的差异。
换句话说,假设“正常”组的患者 BMI 恰好为 24,而“超重”组的 BMI 为 26,那么两组之间的主要差异可能令人惊讶,因为它们并没有太大区别。另一方面,如果“超重”组的所有患者 BMI 都为 36,那么主要差异就不那么令人惊讶了,并且每个 BMI 单位之间的差异也会显得更小。二分法消除了这一区别,丢失了有用的信息和统计能力。
也许只用两个组是个愚蠢的选择——那么瘦弱的患者呢?——但是增加组的数量意味着每组中的患者数量会减少。更多的组可能会产生更详细的分析,但每组的心脏病发病率估计将基于较少的数据,并且置信区间会更宽。而且将数据分成更多组意味着需要做更多关于如何分割数据的决策,这使得不同的研究更加难以比较,也使得研究人员更容易生成假阳性。
混杂因素
你可能会问:如果在对数据进行二分法处理后,我有足够的数据来达到统计显著性,二分法还重要吗?只要我能用额外的数据弥补丧失的统计能力,为什么不使用二分法来简化统计分析呢?
这是一个合理的论点。但不进行二分法分析数据并不难。回归分析是一种常见的程序,几乎所有统计软件包都支持,而且很多书籍都有介绍。回归分析不涉及二分法——它使用完整数据,因此没有需要选择的分割点,也没有统计能力的损失。那么,为什么要稀释你的数据呢?但更重要的是,二分法做的不仅仅是削弱统计能力。出人意料的是,它还引入了假阳性。
我们通常有兴趣控制混杂因素。你可能会测量两个或三个变量(或者两个或三个十几个变量)以及结果变量,并尝试确定每个变量对结果的独特影响,在控制了其他变量的影响之后。如果你有两个变量和一个结果,可以通过对这两个变量进行二分法处理,并使用双向方差分析(ANOVA)表来轻松做到这一点,这是一个简单的、常见的程序,几乎所有主要的统计软件包都支持。
不幸的是,最糟糕的情况不是假阴性。通过二分化并丢弃信息,你消除了区分混杂因素的能力。^(4)
设想一个例子。假设你正在衡量多个变量对一个人获得医疗保健质量的影响。医疗保健质量(可能通过调查测量)是结果变量。对于预测变量,你使用两个测量指标:受试者的个人净资产(以美元计)和受试者个人游艇的长度。
你会期望一个好的统计程序能推导出财富会影响医疗保健质量,而游艇大小则不会。尽管游艇大小和财富往往是一起增长的,但不是你的游艇让你获得更好的医疗保健。通过足够的数据,你会发现相同财富的人可以拥有不同大小的游艇,或者根本没有游艇,但仍然能获得相似质量的医疗服务。这表明财富是主要因素,而不是游艇长度。
但通过二分化变量,你实际上是将数据简化为四个点。每个预测变量只能是“高于中位数”或“低于中位数”,没有更多的信息被记录下来。你不再拥有必要的数据来意识到游艇长度与医疗保健无关。因此,ANOVA 程序错误地声称游艇和医疗保健是相关的。更糟糕的是,这种假相关只有 5% 的情况下是统计上显著的——从 ANOVA 的角度来看,它是一个真实的相关性,并且它会在统计检验的统计功效允许的范围内被检测到。
当然,即使没有数据,你也能知道游艇大小不会有影响。你本可以将它排除在分析之外,避免很多麻烦。但通常你并不知道哪些变量最为重要——你依赖统计分析来告诉你。
回归程序可以轻松拟合这些数据而无需任何二分化,同时只会产生你预期的假阳性相关性。(当然,随着财富和游艇大小之间的相关性增强,区分它们的影响变得更加困难。)尽管涉及多个变量的回归数学理论可能比许多实际从事科学工作的研究人员更为复杂,涉及大量的线性代数,但其基本概念和结果容易理解和解释。没有充分的理由不使用它。
提示
-
除非有充分的理由,否则不要随意将连续变量分割成离散的组。使用一种能够充分利用连续变量的统计方法。
-
如果你确实需要将连续变量分组,切勿为了最大化统计显著性而随意选择分组。应提前定义分组,使用与之前类似研究中的分组方式,或使用外部标准(例如医学中对肥胖或高血压的定义)。
第八章. 模型滥用
让我们继续讲解回归分析。回归的最简单形式是拟合一条直线:找出最佳预测结果的直线方程。通过这个方程,你可以使用一种测量指标,如体重指数,来预测像血压或医疗费用这样的结果。
通常回归使用多个预测变量。你不仅仅使用体重指数,还可能加入年龄、性别、定期运动量等因素。一旦你从一个具有代表性的患者样本中收集了医疗数据,回归程序会利用这些数据找到最佳的方程,来表示预测变量与结果之间的关系。
正如我们在第七章中所看到的,使用多变量回归可以在研究中控制混杂因素。例如,你可能会研究班级规模对学生标准化考试成绩的影响,假设较小的班级可以提高考试成绩。你可以使用回归分析来找出规模与成绩之间的关系,从而测试班级规模减小时考试成绩是否上升——但这里有一个混杂变量。
如果你发现了一个关系,那么或许你已经证明了班级规模是原因,但也可能是其他因素共同影响了班级规模和成绩。也许预算更高的学校可以负担更多的教师,因此班级更小,同时也能负担更多的书籍、更高的教师薪水、更多的支持人员、更好的科学实验室以及其他有助于学生学习的资源。班级规模可能根本与此无关。
为了控制混杂变量,你需要记录每所学校的总预算,并将其纳入回归方程,从而将预算的影响与班级规模的影响分开。如果你检查预算相似但班级规模不同的学校,回归分析会得出一个方程,这样我们就可以说:“对于预算相同的学校,每增加一个学生,考试成绩会下降这么多。”因此,混杂变量得到了控制。当然,也可能存在你没有意识到或不知道如何衡量的混杂变量,这些可能会影响你的结果;只有真正的随机实验才能消除所有混杂变量。
回归分析有很多版本,比这里介绍的简单版本要复杂得多。通常,两变量之间的关系不是一个简单的线性方程。或者也许结果变量不是定量的,比如血压或考试成绩,而是分类的。也许你想预测一个患者在手术后是否会发生并发症,使用他的年龄、血压和其他生命体征。针对这些可能性,存在许多不同的回归程序。
各种回归程序都面临共同的问题。我们先从最简单的问题开始:过拟合,这是数据分析中过于热衷的结果。
拟合数据到西瓜
一种常见的挑选西瓜的方法是敲打西瓜,挑选出那些声音特别空洞的西瓜,显然,这种声音来自于西瓜肉的理想特征。使用合适的测量设备,应该可以通过统计学找到一个算法,根据西瓜的声音预测它的成熟度。
我特别关注这个问题,因为我曾经尝试过调查它,搭建了一个电路,将一个精密的加速度计连接到我的计算机上,以便我可以记录西瓜的撞击声。但我只测试了八个西瓜——远远不足以建立一个准确的成熟度预测系统。所以,当我看到一篇宣称能够用极高准确度预测西瓜成熟度的论文时,我不禁感到兴奋:声学测量可以预测成熟度变化的 99.9%。^(1)
但让我们思考一下。在这项研究中,评审员使用五点成熟度量表对 43 个西瓜进行了品尝和评分。回归分析被用来根据各种声学测量数据预测成熟度评分。那么,回归方程的准确度怎么可能这么高呢?如果你让评审员重新打分,他们可能不会以 99.9%的准确率同意他们自己的评分。主观评分并不是那么一致。无论程序多么复杂,都不可能以如此高的精度预测它们。
有问题了。让我们更仔细地评估他们的方法。
每个西瓜在 1 到 1000 赫兹的频率范围内振动,并在每个频率下测量相位偏移(本质上是振动通过西瓜所需的时间)。一共有 1600 个测试频率,因此回归模型中有 1600 个变量。每一个变量与成熟度的关系都必须被估计出来。
现在,随着变量比西瓜还多,我可以拟合一个完美的回归模型。就像一条直线可以完美地穿过任何两个数据点一样,一个包含 43 个变量的方程可以用来完美地拟合 43 个西瓜的测量数据。这完全是过度设计。即使声学和成熟度之间没有任何关系,我也可以拟合一个回归方程,使得 43 个西瓜的数据能达到 100%的准确率。这个模型不仅会解释声学与成熟度之间的真实关系(如果存在的话),还会解释个体评分和测量的随机变异。我会相信这个模型拟合得完美——但是在用新的西瓜进行测试时,这些西瓜有自己测量误差和主观评分,模型可能就没用了。
这项研究的作者试图通过使用逐步回归来规避这个问题,逐步回归是选择回归中最重要变量的常用程序。其最简单的形式是这样的:首先不使用任何 1,600 个频率测量值。进行 1,600 次假设检验,确定哪一个频率与结果的统计显著性关系最强。将该频率加入,然后继续对剩余的 1,599 个频率进行相同的操作。重复该过程,直到没有统计显著的频率。
逐步回归在许多科学领域都很常见,但通常并不是一个好主意。^(2) 你可能已经注意到一个问题:多重比较。假设通过仅添加统计显著的变量,可以避免过拟合,但进行这么多显著性检验必然会产生假阳性,因此你选择的部分变量可能是假的。逐步回归程序对于整体假阳性率没有保证,也不能保证选择“最佳”变量组合,无论你如何定义“最佳”。(替代的逐步程序使用其他标准而不是统计显著性,但也存在许多相同的问题。)
因此,尽管逐步回归看起来具有统计显著性,但它容易受到严重的过拟合的影响,生成一个几乎完美拟合数据的方程式,但在对另一个数据集进行测试时可能会无用。作为测试,我模拟了与成熟度完全没有相关性的随机西瓜测量值,尽管如此,逐步回归依然以 99.9%的准确率拟合了数据。选择这么多变量,如果它没有拟合成功,反而更令人惊讶。
大多数逐步回归的使用并不如此极端。选择 1,600 个变量的情况非常罕见。但即使在较为温和的情况下,比如有 100 个观察值和几十个变量,逐步回归也会产生膨胀的准确性和统计显著性估计。(3),(4)
真相膨胀是一个更加隐蔽的问题。记住,“统计不显著”并不意味着“完全没有效果”。如果你的研究数据不足——即你有太多变量需要选择,而数据量又太少——那么你可能没有足够的数据来可靠地区分每个变量对结果的影响。你只会在不幸地高估其影响时,才会将变量包括在内。你的模型将会有很大的偏差。(即使没有使用正式的逐步回归程序,将“无显著性”的变量剔除以简化模型也是常见做法,最终导致同样的问题。)
逐步回归有几种变体。我刚才描述的版本叫做前向选择,因为它从头开始,并逐步引入变量。另一种方法是后向剔除,它首先包括所有 1,600 个变量,然后逐一排除那些统计上不显著的变量。(在这个案例中,这种方法会失败:有 1,600 个变量,但只有 43 个西瓜,数据量不足以唯一确定所有 1,600 个变量的影响。你会在第一步就陷入困境。)还可以更改用于引入新变量的标准;现代方法不再仅仅依赖统计显著性,而是使用如赤池信息量准则(Akaike information criterion)和贝叶斯信息量准则(Bayesian information criterion)等度量标准,这些标准通过对拥有更多变量的模型进行惩罚,从而减少过拟合。其他变体则根据不同标准在每一步添加或删除变量。这些变体都不能保证得出相同的结果,因此,对相同数据的两次分析可能会得出非常不同的结论。
在西瓜研究中,这些因素结合起来产生了令人难以置信的准确结果。那么,如何公正地评估回归模型,避免这些问题呢?一个选择是交叉验证:仅使用部分西瓜来拟合模型,然后测试其预测其他西瓜成熟度的有效性。如果模型过拟合,它将在交叉验证过程中表现不佳。一种常见的交叉验证方法是留一交叉验证,即用除一个数据点外的所有数据来拟合模型,然后评估它预测该数据点的能力;这个过程会针对每个数据点依次进行。西瓜研究声称已经执行了留一交叉验证,但仍然得出了类似不可信的结果。没有数据可供访问,我不确定该方法是否真的有效。
尽管有这些缺点,逐步回归仍然很受欢迎。这是一种直观上很有吸引力的算法:选择具有统计显著效应的变量。但选择一个单一的模型通常是过于自信的。由于可以选择的变量很多,通常会有许多变量组合能够几乎同样好地预测结果。如果我多选了 43 个西瓜进行测试,我可能会选择 1,600 个可能的成熟度声学预测变量中的另一个子集。逐步回归产生了误导性的确定性——声称这 20 个或 30 个变量是“成熟度”的预测因子,尽管还有几十个其他变量也能完成这一任务。
当然,在某些情况下,可能有充分的理由认为只有少数几个变量对结果有影响。也许你正在识别导致罕见癌症的基因,尽管你有成千上万的候选基因,你知道只有少数几个基因是原因。现在,你不是为了做出最好的预测——你只是想识别出这些负责的基因。逐步回归分析仍然不是最佳工具;Lasso(最小绝对收缩和选择算子,这是一个巧妙的缩写)具有更好的数学特性,并且不会通过统计显著性来误导用户。但 Lasso 并不是万无一失的,且没有完美的自动化解决方案。
相关性与因果性
当你使用多元回归模型某个结果时——比如预测某个人在考虑其体重、胆固醇等因素后,是否会发生心脏病发作——很容易将每个变量单独进行解释。你可能会对成千上万的人进行调查,询问他们是否曾经心脏病发作,然后进行彻底的体检,进而建立一个模型。然后,你使用这个模型给出健康建议:你说,减肥,并确保你的胆固醇水平保持在这个健康范围内。按照这些指示做,你的心脏病发作风险将降低 30%!
但这不是你的模型所说的。模型表示,胆固醇和体重处于该范围内的人,心脏病发作的风险低 30%;它并没有说,如果你让一个超重的人进行饮食和运动,这个人将更不容易发生心脏病发作。你没有收集关于这个的数据!你没有干预并改变志愿者的体重和胆固醇水平,也没有看到会发生什么。
这里可能有一个混杂变量。也许肥胖和高胆固醇水平仅仅是某种其他因素的症状,而这种因素也可能引发心脏病发作;运动和他汀类药物可能能改善它们,但也许并不能改善心脏病发作。回归模型表示胆固醇越低,心脏病发作越少,但这只是相关性,而不是因果关系。
这个问题的一个例子出现在 2010 年的一项试验中,该试验测试了鱼油中的 omega-3 脂肪酸(通常作为健康补充品出售)是否能减少心脏病发作的风险。支持 omega-3 脂肪酸能降低心脏病发作风险的说法的,是几项观察性研究和一些实验数据。脂肪酸具有抗炎特性,并能减少血液中甘油三酯的水平——这两种特性都已知与心脏病发作风险的降低相关。因此,有人推测 omega-3 脂肪酸应该能减少心脏病发作风险。^(5)
但这些证据是观察性的。低甘油三酯水平的患者有较少的心脏问题,而鱼油能降低甘油三酯水平,因此错误地得出了鱼油应能保护心脏的结论。直到 2013 年,一项大型随机对照试验才得以发表,患者被给予鱼油或安慰剂(橄榄油),并监测五年。结果并没有发现鱼油的有益效果。^(6)
另一个问题出现在当你控制了多个混杂因素时。常见的解释方式是:“如果体重增加一磅,而其他变量保持不变,那么心脏病发作率就会增加……”。也许这是真的,但实际上可能无法在实践中保持所有其他变量不变。你可以随时引用回归方程中的数字,但实际上,增加一磅体重通常还伴随其他变化。没有人能在所有其他变量保持不变的情况下增加一磅体重,因此你的回归方程并不能与现实对应。
辛普森悖论
当统计学家被问到统计学中的有趣悖论结果时,他们常常会提到辛普森悖论。^([15]) 辛普森悖论 出现于当数据中由于混杂变量导致的表面趋势,通过将数据分成自然组后可以消除或反转该趋势。悖论有很多例子,所以我从最著名的一个开始。
1973 年,加利福尼亚大学伯克利分校收到了 12,763 份研究生申请。在当年的招生过程中,44%的男性申请者被录取,而只有 35%的女性申请者被录取。校方担心性别歧视诉讼,要求几位教授更仔细地查看数据。^([16])
研究生招生与本科生招生不同,每个学术部门独立处理。最初的调查得出了一个悖论性的结论:在伯克利的 101 个研究生部门中,只有 4 个部门显示出对女性录取的统计学显著偏差。与此同时,六个部门对男性表现出偏见,这足以抵消其他四个部门对女性的不足。
为什么伯克利整体看起来对女性有偏见,而各个部门通常并没有呢?事实证明,男性和女性并没有按相同比例申请所有部门。例如,几乎三分之二的英语系申请者是女性,而机械工程系的女性申请者仅占 2%。此外,一些研究生部门的选择标准比其他部门更为严格。
这两个因素导致了感知偏差。女性倾向于申请那些有许多合格申请者和资金较少的部门,而男性则申请那些申请者较少且研究资金充足的部门。偏差并不在伯克利出现,因为那里各个系一般都很公平,而是在教育过程中早期,女性被引导进入那些毕业机会较少的学科领域。^(8)
1986 年,一项关于肾结石手术技术的研究再次出现了辛普森悖论。对数百份病历的分析似乎表明,经皮肾结石取石术(这种用于去除肾结石的微创新手术)相比传统的开放手术,成功率更高:83%对比 78%。
进一步检查后,趋势发生了反转。当数据被分成小肾结石组和大肾结石组时,经皮肾结石取石术在这两个组中的表现更差,如表 8-1 所示。这怎么可能呢?
表 8-1. 肾结石取石手术成功率
| 治疗方法 | 直径 < 2 cm | 直径 ≥ 2 cm | 总体 |
|---|---|---|---|
| 开放手术 | 93% | 73% | 78% |
| 经皮肾结石取石术 | 87% | 69% | 83% |
问题在于该研究没有使用随机分配。这仅仅是对病历的回顾,结果表明医生在治疗每个患者时存在系统性的偏差。大而难以取出的肾结石患者接受了开放手术,而那些小且容易去除的肾结石则接受了经皮肾结石取石术。^(9) 推测,医生对小结石患者更愿意使用这种新颖、不熟悉的手术,而在处理棘手病例时则回归到开放手术。
新的手术方法不一定更好,但它是在最容易的患者身上进行的。如果手术方法是通过随机分配选择的,而不是由外科医生自行决定,那么就不会有这种偏差。通常,随机分配可以消除混杂变量,并防止辛普森悖论导致我们得到反向结果。纯粹的观察性研究尤其容易受到这一悖论的影响。
这个问题在医学中很常见,另一个例子也能说明这一点。细菌性脑膜炎是大脑和脊髓周围组织的感染,如果没有立即治疗,尤其是在儿童中,脑膜炎已知会迅速进展并造成永久性损害。在英国,全科医生通常会给他们认为患有脑膜炎的儿童注射青霉素,然后再送往医院进行进一步检查和治疗。这样做的目的是尽早开始治疗,而不是等孩子去医院之后再开始治疗。
为了看看这种早期治疗是否真的有效,一项观察性研究检查了 448 名被诊断为脑膜炎并入院治疗的儿童的记录。简单分析显示,那些由全科医生提供青霉素治疗的儿童死亡率较低。
更仔细地查看数据后,发现这一趋势发生了逆转。许多儿童是直接被送到医院的,根本没有见过全科医生,这意味着他们没有接受初次的青霉素注射。他们也是那些病情最严重的儿童——父母直接将他们送到医院的孩子。如果将他们从数据中排除,只问:“在那些首先见过全科医生的儿童中,接受青霉素的儿童是否有更好的结局?”那么答案是一个明确的不。接受青霉素的儿童死亡的可能性要大得多。^(10)
但这是一项观察性研究,因此你不能确定青霉素导致了他们的死亡。假设在细菌被破坏过程中释放的毒素可能会导致休克,但这尚未通过实验验证。或者,可能是全科医生只给病情最严重的儿童使用了青霉素。在没有随机试验的情况下,你无法确认。
不幸的是,随机对照实验很难进行,有时甚至不可能进行。例如,故意不向患有脑膜炎的儿童提供青霉素可能被认为是不道德的。举个非医学的例子,如果你比较美国联合航空和大陆航空的航班延误情况,你会发现美国联合航空的航班平均延误更多。但在每个单独的机场比较中,大陆航空的航班更容易延误。事实证明,美国联合航空更多地从天气较差的城市起飞。它的平均延误时间被那些延误最多的机场拉低了。^(7)
但是,你不能将航班随机分配给美国联合航空(United)或大陆航空(Continental)。你无法消除所有的混杂因素。你只能对它们进行测量,并希望你已经测量了所有的因素。
提示
-
请记住,统计上不显著的变量并不一定没有任何影响;可能是你没有足够的能力来检测它的影响。
-
尽量避免逐步回归。有时候它有用,但最终的模型是有偏的,且难以解释。其他选择技术,如套索回归(lasso),可能更为合适。或者,根本不需要进行变量选择。
-
为了测试你的模型与数据的拟合程度,可以使用一个独立的数据集或采用交叉验证等方法。
-
注意潜在的混杂变量,它们可能导致误导性或反向的结果,就像辛普森悖论(Simpson’s Paradox)一样,并且应尽可能使用随机分配来消除它们。
^([15]) 辛普森悖论是由卡尔·皮尔逊和尤德尼·尤尔发现的,因此它是斯蒂格勒命名法则的一个例子,该法则由罗伯特·默顿发现,指出没有科学发现是以原始发现者的名字命名的。
^([16]) 这个故事的标准版本声称大学因歧视而被起诉,但从来没有人提到是谁提起的诉讼,也没有提到诉讼的结果。华尔街日报对一位参与原始调查的统计学家的采访透露,诉讼实际上并未发生。^(7) 仅仅是对诉讼的恐惧足以引发调查。但诉讼故事已经流传太久,几乎被视为事实。
第九章:研究者自由:良好的振动?
有一种普遍的误解认为统计学是枯燥乏味且单调的。收集大量数据;把数字输入到 Excel、SPSS 或 R 中;然后猛击软件直到它生成五颜六色的图表和图形。完成!统计学家只需要输入一些命令,阅读结果。
但必须选择哪些命令来使用。两个研究者试图回答相同问题时,往往会进行完全不同的统计分析。需要做出许多决策。
我测量什么?
- 这并不像听起来那么明显。如果我在测试一种精神科药物,我可能会使用几种不同的量表来测量症状:各种大脑功能测试、医生报告或其他各类测量指标。哪些最有用?
我需要调整哪些变量?
- 在医学试验中,我可能会控制患者的年龄、性别、体重、BMI、病史、吸烟情况或药物使用情况,或者控制研究开始前进行的医学测试结果。哪些因素是重要的?哪些可以忽略?我该如何衡量这些因素?
我应该排除哪些病例?
- 如果我在测试饮食计划,也许我想排除那些在试验中出现腹泻的受试者,因为他们的结果会异常。或者,也许腹泻是饮食的副作用,我必须将其纳入分析。总会有一些结果是异常的,无论是已知的原因还是未知的原因。我可能想排除这些结果,或者特别分析它们。哪些结果算作离群值?我该如何处理这些数据?
我如何定义组别?
- 比如,我可能想把患者分为“超重”、“正常”和“体重不足”三组。我该在哪里划定界限?如果遇到一个肌肉发达的健美运动员,他的 BMI 在“超重”范围内,我该怎么办?
缺失数据怎么办?
- 或者,我正在用一种新药测试癌症缓解率。我进行了五年的试验,但有些患者可能会在六年或八年后肿瘤复发。我的数据没有包括他们的复发情况。或者也许一些患者因副作用或个人问题退出了试验。在衡量药物效果时,我该如何考虑这些因素?
我应该收集多少数据?
- 当我得到一个明确的结果时,我应该停止,还是按计划继续收集所有数据?如果我遇到招募患者数量不足的困难,该怎么办?
可能需要几个小时的探索才能看出哪些程序最为适合。论文通常会解释所做的统计分析,但并不总是解释为什么研究者选择了一种方法而非另一种,或者如果选择了不同的方法,结果会是怎样。研究者可以自由选择他们认为合适的方法——虽然他们可能做出好的选择,但如果他们以不同的方式分析数据,结果会如何呢?
这种统计自由让偏差悄然渗透到分析中,即使分析人员拥有最好的意图。几项分析决策可能会显著改变结果,这表明也许分析人员应该在查看数据之前就做出决策。让我们从小小分析决策对结果的巨大影响开始。
一点自由是危险的事
在模拟实验中,仅通过调整不同的变量、排除不同的病例组以及不同的异常值处理方式,就可能使效应大小发生两倍的差异。^(1) 甚至是一些合理的做法,例如重新测量实验室测试结果异常的患者,或者剔除明显异常的患者,也可以将统计上不显著的结果转变为显著结果。^(2) 显然,能够自由地选择分析方式,给你带来了对结果的巨大控制力!
一组研究人员通过一个简单的实验展示了这一现象。二十名本科生被随机分配,听“当我六十岁时”(由披头士演唱)或者“卡林巴”(一首附带在 Windows 7 操作系统中的歌曲)。然后,他们被问及自己的年龄和父亲的年龄。对比这两个组后,发现“当我六十岁时”这组的参与者平均年龄小了一岁半,控制了父亲的年龄,且p < 0.05。由于这些组是随机分配的,唯一可能导致差异的原因就是音乐。
研究人员并没有出版《保持年轻的音乐指南》,而是解释了他们用来获得这个结果的技巧。他们并没有提前决定收集多少数据;而是招募了学生,并定期进行统计测试,以查看是否达到了显著结果。(你之前看到过,这种停止规则会显著增加假阳性率。)他们也没有提前决定要控制受试者父亲的年龄,而是询问他们“感觉”多大年龄、他们会有多喜欢在餐馆里吃饭、100 的平方根是多少、他们母亲的年龄、他们是否同意“计算机是复杂的机器”、是否会利用早鸟特价、他们的政治倾向、他们认为哪位加拿大四分卫获得了奖项、他们多频繁提到“美好的旧时光”、以及他们的性别。
只有在查看数据之后,研究者才决定使用哪个结果变量以及控制哪些变量。(如果结果不同,他们可能会报告说“当我六十四岁时”会导致学生,例如,较难计算 100 的平方根,控制他们对加拿大橄榄球的了解。)自然,这种自由使得研究者可以进行多次比较,并夸大了假阳性率。在已发表的论文中,他们不需要提到其他不显著的变量;他们可以自由讨论甲壳虫乐队的显著抗衰老效益。这种谬误对于读者而言是不可见的。
进一步的研究者模拟表明,如果科学家尝试不同的统计分析,直到找到一个有效的——例如,通过控制不同的变量组合并尝试不同的样本量——假阳性率可能会飙升至超过 50%,对于给定的数据集而言。^(3)
这个例子听起来离奇,大多数科学家会反驳说他们不会故意篡改数据,直到出现显著结果。他们会构建假设,收集数据,稍微探索一下数据,然后进行合理的统计分析来验证假设。他们说,也许我们可以尝试 100 种分析方法,直到得到一个了不起的结果,但我们没有那样做。我们选择了一个看起来适合数据的分析,并坚持使用它。
但分析策略的选择始终是基于数据的。我们查看数据来决定哪些变量需要包含,哪些异常值需要去除,使用哪些统计测试,以及需要检查哪些结果。我们这样做并非为了找到最具统计学意义的结果,而是为了设计一个能够解释任何数据集中的特性分析。假如我们收集了不同的数据——假如那位患者患的是慢性便秘而不是急性腹泻——我们会选择不同的统计分析。我们会偏向于设计一种“合乎常理”的分析结果。
此外,一个预设的科学假设不一定对应于一个单一的统计假设。许多不同的统计结果都可以被解释为支持一个假设。你可能认为某种药物的副作用比另一种药物少,但你会接受任何一种副作用的统计显著下降作为证据。你可能认为女性在排卵期更倾向于穿红色或粉色的衣服,但你会接受红色衬衫、粉色衬衫或两者组合的统计显著效应作为证据。([17])(或者你可能会接受衬衫、裤子、帽子、袜子或其他类型衣物的效应。)如果你假设排卵期使单身女性变得更加自由主义,你将接受她们在投票选择、宗教信仰和政治价值观上的任何变化作为证据。([18]) 产生有趣结果的选择将引起我们的注意,并激发我们根据任何结果构建合理故事的人类倾向。
这种统计自由最令人担忧的后果是,研究人员可能无意中选择对他们最有利的统计分析方法。由此产生的不确定性估计——标准误差、置信区间等——将会有偏。由于数据引导了他们的统计设计,假阳性率将被夸大。
避免偏见
在物理学中,潜在的偏见早已被认定为一个问题。物理常数的测量,如光速或亚原子粒子的属性,往往集中在先前的测量结果周围,而不是最终被接受的“真理”。^(8) 似乎实验者在得到与早期研究结果不一致的结果时,“会‘寻找这种错误的源头’并不断寻找,直到他得到一个接近公认值的结果。然后他就停下来了!”^(9)
为了消除这种偏见,粒子物理学家开始进行盲法分析:分析数据的科学家在分析程序最终确定之前,避免计算感兴趣的值。有时这很容易做到:1930 年代初,弗兰克·邓宁顿测量电子的电荷与质量比时,让他的机械师将实验装置建造得使探测器接近最佳角度,但又不完全是最佳角度。没有精确的角度测量,邓宁顿无法计算最终的答案,因此他在无法潜意识地偏倚结果的情况下设计了分析程序。准备好之后,他测量了角度并计算了最终的比值。
盲分析当然并不总是这么简单,但粒子物理学家已经开始在重大实验中采用它。其他的盲法技术包括:在所有测量中添加一个常数,并在分析完成之前将这个常数隐藏起来;让独立的团队分别进行分析的不同部分,只有在后期才将结果合并;或使用模拟数据注入虚假数据,待数据去除后再进行分析。只有在研究小组确认分析已完成并且适当时,结果才会被解除盲法。
在一些医学研究中,三重盲法作为一种盲分析的形式被实施;患者、医生和统计学家在分析完成之前都不知道哪个组是对照组。这并不能消除所有偏差的来源。例如,统计学家可能无法无意识地偏向治疗组,但她可能会对组间差异更大产生偏见。更广泛的盲法技术并不常用,并且需要进行大量的研究,才能确定如何在不使分析变得不可行的情况下使常见的统计技术实现盲法。
代替三重盲法,其中一个选择是限制统计学家的自由选择。这种形式的限制通常应用于医学领域,主要涵盖实验的设计和执行,而不是分析。医生需要拟定一份临床试验协议,解释数据如何收集,包括计划的样本量和测量的结果变量,然后该协议会提交伦理委员会审核,以确保它能够充分保护患者的安全和隐私。因为协议是在收集数据之前拟定的,医生不能轻易修改设计以获得有利的结果。不幸的是,许多研究偏离了原定协议,这样就可能引入研究者偏差。(10),(11) 期刊编辑通常不会将提交的论文与原始协议进行对比,也不要求作者解释违反协议的原因,因此无法确定这些变化的动机。
许多科学领域没有方案发布要求,在心理学、精神病学和社会学等领域,通常也没有针对特定实验的单一公认方法。适用于医学试验或物理实验的设计已被反复分析,但如何处理不那么直观的行为研究往往不明确。结果是研究设计的多样性爆炸,每篇新论文使用不同的研究方法组合。在压力巨大的情况下(例如美国,通常对新颖结果的需求很大),这些领域的研究者由于在实验设计和数据分析方面的自由,往往更容易产生偏倚和极端结果。对此,一些人提议对验证性研究允许方案注册,从而使后续结果更具可信度。
当然,用赫尔穆特·冯·莫尔特克的话来说,没有任何分析计划能经得起与数据的接触。可能会出现您未曾预料到的复杂情况和问题。您关于测量分布、变量之间相关性以及异常值可能原因的假设——这些对选择分析方法至关重要——可能完全错误。在收集数据之前,您可能根本不知道该做出什么假设。遇到这种情况,最好修正您的分析,而不是继续进行明显错误的预设分析。
在看到数据之前,甚至可能无法事先指定分析方法。也许您决定使用一个多年来一直使用的常见数据集来检验一个新假设,或者您直到看到数据才知道哪个假设是相关的,抑或数据提出了您在收集数据之前未曾想到的有趣假设。对于某些领域,预发布复制可以解决这个问题:收集一个新的独立数据集,并使用完全相同的方法进行分析。如果效果依然存在,您可以对结果有信心。(确保您的新样本具有足够的统计效能。)但对于研究市场崩盘的经济学家来说,这几乎是不可能的(至少在伦理上不可行)。对于研究癌症治疗的医生来说,患者可能无法等待复制实验。
统计技术的繁荣为我们提供了有用的工具,但似乎它们被当作钝器来使用,用以不断“逼迫”数据直到其“认罪”。通过预注册分析、盲法和进一步研究实验方法,我们可以开始更加人道地对待我们的数据。
提示
-
在收集数据之前,规划好您的数据分析,考虑多重比较,并包括您想要查找的任何效应。
-
如果适用,请注册您的临床试验方案。
-
如果您偏离了预定的方案,请在论文中注明并提供解释。
-
在进行数据分析之前,先有一个具体的统计假设,而不是仅仅让数据“认罪”。
^([17]) 这项研究声称在女性处于高峰生育期时,她们穿红色或粉色衣服的几率是其他时期的三倍。^(4) 哥伦比亚大学统计学家安德鲁·盖尔曼在Slate上写了一篇文章,批评了这项研究中的自由度过多,并用它作为攻击心理学统计方法的例子。^(5)
^([18]) 我也不是在编造这项研究。研究还发现“排卵使已婚女性变得更加保守。”^(6) 一项大规模的重复实验未能找到任何支持这一结论的证据。^(7)
第十章 每个人都会犯错
直到现在,我一直以为科学家能够进行完美准确的统计计算,错误只出现在选择计算所需的合适数字时。科学家们可能会错误使用统计检验的结果,或者未能进行相关计算,但至少他们能计算出P值吧?
也许并非如此。
对医学和心理学试验中统计显著性结果的调查表明,许多P值是错误的,一些统计上不显著的结果在正确计算后实际上是显著的。(1),(2) 即使是声誉卓著的《自然》期刊也并非完美,大约 38%的论文在P值上存在拼写错误和计算错误。^(3) 其他评论发现了一些错误分类的数据、数据的错误重复、完全包含了错误的数据集以及其他混乱问题,而这些问题都被未能充分描述分析过程的论文所掩盖,使得这些错误难以被发现。^(4)
这类错误是可以预见的。科学家们或许咖啡因摄入量超常,但毕竟他们还是人类,持续的发表压力意味着彻底的文档记录和复制工作往往被忽视。研究人员没有动力让他们的数据和计算结果供检查,也没有动力花时间复制其他研究人员的结果。
随着这些问题变得越来越广为人知,软件工具已经进步到可以使分析步骤更容易记录和共享。然而,科学家们尚未广泛采用这些工具,没有它们,彻底检查工作仍然是一个艰难的过程,这在遗传学中发生的一场著名灾难中得到了体现。
不可重复的遗传学
问题始于 2006 年,当时一种新的基因测试承诺能够将化疗治疗精确地针对患者特定的癌症变异。杜克大学的研究人员进行了试验,表明他们的技术可以确定肿瘤对哪些药物最敏感,从而避免患者因无效治疗而产生副作用。肿瘤学家对这一前景感到兴奋,其他研究人员也开始了自己的研究。但在此之前,他们请了两位生物统计学家,Keith Baggerly 和 Kevin Coombes,来检查数据。
这比他们预期的要困难得多。原始论文没有提供足够的细节来复制分析,因此巴格利和库姆布斯与杜克大学的研究人员进行了通信,要求提供原始数据和更多细节。很快,他们发现了问题。一些数据被错误标记——对某种药物有抗药性的细胞组被标记为敏感,反之亦然。一些样本在数据中被重复出现,有时同时标记为敏感和抗药。杜克大学研究人员发布的更正修复了一些问题,但同时引入了更多重复的数据。有些数据不小心被错位了一次,以至于在分析不同的细胞系时,使用了来自另一组细胞的测量结果。基因微阵列(我在关于伪复制的部分中提到过)在不同批次之间差异显著,而且微阵列设备的效应无法与真正的生物学差异区分开来。声称显示一种药物结果的图形实际上包含了另一种药物的结果。
简而言之,研究一团糟。^(5) 尽管许多错误已被提交给杜克大学的研究人员,但几项使用基因结果的临床试验仍然开始,并得到了美国国家癌症研究所的资助。巴格利和库姆布斯尝试在与原始研究相同的学术期刊上发表他们的回应,但在几种情况下,他们的文章被拒绝——开创性的研究比繁琐的统计细节更有趣。尽管如此,国家癌症研究所注意到了这些问题,并要求杜克大学的管理层进行审查。大学回应称,成立了一个外部审查委员会,但该委员会没有访问巴格利和库姆布斯的结果。毫不奇怪,他们没有发现错误,试验继续进行。^(6)
错误直到后来才引起严重关注,在巴格利和库姆布斯发表他们的发现之后,一本行业杂志报道称杜克大学的首席研究员阿尼尔·波蒂(Anil Potti)伪造了他的简历。他的几篇论文被撤回,波蒂最终因欺诈指控辞去了杜克大学的职务。使用这些结果的几项试验被停止,一家为销售该技术而设立的公司也关闭了。^(7)
Potti 案例说明了两个问题:现代科学中许多研究缺乏可重复性,以及在学术期刊上发表负面和矛盾结果的困难。我将把后者的问题留到下一章讨论。可重复性已经成为一个流行的时髦词汇,你可能能理解为什么:Baggerly 和 Coombes 估计他们花了 2000 小时去弄清楚 Potti 做了什么以及哪里出了问题。很少有学者能有这么多空闲时间。如果 Potti 的分析软件和数据公开供检查,怀疑的同事就不必费劲地重构他工作的每一步——他们只需要阅读代码,看看每个图表和图形的来源。
问题不仅仅是 Potti 没有轻易分享他的数据。科学家们通常不会记录和文档化他们从原始数据到结果的转化过程,除非是在科学论文中以一种通常模糊的形式,或者记录在实验室笔记本中。原始数据必须进行编辑、转换成其他格式,并与其他数据集链接;统计分析必须进行,有时使用定制软件;图表和表格必须根据结果创建。这通常是手工完成的,数据片段被复制粘贴到不同的数据文件和电子表格中——一个极易出错的过程。除了负责的研究生的记忆外,通常没有这些步骤的最终记录,尽管我们希望能够在学生毕业多年后仍然能够检查和重现每一步过程。
让可重复性变得简单
理想情况下,这些步骤应该是 可重复的:完全自动化,计算机源代码可供检查,作为工作的一份最终记录。错误很容易被发现并纠正,任何科学家都可以下载数据集和代码,得出完全相同的结果。更好的是,代码还应结合其目的的描述。
统计软件正在不断进步,以使这一切成为可能。例如,一个名为 Sweave 的工具可以轻松地将使用流行的 R 编程语言进行的统计分析嵌入到用 LATEX 编写的论文中,LATEX 是一种常用于科学和数学出版物的排版系统。结果看起来就像任何科学论文,但另一位阅读论文并对其方法感兴趣的科学家可以下载源代码,准确查看所有数字和图表是如何计算的。但由于学术期刊使用复杂的排版和出版系统,目前还不接受 Sweave 出版物,因此其使用受到限制。
类似的工具也正在其他编程语言中涌现。例如,使用 Python 编程语言的数据分析师可以通过 IPython Notebook 记录他们的进展,该工具将文本描述、Python 代码以及由 Python 代码生成的图表和图形结合在一起。IPython Notebook 可以像分析过程的叙述一样阅读,解释数据是如何被读取、处理、过滤、分析和绘制的,代码和文本相伴而行。任何一步的错误都可以被纠正,代码重新运行以获得新结果。笔记本还可以转化为网页或 LATEX 文档,这样其他研究人员就不需要安装 IPython 来阅读代码。最棒的是,IPython Notebook 系统已经扩展到支持其他语言,例如 R。
在计算密集型领域,如计算生物学和统计学,期刊已经开始采纳代码共享政策,鼓励公开发布分析源代码。这些政策尚未像数据共享政策那样广泛应用,但它们正在变得越来越普遍。^(8) 一项更全面的策略,旨在确保可重复性和便于错误检测,将遵循由一群生物医学研究人员制定的“可重复计算研究的十条简单规则”。^(9) 这些规则包括自动化数据操作和重新格式化、使用软件版本控制系统记录所有分析软件和自定义程序的更改、存储所有原始数据,并将所有脚本和数据公开供公众分析。每个科学家都经历过读论文时感到困惑,心想“他们到底是怎么得到那个数字的?”而这些规则将使这个问题更容易回答。
这是一项相当繁重的工作,对于已经知道如何进行分析的科学家来说,缺乏动力。为什么要花那么多时间将代码适应于其他人使用,而不是做更多的研究呢?其实这样做有很多好处。自动化数据分析使得在新数据集上尝试软件变得轻松,或者测试每个部分是否正确运行。使用版本控制系统意味着你可以记录每一次的更改,这样你就再也不会陷入困惑,想着“这段代码为什么上周二能运行,但今天却不行?”而且,全面的计算和代码记录意味着你随时都可以重新执行它;我曾经非常尴尬,因为我需要为一篇论文重新格式化图表,结果才意识到自己不记得当时用了什么数据来制作这些图表。我的混乱分析让我花了一整天的时间在恐慌中重做图表。
但即便科学家们已经完全自动化了他们的分析,出于可理解的原因,他们仍然不愿分享他们的代码。如果竞争对手使用了它并先于你做出发现怎么办?由于他们不需要披露他们的代码,他们也不需要透露他们使用了你的代码;他们可以仅凭你的工作获得学术荣誉。如果代码是基于不能共享的专有或商业软件呢?还有一些代码质量差到让科学家觉得分享它是尴尬的。
《社区研究与学术编程许可证》(CRAPL),由 Matt Might 起草,用于学术软件的版权协议,在其“定义”部分包括以下内容:
-
“程序”指的是提供给“你”的源代码、shell 脚本、可执行文件、对象、库和构建文件的集合,或这些文件经你修改后的版本。
[程序中任何设计的出现纯属巧合,不应以任何方式被误认为是深思熟虑的软件构建证据。]
-
“你”指的是那些足够勇敢和愚蠢到愿意使用该程序的人。
-
“文档”指的是程序。
-
“作者”可能是那个因咖啡因过量而在提交截止日期前才让程序正常工作的研究生。
CRAPL 还规定,用户必须“同意免责作者,免受任何关于程序中的黑客行为、权宜之计或信念跳跃的羞耻、尴尬或嘲笑。”虽然 CRAPL 可能不是最严格的法律许可协议,但它确实反映了学术代码作者面临的问题:为公众使用编写软件比为个人使用编写代码要复杂得多,包括文档编写、测试和清理多次黑客攻击中积累的无用代码。额外的工作对程序员几乎没有好处,因为即便是重要的软件,程序员也得不到任何学术积分,即使这些软件花费了几个月的时间编写。而科学家会利用机会检查代码并找出漏洞吗?没有人通过检查代码中的拼写错误来获得科学荣誉。
实验,清洗,重复
另一个解决方案可能是复制。如果科学家们从头开始仔细重现其他科学家的实验,收集全新的数据,并验证他们的结果——这是一个费时费力的过程——那么排除拼写错误导致结果错误的可能性就容易多了。复制实验还能排除偶然的假阳性,前提是复制实验有足够的统计能力来检测相关效应。许多科学家认为,实验复制是科学的核心;没有经过独立测试和全球范围的反复验证,任何新想法都不会被接受。
这并不完全正确。复制性研究很少是为了自身目的而进行的(除非在某些领域——物理学家喜欢对物理常数进行越来越精确的测量)。由于复制复杂结果可能需要几个月的时间,复制通常只有在研究人员需要将先前的结果用于自己的研究时才会发生。否则,复制性研究很少被视为值得发表的研究。少数例外情况包括可复现性项目,这个项目是由于心理学家对许多重要结果可能无法通过复制而产生的担忧而发起的。该项目由大量心理学家的合作进行,正在稳步重新测试来自知名心理学期刊的文章。初步结果令人鼓舞,大多数结果在新的试验中得以重现,但仍有很长的路要走。
另一个例子是,制药公司安捷伦的癌症研究人员重新测试了 53 项癌症研究中的重要临床前研究。(“临床前”是指这些研究未涉及人体患者,因为它们是在测试新的、未经验证的理念。)尽管与原作者合作,安捷伦的研究人员仅能重现其中六项研究。^(10) 拜耳的研究人员在测试已发表论文中提到的潜在新药时也报告了类似的困难。^(11)
这令人担忧。那么这种趋势对于那些较少依赖猜测的医学研究是否也适用呢?显然是的。在医学领域,被引用最多的研究文章中,有四分之一在发表后未经过验证,而三分之一的研究结果在后续的研究中被发现夸大或错误。^(12)这虽然不像安捷伦的结果那样极端,但足以让人怀疑是否仍有重大错误在重要研究中未被发现。复制性研究并不像我们希望的那样普遍,而结果也并不总是理想的。
小贴士
-
使用电子表格、分析脚本或程序来自动化数据分析,并且这些工具可以通过已知输入进行测试。如果有人怀疑存在错误,你应该能够查看你的代码,了解你究竟做了什么。
-
推论:将所有分析程序与已知输入进行测试,并确保结果合理。理想情况下,使用自动化测试来检查代码更改,确保不引入错误。
-
在编写软件时,遵循科学计算的最佳实践:
www.plosbiology.org/article/info:doi/10.1371/journal.pbio.1001745。 -
在使用程序和脚本分析数据时,遵循“可复现计算研究的十条简单规则”。^(9)
-
使用像 Sweave 这样的可复现研究工具,将分析中的数据自动纳入你的论文中。
-
尽可能使所有数据可用,通过专门的数据库如 GenBank 和 PDB,或通过通用的数据存储库如 Dryad 和 Figshare。
-
发布你的软件源代码、电子表格或分析脚本。许多期刊允许你将这些作为补充材料随论文提交,或者你可以将文件存放在 Dryad 或 Figshare 上。
第十一章 数据的隐藏
我曾谈到过科学家常犯的错误,以及发现这些错误的最佳方式是进行一些外部审查。同行评审提供了部分审查,但他们没有时间对数据进行广泛的重新分析或检查代码中的拼写错误——他们只能检查方法是否合理。有时他们会发现明显的错误,但微妙的问题通常被忽略。^(1)
这也是为什么许多期刊和专业学会要求研究人员在要求时将他们的数据提供给其他科学家的原因。完整的数据集通常太大,无法在期刊的页面上发布,而且结果的在线发布也很少——在顶级期刊上,只有不到 10% 的论文会在线提供完整数据,而选择性地发布部分结果更为常见。^(2) 相反,作者只会在其他科学家要求副本时报告他们的结果并提供完整数据。也许他们会发现一个错误或是原作者忽略的某种模式,或者他们可能利用这些数据调查一个相关话题。理论上是这样的。
被困的数据
2005 年,Jelte Wicherts 和阿姆斯特丹大学的同事决定分析几本美国心理学会(APA)主要期刊上所有近期的文章,以了解它们的统计方法。他们选择 APA 部分原因是因为该期刊要求作者同意与其他心理学家共享数据,以便验证他们的论点。但六个月后,他们仅从 249 项研究中收到了 64 项研究的数据。几乎四分之三的作者从未提供他们的数据。^(3)
当然,科学家们都是忙碌的人。也许他们根本没有时间整理他们的数据集,制作描述每个变量含义及其测量方法的文档,等等。或者他们的动机是自我保护;也许他们的数据并不像他们所声称的那样具有决定性。Wicherts 和他的同事决定进行测试。他们深入查阅了所有的研究,寻找可以通过阅读论文发现的常见错误,如统计结果不一致、统计测试使用不当和普通的拼写错误。至少一半的论文存在错误,通常是些小错误,但有 15% 的论文报告了至少一个统计学上显著的结果,这个结果之所以显著,仅仅是因为出现了错误。
接下来,Wicherts 和他的同事寻找这些错误与不愿分享数据之间的关联。结果发现二者之间有明显的关系。不愿共享数据的作者更有可能在论文中犯错,而他们的统计证据往往较弱。^(4) 由于大多数作者拒绝分享数据,Wicherts 无法深入挖掘更深层次的统计错误,可能还隐藏着更多问题。
这无疑不能证明作者隐藏他们的数据,因为他们知道自己的结果存在缺陷或不强;有许多可能的混杂因素。相关性并不意味着因果关系,但它确实会挑眉示意,偷偷指向并嘴里嘀咕着:“看那边。”^([19]) 而且,令人惊讶的高错误率展示了为什么数据应该共享。许多错误在已发布的论文中并不明显,只有当有人重新从头分析原始数据时,才会被注意到。
分享的障碍
分享数据并不总是像在线发布电子表格那么简单,尽管某些领域确实提供了便利。有基因测序数据库、蛋白质结构数据银行、天文观测数据库以及包含成千上万科学家贡献的地球观测数据集。然而,医学数据尤其复杂,因为它必须仔细剔除任何可能泄露患者身份的信息。而且制药公司强烈反对共享数据,理由是这些数据属于专有信息。例如,考虑欧洲药品管理局(EMA)的情况。
2007 年,来自北欧 Cochrane 中心的研究人员向 EMA 索要有关两种减肥药的数据。他们正在进行一项关于这些药物有效性的系统性回顾,并且知道作为允许药物进入欧洲市场的主管机构,EMA 会有制造商提交的试验数据,这些数据可能尚未公开发布。但是,EMA 以可能“无理地破坏或损害个人或公司的商业利益”为由,拒绝披露数据,认为公开这些数据会揭示其试验设计方法和商业计划。他们拒绝了这一论点,认为隐瞒数据不会伤害患者。
在经过三年半的官僚争论,并且审查了每个研究报告且未发现任何秘密商业信息后,欧洲监察专员最终命令 EMA 发布相关文件。与此同时,其中一款药物因副作用,包括严重的精神健康问题,已被从市场撤回。^(5)
学者们也用类似的理由来保密他们的数据。虽然他们并不担心商业利益,但他们确实担心竞争对手。共享数据集可能意味着被一个利用免费的数据,抢先取得你花费数月和成千上万美元收集的数据的寄生虫超越。因此,在某些领域,普遍的做法是,只有当数据对你不再有用时——也就是你已经尽可能多地发表了相关论文——才考虑共享数据。
害怕被超越是学术界的一个强大障碍,因为职业发展取决于在知名期刊上发表大量论文。初级科学家无法承担在某个项目上浪费六个月时间的风险,最终被他人抢先发表。与篮球不同,学术界没有助攻的荣誉;如果你无法获得合作作者的署名,那为什么还要与别人共享数据呢?虽然这种看法与科学快速发展的更广泛目标相悖,但对于实际工作的科学家来说却非常有说服力。
除了隐私、商业利益和学术竞争外,数据共享还面临实际问题。数据通常以各种科学仪器或分析软件生成的特殊格式存储,而电子表格软件则将数据保存为专有或不兼容的格式。(不能保证你的 Excel 电子表格或 SPSS 数据文件 30 年后仍然可以读取,甚至不同软件的同事也未必能打开。)并非所有数据都可以轻松地以电子表格形式上传——比如,记录了数小时视频的动物行为研究,或是由数小时访谈支持的心理学研究呢?即使找到了足够的存储空间来存档数百小时的视频,谁来承担费用?又有谁会去观看它呢?
发布数据还要求研究人员提供数据格式和测量技术的描述——使用了什么设备设置,如何进行校准等等。实验室组织通常是杂乱无章的,因此研究人员可能没有时间整理他们的电子表格和手写笔记;其他人可能没有办法共享数 GB 的原始数据。
数据衰退
另一个问题是,在计算机更替、技术过时、科学家迁移到新机构、学生毕业离开实验室时,数据的追踪变得困难。如果数据集不再被创作者使用,他们就没有动力维护一个精心组织的个人数据集档案,特别是当数据需要从软盘和档案柜中重新构建时。一项针对 1991 年至 2011 年间发表的 516 篇文章的研究发现,数据可用性的概率随时间推移而衰减。对于超过 20 年的论文,不到一半的数据集是可用的。(6),(7) 一些作者无法联系到,因为他们的电子邮件地址已更改;其他人回复说他们可能有数据,但数据存储在软盘上,而他们不再有软盘驱动器,或者数据存储在被盗的电脑上,或因其他原因丢失。这一衰减过程在图 11-1 中有所展示。^([20])

图 11-1. 随着论文变老,它们的数据存在的概率逐渐降低。实线为拟合曲线,灰色区域为其 95%的置信带;各点表示每个年龄段论文的平均可用率。该图仅包含能联系到作者的论文。
各种初创公司和非营利组织正在尝试解决这个问题。例如,Figshare 允许研究人员上传数以 GB 计的数据、图表和演示文稿,并以任何文件格式公开共享。为了鼓励共享,提交的内容会被分配一个数字对象标识符(DOI),这是一种常用来引用期刊文章的独特 ID;这使得在重新使用数据时能够轻松引用数据的原始创作者,给予他们在学术上的认可。Dryad 数字库与科学期刊合作,允许作者在文章提交过程中存储数据,并鼓励作者引用他们依赖的数据。Dryad 承诺将文件转换为新的格式,以应对旧格式的过时问题,防止数据随着程序无法读取而逐渐消失。Dryad 还在多个大学保留数据副本,以防数据丢失。
最终目标是让你更容易获得因发表和重用你的数据而获得的荣誉。如果另一个科学家利用你的数据做出了重要发现,你可以享受这份间接的荣耀,引用你的数据也可以像引用你的论文一样列出。有了这个激励,科学家们可能会更加愿意付出额外的努力,将数据集存储在网上。但这就足够了吗?科学实践的变化非常缓慢。而且,是否会有人检查数据是否有错误?
只需忽略细节
很难要求获取你不知道是否存在的数据。期刊文章通常是对它们所报告的多年研究的高度概括,科学家们通常倾向于报告那些有效的部分。如果某个测量或测试对最终结论不重要,它就会被忽略。如果研究中测量了几个结果,其中一个显示统计上没有显著变化,除非这个不显著的结果特别有趣,否则不会提及。
期刊空间限制常常迫使研究者省略负面结果和详细的研究方法。许多主要期刊对文章的字数有限制:例如,《柳叶刀》要求文章少于 3,000 字,而《科学》要求文章少于 4,500 字,并建议在文章的在线附录中描述方法。像《PLOS ONE》这样的纯在线期刊由于不需要支付印刷费用,因此没有字数限制。
已知的未知
我们可以评估研究,看看它们遗漏了什么。领导医学试验的科学家需要在试验开始前向伦理审查委员会提供详细的研究计划,因此一组研究人员从丹麦的一个审查委员会获得了这些协议的集合。^(8) 这些协议规定了招募多少患者、将测量哪些结果、如何处理缺失数据(如患者退出或样本丢失)、将进行哪些统计分析等。然而,许多研究协议缺少了重要的细节,而且很少有已发表的论文与协议相匹配。
我们已经看到,收集足够大样本数据对研究的重要性,大多数伦理审查委员会的文件详细列出了用于确定合适样本量的计算方法。然而,少于一半的已发表论文详细描述了样本量的计算。看起来,招募临床试验患者也很困难——一半的研究招募的患者数量与原计划不同,有时研究人员没有解释为什么会发生这种情况,或者这种变化可能对结果产生什么影响。
更糟糕的是,许多科学家省略了结果。评审委员会的文件列出了每项研究将测量的结果:副作用发生率、患者报告的症状等。这些结果的统计显著性变化通常会在已发布的论文中报告,但统计上不显著的结果则被省略,仿佛研究人员从未测量过这些结果。显然,这会导致隐性多重比较。一项研究可能监测多个结果,但只报告其中统计显著的少数几个。一个普通读者永远不会知道该研究曾监测过不显著的结果。在调查时,大多数研究人员否认省略结果,但评审委员会的文件却与他们的说法相矛盾。每篇由否认省略结果的研究人员撰写的论文实际上都未报告某些结果。
结果报告偏倚
在医学领域,证据的金标准是对许多精心设计的随机试验进行的荟萃分析。例如,Cochrane 协作组是一个国际志愿者团体,系统地回顾关于医学各个问题的已发布随机试验,然后生成一份报告,概述该领域的当前知识以及最有证据支持的治疗方法和技术。这些报告以其全面的细节和方法学的严格性而著称。
然而,如果无趣的结果从未出现在同行评审的出版物中,或因细节不足无法提供有效信息,那么 Cochrane 研究人员将永远不会将其纳入回顾,从而导致所谓的结果报告偏倚,使得系统评价倾向于更加极端和更具吸引力的结果。如果 Cochrane 评价的目的是评估某种特定类固醇药物治疗早产妇女的效果,且目标结果是婴儿死亡率,那么如果一些已发布的研究收集了死亡数据,但因为数据在统计上不显著而没有详细描述,那么这种情况是无效的。^([21])
对 Cochrane 系统评价的系统回顾显示,超过三分之一的研究可能受到结果报告偏倚的影响。评审人员有时未意识到结果报告偏倚的存在,而是误认为该结果根本没有被测量。虽然无法确切量化如果未发表的结果被纳入后,评审结果将如何变化,但根据他们的估计,五分之一的统计显著性结果可能变得不显著,四分之一的效果大小可能下降 20% 或更多。^(9)
其他评论也发现了类似的问题。许多研究存在数据缺失的问题。一些患者退出研究或未按时参加计划的检查。尽管研究人员常常指出数据缺失的情况,但他们通常没有解释原因,也没有描述在分析中如何处理缺失数据的患者,尽管缺失数据可能导致偏倚的结果(例如,如果有副作用最严重的患者退出并未被计入统计)。^(10) 另一项医学试验的回顾发现,大多数研究忽略了重要的研究方法细节,如停药规则和效能计算,发表在小型专业期刊的研究往往比那些发表在大型综合医学期刊的研究表现更差。^(11)
医学期刊已经开始通过制定标准来应对这个问题,比如 CONSORT 检查单,它要求报告统计方法、所有测量结果以及试验开始后任何设计更改。作者必须在提交研究之前遵循检查单的要求,编辑也会检查确保所有相关细节都已包含。该检查单似乎有效;在遵循该指南的期刊上发表的研究通常会报告更多的关键细节,尽管并非所有细节都有报告。^(12) 不幸的是,这些标准的执行不一致,许多研究常常因缺失细节而被通过。^(13) 期刊编辑需要更加努力地执行报告标准。
当然,低报并非医学所独有。三分之二的学术心理学家承认,他们有时会在论文中省略一些结果变量,导致结果报告偏倚。心理学家们还经常在同一篇论文中报告多个实验,从不同角度测试相同的现象,而一半的心理学家承认,他们只报告那些成功的实验。尽管大多数调查受访者同意这些做法可能站不住脚,但这些做法仍然存在。^(14)
在生物学和生物医学研究中,问题往往不在于患者入组或效能计算的报告,而在于实验中使用的众多化学物质、转基因生物、有特殊培育的细胞系和抗体。研究结果往往高度依赖这些因素,但许多期刊并没有针对这些因素制定报告指南,而且大多数生物医学论文中提到的化学品和细胞并不具备唯一的可识别性,即使在有严格报告要求的期刊中也是如此。^(15) 尝试复制研究结果,如同前面提到的拜耳和安进的研究人员一样,你可能会发现很难准确地复制实验。如果免疫学论文中没有说明从供应商处订购哪些抗体,你又如何复制这个实验呢?^([22])
我们看到已发表的论文表现不佳。那么,未发表的研究又如何呢?
文件柜中的科学
你之前已经看到了多重比较和事实膨胀对研究结果的影响。这些问题出现在研究进行大量低统计效力的比较时,导致假阳性率较高,并且效应量的估计被夸大,这些问题在已发表的研究中随处可见。
但并非每项研究都能被发表。例如,我们只看到一小部分医学研究,因为很少有科学家愿意发布“我们尝试了这种药物,但似乎没有效果”的研究。此外,知名期刊的编辑必须保持其发布开创性结果的声誉,而同行评审者通常对负面结果有天然的偏见。当审阅者面对具有相同方法和写作的论文时,他们会更严厉地评判负面结果的版本,并发现更多的研究方法错误。^(16)
未发表的临床试验
考虑一个例子:关于肿瘤抑制蛋白 TP53 及其对头颈癌影响的研究。许多研究表明,TP53 的测量可以用于预测癌症的死亡率,因为它在调节细胞生长和发育方面起着作用,因此必须正常运作才能防止癌症。当对所有 18 项已发表的 TP53 与癌症相关的研究进行汇总分析时,结果显示出一个高度统计显著的相关性。TP53 显然可以通过测量来预测肿瘤有多大可能致命。
但假设我们挖掘出有关 TP53 的未发表结果:这些数据曾在其他研究中提及,但并未公开或分析。将这些数据加入分析后,统计上显著的效果消失了。^(17) 毕竟,少数作者愿意发布没有相关性的数据显示,元分析只能使用一个有偏的样本。
一项类似的研究调查了由辉瑞公司销售的抗抑郁药物 reboxetine。几项已发表的研究表明,与安慰剂相比,它是有效的,这也促使一些欧洲国家批准将其作为处方药用于抑郁症患者。负责评估医疗治疗的德国质量与效率研究所设法获得了辉瑞公司未发表的临床试验数据——这些数据是已发表数据的三倍——并进行了仔细分析。结果是:reboxetine 并无效果。辉瑞公司通过忽略那些表明该药物无效的研究,才成功地让公众相信它是有效的。^(18)
对 12 种其他抗抑郁药的类似回顾发现,在提交给美国食品药品监督管理局(FDA)审批过程中的研究中,绝大多数负面结果从未被发布,或者较少地被发布时会强调次要结果。^(19)(例如,如果一项研究同时衡量了抑郁症状和副作用,可能会淡化抑郁症的微弱效果,而强调显著减少的副作用。)虽然负面结果可以提供给 FDA 以做出安全性和有效性评估,但临床医生和学术界在决定如何治疗患者时却无法获得这些结果。
这个问题通常被称为出版偏倚,或文件抽屉问题。许多研究由于没有发表而长年积存在文件抽屉中,尽管它们本可以贡献宝贵的数据。或者,在许多情况下,研究被发布,但省略了无趣的结果。如果他们衡量了多个结果,例如副作用,他们可能仅仅说某一效应是“无显著性”的,而没有给出任何数字,完全省略对该效应的提及,或者引用效应量但没有误差条,未给出关于证据强度的信息。
尽管这令人担忧,但问题不仅仅是已发布结果的偏倚。未发布的结果会导致重复劳动——如果其他科学家不知道你已经做过一项研究,他们可能会重复进行,浪费资金和精力。(我曾听到科学家讲述过这样的故事:在会议上谈论某种不起作用的技术,结果发现会场里有几位科学家已经做过同样的实验,但并未发表。)资助机构开始怀疑为何他们必须支持如此多关于相同主题的研究,而更多的患者和动物将被卷入实验。
识别报告偏倚
有可能测试出版和结果报告偏倚。如果一系列研究已在某一主题上进行,并且系统评价已根据已发布的数据估算出效应量,你可以轻松计算出每个个别研究在评审中的统计效能。^([23])假设,例如,效应量是 0.8(某个任意尺度上),但该综述包含了许多小规模的研究,每项研究的统计效能为 0.2。你会预期只有 20%的研究能发现该效应——但你可能会发现,90%或更多已发布的研究找到了该效应,因为其余的研究被丢弃了。^(20)
这个测试已被用于发现神经学动物实验研究中的令人担忧的出版偏倚。^(21) 动物实验的伦理正当性基于其对科学和医学进步的贡献,但强烈的结果报告偏倚的证据表明,许多动物被用于那些未发表的研究中,未对科学记录作出任何贡献。
相同的测试曾在心理学中的一起著名争议中使用:达里尔·贝姆 2011 年发表的研究,声称有证据表明“异常的逆向认知和情感影响”,即预测未来的超感官能力。该研究经过同行评审后在一份有声望的期刊上发表,但出版后立即遭到怀疑的科学家的负面反应。随后几篇论文揭示了他分析中的缺陷,并提出了其他统计方法,这些方法得出了更为合理的结果。有些过于技术性,无法在此详细介绍,但其中一项与此直接相关。
格雷戈里·弗朗西斯想知道贝姆是否通过出版偏倚获得了他的良好结果。知道自己的发现不容易被人相信,贝姆在同一研究中不仅发表了一项实验,而是发表了 10 项不同的实验,其中 9 项显示出统计学意义上的超感官能力。这似乎有说服力,但前提是没有大量未报告的研究结果显示没有超感官能力。弗朗西斯发现,贝姆的成功率与其统计功效不匹配——这实际上是出版偏倚的结果,而不是超感官知觉。²²
弗朗西斯发表了许多类似的论文,批评其他著名心理学研究,指责它们存在明显的出版偏倚。他显然遍查了心理学文献,一直到找到出版偏倚的证据为止。直到有人注意到这一讽刺情况,²³这一做法才得以停止。关于出版偏倚对出版物的影响,心理学文献中至今仍在激烈辩论。
强制披露
监管机构和科学期刊一直试图遏制出版偏倚。美国食品药品监督管理局要求某些类型的临床试验在开始之前通过其网站 ClinicalTrials.gov 进行注册,并要求在试验结束后一年内在 ClinicalTrials.gov 网站上发布总结结果。为了帮助执行注册,国际医学期刊编辑委员会在 2005 年宣布,不会发表未进行预注册的研究。
合规性一直较差。对 2008 年 6 月至 2009 年 6 月期间注册的所有临床试验进行的随机抽样显示,超过 40%的研究方案是在首位研究参与者招募后才注册的,中位数延迟的研究方案注册时间为 10 个月。²⁴这显然违背了要求提前注册的目的。不到 40%的研究方案清楚地说明了研究的主要结果、测量的时间框架以及用于测量的技术,这一点令人遗憾,因为主要结果是研究的目的所在。
类似地,已注册的临床试验的回顾研究发现,只有约 25% 的试验遵守了要求通过 ClinicalTrials.gov 发布结果的法律。(25),(26) 另有四分之一的已注册试验没有在任何地方发布结果,无论是在科学期刊中还是在注册库中。^(27) 看起来,尽管有法律的强制性,大多数研究人员忽视了 ClinicalTrials.gov 结果数据库,并选择在学术期刊上发表结果,或者根本不发表;美国食品药品监督管理局并未对任何未遵守规定的制药公司罚款,期刊也没有始终如一地执行注册试验的要求。^(5) 大多数同行评审者在审查稿件时并不检查试验注册库与稿件之间的差异,他们认为这是期刊编辑的责任,而编辑也并未进行检查。^(28)
当然,这些报告和注册要求并不适用于其他科学领域。心理学等领域的研究人员曾建议通过显著标注预注册研究来鼓励注册,但此类努力并未取得广泛进展。^(29) 其他建议包括提前进行研究协议的同行评审,由期刊在数据收集之前决定是否接受或拒绝该研究;接受的标准仅基于研究设计的质量,而非结果。但这种做法尚未广泛推广。许多研究最终消失不见。
小贴士
-
在公共数据库中注册协议,如 ClinicalTrials.gov,欧盟临床试验注册平台 (
www.clinicaltrialsregister.eu),或其他任何公共注册库。世界卫生组织在其国际临床试验注册平台网站 (www.who.int/ictrp/en/) 上维护一个列表,SPIRIT 清单 (www.spirit-statement.org/) 列出了协议中应包含的内容。尽可能发布总结结果。 -
记录任何偏离试验协议的情况,并在您的发表论文中讨论它们。
-
尽可能提供所有数据,通过专门的数据库,如 GenBank 和 PDB,或通过通用的数据存储库,如 Dryad 和 Figshare。
-
发布您的软件源代码、Excel 工作簿或用于分析数据的分析脚本。许多期刊允许您将这些作为补充材料与论文一起提交,或者您可以使用 Dryad 和 Figshare。
-
遵循您所在领域的报告指南,如临床试验的 CONSORT,流行病学观察性研究的 STROBE,动物实验的 ARRIVE,或基因关联研究的 STREGA。EQUATOR 网络 (
www.equator-network.org/) 维护了各医学领域的指南列表。 -
如果你获得了负面结果,发布它们!一些期刊可能会因负面结果无趣而拒绝发表,因此可以考虑开放存取的电子期刊,如PLOS ONE或Trials,这些期刊经过同行评审,但不会因研究结果无趣而拒绝发表。负面数据也可以发布在 Figshare 上。
^([19]) 笑话无耻地摘自* xkcd.com/552/*的备用文本。
^([20]) 该图是由研究的作者编写的代码生成的,作者已将其公开并将其数据存储在 Dryad 数字库中。他们的结果可能会比他们所调查的研究结果持续更长时间。
^([21]) Cochrane 协作组织的标志是一张图表,显示了给早产妇女使用类固醇的研究结果。单独来看,这些研究在统计上不显著,但当数据汇总后,很明显这种治疗能够挽救生命。多年未被发现,因为没有人做过全面的回顾来整合可用数据。
^([22]) 我听说即使使用正确的材料,生物实验也可能难以重复,因为它们对实验设置中的微小变化非常敏感。但这不是借口——这是一个严肃的问题。当一个结果只成功过一次时,我们如何将其视为普遍有效的呢?
^([23]) 请注意,如果每项研究的效果测量确实不同,因为研究方法中存在某些系统性差异,这种方法将不起作用。在这种情况下,估算它们的真实效能将更加困难。
第十二章:能做些什么?
我描绘了一个严峻的局面。但任何人都可以从已发表的研究中挑选出细节,列出大量错误。这些问题重要吗?
当然重要。如果不重要,我就不会写这本书了。
John Ioannidis 的著名文章《为什么大多数已发表的研究结果是错误的》^(1)是基于数学问题而非对研究结果的实证检验。由于大多数研究文章统计功效差,且研究人员可以自由选择分析方法以获得有利结果,而大多数被检验的假设是错误的,且大多数正确的假设对应的是非常小的效应,因此我们在数学上注定会产生大量的假阳性结果。
但如果你需要实证数据,Jonathan Schoenfeld 和 John Ioannidis 可以为你提供。他们研究了“我们吃的每一样东西都与癌症有关吗?”(2),([24])。他们从一本食谱中选择了 50 种常见食材,着手寻找将它们与癌症发生率关联的研究——并找到了 216 项关于 40 种不同食材的研究。当然,大多数研究互相矛盾。大多数食材有多项研究交替声称它们既能增加又能减少患癌的风险。(可悲的是,培根是为数不多的几种始终被发现增加癌症风险的食物之一。)大多数统计证据都很弱,而元分析通常显示癌症发生率的效应远小于原始研究所报道的效应。
或许这不是一个严重的问题,考虑到我们已经习惯了忽视关于常见物品致癌的新闻报道。那么,再考虑一下《新英格兰医学杂志》对 2001 年至 2010 年间所有研究文章的全面回顾,这本杂志是最负盛名的医学研究期刊之一。在 363 篇测试当前标准医学实践的文章中,有 146 篇——约 40%——得出结论认为这种实践应当被放弃,转而采用先前的治疗方法。只有 138 篇研究重申了当前的实践。^(3)
敏锐的读者可能会想,这些数据是否受到了发表偏倚的影响。也许《新英格兰医学杂志》偏向于发表反对当前标准的文章,因为这些文章更具吸引力。但当前标准的护理测试确实稀缺,并且似乎更容易吸引编辑的注意。即使确实存在偏倚,医学实践中这些反转的数量也应该令人担忧。^([25])
另一篇综述将荟萃分析与随后的大型随机对照试验进行了比较。在超过三分之一的案例中,随机试验的结果与荟萃分析的结果不太一致,这表明即便是仔细汇总的众多小规模研究也不能被信任为可靠的证据。^(4) 其他荟萃分析的比较发现,大多数结果被夸大了,随着更多数据的更新,效应值有所下降。也许五分之一的荟萃分析结论代表了假阳性。^(5)
当然,后续的研究和荟萃分析的反驳并不会阻止一篇论文被当作真理使用。即使是那些已经被大量后续试验明确结果反驳的效应,5 年或 10 年后仍然频繁被引用,科学家似乎没有注意到这些结果是错误的。^(6) 当然,新的发现会广泛宣传,而相反的结论和更正几乎从不被提及。^(7) 你几乎不能责怪科学家们没能跟上这些变化。
我们不要忘记那些仅仅是有偏的结果。医学期刊中不规范的报告标准意味着,测试精神分裂症新治疗方法的研究可能忽略了他们用来评估症状的量表——这是一个方便的偏差来源,因为使用自制未公开量表的试验往往比使用之前验证过的测试取得更好的结果。^(8) 其他医学研究则干脆省略掉不利或不有趣的特定结果,这使得随后的荟萃分析只包含正向结果。大约三分之一的荟萃分析估计存在这个问题。^(9)
大量的物理科学论文误用置信区间。^(10) 还有一篇同行评审的心理学论文,声称通过探索性研究中的未经控制的多重比较提供了通灵能力的证据。^(11) 不出所料,结果未能被复制——这些科学家似乎没有计算他们测试的统计功效。^(12)
那我们该怎么做呢?如何防止这些错误影响到出版?一个好的起点可能是统计学教育。
统计学教育
大多数美国的理科学生接受的统计学教育非常有限——至多一两门必修课程,而大多数学生根本没有接触过统计学。许多这些课程没有涉及一些重要的概念,如统计功效和多重比较。即便学生们上过统计学课程,教授们也报告说他们无法将统计学概念应用于科学问题,因为学生们从未完全理解——或者已经忘记——相关的技术。这种情况需要改变。几乎每个科学学科都依赖于对实验数据的统计分析,而统计错误浪费了拨款资金和研究人员的时间。
我们可能会诱惑性地说:“我们必须推出一个适应实践科学家需求的新课程,并要求学生修习这些课程”,然后假设问题就能得到解决。大量的科学教育研究表明,情况并非如此。典型的讲座课程对学生的帮助有限,因为讲座是教授困难概念的一个不良方式。
不幸的是,大多数这类研究并不是专门针对统计学教育的。然而,物理学家们在一个类似的问题上做了大量的研究:教授物理学入门学生力、能量和运动学的基本概念。一个具有教育意义的例子是,对 14 门物理课程进行的大规模调查,涵盖 2,084 名学生,使用力概念调查(Force Concept Inventory)来衡量学生在上课前后对基本物理概念的理解。学生们在上课时对知识存在空白;学期结束时,他们仅填补了这些空白的 23%,尽管他们的教师认为力概念调查太简单了。^(13)
结果之所以不理想,是因为讲座并不符合学生的学习方式。学生们对基本物理有一些来自日常经验的先入之见——例如,每个人都“知道”被推的物体最终会停下来,因为现实世界中的每个物体都会这样。但我们教授牛顿的第一定律,即物体在没有外力作用的情况下会保持运动,并期望学生们立即用新的理解替代他们的先入之见,理解物体停止只是因为摩擦力的作用。对物理学学生的访谈揭示了许多出乎意料的误解,这些误解是在入门课程中发展起来的,许多是教师们未曾预见到的。(14),(15) 误解就像是蟑螂:你不知道它们来自哪里,但它们无处不在——往往在你意想不到的地方——而且它们对核武器免疫。
我们希望学生能够凭借这种新的理解来解决问题并进行推理,但通常他们并没有这样做。那些观看与自己误解相矛盾的讲座的学生,事后通常会对他们的误解更有信心,而且在简单的知识测试中表现没有更好。通常他们会报告说自己没有集中注意力,因为讲座涵盖的是他们已经“知道”的概念。^(16) 同样,物理概念的实际演示对学生理解的提升也很有限,因为那些误解的学生总能以自己的误解角度来解释演示内容。^(17) 而且我们不能指望他们在课堂上提问,因为他们根本没有意识到自己不理解。
至少有一项研究证实了这一效应在统计假设检验教学中的作用。即便在阅读了一篇明确警告不要误解p值和假设检验结果的文章后,只有 13%的学生正确回答了关于假设检验的问卷。^(18) 显然,如果学生从根本上误解了统计学,单纯分发像这样的一本书并不会有太大帮助。大多数基础统计学内容并不直观(或者,至少没有以直观的方式教授),而误解和错误的可能性是巨大的。我们该如何最好地教会学生分析数据并做出合理的统计推断呢?
再次,物理教育研究中的方法提供了答案。如果讲座没有迫使学生面对并纠正他们的误解,我们就必须使用能够做到这一点的方法。一个典型的例子就是同伴教学。学生在课前被分配阅读材料或观看视频,课堂时间则用于复习基本概念并回答概念性问题。在讲师揭示正确答案之前,学生被迫选择一个答案并讨论他们为什么认为这个答案是对的,这样学生立刻就能看到他们的误解与现实之间的差距,而讲师也能够在问题扩大之前发现它们。
同伴教学已经成功地应用于许多物理课程中。使用力学概念调查表的调查发现,学生在同伴教学课程中通常能够将学习收获翻倍或三倍,并填补学期开始时暴露出的 50%至 75%的知识空白。¹³,(19),(20) 尽管注重概念理解,参与同伴教学课程的学生在定量和数学问题上的表现与传统讲座学生相当,甚至更好。
到目前为止,关于同侪教学在统计课程中的影响的数据相对较少。一些大学尝试过将统计课程与科学课程结合,学生们立即将统计知识应用于自己领域的问题。初步结果表明这种方法有效:学生学习和掌握的统计知识更多,抱怨被迫参加统计课程的时间也更少。^(21) 更多的大学应该采用这些技术,利用概念性测试,如统计学成果综合评估^(22),并结合试验课程,看看哪些方法效果最好。如果我们仅仅改变现有课程,而不是引入庞大的新教育项目,学生们将在日常研究中的统计需求上得到更好的准备。
但并不是每个学生都在课堂上学习统计学。我是在实验室需要分析数据时才接触到统计学的,当时我不知道该怎么做;直到统计教育得到更广泛普及,许多学生和研究人员将会发现自己处于同样的困境,他们需要资源。那些在 Google 上搜索“如何做 t 检验”的成千上万的准科学家们,需要的是开发了常见错误和应用案例的免费教育资料。像OpenIntro Statistics这样的项目,一个开放源代码且可以自由分发的统计学入门教材,前景看好,但我们还需要更多类似的资源。我希望在不久的将来能看到更多的进展。
科学出版
科学期刊正在逐步取得进展,解决我所讨论的许多问题。报告指南,例如针对随机试验的 CONSORT 指南,明确规定了已发表论文所需的可重复性信息;不幸的是,正如你所看到的,这些指南很少被执行。我们必须继续施压期刊,要求作者遵守更严格的标准。
顶级期刊需要带头行动。自然杂志已经开始这样做,宣布了一项新的清单,要求作者在文章发布前完成该清单。^(23) 该清单要求报告样本大小、统计功效计算、临床试验注册号、完成的 CONSORT 清单、多个比较的调整,以及数据和源代码的共享。该指南涵盖了本书中大多数问题,除了停止规则、偏好使用置信区间而非p值以及讨论偏离试验注册方案的原因。自然杂志还将为同行评审者请求的论文提供统计学家的咨询服务。
受欢迎的期刊心理科学最近也采取了类似措施,免除文章的字数限制,要求对排除的数据、不显著的结果以及样本量计算进行完全披露。强烈鼓励预注册研究方案并共享数据,编辑们也已采纳了“新统计学”方法,强调置信区间和效应量估计,而非无休止的p值^(24)。但由于置信区间并非强制要求,因此尚不清楚它们的支持是否能对心理学家的既有做法产生影响。
无论如何,更多期刊应该采取同样的做法。当这些指导方针被学术界接受后,执行也可以随之而来,最终结果将是更加可靠和可重复的研究。
还有很多可以讨论的内容,关于不幸的激励结构,它迫使科学家们迅速发表小规模研究并使用草率的统计方法。晋升、终身教授、加薪和工作机会都依赖于在声誉卓著的期刊上有一长串的发表记录,因此有强烈的动机尽早发表有前景的结果。由过度劳累的学者组成的终身教授评审委员会,忙于发表自己的研究论文,无法对每篇文章进行深入的质量或原创性审查,而是依赖于声誉和数量作为近似值。大学排名在很大程度上依赖于出版数量和成功的资助申请。而由于负面或统计上不显著的结果不会被顶级期刊接受,因此为其准备发表往往不值得努力——在低级别期刊上发表可能会被其他学者视为不利信号。
但是,声誉卓著的期刊通过拒绝绝大多数投稿来维持其声誉;自然期刊接受的投稿不到 10%。表面上这是由于期刊印刷版的页数限制,尽管绝大多数文章都是在线阅读的。期刊编辑试图判断哪些论文会产生最大的影响力和兴趣,因此选择那些具有最具惊讶性、争议性或新颖性结果的论文。如你所见,这是导致真相膨胀、结果报告和出版偏差的原因,并且强烈抑制了复制研究和负面结果的发表。
仅在线发布的期刊,如开放获取的PLOS ONE或 BioMed Central 的多个期刊,不受页面数量的限制,拥有更多的自由来发布那些看起来不那么吸引眼球的文章。但PLOS ONE有时被视为那些在更有声望期刊中未能通过的文章的倾销场,有些科学家担心在其中发表会让潜在雇主感到担忧。(它也是最大的学术期刊,现在每年出版超过 30,000 篇文章,所以显然它的污名并不太严重。)更有声望的在线开放获取期刊,如PLOS Biology或BMC Biology,同样非常挑剔,鼓励同样类型的统计学彩票。
为了推动变革,诺贝尔奖得主兰迪·谢克曼(Randy Schekman)在 2013 年宣布,他和他实验室的学生将不再在“奢侈”的科学期刊如Science和Nature上发表文章,而是专注于开放获取的替代期刊(如他主编的eLife),这些期刊不会通过拒绝绝大多数文章来人为限制出版。^(25) 当然,谢克曼和他的学生得到了诺贝尔奖的保护,这更能说明他工作的质量,而非文章所发表期刊的头衔能说明的任何事情。普通的研究生在普通的非诺贝尔获奖实验室中,无法冒着用如此激进的方式去冒犯自己的职业生涯的风险。
也许谢克曼,凭借他的诺贝尔奖,可以提出我们其余人都害怕提出的观点:疯狂追求越来越多的出版物,要求明确的统计学显著性和广泛的应用,正在伤害科学。我们过分注重统计学显著性,并为此做任何事情,甚至在我们不了解统计数据的情况下。我们推动大量小型和能力不足的研究,填充我们的简历,而不是花时间和金钱去进行更大、更具决定性的研究。
一种提议的替代方案是使用文章级别的指标,来取代名声显赫的期刊的统治地位。与其根据期刊的声望来评判文章,不如根据文章自身的影响力粗略衡量。仅在线发布的期刊可以轻松衡量文章的浏览量、它在其他文章中被引用的次数,甚至它在 Twitter 或 Facebook 上被讨论的频率。这比使用影响因子更有改进,影响因子是根据某一年内所有研究文章在期刊中被引用的平均次数来计算的,这是一个自我强化的指标,因为声誉较高的期刊的文章由于其声望和可见性被引用得更频繁。
我怀疑这个解决方案会如此简单。在开放获取期刊中,文章级别的指标奖励那些受到大众欢迎的文章(因为开放获取文章任何人都可以免费阅读),所以一篇关于鸡块不愉快成分的文章^([26])的得分可能比某些隐秘遗传学领域的重要突破还要高。没有单一的魔法解决方案;学术文化必须慢慢变化,以奖励那些彻底的、严谨的、并且在统计上可靠的研究。
你的工作
现代科学家面临的要求是极端的。除了掌握自己领域内快速发展的知识,大多数科学家还需要擅长编程(包括版本控制、单元测试和良好的软件工程实践)、设计统计图表、撰写科学论文、管理研究小组、指导学生、管理和存档数据、教学、申请资助、审阅同行的工作,以及我在这里要求的统计技能。人们将毕生精力投入到掌握其中的一项技能,而我们却期望科学家能够在所有这些领域表现出色,才能保持竞争力。
这太疯狂了。在美国,博士项目可能需要五到七年,仍然没有时间教授所有这些技能,除非通过试错法^([27])。增加一两年的实验设计和统计分析课程似乎不切实际。除了统计学家,谁还有时间去学习这些课程呢?
答案的一部分是外包。利用你所在地方统计学系提供的统计咨询服务,当你的统计需求超出几个小时的免费建议时,可以邀请一位统计学家作为合作者。(许多统计学家容易受“书呆子狙击”的影响。向他们描述一个有趣的问题,他们会无法抗拒去尝试解决它。)作为论文的共同作者,统计学家将贡献你无法通过两学期入门课程学到的宝贵专业知识。
然而,如果你打算自己做数据分析,你需要扎实的统计学基础,至少要理解统计顾问告诉你的内容。一门强有力的应用统计学课程应该包括基本的假设检验、回归分析、统计功效计算、模型选择以及像 R 这样的统计编程语言。或者,至少这门课程应该提到这些概念的存在——也许统计功效的完全数学解释不适合课程设置,但学生应该了解统计功效,并知道在需要时要求进行功效计算。遗憾的是,每当我阅读应用统计学课程的大纲时,我会发现它未能覆盖所有这些主题。许多教材只是简要地提到它们。
小心虚假的自信。你可能很快会产生一种得意的满足感,觉得你的工作不像其他人的那样出错。但我并没有给你全面介绍数据分析的数学知识。除了这些简单的概念性错误之外,还有很多方式可能会把统计分析搞砸。如果你正在设计一个不寻常的实验、进行大规模试验或分析复杂数据,在开始之前请咨询统计学家。一位合格的统计学家可以推荐一种实验设计,减少诸如伪重复等问题,帮助你收集正确的数据——以及足够的数据量——来回答你的研究问题。不要像很多人那样犯错,拿着数据到统计顾问的办公室,问:“那我怎么知道这是否具有统计学意义?”统计学家应该是你研究中的合作伙伴,而不是 Microsoft Excel 的替代品。你可能会用一些巧克力、一瓶啤酒,甚至下一篇论文的共同作者身份来换取一些不错的建议。
当然,你不仅仅会分析自己的数据。科学家花费大量时间阅读其他科学家写的论文,而这些科学家对统计学的掌握程度完全不明。在统计分析中寻找重要细节,例如以下内容:
-
研究的统计功效或确定适当样本量的其他方法
-
分析时如何选择或舍弃变量
-
统计结果是否支持论文的结论
-
随着显著性检验的效应量估计和置信区间,显示结果是否具有实际意义
-
是否使用了适当的统计检验,并且如果有必要,如何针对多重比较进行了修正
-
停止规则的细节
如果你从事的领域已经制定了报告指南(如医学试验的 CONSORT 检查表),请熟悉这些指南,并在阅读论文时牢记它。如果一篇论文遗漏了某些必需项,问问自己这对其结论的影响是什么,缺少的细节是否会让你无法确认其结果的可靠性。当然,向期刊编辑施加压力,强制执行这些指南,以确保未来的论文能够得到改进。在没有标准报告指南的领域,努力创建一些指南,确保每篇论文都包含评估其结论所需的所有信息。
简而言之,你的任务可以通过四个简单的步骤来表达。
-
阅读一本统计学教材或参加一个好的统计学课程。练习。
-
在开始收集数据之前,仔细规划你的数据分析,避免我之前提到的误解和错误。开始之前与统计学家讨论。
-
当你在科学文献中发现常见错误时——例如简单的P值误解——用你的统计学教材狠狠地敲打犯错者。这是种疗法。
-
推动科学教育和出版的变革。这是我们的研究,应该做得正确。
^([24]) 持续进行的肿瘤学本体论项目的一个重要部分是将所有内容分类为两类:一种是能治愈癌症的,另一种是导致癌症的。
^([25]) 更加敏锐的读者可能会问,既然那么多研究都有缺陷,我们为什么要相信这些表明当前做法是错误的研究?这个问题很有道理,但我们依然面临着巨大的不确定性:如果我们不知道该相信哪些研究,那么最好的治疗方法究竟是什么呢?
^([26]) 主要是脂肪、骨骼、神经和结缔组织,尽管遗憾的是这篇文章并不是开放获取的。^(26) 没有说明鸡块的品牌。
^([27]) 专业程序员常常交换关于自学成才的学术朋友所写的糟糕代码的故事。
附录 A. 注释
一些出版商的文章,如 BMJ、BMC 和 PLOS,可以在网上免费获取。其他文章的免费副本有时可以通过搜索标题找到。大多数参考文献包括数字对象标识符(DOI),可以在 dx.doi.org/ 输入该标识符来查找该文章的权威在线版本。
前言
-
J.P.A. Ioannidis. “为什么大多数已发布的研究结果是错误的。” PLOS Medicine 2, no. 8 (2005): e124. DOI: 10.1371/journal. pmed.0020124.
-
N.J. Horton 和 S.S. Switzer. “Journal 中的统计方法。” New England Journal of Medicine 353, no. 18 (2005): 1977–1979. DOI: 10.1056/NEJM200511033531823.
-
B.L. Anderson, S. Williams, 和 J. Schulkin. “妇产科住院医师的统计素养。” Journal of Graduate Medical Education 5, no. 2 (2013): 272–275. DOI: 10.4300/JGME-D-12-00161.1.
-
D.M. Windish, S.J. Huot, 和 M.L. Green. “医学住院医师对生物统计学和医学文献结果的理解。” JAMA 298, no. 9 (2007): 1010–1022. DOI: 10.1001/jama. 298.9.1010.
-
S. Goodman. “肮脏的十二个:十二个关于 P 值的误解。” Seminars in Hematology 45, no. 3 (2008): 135–140. DOI: 10.1053/j. seminhematol.2008.04.003.
-
P.E. Meehl. “心理学和物理学中的理论检验:一个方法论悖论。” Philosophy of Science 34, no. 2 (1967): 103–115.
-
G. Taubes 和 C.C. Mann. “流行病学面临极限。” Science 269, no. 5221 (1995): 164–169. DOI: 10.1126/science.7618077.
-
D. Fanelli 和 J.P.A. Ioannidis. “美国研究可能高估了软性研究中的效应量。” Proceedings of the National Academy of Sciences 110, no. 37 (2013): 15031–15036. DOI: 10.1073/pnas. 1302997110.
第一章
-
B. Thompson. “二十五年领导力:测量和评估的两端。” Journal of Counseling & Development 70, no. 3 (1992): 434–438. DOI: 10.1002/j.1556-6676.1992.tb01631.x.
-
E.J. Wagenmakers. “对普遍存在的 P 值问题的实际解决方案。” Psychonomic Bulletin & Review 14, no. 5 (2007): 779–804. DOI: 10.3758/BF03194105.
-
J. Neyman 和 E.S. Pearson. “最有效的统计假设检验问题。” Philosophical Transactions of the Royal Society of London, Series A 231 (1933): 289–337.
-
S.N. Goodman. “走向基于证据的医学统计学. 1:P 值谬误。” Annals of Internal Medicine 130, no. 12 (1999): 995–1004. DOI: 10.7326/0003-4819-130-12-199906150-00008.
-
S.N. Goodman. “P 值、假设检验和似然性:忽视的历史辩论对流行病学的影响。” 美国流行病学杂志 137, 第 5 期(1993 年):485–496。
-
R. Hubbard 和 M.J. Bayarri. “经典统计检验中的证据度量(p值)与错误(α值)之间的混淆。” 美国统计学家 57, 第 3 期(2003 年):171–178. DOI: 10.1198/0003130031856。
-
M.J. Gardner 和 D.G. Altman. “置信区间而非 P 值:估计而非假设检验。” BMJ 292(1986 年):746–750。
-
G. Cumming, F. Fidler, M. Leonard, P. Kalinowski, A. Christiansen, A. Kleinig, J. Lo, N. McMenamin 和 S. Wilson. “心理学中的统计改革:有什么变化吗?” 心理科学 18, 第 3 期(2007 年):230–232. DOI: 10.1111/j.1467-9280.2007.01881.x。
-
P.E. Tressoldi, D. Giofré, F. Sella 和 G. Cumming. “高影响力 = 高统计标准?未必如此。” PLOS ONE 8, 第 2 期(2013 年):e56180. DOI: 10.1371/journal.pone.0056180。
-
B. Thompson. “为什么‘鼓励’效应量报告没有奏效:研究者抗拒改变做法的病因。” 心理学杂志 133, 第 2 期(1999 年):133–140. DOI: 10.1080/00223989909599728。
-
J. Cohen. “地球是圆的(p < .05)。” 美国心理学家 49, 第 12 期(1994 年):997–1003. DOI: 10.1037/0003-066X.49.12.997。
-
F. Fidler, N. Thomason, G. Cumming, S. Finch 和 J. Leeman. “编辑可以引导研究人员使用置信区间,但不能让他们思考:来自医学的统计改革经验。” 心理科学 15, 第 2 期(2004 年):119–126. DOI: 10.1111/j. 0963-7214.2004.01502008.x。
第二章
-
P.E. Tressoldi, D. Giofré, F. Sella 和 G. Cumming. “高影响力 = 高统计标准?未必如此。” PLOS ONE 8, 第 2 期(2013 年):e56180. DOI: 10.1371/journal.pone.0056180。
-
R. Tsang, L. Colley 和 L.D. Lynd. “随机对照试验中,检测临床显著差异的统计功效不足以发现不良事件率。” 临床流行病学杂志 62, 第 6 期(2009 年):609–616. DOI: 10.1016/j.jclinepi.2008.08.005。
-
D. Moher, C. Dulberg 和 G. Wells. “随机对照试验中的统计功效、样本量及其报告。” JAMA 272, 第 2 期(1994 年):122–124. DOI: 10. 1001 / jama. 1994. 03520020048013。
-
P.L. Bedard, M.K. Krzyzanowska, M. Pintilie 和 I.F. Tannock. “在美国临床肿瘤学会年会报告的负面随机对照试验中的统计功效。” 临床肿瘤学杂志 25, 第 23 期(2007 年):3482–3487. DOI: 10.1200/JCO.2007.11.3670。
-
C.G. Brown, G.D. Kelen, J.J. Ashton 和 H.A. Werman. “临床试验中β错误和样本量的确定:急诊医学中的应用。” 急诊医学年鉴 16 卷,第 2 期(1987 年):183–187。DOI:10.1016/S0196-0644(87)80013-6。
-
K.C. Chung, L.K. Kalliainen 和 R.A. Hayward. “手部文献中的二型(β)错误:功效的重要性。” 手外科杂志 23 卷,第 1 期(1998 年):20–25。DOI:10.1016/S0363-5023(98)80083-X。
-
K.S. Button, J.P.A. Ioannidis, C. Mokrysz, B.A. Nosek, J. Flint, E.S.J. Robinson 和 M.R. Munafò. “功效失败:为什么小样本量会破坏神经科学研究的可靠性。” 自然神经科学评论 14(2013 年):365–376。DOI:10.1038/nrn3475。
-
J. Cohen. “异常社会心理学研究的统计功效:回顾。” 异常与社会心理学杂志 65 卷,第 3 期(1962 年):145–153。DOI:10.1037/h0045186。
-
P. Sedlmeier 和 G. Gigerenzer. “统计功效的研究是否会影响研究的功效?” 心理学公报 105 卷,第 2 期(1989 年):309–316。DOI:10.1037/0033-2909.105.2.309。
-
G. Murray. “统计学审稿人的任务。” 英国外科杂志 75 卷,第 7 期(1988 年):664–667。DOI:10.1002/bjs.1800750714。
-
S.E. Maxwell. “心理学研究中低功效研究的持续存在:原因、后果和解决办法。” 心理学方法 9 卷,第 2 期(2004 年):147–163。DOI:10.1037/1082-989X.9.2.147。
-
E. Hauer. “显著性测试带来的危害。” 事故分析与预防 36 卷,第 3 期(2004 年):495–500。DOI:10.1016/S0001-4575(03)00036-8。
-
D.F. Preusser, W.A. Leaf, K.B. DeBartolo, R.D. Blomberg 和 M.M. Levy. “红灯右转对行人和骑车人事故的影响。” 安全研究杂志 13 卷,第 2 期(1982 年):45–55。DOI:10.1016/0022-4375(82)90001-9。
-
P.L. Zador. “红灯右转法则与机动车事故:文献回顾。” 事故分析与预防 16 卷,第 4 期(1984 年):241–245。DOI:10.1016/0001-4575(84)90019-8。
-
美国国家公路交通安全管理局。“红灯右转的安全影响。” 1995 年 2 月。网址:
www.nhtsa.gov/people/injury/research/pub/rtor.pdf。 -
G. Cumming. 理解新统计学。Routledge,2012 年。ISBN:978-0415879682。
-
S.E. Maxwell, K. Kelley 和 J.R. Rausch. “统计功效与参数估计准确性的样本量规划。” 心理学年鉴 59 卷,第 1 期(2008 年):537–563。DOI:10.1146/annurev.psych.59.103006.093735。
-
J.P.A. Ioannidis. “为什么大多数发现的真实关联被夸大。” Epidemiology 19, no. 5 (2008): 640–648. DOI: 10.1097/EDE.0b013e31818131e7.
-
J.P.A. Ioannidis. “在高度引用的临床研究中,矛盾和最初更强的效果。” JAMA 294, no. 2 (2005): 218–228. DOI: 10.1001/jama.294.2.218.
-
J.P.A. Ioannidis 和 T.A. Trikalinos. “已发布研究中可能出现的极端矛盾的早期估计:分子遗传学研究和随机试验中的 Proteus 现象。” Journal of Clinical Epidemiology 58, no. 6 (2005): 543–549. DOI: 10. 1016/j.jclinepi.2004.10.019.
-
B. Brembs, K.S. Button, 和 M.R. Munafò. “深远影响:期刊排名的意外后果。” Frontiers in Human Neuroscience 7 (2013): 291. DOI: 10.3389/fnhum.2013.00291.
-
K.C. Siontis, E. Evangelou, 和 J.P.A. Ioannidis. “在高影响力的综合性医学期刊上发表的临床试验效果大小。” International Journal of Epidemiology 40, no. 5 (2011): 1280–1291. DOI: 10.1093/ije/dyr095.
-
A. Gelman 和 D. Weakliem. “关于美、性和权力:估算小效应中的统计挑战。” American Scientist 97 (2009): 310–316. DOI: 10.1511/2009.79.310.
-
H. Wainer. “最危险的方程式。” American Scientist 95 (2007): 249–256. DOI: 10.1511/2007.65.249.
-
A. Gelman 和 P.N. Price. “所有的参数估计图都具有误导性。” Statistics in Medicine 18, no. 23 (1999): 3221–3234. DOI: 10.1002/(SICI)1097-0258(19991215) 18: 23<3221:: AIDSIM312<3.0.CO;2-M.
-
R. Munroe. “Reddit 的新评论排序系统。” 2009 年 10 月 15 日. URL:
redditblog.com/2009/10/reddits-new-comment-sorting-system.html. -
E. Miller. “如何避免按平均评分排序。” 2009 年 2 月 6 日. URL:
www.evanmiller.org/how-not-to-sort-by-average-rating.html.
第三章
-
S.E. Lazic. “神经科学研究中的伪重复问题:它是否影响了你的分析?” BMC Neuroscience 11 (2010): 5. DOI: 10.1186/1471-2202-11-5.
-
S.H. Hurlbert. “伪重复与生态学野外实验设计。” Ecological Monographs 54, no. 2 (1984): 187–211. DOI: 10.2307/1942661.
-
D.E. Kroodsma, B.E. Byers, E. Goodale, S. Johnson, 和 W.C. Liu. “回放实验中的伪重复,十年后的再探讨。” Animal Behaviour 61, no. 5 (2001): 1029–1033. DOI: 10. 1006/anbe.2000.1676.
-
D.M. Primo, M.L. Jacobsmeier 和 J. Milyo. “估计州政策和机构对混合级别数据的影响。” 《州政治与政策季刊》 7 卷,第 4 期(2007 年):446–459. DOI: 10. 1177 / 153244000700700405.
-
W. Rogers. “聚类样本中的回归标准误差。” 《Stata 技术通报》,第 13 期(1993 年):19–23. URL:
www.stata-press.com/journals/stbcontents/stb13.pdf. -
L.V. Hedges. “修正聚类的显著性检验。” 《教育与行为统计杂志》 32 卷,第 2 期(2007 年):151–179. DOI: 10.3102/1076998606298040.
-
A. Gelman 和 J. Hill. 《使用回归和多层次/分层模型进行数据分析》。剑桥大学出版社,2007 年。ISBN: 978-0521686891.
-
J.T. Leek, R.B. Scharpf, H.C. Bravo, D. Simcha, B. Langmead, W.E. Johnson, D. Geman, K. Baggerly 和 R.A. Irizarry. “解决高通量数据中批次效应的普遍且关键影响。” 《自然遗传学评论》 11 卷,第 10 期(2010 年):733–739. DOI: 10.1038/nrg2825.
-
R.A. Heffner, M.J. Butler 和 C.K. Reilly. “伪重复性再审。” 《生态学》 77 卷,第 8 期(1996 年):2558–2562. DOI: 10. 2307 / 2265754.
-
M.K. McClintock. “月经同步和抑制。” 《自然》 229 卷(1971 年):244–245. DOI: 10.1038/229244a0.
-
H.C. Wilson. “月经同步研究的批判性回顾。” 《心理神经内分泌学》 17 卷,第 6 期(1992 年):565–591. DOI: 10.1016/0306-4530(92)90016-Z.
-
Z. Yang 和 J.C. Schank. “女性不会同步月经周期。” 《人类本性》 17 卷,第 4 期(2006 年):433–447. DOI: 10. 1007/s12110-006-1005-z.
-
A.L. Harris 和 V.J. Vitzthum. “达尔文的遗产:对女性生殖和性功能的进化观点。” 《性研究杂志》 50 卷,第 3-4 期(2013 年):207–246. DOI: 10.1080/00224499. 2012.763085.
第四章
-
H. Haller 和 S. Krauss. “显著性的误解:学生与老师共同面临的问题?” 《心理研究方法》 7 卷,第 1 期(2002 年)。
-
R. Bramwell, H. West 和 P. Salmon. “健康专业人员和服务使用者对筛查测试结果的解释:实验研究。” 《BMJ》 333 卷(2006 年):284–286. DOI: 10.1136/bmj.38884. 663102.AE.
-
D. Hemenway. “调查研究和自卫枪使用:对极端高估的解释。” 《刑法与刑事法杂志》 87 卷,第 4 期(1997 年):1430–1445. URL:
www.jstor.org/stable/1144020。 -
D. McDowall 和 B. Wiersema. “美国犯罪受害者防御性枪支使用的发生率,1987 年至 1990 年。”美国公共卫生杂志 84, no. 12 (1994): 1982–1984. DOI: 10.2105/AJPH.84.12.1982。
-
G. Kleck 和 M. Gertz. “单边推测的非法性:减少防御性枪支使用估计。”刑事法与犯罪学杂志 87, no. 4 (1996): 1446–1461。
-
E. Gross 和 O. Vitells. “高能物理学中‘寻找其他地方效应’的试验因素。”欧洲物理杂志 C 70, no. 1-2 (2010): 525–530. DOI: 10.1140/epjc/s10052-010-1470-8。
-
E.J. Wagenmakers. “解决 p 值普遍问题的实用方案。”心理学公报与评论 14, no. 5 (2007): 779–804. DOI: 10.3758/BF03194105。
-
D.G. Smith, J. Clemens, W. Crede, M. Harvey, 和 E.J. Gracely. “随机临床试验中多重比较的影响。”美国医学杂志 83, no. 3 (1987): 545–550. DOI: 10.1016/0002-9343(87)90768-6。
-
J. Carp. “实验的隐秘生活:fMRI 文献中的方法报告。”神经影像 63, no. 1 (2012): 289–300. DOI: 10.1016/j.neuroimage.2012.07.004。
-
Y. Benjamini 和 Y. Hochberg. “控制假发现率:一种实践且强有力的多重检验方法。”皇家统计学会系列 B 57, no. 1 (1995): 289–300. URL:
www.jstor.org/stable/2346101。
第五章
-
A. Gelman 和 H. Stern. “‘显著’与‘不显著’之间的差异本身并不具有统计学显著性。”美国统计学家 60, no. 4 (2006): 328–331. DOI: 10.1198/000313006X152649。
-
M. Bland. “保持年轻和美丽:‘抗衰老’产品的证据?”显著性 6, no. 4 (2009): 182–183. DOI: 10.1111/j.1740-9713.2009.00395.x。
-
S. Nieuwenhuis, B.U. Forstmann, 和 E.J. Wagenmakers. “神经科学中错误的交互分析:一个显著性问题。”自然神经科学 14, no. 9 (2011): 1105–1109. DOI: 10.1038/nn.2886。
-
A.F. Bogaert. “生物学兄弟与非生物学兄弟对男性性取向的影响。”美国国家科学院院刊 103, no. 28 (2006): 10771–10774. DOI: 10.1073/pnas.0511152103。
-
J. McCormack, B. Vandermeer, 和 G.M. Allan. “如何将置信区间变成混淆区间。”BMC 医学研究方法学 13 (2013). DOI: 10.1186/1471-2288-13-134。
-
N. Schenker 和 J.F. Gentleman. “通过检查置信区间的重叠来判断差异的显著性。”美国统计学家 55, no. 3 (2001): 182–186. DOI: 10.1198/000313001317097960。
-
S. Belia, F. Fidler, J. Williams, 和 G. Cumming. “研究人员误解置信区间和标准误差条。” 心理学方法 10, 第 4 期 (2005): 389–396. DOI: 10. 1037 / 1082-989X.10.4.389.
-
J.R. Lanzante. “关于误差条使用的警示说明。” 气候学期刊 18, 第 17 期 (2005): 3699–3703. DOI: 10. 1175/JCLI3499.1.
-
K.R. Gabriel. “均值多重比较的简单方法。” 美国统计学会期刊 73, 第 364 期 (1978): 724–729. DOI: 10.1080/01621459.1978.10480084.
-
M.R. Stoline. “多重比较的现状:在单因素方差分析设计中同时估计所有成对比较。” 美国统计学家 35, 第 3 期 (1981): 134–141. DOI: 10.1080/00031305.1981.10479331.
第六章
-
P.N. Steinmetz 和 C. Thorp. “测试不同刺激对神经元放电与背景活动的影响。” 神经工程期刊 10, 第 5 期 (2013): 056019. DOI: 10.1088/1741-2560/10/5/056019.
-
N. Kriegeskorte, W.K. Simmons, P.S.F. Bellgowan, 和 C.I. Baker. “系统神经科学中的循环分析:双重入选的危险。” 自然神经科学 12, 第 5 期 (2009): 535–540. DOI: 10. 1038/nn.2303.
-
E. Vul, C. Harris, P. Winkielman, 和 H. Pashler. “在情感、人格和社会认知的 fMRI 研究中,令人困惑的高相关性。” 心理学科学的视角 4, 第 3 期 (2009): 274–290. DOI: 10.1111/j.1745-6924.2009.01125.x.
-
E. Vul 和 H. Pashler. “巫术与循环错误。” 神经影像 62, 第 2 期 (2012): 945–948. DOI: 10.1016/j.neuroimage.2012.01. 027.
-
S.M. Stigler. 桌上的统计学。哈佛大学出版社, 1999. ISBN: 978-0674009790.
-
J.P. Simmons, L.D. Nelson, 和 U. Simonsohn. “假阳性心理学:数据收集与分析中的未公开灵活性使得任何结果都能被呈现为显著。” 心理学科学 22, 第 11 期 (2011): 1359–1366. DOI: 10.1177/0956797611417632.
-
D. Bassler, M. Briel, V.M. Montori, M. Lane, P. Glasziou, Q. Zhou, D. Heels-Ansdell, S.D. Walter, 和 G.H. Guyatt. “因获益提前停止随机对照试验与治疗效果估算:系统评价与元回归分析。” 美国医学会杂志 303, 第 12 期 (2010): 1180–1187. DOI: 10.1001/jama.2010.310.
-
V.M. Montori, P.J. Devereaux, 和 N. Adhikari. “因获益提前停止的随机对照试验:系统评价。” 美国医学会杂志 294, 第 17 期 (2005): 2203–2209. DOI: 10.1001/jama.294.17.2203.
-
S. Todd, A. Whitehead, N. Stallard, 和 J. Whitehead. “第三阶段研究中的中期分析和顺序设计。” 英国临床药理学杂志 51, 第 5 期 (2001): 394–399. DOI: 10. 1046/j.1365-2125.2001.01382.x.
-
L.K. John, G. Loewenstein, 和 D. Prelec. “通过奖励诚实报告,衡量可疑研究行为的普遍性。” 心理科学 23, 第 5 期 (2012): 524–532. DOI: 10. 1177/0956797611430953.
第七章
-
D.G. Altman, B. Lausen, W. Sauerbrei, 和 M. Schumacher. “在评估预后因素时使用‘最优’切点的危险。” 美国国家癌症研究所杂志 86, 第 11 期 (1994): 829–835. DOI: 10.1093/jnci/86.11.829.
-
L. McShane, D.G. Altman, W. Sauerbrei, S.E. Taube, M. Gion, 和 G.M. Clark. “肿瘤标志物预后研究报告建议(REMARK)。” 美国国家癌症研究所杂志 97, 第 16 期 (2005): 1180–1184. DOI: 10.1093/jnci/dji237.
-
V. Fedorov, F. Mannino, 和 R. Zhang. “二分法的后果。” 药物统计学 8, 第 1 期 (2009): 50–61. DOI: 10.1002/pst.331.
-
S.E. Maxwell 和 H.D. Delaney. “双变量中位数切分与虚假的统计显著性。” 心理学通报 113, 第 1 期 (1993): 181–190. DOI: 10.1037/0033-2909.113.1.181.
第八章
-
R. Abbaszadeh, A. Rajabipour, M. Mahjoob, M. Delshad, 和 H. Ahmadi. “利用振动响应评估西瓜的质地。” 生物系统工程 115, 第 1 期 (2013): 102–105. DOI: 10.1016/j.biosystemseng.2013.01.001.
-
M.J. Whittingham, P.A. Stephens, R.B. Bradbury, 和 R.P. Freckleton. “我们为什么还在生态学和行为学中使用逐步建模?” 动物生态学杂志 75, 第 5 期 (2006): 1182–1189. DOI: 10.1111/j.1365-2656.2006.01141.x.
-
D.A. Freedman. “关于筛选回归方程的说明。” 美国统计学家 37, 第 2 期 (1983): 152–155. DOI: 10. 1080 / 00031305.1983.10482729.
-
L.S. Freedman 和 D. Pee. “返回关于筛选回归方程的说明。” 美国统计学家 43, 第 4 期 (1989): 279–282. DOI: 10.1080/00031305.1989.10475675.
-
R. Investigators 和 Prevenzione. “n-3 多不饱和脂肪酸的疗效及优化高心血管风险患者预防策略的可行性:Rischio 和 Prevenzione 研究的理据、设计及基线特征,一项大型随机临床试验。” 试验 11, 第 1 期 (2010): 68. DOI: 10.1186/1745-6215-11-68.
-
风险与预防研究协作组. “具有多重心血管风险因素的患者中的 n–3 脂肪酸。” 新英格兰医学杂志 368, 第 19 期 (2013): 1800–1808. DOI: 10.1056/NEJMoa1205409.
-
C. Tuna. “当合并数据揭示平均数的缺陷。” 华尔街日报 (2009). URL:
online.wsj.com/news/articles/SB125970744553071829. -
P.J. Bickel, E.A. Hammel, 和 J.W. O’Connell. “研究生录取中的性别偏见:来自伯克利的数据。” 科学 187, 第 4175 期 (1975): 398–404. DOI: 10.1126/science.187.4175.398.
-
S.A. Julious 和 M.A. Mullee. “混杂与辛普森悖论。” BMJ 309, 第 6967 期 (1994): 1480–1481. DOI: 10.1136/bmj.309.6967.1480.
-
R. Perera. “评论:统计学与儿童脑膜炎球菌疾病死亡。” BMJ 332, 第 7553 期 (2006): 1297–1298. DOI: 10.1136/bmj.332.7553.1297.
第九章
-
J.P.A. Ioannidis. “为什么大多数已发现的真实关联都被夸大了。” 流行病学 19, 第 5 期 (2008): 640–648. DOI: 10.1097/EDE.0b013e31818131e7.
-
M.J. Shun-Shin 和 D.P. Francis. “为什么更多的临床研究可能是错误的:临床意外值的不对称处理效应。” PLOS ONE 8, 第 6 期 (2013): e65323. DOI: 10.1371/journal.pone.0065323.
-
J.P. Simmons, L.D. Nelson, 和 U. Simonsohn. “假阳性心理学:数据收集与分析中的未披露灵活性让任何事情都能呈现为显著。” 心理科学 22, 第 11 期 (2011): 1359–1366. DOI: 10.1177/0956797611417632.
-
A.T. Beall 和 J.L. Tracy. “女性在排卵高峰期更可能穿红色或粉色。” 心理科学 24, 第 9 期 (2013): 1837–1841. DOI: 10.1177/0956797613476045.
-
A. Gelman. “好得令人难以置信。” Slate (2013). URL:
www.slate.com/articles/health_and_science/science/2013/07/statistics_and_psychology_multiple_comparisons_give_spurious_results.html. -
K.M. Durante, A. Rae, 和 V. Griskevicius. “波动的女性选民:政治、宗教与排卵周期。” 心理科学 24, 第 6 期 (2013): 1007–1016. DOI: 10.1177/0956797612466416.
-
C.R. Harris 和 L. Mickes. “女性可以维持投票权:没有证据表明月经周期中的激素变化会影响政治和宗教信仰。” 心理科学 25, 第 5 期 (2014): 1147–1149. DOI: 10.1177/0956797613520236.
-
M. Jeng. “物理学中期望偏差的精选历史。” 美国物理学杂志 74 (2006): 578. DOI: 10.1119/1.2186333.
-
J.R. Klein 和 A. Roodman. “核物理与粒子物理中的盲分析。” 核物理与粒子科学年鉴 55 (2005): 141–163. DOI: 10.1146/annurev.nucl.55.090704.151521.
-
A.W. Chan, A. Hróbjartsson, K.J. Jørgensen, P.C. Gøtzsche, 和 D.G. Altman. “随机试验中样本大小计算和数据分析的差异:出版物与协议的比较。” 英国医学杂志 337 (2008): a2299. DOI: 10.1136/bmj. a2299.
-
A.W. Chan, A. Hróbjartsson, M.T. Haahr, P.C. Gøtzsche, 和 D.G. Altman. “随机试验中选择性报告结果的经验证据:协议与已发表文章的比较。” 美国医学会杂志 291, 第 20 期 (2004): 2457–2465. DOI: 10.1001/jama. 291.20.2457.
-
D. Fanelli 和 J.P.A. Ioannidis. “美国研究可能高估软性研究中的效应量。” 美国国家科学院院刊 110, 第 37 期 (2013): 15031–15036. DOI: 10.1073/pnas.1302997110.
第十章
-
P.C. Gøtzsche. “摘要中相对风险和优势比的可信度:横断面研究。” 英国医学杂志 333, 第 7561 期 (2006): 231–234. DOI: 10.1136/bmj.38895.410451.79.
-
M. Bakker 和 J.M. Wicherts. “心理学期刊中统计结果的(误)报道。” 行为研究方法 43, 第 3 期 (2011): 666–678. DOI: 10.3758/s13428-011-0089-5.
-
E. García-Berthou 和 C. Alcaraz. “医学论文中检验统计量与 P 值的不一致。” BMC 医学研究方法学 4, 第 1 期 (2004): 13. DOI: 10.1186/1471-2288-4-13.
-
P.C. Gøtzsche. “196 项类风湿性关节炎非甾体抗炎药双盲试验报告中的方法学与明显及隐性偏倚。” 对照临床试验 10 (1989): 31–56. DOI: 10.1016/0197-2456(89)90017-2.
-
K.A. Baggerly 和 K.R. Coombes. “从细胞系推导化学敏感性:法医学生物信息学与高通量生物学中的可重复研究。” 应用统计年鉴 3, 第 4 期 (2009): 1309–1334. DOI: 10.1214/09-AOAS291.
-
《经济学人》. “科学中的不端行为:一系列错误。” 2011 年 9 月. URL:
www.economist.com/node/21528593. -
G. Kolata. “癌症检测中的光明前景如何崩溃。” 纽约时报 (2011). URL:
www.nytimes.com/2011/07/08/health/research/08genes.html. -
V. Stodden, P. Guo 和 Z. Ma. “迈向可重复的计算研究:期刊数据和代码政策采纳的实证分析。” PLOS ONE 8, 第 6 期 (2013): e67111. DOI: 10.1371/journal.pone.0067111.
-
G.K. Sandve, A. Nekrutenko, J. Taylor 和 E. Hovig. “可重复计算研究的十条简单规则。” PLOS Computational Biology 9, 第 10 期 (2013): e1003285. DOI: 10.1371/journal.pcbi.1003285.
-
C.G. Begley 和 L.M. Ellis. “药物开发:提高临床前癌症研究的标准。” Nature 483, 第 7 期 (2012): 531–533. DOI: 10.1038/483531a.
-
F. Prinz, T. Schlange 和 K. Asadullah. “信不信由你:我们能依赖已发表的潜在药物靶点数据多少?” Nature Reviews Drug Discovery 10 (2011): 328–329. DOI: 10.1038/nrd3439-c1.
-
J.P.A. Ioannidis. “在高度引用的临床研究中,存在被矛盾和最初更强的效应。” JAMA 294, 第 2 期 (2005): 218–228. DOI: 10.1001/jama.294.2.218.
第十一章
-
S. Schroter, N. Black, S. Evans, F. Godlee, L. Osorio 和 R. Smith. “同行评审者发现哪些错误,培训是否能提高他们发现错误的能力?” Journal of the Royal Society of Medicine 101, 第 10 期 (2008): 507–514. DOI: 10.1258/jrsm.2008.080062.
-
A.A. Alsheikh-Ali, W. Qureshi, M.H. Al-Mallah 和 J.P.A. Ioannidis. “高影响力期刊中已发布研究数据的公开可用性。” PLOS ONE 6, 第 9 期 (2011): e24357. DOI: 10. 1371/journal.pone.0024357.
-
J.M. Wicherts, D. Borsboom, J. Kats 和 D. Molenaar. “心理学研究数据重分析的稀缺性。” American Psychologist 61, 第 7 期 (2006): 726–728. DOI: 10.1037/0003-066X. 61.7.726.
-
J.M. Wicherts, M. Bakker 和 D. Molenaar. “分享研究数据的意愿与证据强度和统计结果报告质量相关。” PLOS ONE 6, 第 11 期 (2011): e26828. DOI: 10.1371/journal.pone.0026828.
-
B. Goldacre. 坏药:制药公司如何误导医生并伤害患者。Faber & Faber, 2013. ISBN: 978-0865478008.
-
T.H. Vines, A.Y.K. Albert, R.L. Andrew, F. Débarre, D.G. Bock, M.T. Franklin, K.J. Gilbert, J.S. Moore, S. Renaut 和 D.J. Rennison. “研究数据的可用性随着文章年龄的增长而迅速下降。” Current Biology 24, 第 1 期 (2014): 94–97. DOI: 10.1016/j.cub. 2013.11.014.
-
T.H. Vines, A.Y.K. Albert, R.L. Andrew, F. Débarre, D.G. Bock, M.T. Franklin, K.J. Gilbert, J.S. Moore, S. Renaut 和 D.J. Rennison. “数据来自:研究数据的可用性随着文章年龄的增长而迅速下降。” Dryad Digital Repository (2013). DOI: 10.5061/dryad.q3g37.
-
A.W. Chan, A. Hróbjartsson, M.T. Haahr, P.C. Gøtzsche 和 D.G. Altman. “关于随机试验中结果选择性报告的实证证据:协议与已发布文章的比较。” JAMA 291, no. 20 (2004): 2457–2465. DOI: 10.1001/jama.291.20.2457.
-
J.J. Kirkham, K.M. Dwan, D.G. Altman, C. Gamble, S. Dodd, R. Smyth 和 P.R. Williamson. “随机对照试验中的结果报告偏倚对一系列系统评价的影响。” BMJ 340 (2010): c365. DOI: 10.1136/bmj.c365.
-
W. Bouwmeester, N.P.A. Zuithoff, S. Mallett, M.I. Geerlings, Y. Vergouwe, E.W. Steyerberg, D.G. Altman 和 K.G.M. Moons. “临床预测研究中的报告与方法:一项系统评价。” PLOS Medicine 9, no. 5 (2012): e1001221. DOI: 10.1371/journal.pmed.1001221.
-
K. Huwiler-Müntener, P. Jüni, C. Junker 和 M. Egger. “随机试验报告质量作为方法学质量的衡量标准。” JAMA 287, no. 21 (2002): 2801–2804. DOI: 10.1001/jama.287.21.2801.
-
A.C. Plint, D. Moher, A. Morrison, K. Schulz, D.G. Altman, C. Hill 和 I. Gaboury. “CONSORT 清单是否能改善随机对照试验报告的质量?一项系统评价。” 澳大利亚医学杂志 185, no. 5 (2006): 263–267.
-
E. Mills, P. Wu, J. Gagnier, D. Heels-Ansdell 和 V.M. Montori. “一项关于支持 CONSORT 的一般医学和专科期刊的分析发现,报告并未始终如一地得到执行。” 临床流行病学杂志 58, no. 7 (2005): 662–667. DOI: 10.1016/j.jclinepi.2005.01.004.
-
L.K. John, G. Loewenstein 和 D. Prelec. “通过奖励诚实报告,衡量可疑研究实践的普遍性。” 心理科学 23, no. 5 (2012): 524–532. DOI: 10.1177/0956797611430953.
-
N.A. Vasilevsky, M.H. Brush, H. Paddock, L. Ponting, S.J. Tripathy, G.M. LaRocca 和 M.A. Haendel. “关于科学可重复性的讨论:生物医学文献中研究资源的独特标识。” PeerJ 1 (2013): e148. DOI: 10.7717/peerj.148.
-
G.B. Emerson, W.J. Warme, F.M. Wolf, J.D. Heckman, R.A. Brand 和 S.S. Leopold. “检测同行评审中正向结果偏倚的存在:一项随机对照试验。” 内科档案 170, no. 21 (2010): 1934–1939. DOI: 10.1001/archinternmed.2010.406.
-
P.A. Kyzas, K.T. Loizou 和 J.P.A. Ioannidis. “癌症预后因素研究中的选择性报告偏倚。” 国家癌症研究所杂志 97, no. 14 (2005): 1043–1055. DOI: 10.1093/jnci/dji184.
-
D. Eyding, M. Lelgemann, U. Grouven, M. Härter, M. Kromp, T. Kaiser, M.F. Kerekes, M. Gerken, 和 B. Wieseler. “Reboxetine 治疗急性重度抑郁症:已发表和未发表的安慰剂和选择性血清素再摄取抑制剂对照试验的系统评价和荟萃分析。” BMJ 341 (2010): c4737. DOI: 10.1136/bmj.c4737.
-
E.H. Turner, A.M. Matthews, E. Linardatos, R.A. Tell, 和 R. Rosenthal. “抗抑郁药试验的选择性出版及其对表观疗效的影响。” 新英格兰医学杂志 358, 第 3 期 (2008): 252–260. DOI: 10.1056/NEJMsa065779.
-
J.P.A. Ioannidis 和 T.A. Trikalinos. “过度显著性结果的探索性检验。” 临床试验 4, 第 3 期 (2007): 245–253. DOI: 10.1177/1740774507079441.
-
K.K. Tsilidis, O.A. Panagiotou, E.S. Sena, E. Aretouli, E. Evangelou, D.W. Howells, R.A.S. Salman, M.R. Macleod, 和 J.P.A. Ioannidis. “神经系统疾病动物研究中的过度显著性偏倚评估。” PLOS Biology 11, 第 7 期 (2013): e1001609. DOI: 10.1371/journal.pbio.1001609.
-
G. Francis. “好得令人难以置信:实验心理学两项重要研究中的出版偏倚。” 心理学公告与评论 19, 第 2 期 (2012): 151–156. DOI: 10.3758/s13423-012-0227-9.
-
U. Simonsohn. “这不成立:评估 Francis 对单次出版偏倚的批评。” 心理学科学透视 7, 第 6 期 (2012): 597–599. DOI: 10.1177/1745691612463399.
-
R.F. Viergever 和 D. Ghersi. “临床试验注册的质量。” PLOS ONE 6, 第 2 期 (2011): e14701. DOI: 10.1371/journal.pone.0014701.
-
A.P. Prayle, M.N. Hurley, 和 A.R. Smyth. “遵守在 ClinicalTrials.gov 上强制报告临床试验结果的规定:横断面研究。” BMJ 344 (2012): d7373. DOI: 10.1136/bmj.d7373.
-
V. Huser 和 J.J. Cimino. “将 ClinicalTrials.gov 和 PubMed 关联,以跟踪干预性人类临床试验的结果。” PLOS ONE 8, 第 7 期 (2013): e68409. DOI: 10.1371/journal.pone.0068409.
-
C.W. Jones, L. Handler, K.E. Crowell, L.G. Keil, M.A. Weaver, 和 T.F. Platts-Mills. “大型随机临床试验未出版:横断面分析。” BMJ 347 (2013): f6104. DOI: 10.1136/bmj.f6104.
-
S. Mathieu, A.W. Chan, 和 P. Ravaud. “同行评审过程中使用试验登记信息。” PLOS ONE 8, 第 4 期 (2013): e59910. DOI: 10.1371/journal.pone.0059910.
-
E.J. Wagenmakers, R. Wetzels, D. Borsboom, H.L.J. van der Maas, 和 R.A. Kievit. “纯粹验证性研究的议程。” 心理学科学透视 7, 第 6 期 (2012): 632–638. DOI: 10.1177/1745691612463078.
第十二章
-
J.P.A. Ioannidis. “为什么大多数已发布的研究发现是错误的。” PLOS 医学 2, no. 8 (2005): e124. DOI: 10.1371/journal.pmed.0020124。
-
J.D. Schoenfeld 和 J.P.A. Ioannidis. “我们吃的所有东西都与癌症相关吗?一项系统性的食谱回顾。” 美国临床营养学杂志 97, no. 1 (2013): 127–134. DOI: 10.3945/ajcn.112.047142。
-
V. Prasad, A. Vandross, C. Toomey, M. Cheung, J. Rho, S. Quinn, S.J. Chacko, D. Borkar, V. Gall, S. Selvaraj, N. Ho, 和 A. Cifu. “十年的逆转:146 个相互矛盾的医学实践分析。” 梅奥诊所学报 88, no. 8 (2013): 790–798. DOI: 10.1016/j.mayocp.2013.05.012。
-
J. LeLorier, G. Gregoire, 和 A. Benhaddad. “荟萃分析与随后的大型随机对照试验之间的差异。” 新英格兰医学杂志 337 (1997): 536–542. DOI: 10.1056/NEJM199708213370806。
-
T.V. Pereira 和 J.P.A. Ioannidis. “临床试验的统计显著性荟萃分析具有适度可信度和膨胀效应。” 临床流行病学杂志 64, no. 10 (2011): 1060–1069. DOI: 10.1016/j.jclinepi.2010.12.012。
-
A. Tatsioni, N.G. Bonitsis, 和 J.P.A. Ioannidis. “文献中矛盾声明的持续性。” 美国医学会杂志 298, no. 21 (2007): 2517–2526. DOI: 10.1001/jama.298.21.2517。
-
F. Gonon, J.P. Konsman, D. Cohen, 和 T. Boraud. “为什么大多数生物医学发现被报纸报道后结果是错误的:以注意力缺陷多动症为例。” PLOS ONE 7, no. 9 (2012): e44275. DOI: 10.1371/journal.pone.0044275。
-
M. Marshall, A. Lockwood, C. Bradley, C. Adams, C. Joy, 和 M. Fenton. “未发布的评分量表:随机对照试验中治疗精神分裂症的偏倚主要来源。” 英国精神病学杂志 176, no. 3 (2000): 249–252. DOI: 10.1192/bjp.176.3.249。
-
J.J. Kirkham, K.M. Dwan, D.G. Altman, C. Gamble, S. Dodd, R. Smyth, 和 P.R. Williamson. “随机对照试验中的结果报告偏倚对一组系统评价的影响。” 英国医学杂志 340 (2010): c365. DOI: 10.1136/bmj.c365。
-
J.R. Lanzante. “关于误差条使用的警示。” 气候学杂志 18, no. 17 (2005): 3699–3703. DOI: 10. 1175/JCLI3499.1。
-
E. Wagenmakers, R. Wetzels, D. Borsboom, 和 H.L. van der Maas. “为什么心理学家必须改变他们分析数据的方式:以 Psi 为例。” 人格与社会心理学杂志 100, no. 3 (2011): 426–432. DOI: 10.1037/a0022790。
-
J. Galak, R.A. LeBoeuf, L.D. Nelson 和 J.P. Simmons. “纠正过去:未能复制 psi。” 人格与社会心理学杂志 103, 第 6 期 (2012): 933–948. DOI: 10.1037/a0029709。
-
R. Hake. “互动参与法与传统方法:对六千名学生的力学测试数据进行的物理学入门课程调查。” 美国物理学杂志 66, 第 1 期 (1998): 64–74. DOI: 10.1119/1.18809。
-
L.C. McDermott. “力学中概念理解的研究。” 物理学今天 37, 第 7 期 (1984): 24. DOI: 10. 1063 / 1.2916318。
-
J. Clement. “学生在基础力学中的先入之见。” 美国物理学杂志 50, 第 1 期 (1982): 66–71. DOI: 10. 1119/1.12989。
-
D.A. Muller. 为物理教育设计有效的多媒体。博士论文。悉尼大学,2008 年 4 月. URL:
www.physics.usyd.edu.au/super/theses/PhD(Muller).pdf。 -
C.H. Crouch, A.P. Fagen, J.P. Callan 和 E. Mazur. “课堂演示:学习工具还是娱乐?” 美国物理学杂志 72, 第 6 期 (2004): 835–838. DOI: 10.1119/1.1707018。
-
H. Haller 和 S. Krauss. “显著性误解:学生与教师共同面临的问题?” 心理学研究方法 7, 第 1 期 (2002)。
-
C.H. Crouch 和 E. Mazur. “同伴指导:十年的经验与成果。” 美国物理学杂志 69, 第 9 期 (2001): 970–977. DOI: 10.1119/1.1374249。
-
N. Lasry, E. Mazur 和 J. Watkins. “同伴指导:从哈佛到两年制学院。” 美国物理学杂志 76, 第 11 期 (2008): 1066–1069. DOI: 10.1119/1.2978182。
-
A.M. Metz. “生物学中的统计学教学:利用探究式学习加强对生物学实验课程中统计分析的理解。” CBE 生命科学教育 7 (2008): 317–326. DOI: 10.1187/cbe.07--07--0046。
-
R. Delmas, J. Garfield, A. Ooms 和 B. Chance. “在第一次统计课程后评估学生的概念理解。” 统计教育研究杂志 6, 第 2 期 (2007): 28–58。
-
《自然》编辑部. “生命科学文章报告清单。” 2013 年 5 月. URL:
www.nature.com/authors/policies/checklist.pdf。 -
E. Eich. “商业非同寻常。” 心理科学 25, 第 1 期 (2014): 3–6. DOI: 10.1177/0956797613512465。
-
R. Schekman. “像《自然》、《细胞》和《科学》这样的期刊如何损害科学。” 卫报(2013 年)。网址:
www.theguardian.com/commentisfree/2013/dec/09/how-journals-nature-science-cell-damage-science。 -
R.D. deShazo, S. Bigler, 和 L.B. Skipworth. “鸡块的尸检报告写着‘小鸡’。” 美国医学杂志 126 卷,第 11 期(2013 年):1018–1019。DOI:10.1016/j.amjmed.2013.05.005。
附录 B. 书名页
《统计学误区》使用的字体包括 New Baskerville、Futura、TheSansMono Condensed 和 Dogma。该书使用 LATEX 2[ϵ] 包 nostarch 由 Boris Veytsman 排版 (2008/06/06 v1.3 为 No Starch Press 排版书籍)。
图表使用 R 统计编程语言(版本 3.0.1 “Good Sport”)生成。在本书的制作过程中,虽然有几位客人和朋友感到非常无聊,但并没有统计学家受到伤害。
附录 C. 更新
访问www.nostarch.com/statsdonewrong/获取更新、勘误和其他信息。
更多实用书籍来自
NO STARCH PRESS

R 编程艺术
统计软件设计巡礼
作者 NORMAN MATLOFF
2011 年 10 月,400 页,$39.95
ISBN 978-1-59327-384-2

漫画版统计学指南
作者 SHIN TAKAHASHI 和 TREND-PRO CO., LTD
2008 年 11 月,232 页,$19.95
ISBN 978-1-59327-189-3

Linux 工作原理,第 2 版
每个超级用户应知道的事项
作者 BRIAN WARD
2014 年 11 月,392 页,$39.95
ISBN 978-1-59327-567-9

使用 Python 自动化无聊的工作
面向完全初学者的实用编程
作者 AL SWEIGART
2015 年 4 月,448 页,$29.95
ISBN 978-1-59327-599-0

Linux 命令行
全面介绍
作者 WILLIAM E. SHOTTS, JR.
2012 年 1 月,480 页,$39.95
ISBN 978-1-59327-389-7

Python 速成课程
一个动手实践、基于项目的编程入门
作者 ERIC MATTHES
2015 年 5 月,400 页,$34.95
ISBN 978-1-59327-603-4
电话:
800.420.7240 或
415.863.9900
电子邮件:
SALES@NOSTARCH.COM
网址:
第十三章:索引
关于数字索引的说明
索引条目中的链接将显示该条目所在章节的标题。由于某些章节有多个索引标记,条目可能会有多个指向同一章节的链接。点击任何链接都会直接带你到文本中该标记出现的地方。
符号
α (假阳性率),Neyman-Pearson 测试
A
参数估计的准确性 (AIPE),置信区间与赋能
Akaike 信息准则,拟合数据与西瓜
备择假设,Neyman-Pearson 测试
美国公共卫生杂志,对区间有信心
美国心理学会 (APA),隐藏数据
Amgen,让重现性变得容易,结果报告偏差
错误分析简介,寻找显著性
方差分析 (ANOVA),混淆的混杂因素
动物实验,未发布的临床试验
抗抑郁药,未发布的临床试验
ARRIVE 指南,强制披露
文章级别指标,科学出版
确保,置信区间与赋能
自相关,伪重复采样的实际应用
B
向后剔除法,拟合数据与西瓜
《坏制药》,介绍
Baggerly, Keith, 每个人都会犯错
基础率谬误,P 值和基础率谬误,P 值和基础率谬误,快速小测验,医学测试中的基础率谬误,如何通过吸烟统计数据撒谎
和癌症药物,P 值和基础率谬误
和枪支使用,如何通过吸烟统计数据撒谎
和乳腺 X 光检查,快速小测验
和吸烟,医学测试中的基础率谬误
Bayer,实验,冲洗,再次,结果报告偏差
贝叶斯信息准则,拟合数据与西瓜
Bem, Daryl,未发布的临床试验
Benjamini–Hochberg 程序,大脑成像中的误导性因素
偏倚,研究者自由:良好的震动?,一点自由是危险的事,一点自由是危险的事,已知的未知,未发布的临床试验
避免,一点自由是危险的事
结果报告,已知的未知
出版物,未发布的临床试验
无意识,一点自由是危险的
偏倚硬币,统计功效与低效统计
BioMed Central,科学出版
鸟鸣,伪重复:明智选择你的数据,伪重复的实际应用
盲分析,一点自由是危险的
血压,伪重复:明智选择你的数据,均值回归
身体质量指数,不必要的二分法
Bonferroni 修正,如果一开始你没有成功,再试,再试,如果一开始你没有成功,再试,再试
乳腺癌,不必要的二分法
《英国皮肤病学杂志》,意义上的不显著差异
Brownlee, K.A., 如何通过吸烟统计数据说谎
C
癌症,低效带来的危害,小极端,伪重复的解释,P 值与基率谬误,快速小测验,不必要的二分法,每个人都会犯错,让重现性变得简单,未发布的临床试验,能做些什么?
和基率谬误,P 值与基率谬误
食物,与之关联,能做些什么?
和基因表达,伪重复的解释
乳腺癌,快速小测验,不必要的二分法
肾癌,小极端
因果关系与相关性,把数据拟合到西瓜上
鸡块,科学出版
胆固醇,意义上的不显著差异,把数据拟合到西瓜上
循环分析,数据中的双重分析
气候科学,为显著性而窥视
临床试验方案,停止规则,避免偏倚,数据衰退,发现报告偏倚,强制披露
和防止假阳性,停止规则
数据库,强制披露
注册,发现报告偏倚
报告,数据衰退
ClinicalTrials.gov,发现报告偏倚
聚类标准误, 考虑伪重复性
科克伦协作组织, 已知的未知
科恩, 雅各布, 为何如此低的功效?, 小极端
感冒药, p 值的力量, 奈曼-皮尔逊检验
社区研究与学术编程许可证(CRAPL), 让可重复性变得简单
统计结果的综合评估, 统计学教育
置信区间, 奈曼-皮尔逊检验, 对区间有信心, 红灯下的错误转弯, 置信区间与赋能, 小极端, 考虑伪重复性, 如何用吸烟统计数据撒谎, 为了显著性而盯着看, 统计学教育
和新统计, 统计学教育
和精度, 红灯下的错误转弯
和 Reddit 投票, 小极端
强制报告, 对区间有信心
重叠的, 为了显著性而盯着看
过于精确的数字, 如何用吸烟统计数据撒谎
伪重复性,调整, 考虑伪重复性
上界,计算, 置信区间与赋能
混杂变量, 统计学停滞, 混杂的混杂, 模型滥用, 将数据拟合到西瓜模型, 相关性与因果性
和医疗质量, 混杂的混杂
辛普森悖论, 相关性与因果性
CONSORT 清单, 结果报告偏倚, 强制披露, 统计学教育, 你的工作
大陆航空, 辛普森悖论
库姆斯, 凯文, 每个人都会犯错
相关性和因果性, 将数据拟合到西瓜模型
CRAPL(社区研究与学术编程许可证), 让可重复性变得简单
交叉验证, 将数据拟合到西瓜模型
D
统计分析中的决策制定, 研究者自由:好振动?
二分法, 连续性错误, 不必要的二分法, 不必要的二分法
和乳腺癌, 不必要的二分法
和肥胖, 不必要的二分法
显著性差异,显著性判断错误
数字对象标识符(DOI),数据衰退
双重数据分析,数据中的双重分析,循环分析
缓解,循环分析
Dryad 数字库,实验、冲洗、重复,数据衰退,强制披露
杜克大学,每个人都会犯错误
弗兰克·邓宁顿,少许自由是一种危险的事物
E
效应量,p 值的力量,效能曲线,真理膨胀,小极端,统计教育
(另见置信区间)
以及性别比例,真理膨胀
以及新统计学,统计教育
对效能的影响,效能曲线
收缩,小极端
电极,数据中的双重分析
电子电荷,少许自由是一种危险的事物
eLife,科学出版
EMA(欧洲药品管理局),被囚禁的数据
流行病学,对区间有信心
EQUATOR 网络,强制披露
误差条,观察显著性
(另见置信区间)
欧洲监察员,被囚禁的数据
探索性分析,数据中的双重分析
F
假发现率,p 值与基础率谬误,脑成像中的红鲱鱼
控制,脑成像中的红鲱鱼
假阴性率,Neyman-Pearson 检验,抵制基础率谬误
假阳性率,Neyman-Pearson 检验,抵制基础率谬误,抵制基础率谬误,回归到均值,数据拟合到西瓜,少许自由是一种危险的事物
以及多重比较,抵制基础率谬误,少许自由是一种危险的事物
步进回归,影响,数据拟合到西瓜
停止规则,影响,回归到均值
Figshare,实验、冲洗、重复,数据衰退,强制披露
文件抽屉问题,未发布的临床试验(见出版偏倚)
鱼油,将数据拟合到西瓜上
费舍尔,R.A.,内曼-皮尔逊检验
Fixitol 和 Solvix 示例,力量曲线,置信区间与赋能,显著性中的微不足道差异,停止规则
航班延误,辛普森悖论
功能磁共振成像(fMRI),如果一开始没有成功,试试再试,如果一开始没有成功,试试再试,循环分析
以及双重扣除,循环分析
大西洋三文鱼,如果一开始没有成功,试试再试
美国食品药品监督管理局(FDA),未发表的临床试验,识别报告偏差
力量概念清单,统计教育,统计教育
前向选择,将数据拟合到西瓜上
弗朗西斯,格雷戈里,识别报告偏差
G
加布里埃尔比较区间,寻找显著性
伽尔顿,弗朗西斯,回归均值
安德鲁·杰尔曼,一点自由是危险的事情
GenBank,实验、清洗、重复,强制披露
研究生招生中的性别歧视,相关性与因果关系
性别比例,真理膨胀
基因关联研究,真理膨胀,强制披露
基因表达,伪复制的考虑
遗传学,真理膨胀,每个人都会犯错
本·戈尔达克,简介
研究生招生中的性别歧视,相关性与因果关系
格雷厄姆,保罗,前言
枪支管制,如何通过吸烟统计数据撒谎
H
汉隆剃刀,简介
医疗保健质量,混淆的混淆
心脏病发作,为何存在低效能?,将数据拟合到西瓜上
分层模型,伪复制的考虑
希格斯玻色子,基础率谬误,如果一开始没有成功,试试再试
同性恋,显著性中的微不足道差异
霍特林,哈罗德,回归均值
如何通过吸烟统计数据撒谎,医学测试中的基础率谬误
如何通过统计数据撒谎,简介,医学测试中的基础率谬误
达雷尔·哈夫,简介,医学测试中的基准率谬误
假设,奈曼-皮尔逊检验,奈曼-皮尔逊检验
替代方案,奈曼-皮尔逊检验
零假设,奈曼-皮尔逊检验
假设检验,p 值的力量(参见 p 值)
I
影响因子,真相膨胀,科学出版
医疗质量与效率研究所,未发布的临床试验
国际医学期刊编辑委员会,识别报告偏差
约翰·伊奥安尼迪斯,能做些什么?
IPython 笔记本,让可重复性变得简单
智商测试,幂律曲线
J
果冻豆,反对基准率谬误
《异常与社会心理学杂志》,为何统计功效低?
《美国统计学会杂志》,回归均值
《理论生物学杂志》,真相膨胀
K
片山,佐藤,真相膨胀
肾癌,小极端
肾结石,辛普森悖论
L
《柳叶刀》,数据衰退
大型强子对撞机,基准率谬误,如果第一次不成功,再试一次
套索(最小绝对收缩和选择算子),将数据拟合到西瓜上
LATEX,让可重复性变得简单
留一法交叉验证,将数据拟合到西瓜上
查找偏效应,如果第一次不成功,再试一次
M
乳腺 X 光检查,快速小测试
玛莎·麦克林托克,同步伪复制
测量误差,幂律曲线
中位数分割,连续性错误
平庸,回归均值(参见商业中的平庸胜利)
保罗·米尔,简介
脑膜炎,辛普森悖论
月经周期,批量生物学,一点自由是危险的
同步,批量生物学
元分析,显著性中的无关差异,已知的未知,能做些什么?
结果报告偏差,已知的未知
他汀类药物研究,显著性中的无关差异
微阵列,考虑伪复制,每个人都会犯错
中层阶级的忽视,前言
迈特,马特,让可重复性变得容易
缺失数据, 研究者自由:良好的振动?,结果报告偏倚
错误,每个人都会犯错
多重比较,拿起武器对抗基数谬误,如果一开始你没有成功,再试一次,大脑成像中的红鲱鱼,循环分析,停止规则,将数据拟合到西瓜上
循环分析,循环分析
和假发现率,大脑成像中的红鲱鱼
和停止规则,停止规则
在逐步回归中,将数据拟合到西瓜上
大西洋鲑鱼 fMRI,如果一开始你没有成功,再试一次
N
国家癌症研究所,不可复制的遗传学
《自然》,信赖区间中的信心,低效的危险,真相膨胀,每个人都会犯错,统计学教育,科学出版
NCVS(全国犯罪受害者调查),如何用吸烟统计数据撒谎
负二项分布,p 值的力量
《新英格兰医学杂志》,导言,可以做些什么?
新统计学,统计学教育
内曼,杰尔齐,内曼-皮尔逊检验
内曼-皮尔逊框架,内曼-皮尔逊检验
No. 7 保护与完美美容精华,统计学中的微不足道差异
北欧科克兰中心,囚禁数据
零假设,内曼-皮尔逊检验
O
肥胖,连续性错误
欧米伽-3 脂肪酸,将数据拟合到西瓜上
肿瘤学本体论项目,可以做些什么?
开放数据,隐藏数据
OpenIntro 统计学,统计学教育
结果报告偏倚,已知的未知,未发布的临床试验
检验,未发布的临床试验
过拟合,将数据拟合到西瓜上
过度精确的数字,如何用吸烟统计数据撒谎
排卵,一点自由是危险的
(参见月经周期)
P
p 值,P 值的力量,P 值的力量,内曼-皮尔逊检验,对区间要有信心,假重复制:明智地选择你的数据,P 值和基准率谬误,基准率谬误,抵制基准率谬误,如果一开始没有成功,就再试一次,显著性的坏判断者,循环分析,停止规则,连续性错误,每个人都会犯错,隐瞒数据
和基准率谬误,P 值和基准率谬误
和显著性差异,显著性的坏判断者
和心理统计,P 值的力量
本费罗尼校正,计算时使用,如果一开始没有成功,就再试一次
二分法,影响,连续性错误
双重沾染,影响,循环分析
计算错误,每个人都会犯错,隐瞒数据
多重比较,抵制基准率谬误(见多重比较)
过度使用,对区间要有信心
假重复制,影响,假重复制:明智地选择你的数据
测验,基准率谬误
停止规则,影响,停止规则
与置信区间相比,内曼-皮尔逊检验
PDB,实验,清洗,重复,强制披露
皮尔逊,埃贡,内曼-皮尔逊检验
同侪教学,统计教育
企鹅,循环分析
青霉素,辛普森悖论
经皮肾镜碎石术,辛普森悖论
周期,一点自由是危险的(见月经周期)
辉瑞,未发表的临床试验
物理教育,统计教育
PLOS ONE,数据衰退,强制披露,科学出版
波提,阿尼尔,不可重复的遗传学
检验力,统计检验力与检验力不足,功效曲线,功效曲线,如果一开始没有成功,就再试一次,显著性差异中的不显著,不必要的二分法
和显著性差异, 显著性差异的无关性
本费罗尼校正,影响, 如果一开始你没有成功,再试一次
二分化,影响, 不必要的二分化
功率曲线, 功率曲线
样本量不足的研究, 功率曲线
实际意义, p 值的力量, 信任区间
主成分分析, 批次生物学
协议, 避免偏倚(参见临床试验协议)
伪重复, 伪重复:明智选择数据, 伪重复行动, 考虑伪重复, 批次生物学
和鸟鸣, 伪重复行动
月经周期同步, 批次生物学
和微阵列处理, 考虑伪重复
超感官 p 值, p 值的力量
超感官能力, 未发布的临床试验, 可以做些什么?
心理学科学, 统计教育
发表偏倚, 未发布的临床试验, 未发布的临床试验, 未发布的临床试验, 识别报告偏倚
和抗抑郁药, 未发布的临床试验
和超感官能力, 未发布的临床试验
避免, 识别报告偏倚
Python 编程语言, 使可重复性变得容易
R
R 编程语言, 使可重复性变得容易
随机分配, 伪重复:明智选择数据, 伪重复行动, 辛普森悖论
随机对照试验, 伪重复:明智选择数据
瑞博西汀, 未发布的临床试验
Reddit 投票, 极端小现象
注册研究, 停止规则, 识别报告偏倚
回归建模, 连续性错误, 模型滥用, 模型滥用, 模型滥用, 将数据拟合到西瓜上, 将数据拟合到西瓜上, 将数据拟合到西瓜上
和心脏病发作, 将数据拟合到西瓜上
逐步回归, 将数据拟合到西瓜上
和考试分数, 模型滥用
和西瓜成熟度, 模型滥用
公平评估, 将数据拟合到西瓜
向均值回归, 向均值回归
重复测量, 考虑伪重复
复制研究, 显著性中的微不足道差异, 避免偏差, 让可重复性变得简单
报告指南, 结果报告偏倚, 统计教育
可重复性项目, 让可重复性变得简单
可重复研究, 无法重复的遗传学
研究人员自由, 研究人员自由:良好的振动?
红灯右转, 为何权力不足?
罗思曼, 肯尼斯, 相信置信区间
S
S 期分数, 不必要的二分法
三文鱼, 如果一开始不成功,再试试, 循环分析
样本大小, p 值的力量, 力量曲线, 置信区间与赋能, 置信区间与赋能, 真相膨胀, 伪重复:明智选择你的数据
和置信区间, 置信区间与赋能
和高方差, 真相膨胀
和伪重复, 伪重复:明智选择你的数据
和真相膨胀, 置信区间与赋能
对权力的影响, 力量曲线
谢克曼, 兰迪, 科学出版
斯科恩费尔德, 乔纳森, 能做什么?
科学, 低效能的危险, 真相膨胀, 数据衰退, 科学出版
塞克里斯特, 霍勒斯, 向均值回归
序贯分析, 停止规则
收缩, 小极端
显著性测试, 相关性与因果性, 相关性与因果性, 辛普森悖论, 辛普森悖论, 辛普森悖论(参见 p 值辛普森悖论)
和航班延误, 辛普森悖论
和性别歧视, 相关性与因果性
和肾结石, 辛普森悖论
和脑膜炎, 辛普森悖论
吸烟与健康, 医学测试中的基准率谬误
软件, 统计, 让可重复性变得简单
Solvix 和 Fixitol 示例,效能曲线,置信区间与授权,显著性中的无关差异,停止规则
光速,一点自由就足以危险
血压计,伪重采样:明智选择你的数据
自发性人类自燃,对区间有信心
标准差,寻找显著性
标准误差,寻找显著性
他汀类药物,显著性中的无关差异
统计教育,简介,能做些什么?,统计教育,统计教育
课外,统计教育
同侪教学,统计教育
统计效能,统计效能与低效统计(见效能)
行为科学的统计功效分析,极小的极值
统计软件,让可重复性变得简单
统计学显著,p 值的力量(见 p 值)
步进回归,拟合数据到西瓜
斯蒂格勒命名法则,相关性与因果关系
停止规则,回归到均值,停止规则,结果报告偏倚
在真实膨胀中,停止规则
未报告,结果报告偏倚
STREGA 指南,强制披露
STROBE 指南,强制披露
卫生总署,医学测试中的基准率谬误
Sweave,让可重复性变得简单
T
测试分数,真实膨胀,回归到均值
商业中的平庸胜利,回归到均值
布鲁斯·汤普森,p 值的力量
TP53 抑制蛋白,未发布的临床试验
交通安全,为何弱势的力量?
临床试验,强制披露
三酰甘油,拟合数据到西瓜
三重盲法,避免偏倚
特里弗斯-威拉德假说,真实膨胀
真实膨胀,置信区间与授权,显著性中的无关差异,数据中的双重计算,循环分析,停止规则,拟合数据到西瓜
以及双重插手,循环分析
在模型选择中,将数据拟合到西瓜
在重复研究中,无关差异的显著性
停止规则,停止规则
转向信号,同步伪重复
M 型错误,置信区间与赋能(见真实性膨胀)
U
无意识偏见,一点自由是一件危险的事
样本量不足的研究,效能曲线
联合航空公司,辛普森悖论
美国预防服务工作组,快速测验
加利福尼亚大学伯克利分校,相关性与因果关系
V
视觉皮层,数据中的双重插手
冯·毛尔特克,赫尔穆特,避免偏差
体素,如果一开始不成功,就再试一次
W
海象,循环分析
西瓜成熟度,模型滥用
减肥药物,受控数据
威切尔茨,耶尔特,隐藏数据
胜者的诅咒,置信区间与赋能(见真实性膨胀)
皱纹霜,无关差异的显著性
Y
游艇,混淆的混淆
黄腹啄木鸟,行动中的伪重复


浙公网安备 33010602011771号