斯坦福-Stats60-21-世纪的统计思维-全-

斯坦福 Stats60：21 世纪的统计思维（全）

原文：statsthinking21.github.io/statsthinking21-core-site/

译者：飞龙

协议：CC BY-NC-SA 4.0

前言

原文：statsthinking21.github.io/statsthinking21-core-site/index.html

译者：飞龙

协议：CC BY-NC-SA 4.0

这本书的目标是讲述统计学的故事，以及它如何被全球的研究人员所使用。这是一个与大多数统计学入门书籍中讲述的故事不同的故事，后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解统计思维的基本理念——这是一种系统化的思考方式，用于描述我们如何描述世界并使用数据做出决策和预测，所有这些都是在现实世界中存在的固有不确定性的背景下。它还运用了目前仅在过去几十年中由于计算能力的惊人增长而变得可行的方法。在 20 世纪 50 年代可能需要数年才能完成的分析现在可以在标准笔记本电脑上几秒钟内完成，这种能力释放了使用计算机模拟以新的、强大的方式提出问题的能力。

这本书也是在自 2010 年以来席卷许多科学领域的可重复性危机之后编写的。这场危机的重要根源之一在于统计假设检验被研究人员（正如我在本书的最后一章中详细介绍的那样）所使用（和滥用），这直接关系到统计教育。因此，这本书的目标是强调当前统计方法可能存在问题的方式，并提出替代方案。

0.1 为什么这本书存在？

2018 年，我开始在斯坦福大学教授本科统计课程（Psych 10/Stats 60）。我以前从未教过统计学，这是一个改变现状的机会。我对心理学本科统计教育越来越不满意，我希望为课堂带来许多新的想法和方法。特别是，我希望运用在 21 世纪真实统计实践中越来越多的方法。正如 Brad Efron 和 Trevor Hastie 在他们的书《计算时代的统计推断：算法、证据和数据科学》中所描述的那样，这些方法利用了今天增加的计算能力，以超越通常在心理学学生本科统计课程中教授的更标准的方法来解决统计问题。

我第一年教这门课时，我使用了 Andy Field 的惊人的图像小说统计书《统计学冒险》，作为教科书。这本书有很多我真的很喜欢的东西——特别是，我喜欢它围绕模型构建统计实践的方式，并对零假设检验持有足够的谨慎态度。不幸的是，许多学生不喜欢这本书（除了英语专业的学生，他们喜欢它！），主要是因为它涉及大量故事来获取统计知识。我也觉得它有所欠缺，因为有一些主题（特别是来自人工智能新兴领域的机器学习）我想要包括，但在他的书中没有讨论。我最终认为学生最好通过一本非常贴近我的讲座的书来服务，所以我开始把我的讲座写成一套计算笔记，最终成为这本书。这本书的大纲大致遵循 Field 的书的大纲，因为讲座最初在很大程度上是基于那本书的流程，但内容大不相同（几乎肯定没有那么有趣和聪明）。我还为斯坦福使用的 10 周季度制度量身定制了这本书，这比大多数统计教科书所建立的 16 周学期制度提供了更少的时间。

0.2 数据的黄金时代

在本书中，我尽可能使用真实数据的例子。这现在非常容易，因为我们有大量开放数据集，政府、科学家和公司越来越多地提供数据。我认为使用真实数据很重要，因为它能让学生准备好处理真实数据，而不是玩具数据集，我认为这应该是统计培训的主要目标之一。它还帮助我们意识到(正如我们将在本书的各个部分看到的)，数据并不总是准备好分析，通常需要整理来帮助它们变得完善。使用真实数据还表明，统计方法中经常假设的理想化统计分布并不总是适用于现实世界——例如，正如我们将在第 3 章中看到的，一些真实世界数量的分布(如 Facebook 上的朋友数量)可能有非常长的尾巴，这可能会打破许多标准假设。

我提前道歉，数据集主要集中在美国。这主要是因为许多演示所使用的最佳数据集是国家健康和营养调查(NHANES)数据集，该数据集可作为 R 包使用，而且 R 中包含的许多其他复杂数据集(如fivethirtyeight包中的数据集)也是基于美国的。如果您有其他地区的数据集建议，请向我提出！

0.3 做统计的重要性

真正学习统计学的唯一方法就是做统计。尽管历史上许多统计课程都是使用点对点的统计软件进行教学，但现在越来越普遍的是统计教育使用开源语言，学生可以编写自己的分析。我认为能够编写自己的分析是必不可少的，以便深刻理解统计分析，这也是为什么我在斯坦福大学的课程中期望学生学会使用 R 统计编程语言来分析数据，同时也学习本书中的理论知识。

本教科书有两个在线伴侣，可以帮助读者开始学习编程；一个专注于 R 编程语言，另一个专注于 Python 语言。两者目前都是正在进行中的工作——请随时贡献！

0.4 一本开源书

这本书是一本活的文档，因此其源代码可以在github.com/statsthinking21/statsthinking21-core上找到。如果您在书中发现任何错误或想提出改进意见，请在 Github 网站上提出问题。更好的是，提交一个拉取请求，提出您的建议更改。

本书根据知识共享署名-非商业性 4.0 国际许可协议(CC BY-NC 4.0)许可。请查看该许可协议的条款以获取更多详细信息。

0.5 致谢

我首先要感谢 Susan Holmes，她首先激发了我考虑写自己的统计书。Anna Khazenzon 提供了早期的评论和灵感。Lucy King 对整本书提供了详细的评论和编辑，并帮助清理了代码，使其与 Tidyverse 一致。Michael Henry Tessler 对贝叶斯分析章节提供了非常有帮助的评论。特别感谢 Yihui Xie，Bookdown 软件包的创建者，他改进了书中对 Bookdown 功能的使用(包括用户可以通过编辑按钮直接生成编辑)。最后，Jeanette Mumford 对整本书提供了非常有帮助的建议。

我还要感谢其他提供有用评论和建议的人：Athanassios Protopapas，Wesley Tansey，Jack Van Horn，Thor Aspelund。

感谢以下 Twitter 用户提供有用建议：@enoriverbend

感谢以下个人通过 Github 或电子邮件提供编辑或问题：Isis Anderson，Larissa Bersh，Isil Bilgin，Forrest Dollins，Chuanji Gao，Nate Guimond，Alan He，吴建晓，James Kent，Dan Kessler，Philipp Kuhnke，Leila Madeleine，Lee Matos，Ryan McCormick，Jarod Meng，Kirsten Mettler，Shanaathanan Modchalingam，Martijn Stegeman，Mehdi Rahim，Jassary Rico-Herrera，Mingquian Tan，Wenjin Tao，Laura Tobar，Albane Valenzuela，Alexander Wang，Michael Waskom，barbyh，basicv8vc，brettelizabeth，codetrainee，dzonimn，epetsen，carlosivanr，hktang，jiamingkong，khtan，kiyofumi-kan，NevenaK，ttaweel。

特别感谢 Isil Bilgin 在解决许多问题方面的帮助。

第一章：引言

原文：statsthinking21.github.io/statsthinking21-core-site/introduction.html

译者：飞龙

协议：CC BY-NC-SA 4.0

“统计思维将有一天像阅读和写作能力一样，对有效的公民身份来说是必不可少的。”- H.G.威尔斯

1.1 什么是统计思维？

统计思维是一种通过相对简单的方式描述复杂世界的方式，这种方式能够捕捉其结构或功能的基本方面，并且也能够让我们对这些知识的不确定性有一些了解。统计思维的基础主要来自数学和统计学，但也来自计算机科学、心理学和其他研究领域。

我们可以区分统计思维与其他不太可能准确描述世界的思维形式。特别是，人类直觉经常试图回答我们可以用统计思维回答的相同问题，但通常得到错误的答案。例如，近年来，大多数美国人报告说他们认为暴力犯罪比前一年更糟（皮尤研究中心）。然而，对实际犯罪数据的统计分析显示，事实上自 1990 年代以来，暴力犯罪一直在稳步下降。直觉会让我们失望，因为我们依赖于最佳猜测（心理学家称之为启发式），这往往会出错。例如，人类经常使用可得性启发式来判断某些事件（如暴力犯罪）的普遍性——也就是说，我们能多容易地想到一个暴力犯罪的例子。因此，我们对犯罪率增加的判断可能更多地反映了新闻报道的增加，而不是实际犯罪率的下降。统计思维为我们提供了更准确地理解世界的工具，并克服了人类判断的偏见。

1.2 处理统计焦虑

许多人第一次上统计课时会感到很紧张和焦虑，尤其是一旦他们听说他们还必须学习编程才能分析数据。在我的课堂上，我在第一节课之前给学生们做一项调查，以衡量他们对统计学的态度，要求他们对一些陈述进行评分，分数从 1（非常不同意）到 7（非常同意）。调查中的一项是“想到要上统计课让我感到紧张”。在最近的一堂课上，几乎有三分之二的学生回答为五分或更高，大约四分之一的学生表示他们非常同意这个说法。所以如果你对开始学习统计感到紧张，你并不孤单。

焦虑感觉不舒服，但心理学告诉我们，这种情绪激动实际上可以帮助我们在许多任务上表现更好，因为它能够集中我们的注意力。所以如果你开始对这本书中的材料感到焦虑，提醒自己许多其他读者也有类似的感受，这种情绪激动实际上可能会帮助你更好地学习材料（即使看起来并不是这样！）。

1.3 统计学对我们有什么作用？

我们可以用统计学做三件重要的事情：

描述：世界是复杂的，我们经常需要以我们能理解的简化方式来描述它。
决定：我们经常需要根据数据做出决策，通常是在面对不确定性的情况下。
预测：我们经常希望根据我们对先前情况的了解，对新情况进行预测。

让我们看一个这些行动的例子，重点是一个我们许多人都感兴趣的问题：我们如何决定什么是健康的饮食？有许多不同的指导来源；政府膳食指南、饮食书籍和博客，仅举几例。让我们专注于一个具体的问题：我们饮食中的饱和脂肪是一件坏事吗？

我们可能回答这个问题的一种方式是常识。如果我们吃脂肪，那么它会直接在我们的身体里变成脂肪，对吧？我们都看过充满脂肪的动脉的照片，所以吃脂肪会堵塞我们的动脉，对吧？

我们可能回答这个问题的另一种方式是听从权威人士的意见。美国食品和药物管理局的膳食指南中有一个关键建议是“健康饮食模式限制饱和脂肪”。你可能希望这些指南是基于良好的科学，有时候确实是，但正如 Nina Teicholz 在她的书《大脂肪惊喜》（Teicholz 2014）中所概述的，这个特定的建议似乎更多地基于营养研究人员长期以来的教条，而不是实际证据。

最后，我们可能会看一下实际的科学研究。让我们首先看一下一个名为 PURE 研究的大型研究，该研究调查了来自 18 个不同国家的 135,000 多人的饮食和健康结果（包括死亡）。在这个数据集的分析中（2017 年发表在《柳叶刀》上；Dehghan 等人（2017）），PURE 研究人员报告了摄入各种类的大量营养素（包括饱和脂肪和碳水化合物）与人们在随访期间死亡的可能性之间的关系。人们被随访了中位数7.4 年，这意味着研究中有一半的人随访时间少于 7.4 年，另一半人随访时间超过 7.4 年。图 1.1 绘制了从研究中提取的一些数据（从论文中提取），显示了摄入饱和脂肪和碳水化合物与任何原因死亡风险之间的关系。

图 1.1：PURE 研究的数据图，显示饱和脂肪和碳水化合物的相对摄入量与任何原因死亡之间的关系。

这个图是基于十个数字。为了获得这些数字，研究人员将 135,335 名研究参与者（我们称之为“样本”）按其摄入任一营养素的顺序分成 5 组（“五分位数”）；第一分位数包含摄入最低的 20%的人，第五分位数包含摄入最高的 20%的人。然后研究人员计算了在随访期间每个组的人死亡的频率。图表达了这一点，以相对风险的形式，与最低分位数相比死亡的频率：如果这个数字大于一，意味着该组的人比最低分位数的人更有可能死亡，而如果小于一，意味着该组的人比最低分位数的人更不可能死亡。图表明得很清楚：摄入更多饱和脂肪的人在研究期间死亡的可能性更低，最低死亡率出现在摄入脂肪低于最低 60%但低于最高 20%的人中。而碳水化合物则相反；一个人摄入的碳水化合物越多，在研究期间死亡的可能性就越大。这个例子展示了我们如何使用统计学来用一组更简单的数字描述一个复杂的数据集；如果我们必须同时查看每个研究参与者的数据，我们将被数据淹没，很难看到当它们更简单地描述时所呈现的模式。

图 1.1 中的数字似乎显示饱和脂肪摄入量减少，碳水化合物摄入量增加，但我们也知道数据中存在很多不确定性；有些人尽管摄入低碳水化合物饮食，却早逝，同样地，有些人摄入大量碳水化合物，却活到了老年。鉴于这种变异性，我们希望决定我们在数据中看到的关系是否足够大，以至于我们不会期望它们在没有饮食和寿命之间真正关系的情况下随机发生。统计学为我们提供了做出这类决定的工具，而且外界通常认为这是统计学的主要目的。但正如我们将在整本书中看到的那样，基于模糊证据做出黑白决定的需求经常导致研究人员误入歧途。

基于数据，我们还希望对未来的结果进行预测。例如，一家人寿保险公司可能希望利用有关某个人脂肪和碳水化合物摄入的数据来预测他们可能活多久。预测的一个重要方面是，它要求我们从我们已有的数据中推广到其他情况，通常是未来的情况；如果我们的结论仅限于研究中特定时间的特定人群，那么这项研究就不会太有用。一般来说，研究人员必须假设他们的特定样本代表了更大的总体，这要求他们以一种能够提供总体无偏照片的方式获得样本。例如，如果 PURE 研究从实行素食主义的宗教教派中招募了所有参与者，那么我们可能不希望将结果推广到遵循不同饮食标准的人群。

1.4 统计学的重要思想

统计学的一些非常基本的想法贯穿了几乎所有统计思维的方面。斯蒂格勒（2016）在他出色的著作《统计智慧的七大支柱》中概述了其中的一些，我在这里进行了补充。

1.4.1 从数据中学习

把统计学看作一套工具，使我们能够从数据中学习。在任何情况下，我们都从一组关于可能情况的想法或假设开始。在 PURE 研究中，研究人员可能最初期望摄入更多脂肪会导致更高的死亡率，考虑到关于饱和脂肪的普遍负面教条。在课程的后期，我们将介绍先验知识的概念，这意味着我们所带入情况的知识。这种先验知识的强度可能会有所不同，通常取决于我们的经验量；如果我第一次去一家餐馆，我可能对它的好坏没有太强的期望，但如果我去了一家我之前吃过十次的餐馆，我的期望会强得多。同样，如果我看到一个餐馆评论网站，发现一个餐馆的平均评分是四星，但只基于三条评论，那么我的期望会比基于 300 条评论的情况要弱。

统计学为我们提供了一种描述新数据如何最好地用于更新我们的信念的方法，从而统计学与心理学之间存在着深刻的联系。事实上，心理学中关于人类和动物学习的许多理论与新兴领域机器学习的思想密切相关。机器学习是统计学和计算机科学交叉的领域，专注于如何构建可以从经验中学习的计算机算法。虽然统计学和机器学习经常试图解决相同的问题，但这些领域的研究人员通常采取非常不同的方法；著名的统计学家 Leo Breiman 曾经将它们称为“两种文化”，以反映他们的方法有多么不同(Breiman 2001)。在本书中，我将尝试将这两种文化融合在一起，因为这两种方法都为思考数据提供了有用的工具。

1.4.2 聚合

将统计学视为“丢弃数据的科学”是另一种思考统计学的方式。在上面的 PURE 研究示例中，我们将超过 10 万个数字压缩成了十个。这种聚合是统计学中最重要的概念之一。当它首次提出时，这是一场革命：如果我们丢弃了每个参与者的所有细节，那么我们怎么能确定我们没有错过重要的东西？

正如我们将看到的，统计学为我们提供了表征数据聚合结构的方法，具有理论基础，解释了为什么这通常效果很好。然而，重要的是要记住，聚合可能会走得太远，稍后我们将遇到一些情况，其中摘要可能会对被总结的数据提供一个非常误导性的图片。

1.4.3 不确定性

世界是一个不确定的地方。我们现在知道吸烟会导致肺癌，但这种因果关系是概率性的：一个吸烟了 50 年，每天吸两包烟并继续吸烟的 68 岁男子患肺癌的风险为 15%（7 个人中有 1 个），远高于不吸烟者患肺癌的几率。然而，这也意味着会有很多人一辈子都吸烟却从未患肺癌。统计学为我们提供了描述不确定性的工具，以便在不确定性下做出决策，并对我们可以量化的预测进行预测。

人们经常看到记者写道，科学研究人员已经“证明”了某个假设。但统计分析永远不能“证明”一个假设，不能像在逻辑或数学证明中那样证明它必须是真的。统计学可以为我们提供证据，但它总是暂时的，并受到现实世界中始终存在的不确定性的影响。

1.4.4 从人口中抽样

聚合的概念意味着我们可以通过对数据进行汇总来得出有用的见解-但我们需要多少数据？抽样的概念表明，只要以正确的方式获得了样本，我们就可以根据人口的少量样本总结整个人口。例如，PURE 研究招募了大约 13.5 万人的样本，但其目标是为构成这些人口的数十亿人提供见解。正如我们在上面已经讨论过的那样，研究样本的获取方式至关重要，因为它决定了我们能够推广结果的广度。关于抽样的另一个基本见解是，虽然较大的样本总是更好的（就其准确代表整个人口的能力而言），但随着样本的增大，收益会递减。事实上，随着样本量的增加，更大样本的收益减少的速度遵循一个简单的数学规律，增长为样本量的平方根，这样，为了使我们的估计精度加倍，我们需要使样本的大小增加四倍。

1.5 因果关系和统计学

PURE 研究似乎提供了关于饱和脂肪摄入与长寿之间积极关系的相当强有力的证据，但这并不能告诉我们我们真正想知道的：如果我们摄入更多饱和脂肪，那会让我们活得更久吗？这是因为我们不知道摄入饱和脂肪和长寿之间是否存在直接因果关系。数据与这种关系一致，但它们同样也与其他因素导致了更高的饱和脂肪和更长的寿命。例如，人们可能会想象富人吃更多饱和脂肪，富人更长寿，但他们更长的寿命不一定是由于脂肪摄入 - 它可能是由于更好的医疗保健，减少的心理压力，更好的食品质量或许多其他因素。PURE 研究的调查人员试图考虑这些因素，但我们不能确定他们的努力是否完全消除了其他变量的影响。其他因素可能解释了饱和脂肪摄入与死亡之间的关系，这就是为什么入门统计课程经常教导“相关不意味着因果关系”，尽管著名的数据可视化专家爱德华·图夫特补充说：“但这确实是一个暗示。”

尽管观察研究（如 PURE 研究）不能最终证明因果关系，我们通常认为可以使用实验控制和操纵特定因素的研究来证明因果关系。在医学上，这样的研究被称为随机对照试验（RCT）。假设我们想进行一项 RCT 来研究增加饱和脂肪摄入是否会延长寿命。为此，我们将对一组人进行抽样，然后将他们分配到治疗组（被告知增加饱和脂肪摄入）或对照组（被告知保持与以前相同的饮食）。我们必须将这些个体随机分配到这些组中。否则，选择治疗的人可能在某种程度上与选择对照组的人不同 - 例如，他们可能更有可能参与其他健康行为。然后，我们将随着时间跟踪参与者，并观察每组有多少人死亡。因为我们将参与者随机分配到治疗或对照组，我们可以相当有信心地认为两组之间没有其他差异会混淆治疗效果；然而，我们仍然不能确定，因为有时随机化会产生在某些重要方面确实有所不同的治疗与对照组。研究人员通常尝试使用统计分析来解决这些混淆，但从数据中消除混淆的影响可能非常困难。

许多 RCT 已经研究了改变饱和脂肪摄入是否会导致更健康和更长寿的问题。这些试验主要关注减少饱和脂肪，因为营养研究人员中存在着饱和脂肪是致命的强烈教条；大多数这些研究人员可能会认为导致人们摄入更多饱和脂肪是不道德的！然而，这些 RCT 已经显示了非常一致的模式：总体上减少饱和脂肪摄入对死亡率没有明显影响。

1.6 学习目标

阅读完本章后，您应该能够：

描述统计学的中心目标和基本概念
描述实验和观察研究在因果推断方面的区别
解释随机化如何提供了对因果推断的能力。

1.7 建议阅读

*《统计智慧的七大支柱》作者：斯蒂格勒
*《品茶的女士：统计学如何在二十世纪改变了科学》作者：大卫·萨尔斯伯格
*《裸统计：剥去数据的恐惧》作者：查尔斯·威兰

参考资料

Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures (with Comments and a Rejoinder by the Author).” Statist. Sci. 16 (3): 199–231. https://doi.org/10.1214/ss/1009213726.
Dehghan, Mahshid, Andrew Mente, Xiaohe Zhang, Sumathi Swaminathan, Wei Li, Viswanathan Mohan, Romaina Iqbal, et al. 2017. “Associations of Fats and Carbohydrate Intake with Cardiovascular Disease and Mortality in 18 Countries from Five Continents (PURE): A Prospective Cohort Study.” Lancet 390 (10107): 2050–62. https://doi.org/10.1016/S0140-6736(17)32252-3.
Stigler, Stephen M. 2016. The Seven Pillars of Statistical Wisdom. Harvard University Press.
Teicholz, Nina. 2014. The Big Fat Surprise. Simon & Schuster.

第二章：数据处理

原文：statsthinking21.github.io/statsthinking21-core-site/working-with-data.html

译者：飞龙

协议：CC BY-NC-SA 4.0

2.1 什么是数据？

关于数据的第一个重要观点是数据是复数形式的（尽管有些人不同意我的观点）。你可能还想知道如何发音“数据”-我说“day-tah”，但我知道很多人说“dah-tah”，尽管如此，我还是能和他们保持朋友关系。现在，如果我听到他们说“数据是”，那就是一个更大的问题...

2.1.1 定性数据

数据由变量组成，其中变量反映了独特的测量或数量。一些变量是定性的，意思是它们描述的是质量而不是数值数量。例如，在我的统计课上，我通常进行入门调查，既是为了获取课堂上使用的数据，也是为了更多地了解学生。我问的一个问题是“你最喜欢的食物是什么？”，其中一些答案是：蓝莓、巧克力、玉米卷、意大利面、比萨和芒果。这些数据本质上不是数字；我们可以给每个数据分配一个数字（1=蓝莓，2=巧克力等），但我们只是把数字当作标签而不是真正的数字。这也限制了我们对这些数字应该做什么；例如，计算这些数字的平均值是没有意义的。然而，我们经常使用数字对定性数据进行编码，以便更容易处理，你以后会看到。

2.1.2 定量数据

在统计学中，我们更常见地使用定量数据，意思是数据是数字的。例如，这里的表 2.1 显示了我在入门课上问的另一个问题的结果，即“你为什么选修这门课？”

表 2.1：对“你为什么选修这门课？”这个问题的不同回答的普遍性的计数

你为什么选修这门课？	学生人数
它满足学位计划的要求	105
它满足通识教育广度要求	32
不是必须的，但我对这个主题感兴趣	11
其他	4

注意学生的答案是定性的，但我们通过计算每个学生给出的回答数量，生成了一个定量的总结。

2.1.2.1 数字的类型

在统计学中，我们使用几种不同类型的数字。了解这些差异很重要，部分原因是因为统计分析语言（如 R）通常区分它们。

二进制数。最简单的是二进制数-即零或一。我们经常使用二进制数来表示某事物是真或假，或者存在或不存在。例如，我可能问 10 个人他们是否曾经经历过偏头痛，记录他们的答案为“是”或“否”。通常，我们会使用逻辑值，它们的值要么是TRUE，要么是FALSE。当我们开始使用像 R 这样的编程语言来分析我们的数据时，这将特别有用，因为这些语言已经理解了 TRUE 和 FALSE 的概念。事实上，大多数编程语言都等价地处理真值和二进制数。数字 1 等于逻辑值TRUE，数字零等于逻辑值FALSE。

整数。整数是没有分数或小数部分的整数。我们最常遇到整数的情况是计数，但它们也经常出现在心理测量中。例如，在我的入门调查中，我提出了一系列关于对统计学态度的问题（比如“统计学对我来说非常神秘。”），学生们用 1 到 7 之间的数字来回答。

实数。在统计学中，我们通常使用实数，它们具有分数/小数部分。例如，我们可能测量某人的体重，可以用任意精度来测量，从千克到微克。

离散与连续测量

离散测量是指取有限一组特定数值中的一个的测量。这些可以是定性数值（例如，不同品种的狗）或数值数值（例如，一个人在 Facebook 上有多少朋友）。重要的是，测量之间没有中间地带；说一个人有 33.7 个朋友是没有意义的。

连续测量是指以实数定义的测量。它可以落在特定数值范围内的任何位置，尽管通常我们的测量工具会限制我们测量的精度；例如，地板秤可能会将重量测量到最接近的公斤，即使理论上重量可以用更高的精度来测量。

在统计学课程中，通常会更详细地讨论不同的测量“尺度”，这在本章附录中有更详细的讨论。从中最重要的收获是，某些类型的数据上某些类型的统计学是没有意义的。例如，想象一下，我们要从许多人那里收集邮政编码数据。这些数字表示为整数，但它们实际上并不是指数标度；每个邮政编码基本上是不同地区的标签。因此，谈论平均邮政编码是没有意义的。

什么构成一个好的测量？

在许多领域，如心理学，我们测量的东西不是一个物理特征，而是一个不可观察的理论概念，我们通常称之为“构念”。例如，假设我想测试你对上述不同类型数字的区别理解得有多好。我可以给你一张小测验，问你几个关于这些概念的问题，并计算你答对了多少。这个测试可能或可能不是对你实际知识构念的一个好的测量 - 例如，如果我把测试写得很混乱或使用你不理解的语言，那么测试可能会表明你不理解这些概念，而实际上你是理解的。另一方面，如果我给出一个非常明显的错误答案的选择题测试，那么即使你实际上不理解材料，你可能也能在测试中表现良好。

通常不可能在没有一定程度的误差的情况下测量一个构念。在上面的例子中，你可能知道答案，但你可能误读问题并回答错误。在其他情况下，被测量的事物本身就存在误差，比如我们测量一个人在简单反应时间测试中的反应时间，这会因为很多原因在每次试验中有所不同。我们通常希望我们的测量误差尽可能低，这可以通过改善测量的质量（例如，使用更好的时间来测量反应时间），或者通过对更多个体测量进行平均来实现。

有时有一个标准，其他测量可以根据这个标准进行测试，我们可能称之为“黄金标准” - 例如，可以使用许多不同的设备来测量睡眠（如测量床上的运动的设备），但它们通常被认为是次要的，与多导睡眠图（使用脑电波测量来量化一个人在每个睡眠阶段中花费的时间）相比。通常黄金标准更难或更昂贵，但更便宜的方法被使用，即使它可能有更大的误差。

当我们考虑什么构成一个好的测量时，我们通常区分一个好的测量的两个不同方面：它应该是可靠的，它应该是有效的。

2.3.1 可靠性

可靠性指的是我们测量的一致性。一种常见的可靠性形式，称为“测试-重测可靠性”，衡量了如果同样的测量被执行两次，这些测量有多么一致。例如，我今天可能会给你一份关于你对统计学态度的问卷调查，明天重复这个问卷调查，然后比较你两天的答案；我们希望它们彼此非常相似，除非在两次测试之间发生了应该改变你对统计学看法的事情（比如读了这本书！）。

另一种评估可靠性的方法是在数据包含主观判断的情况下。例如，假设一个研究人员想要确定一种治疗是否改变了自闭症儿童与其他儿童互动的能力，这是通过让专家观察孩子并评价他们与其他孩子的互动来衡量的。在这种情况下，我们希望确保答案不依赖于个体评分者 — 也就是说，我们希望有很高的评分者间可靠性。这可以通过让多个评分者进行评分，然后比较他们的评分来确保他们之间的一致性。

如果我们想要将一个测量与另一个测量进行比较，可靠性就很重要，因为两个不同变量之间的关系不能比任何一个变量与自身的关系更强（即，它的可靠性）。这意味着一个不可靠的测量永远不可能与任何其他测量有很强的统计关系。因此，研究人员开发新的测量（比如新的调查）通常会不遗余力地建立和改进其可靠性。

图 2.1：一幅图表演示了可靠性和有效性之间的区别，使用了对靶心的射击。可靠性指的是射击位置的一致性，有效性指的是射击与靶心的准确性。

2.3.2 有效性

可靠性很重要，但单靠可靠性还不够：毕竟，我可以通过重新编码每个答案为相同的数字来在人格测试中创建一个完全可靠的测量，而不管这个人实际上是如何回答的。我们希望我们的测量也是有效的 — 也就是说，我们希望确保我们实际上正在测量我们认为正在测量的构建物（图 2.1）。通常讨论的有效性类型有很多种；我们将重点关注其中的三种。

面向有效性。测量在表面上是否合理？如果我告诉你我要通过观察舌头的颜色来测量一个人的血压，你可能会认为这在表面上不是一个有效的测量。另一方面，使用血压袖带就具有面向有效性。这通常是在我们深入讨论有效性的更复杂方面之前的第一个现实检查。

构造效度。测量是否以适当的方式与其他测量相关？这通常分为两个方面。收敛效度意味着测量应与被认为反映相同构造的其他测量密切相关。假设我对使用问卷调查或面试来衡量一个人的外向性感兴趣。如果这两种不同的测量都与彼此密切相关，那么就证明了收敛效度。另一方面，被认为反映不同构造的测量应该是无关的，称为发散效度。如果我的个性理论认为外向性和责任心是两个不同的构造，那么我还应该看到我的外向性测量与责任心测量是无关的。

预测效度。如果我们的测量确实有效，那么它们也应该能预测其他结果。例如，假设我们认为心理特质的感觉寻求（对新经验的渴望）与现实世界中的冒险行为有关。为了测试感觉寻求测量的预测效度，我们将测试测试分数如何预测测量现实世界冒险行为的不同调查的分数。

2.4 学习目标

阅读完本章后，您应该能够：

区分不同类型的变量（定量/定性，二进制/整数/实数，离散/连续）并举例说明这些变量的每种类型
区分可靠性和有效性的概念，并将每个概念应用于特定数据集

2.5 建议阅读

具有 R 应用的心理测量理论简介 - 关于心理测量的免费在线教材

2.6 附录

2.6.1 测量尺度

所有变量必须至少具有两个不同的可能值（否则它们将是一个常数而不是一个变量），但变量的不同值可以以不同的方式相互关联，我们称之为测量尺度。变量的不同值可以有四种不同的方式。

身份：变量的每个值都有独特的含义。
大小：变量的值反映不同的大小，并且彼此之间有一个有序的关系 - 也就是说，一些值较大，一些值较小。
等距：测量尺度上的单位彼此相等。这意味着，例如，1 和 2 之间的差异在大小上等同于 19 和 20 之间的差异。
绝对零点：尺度具有真正有意义的零点。例如，对于许多身高或体重等物理量的测量，这是被测量物的完全缺席。

测量的四种不同尺度与变量值的不同方式相对应。

名义尺度。名义变量满足身份的标准，即变量的每个值代表不同的东西，但数字只是作为上面讨论的定性标签。例如，我们可能会问人们他们的政党隶属，然后将其编码为数字：1 =“共和党”，2 =“民主党”，3 =“自由党”，等等。然而，不同的数字之间没有任何有序关系。

序数刻度。序数变量满足身份和大小的标准，使得值可以按其大小排序。例如，我们可能要求慢性疼痛患者每天填写一张表，评估他们的疼痛有多严重，使用 1-7 的数字刻度。请注意，虽然在报告 6 和报告 3 的日子，这个人可能在前者比后者感到更痛苦，但说他们的痛苦在前者和后者的日子上是两倍严重是没有意义的；排序为我们提供了有关相对大小的信息，但值之间的差异在大小上不一定相等。

间隔刻度。间隔刻度具有序数刻度的所有特征，但是除此之外，测量刻度上单位之间的间隔可以被视为相等。一个标准的例子是用摄氏或华氏度测量的物理温度；10 度和 20 度之间的物理差异与 90 度和 100 度之间的物理差异相同，但每个刻度也可以取负值。

比率刻度。比率刻度变量具有上述所有四个特征：身份、大小、相等间隔和绝对零点。比率刻度变量与间隔刻度变量的区别在于比率刻度变量具有真正的零点。比率刻度变量的例子包括身高和体重，以及以开尔文度测量的温度。

我们必须注意变量的测量刻度有两个重要原因。首先，刻度决定了我们可以对数据应用什么样的数学运算（见表 2.2）。名义变量只能比较是否相等；也就是说，该变量上的两个观察是否具有相同的数值？对名义变量应用其他数学运算是没有意义的，因为它们在名义变量中并不真正作为数字，而是作为标签。对于序数变量，我们也可以测试一个值是否大于或小于另一个值，但我们不能进行任何算术运算。间隔和比率变量允许我们执行算术运算；对于间隔变量，我们只能添加或减去值，而对于比率变量，我们还可以相乘和相除值。

表 2.2：不同的测量刻度允许不同类型的数值运算

	相等/不相等	大于/小于	相加/相减	相乘/相除
名义	可以
序数	可以	可以
间隔	可以	可以	可以
比率	可以	可以	可以	可以

这些限制也意味着我们可以计算每种变量类型的某些统计数据。简单涉及不同值的计数统计（例如最常见的值，称为模式）可以计算在任何变量类型上。其他统计数据基于值的排序或排名（例如中位数，当所有值按其大小排序时，它是中间值），这要求至少值在序数刻度上。最后，涉及值相加的统计数据（例如平均值，或均值）要求变量至少在间隔刻度上。话虽如此，我们应该注意，研究人员经常计算仅在序数上的变量的均值（例如个性测试的回答），但这有时可能会有问题。

第三章：总结数据

原文：statsthinking21.github.io/statsthinking21-core-site/summarizing-data.html

译者：飞龙

协议：CC BY-NC-SA 4.0

我在介绍中提到统计学的一个重大发现是，我们可以通过丢弃信息来更好地理解世界，这正是我们总结数据时所做的。在本章中，我们将讨论为什么以及如何总结数据。

3.1 为什么总结数据？

当我们总结数据时，我们必然会丢失信息，人们可能会对此提出异议。举个例子，让我们回到我们在第一章中讨论的 PURE 研究。我们难道不应该相信每个个体的所有细节都很重要，而不仅仅是数据集中总结的那些细节吗？那么数据收集的具体细节，比如一天中的时间或参与者的心情呢？当我们总结数据时，所有这些细节都会丢失。

我们总结数据的一个原因是它为我们提供了一种概括的方式 - 也就是说，可以做出超出具体观察的一般性陈述。概括的重要性在作家豪尔赫·路易斯·博尔赫斯的短篇小说《费内斯的记忆》中得到了强调，该小说描述了一个失去遗忘能力的个体。博尔赫斯着重讨论了概括（即丢弃数据）与思维之间的关系：“思考就是忘记差异，概括，抽象。在费内斯过于充实的世界中，只有细节。”

心理学家长期以来一直研究思维中的概括方式。一个例子是分类：我们能够轻松地识别“鸟类”这一类别的不同例子，即使这些个体例子在表面特征上可能非常不同（比如鸵鸟、知更鸟和鸡）。重要的是，概括让我们能够对这些个体做出预测 - 在鸟类的情况下，我们可以预测它们能够飞行和吃种子，而它们可能不能开车或说英语。这些预测并不总是正确的，但它们通常足够在现实世界中有用。

3.2 使用表格总结数据

总结数据的一个简单方法是生成一个代表各种类型观察计数的表格。这种类型的表格已经被使用了数千年（见图 3.1）。

图 3.1：来自卢浮宫的苏美尔文版，显示了一份房屋和田地的销售合同。公共领域，通过维基共享资源。

让我们看一些使用表格的例子，使用一个更现实的数据集。在本书中，我们将使用国家健康和营养调查(NHANES)数据集。这是一项持续研究，评估来自美国的个体样本在许多不同变量上的健康和营养状况。我们将使用 R 统计软件包可用的数据集版本。在这个例子中，我们将查看一个简单的变量，在数据集中称为PhysActive。这个变量包含三种不同的值：“是”或“否”（表示个人是否报告进行“中等或剧烈强度的体育、健身或娱乐活动”），或者如果该个体的数据缺失，则为“NA”。数据可能缺失的原因有不同；例如，这个问题没有问及 12 岁以下的儿童，而在其他情况下，成年人可能在采访中拒绝回答问题，或者采访者在表格上记录答案的方式可能不可读。

3.2.1 频率分布

分布描述了数据如何分布在不同的可能值之间。例如，让我们看看有多少人属于每个身体活动类别。

表 3.1：PhysActive 变量的频率分布

身体活动	绝对频率
否	2473
是	2972
NA	1334

表 3.1 显示了每个不同值的频率；有 2473 个人回答“否”，2972 个人回答“是”，1334 个人没有回答。我们称这为频率分布，因为它告诉我们在我们的样本中每个可能值有多频繁。

这向我们展示了两种回答的绝对频率，对于实际给出回答的所有人。我们可以从中看出说“是”的人比说“否”的人更多，但从绝对数字中很难判断相对差异有多大。因此，我们通常更愿意使用相对频率来呈现数据，这是通过将每个频率除以所有频率的总和得到的：

$$ 相对频率 _i = \frac{绝对频率 i}{\sum^N 绝对频率 _j} $$

相对频率提供了一个更容易看出不平衡有多大的方式。我们还可以将相对频率解释为百分比，方法是将它们乘以 100。在这个例子中，我们也会删除 NA 值，因为我们希望能够解释活跃和不活跃人群的相对频率。但是，为了使这有意义，我们必须假设 NA 值是“随机缺失”的，这意味着它们的存在或缺失与该人的变量的真实值无关。例如，如果不活跃的参与者更有可能拒绝回答问题，那么这将偏倚我们对身体活动频率的估计，这意味着我们的估计将与真实值不同。

表 3.2：PhysActive 变量的绝对频率和相对频率以及百分比

身体活动	绝对频率	相对频率	百分比
否	2473	0.45	45
是	2972	0.55	55

表 3.2 让我们看到 NHANES 样本中 45.4%的个体说“否”，54.6%说“是”。

3.2.2 累积分布

我们上面检查的PhysActive变量只有两个可能的值，但通常我们希望总结可能有更多可能值的数据。当这些值是定量的时，一种有用的总结方式是通过我们所谓的累积频率表示：我们不是问有多少观察值取特定值，而是问有多少取特定值或更少的值。

让我们看看 NHANES 数据集中的另一个变量，称为SleepHrsNight，记录参与者在工作日通常睡眠的小时数。表 3.3 显示了一个频率表，我们删除了任何对这个问题缺失数据的人。我们可以通过查看表格来开始总结数据集；例如，我们可以看到大多数人报告每晚睡 6 到 8 小时。为了更清楚地看到这一点，我们可以绘制一个直方图，显示每个不同值的案例数量；参见图 3.2 的左面板。我们还可以绘制相对频率，我们经常称为密度 - 参见图 3.2 的右面板。

表 3.3：NHANES 数据集中每晚睡眠小时数的频率分布

每晚睡眠小时数	绝对频率	相对频率	百分比
2	9	0.00	0.18
3	49	0.01	0.97
4	200	0.04	3.97
5	406	0.08	8.06
6	1172	0.23	23.28
7	1394	0.28	27.69
8	1405	0.28	27.90
9	271	0.05	5.38
10	97	0.02	1.93
11	15	0.00	0.30
12	17	0.00	0.34

图 3.2：左：直方图显示 NHANES 数据集中报告每个可能值的 SleepHrsNight 变量的人数（左）和比例（右）。

如果我们想知道有多少人报告睡眠 5 小时或更少，该怎么办？为了找到这个值，我们可以计算累积分布。要计算某个值 j 的累积频率，我们将所有值直到 j 的频率相加：

$$ 累积频率 j = \sum^{j}{绝对\频率 _i} $$

表 3.4：SleepHrsNight 变量的绝对和累积频率分布

每晚睡眠小时数	绝对频率	累积频率
2	9	9
3	49	58
4	200	258
5	406	664
6	1172	1836
7	1394	3230
8	1405	4635
9	271	4906
10	97	5003
11	15	5018
12	17	5035

让我们对我们的睡眠变量进行这样的计算，计算绝对和累积频率。在图 3.3 的左面板中，我们绘制数据以查看这些表示是什么样子的；绝对频率值以实线绘制，累积频率以虚线绘制。我们看到累积频率是单调递增的 - 也就是说，它只能上升或保持不变，但它永远不会下降。同样，我们通常发现相对频率比绝对频率更有用；这些在图 3.3 的右面板中绘制。重要的是，相对频率图的形状与绝对频率图完全相同 - 只是值的大小发生了变化。

图 3.3：频率（左）和比例（右）的相对（实线）和累积相对（虚线）值的图，表示 SleepHrsNight 的可能值。

3.2.3 绘制直方图

图 3.4：NHANES 中年龄（左）和身高（右）变量的直方图。

我们上面检查的变量相当简单，只有几个可能的值。现在让我们看一个更复杂的变量：年龄。首先让我们绘制 NHANES 数据集中所有个体的年龄变量（见图 3.4 的左面板）。你在那里看到了什么？首先，你应该注意到每个年龄组中的个体数量随时间而减少。这是有道理的，因为人口是随机抽样的，因此随着时间的推移，死亡导致年龄较大的人口减少。其次，你可能会注意到图表中 80 岁年龄有一个很大的峰值。你觉得那是怎么回事？

如果我们查找 NHANES 数据集的信息，我们会看到年龄变量的以下定义：“研究参与者筛查时的年龄。注意：80 岁或以上的受试者记录为 80 岁。”这是因为相对较少的具有非常高年龄的个体可能会更容易识别数据集中的特定人物，如果你知道他们的确切年龄；研究人员通常承诺保护参与者的身份保密，这是他们可以帮助保护研究对象的事情之一。这也突显了了解数据的来源和处理方式总是很重要的；否则我们可能会错误地解释它们，认为 80 岁以上的人在样本中被过度代表了。

让我们看一下 NHANES 数据集中的另一个更复杂的变量：身高。身高值的直方图在图 3.4 的右面板中绘制。你应该注意到这个分布的第一件事是，它的大部分密度集中在大约 170 厘米左右，但分布在左侧有一个“尾巴”；有一小部分个体的身高要小得多。你觉得这里发生了什么？

你可能已经直觉到，小身高来自数据集中的儿童。一种检查这一点的方法是为儿童和成年人分别使用不同颜色绘制直方图（图 3.5 的左面板）。这显示了所有非常短的身高确实来自样本中的儿童。让我们创建一个只包括成年人的 NHANES 的新版本，然后仅为他们绘制直方图（图 3.5 的右面板）。在那个图中，分布看起来更对称。正如我们将在后面看到的，这是一个很好的正态（或高斯）分布的例子。

图 3.5：NHANES 身高直方图。A：分别绘制儿童（灰色）和成年人（黑色）的值。B：仅成年人的值。C：与 B 相同，但 bin 宽度=0.1

3.2.4 直方图箱

在我们早期关于睡眠变量的例子中，数据以整数报告，我们只是计算了报告每个可能值的人数。然而，如果你看一下 NHANES 中身高变量的一些值（如表 3.5 所示），你会发现它是以厘米为单位测量的，精确到小数点后一位。

表 3.5：NHANES 数据框中身高的一些值。

身高
169.6
169.8
167.5
155.2
173.8
174.5

图 3.5 的 C 面板显示了一个直方图，它计算了小数点后一位的每个可能值的密度。该直方图看起来非常不规则，这是因为特定小数位值的变异性。例如，值 173.2 出现了 32 次，而值 173.3 只出现了 15 次。我们可能不认为这两个身高的普遍性真的有这么大的差异；更有可能的是这只是由于我们样本中的随机变异性。

通常，当我们创建连续数据的直方图或者存在许多可能值的数据时，我们会对值进行分箱，这样我们不是计算和绘制每个特定值的频率，而是计算和绘制落入特定范围内的值的频率。这就是为什么在 3.5 的面板 B 中，图看起来不那么锯齿状；在这个面板中，我们将箱宽设置为 1，这意味着直方图是通过组合宽度为 1 的箱内的值来计算的；因此，值 1.3、1.5 和 1.6 都将计入相同箱的频率，该箱的范围从等于 1 的值到小于 2 的值。

请注意，一旦选择了箱宽，箱数就由数据确定：

$$箱数= \frac{分数范围}{箱宽}$$

并没有硬性的规则来选择最佳的箱宽。有时会很明显（例如当只有少数可能的值时），但在许多情况下，这将需要反复试验。有一些方法可以自动找到最佳的箱尺寸，例如我们将在一些后续示例中使用的 Freedman-Diaconis 方法。

3.3 分布的理想化表示

数据集就像雪花一样，每一个都是不同的，但是仍然有一些模式在不同类型的数据中经常看到。这使我们能够使用数据的理想化表示来进一步总结它们。让我们以 3.5 中绘制的成年人身高数据为例，并将它们与一个非常不同的变量一起绘制：脉搏率（每分钟心跳次数），也是在 NHANES 中测量的（参见图 3.6）。

图 3.6：NHANES 数据集中身高（左）和脉搏（右）的直方图，每个数据集上都叠加了正态分布。

虽然这些图看起来肯定不完全相同，但它们都具有相对对称地围绕中间的圆形峰值的一般特征。事实上，当我们收集数据时，这种形状实际上是我们观察到的分布的常见形状之一，我们称之为正态（或高斯）分布。这个分布是用两个值（我们称之为分布的参数）来定义的：中心峰值的位置（我们称之为均值）和分布的宽度（用一个称为标准差的参数来描述）。图 3.6 显示了在每个直方图上方绘制的适当的正态分布。你可以看到，尽管曲线不完全符合数据，但它们在表征分布方面做得相当不错-只用两个数字！

正如我们稍后将在讨论中心极限定理时看到的那样，世界上许多变量呈现正态分布的形式有一个深刻的数学原因。

3.3.1 偏度

图 3.6 中的示例基本上符合正态分布，但在许多情况下，数据会以一种系统的方式偏离正态分布。数据偏离的一种方式是当它们是不对称的，使得分布的一个尾部比另一个更密集。我们称之为“偏度”。当测量被限制为非负时，偏斜通常发生，例如当我们在计数或测量经过的时间时（因此变量不能取负值）。

在旧金山国际机场安检等待时间的平均值中可以看到相对较小的偏斜，如图 3.7 的左面板所示。您可以看到，虽然大多数等待时间都不到 20 分钟，但也有一些情况下等待时间要长得多，超过 60 分钟！这是一个“右偏”分布的例子，右尾比左尾更长；当查看计数或测量时间时，这种情况很常见，因为它们不能小于零。看到“左偏”分布相对较少，但也可能发生，例如在查看不能大于一的分数值时。

右偏和长尾分布的例子。左：旧金山国际机场 A 航站楼安检等待时间的平均值（2017 年 1 月至 10 月），来源于 https://awt.cbp.gov/。右：3633 名个体的 Facebook 好友数量的直方图，来源于斯坦福大型网络数据库。拥有最多朋友的人用菱形表示。

图 3.7：右偏和长尾分布的例子。左：旧金山国际机场 A 航站楼安检等待时间的平均值（2017 年 1 月至 10 月），来源于awt.cbp.gov/。右：3633 名个体的 Facebook 好友数量的直方图，来源于斯坦福大型网络数据库。拥有最多朋友的人用菱形表示。

3.3.2 长尾分布

在历史上，统计学主要关注正态分布的数据，但有许多数据类型看起来与正态分布完全不同。特别是，许多现实世界的分布都是“长尾”的，意味着右尾远远超出了分布的最典型成员；也就是说，它们是极端偏斜的。长尾分布最有趣的数据类型之一来自对社交网络的分析。例如，让我们看一下斯坦福大型网络数据库中的 Facebook 好友数据，并绘制数据库中 3663 人的好友数量的直方图（见图 3.7 的右面板）。正如我们所看到的，这个分布有一个非常长的右尾 - 平均每个人有 24.09 个朋友，而拥有最多朋友的人（用蓝点表示）有 1043 个！

长尾分布在现实世界中越来越被认可。特别是，许多复杂系统的特征都以这些分布为特征，从文本中单词的频率，到不同机场进出的航班数量，再到大脑网络的连接性。长尾分布可能有多种形成方式，但一个常见的情况是所谓的“马太效应”：

因为凡有的，还要给他使他多有，并且还要使他充足；没有的，连他所有的也要夺过来。 — 马太福音 25:29，修订标准版

这经常被改述为“富者愈富”。在这些情况下，优势会累积，这样那些拥有更多朋友的人就能接触到更多新朋友，而那些拥有更多金钱的人则有能力做一些能增加他们财富的事情。

随着课程的进行，我们将看到几个长尾分布的例子，我们应该记住，当面对长尾数据时，统计学中的许多工具可能会失败。正如纳西姆·尼古拉斯·塔勒布在他的书《黑天鹅》中指出的那样，这种长尾分布在 2008 年的金融危机中发挥了关键作用，因为许多交易员使用的金融模型假设金融系统会遵循正态分布，而事实显然并非如此。

3.4 学习目标

阅读完本章后，您应该能够：

计算给定数据集的绝对、相对和累积频率分布
生成频率分布的图形表示
描述正态分布和长尾分布之间的区别，并描述通常导致每种分布的情况

3.5 建议阅读

黑天鹅：高度不太可能事件的影响，作者纳西姆·尼古拉斯·塔勒布

第四章：数据可视化

原文：statsthinking21.github.io/statsthinking21-core-site/data-visualization.html

译者：飞龙

协议：CC BY-NC-SA 4.0

1986 年 1 月 28 日，航天飞机挑战者号在起飞后 73 秒爆炸，造成机上 7 名宇航员全部遇难。与任何类似灾难发生时一样，对事故原因进行了官方调查，发现连接固体火箭助推器两个部分的 O 形圈泄漏，导致接头失效和大型液体燃料箱爆炸（见图 4.1）。

图 4.1：火箭助推器泄漏燃料的图像，在爆炸前几秒。火箭侧面可见的小火焰是 O 形圈失效的地方。由 NASA（NASA 描述中的伟大图像）[公有领域]，通过 Wikimedia Commons

调查发现 NASA 决策过程的许多方面存在缺陷，特别关注 NASA 工作人员与承包商 Morton Thiokol 的工程师之间的会议，后者建造了固体火箭助推器。这些工程师特别担心，因为预测发射当天早上的温度将非常寒冷，并且他们拥有以往发射的数据，显示 O 形圈在较低温度下的性能受到影响。在发射前一晚的会议上，工程师向 NASA 经理展示了他们的数据，但未能说服他们推迟发射。他们的证据是一组手写幻灯片，显示了以往各次发射的数字。

可视化专家爱德华·图夫特认为，通过正确呈现所有数据，工程师们本可以更有说服力。特别是，他们可以展示类似于图 4.2 中的图表，突出显示了两个重要事实。首先，它显示 O 形圈损坏的程度（由以往飞行后从海洋中检索出的固体火箭助推器上发现的侵蚀和烟灰量定义）与起飞时的温度密切相关。其次，它显示了 1 月 28 日早上的预测温度范围（显示在阴影区）远超过了以往所有发射的范围。虽然我们无法确定，但这似乎至少是有可能更有说服力的。

图 4.2：图夫特损伤指数数据的重新绘制。线显示了数据的趋势，阴影区显示了发射当天早上的预测温度。

4.1 情节解剖

绘制数据的目标是以二维（偶尔是三维）的方式呈现数据集的摘要。我们将这些维度称为轴 - 水平轴称为X 轴，垂直轴称为Y 轴。我们可以沿着轴排列数据，以突出显示数据值。这些值可以是连续的，也可以是分类的。

我们可以使用许多不同类型的图来呈现数据，它们各有优缺点。假设我们对 NHANES 数据集中男性和女性身高差异感兴趣。图 4.3 展示了绘制这些数据的四种不同方式。

面板 A 中的条形图显示了均值的差异，但没有显示出围绕这些均值的数据有多大的波动 - 正如我们将在后面看到的那样，了解这一点对于确定我们是否认为两组之间的差异足够重要至关重要。
第二个图显示了所有数据点叠加在条形图上 - 这使得男性和女性身高的分布有些重叠更清晰，但由于数据点的数量很大，仍然很难看清楚。

通常我们更喜欢使用一种提供更清晰的数据点分布视图的绘图技术。

在面板 C 中，我们看到了一个小提琴图的例子，它绘制了每个条件下数据的分布（稍微平滑了一下）。
另一个选择是面板 D 中显示的箱线图，它显示了中位数（中心线）、变异性的度量（箱子的宽度，基于一个称为四分位距的度量），以及任何异常值（由线末端的点表示）。这两种方法都是有效的显示数据的方式，可以很好地了解数据的分布。

图 4.3：在 NHANES 数据集中绘制男性和女性身高差异的四种不同方式。面板 A 绘制了两组的均值，这样无法评估两个分布的相对重叠。面板 B 显示了相同的条形图，但也叠加了数据点，使它们可以看到它们的整体分布。面板 C 显示了小提琴图，显示了每个组的数据集的分布。面板 D 显示了一个箱线图，突出显示了分布的扩展以及任何异常值（显示为单独的点）。

4.2 良好可视化的原则

关于有效可视化数据已经写了很多书。大多数作者都同意一些原则，而其他一些原则则更有争议。在这里，我们总结了一些主要原则；如果你想了解更多，那么一些好的资源在本章末尾的“建议阅读”部分中列出。

4.2.1 展示数据并使其突出显示

假设我进行了一项研究，研究牙齿健康与使用牙线时间之间的关系，我想要可视化我的数据。图 4.4 展示了这些数据的四种可能呈现方式。

在面板 A 中，我们实际上没有显示数据，只是一条表达数据关系的线。这显然不是最佳选择，因为我们实际上看不到基础数据是什么样子。

面板 B-D 显示了绘制实际数据的三种可能结果，每个图显示了数据可能呈现的不同方式。

如果我们在面板 B 中看到这个图，我们可能会感到怀疑 - 真实数据很少会遵循如此精确的模式。
另一方面，面板 C 中的数据看起来像是真实数据 - 它们显示了一个一般的趋势，但是杂乱无章，就像世界上的数据通常一样。
面板 D 中的数据告诉我们，两个变量之间的明显关系仅仅是由一个个体引起的，我们称之为离群值，因为它们远远超出了群体的模式。很明显，我们可能不希望从一个由一个数据点驱动的效应中得出太多结论。这个图强调了在对数据进行任何总结之前，查看原始数据是非常重要的。

图 4.4：牙齿健康示例的四种不同可能的数据呈现。散点图中的每个点代表数据集中的一个数据点，每个图中的线代表数据的线性趋势。

4.2.2 最大化数据/墨水比

Edward Tufte 提出了一个叫做数据/墨水比的概念：

$$ 数据/墨水比例 = \frac{数据上使用的墨水量}{总墨水量} $$

这样做的目的是最大限度地减少视觉杂乱，让数据显示出来。例如，看一下图 4.5 中牙齿健康数据的两种呈现。两个面板显示相同的数据，但面板 A 更容易理解，因为它的数据/墨水比例相对较高。

图 4.5：使用两种不同数据/墨水比例绘制相同数据的示例。

4.2.3 避免图表垃圾

在流行媒体中，经常会看到数据呈现的演示，这些演示装饰有许多与内容主题相关但与实际数据无关的视觉元素。这被称为图表垃圾，应该尽一切可能避免。

避免图表垃圾的一个好方法是避免使用流行的电子表格程序来绘制数据。例如，图 4.6 中的图表（使用 Microsoft Excel 创建）绘制了美国不同宗教的相对流行程度。这个图有至少三个问题：

它在每个条形上叠加了与实际数据无关的图形。
它有分散注意力的背景纹理
它使用了三维条形图，扭曲了数据

图 4.6：图表垃圾的示例。

4.2.4 避免扭曲数据

通常可以利用可视化来扭曲数据集的信息。一个非常常见的方法是使用不同的轴缩放来夸大或隐藏数据的模式。例如，假设我们有兴趣看看美国的暴力犯罪率是否有变化。在图 4.7 中，我们可以看到这些数据以使犯罪率看起来保持不变或暴跌的方式绘制。相同的数据可以讲述两个完全不同的故事！

图 4.7：1990 年至 2014 年的犯罪数据随时间的变化。面板 A 和 B 显示相同的数据，但 Y 轴上的值范围不同。数据来源于www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm

统计数据可视化中的一个主要争议是如何选择 Y 轴，特别是是否应该始终包括零。在他著名的书《如何用统计数据撒谎》中，达雷尔·赫夫坚决主张 Y 轴上应始终包括零点。另一方面，爱德华·图夫特提出了相反的观点：

“总的来说，在时间序列中，使用一个显示数据而不是零点的基线；不要花费大量的空白垂直空间来达到零点，以掩盖数据线本身的情况。”（来自qz.com/418083/its-ok-not-to-start-your-y-axis-at-zero/）

当然，有些情况下使用零点根本毫无意义。比如，我们有兴趣绘制个体随时间的体温。在图 4.8 中，我们绘制了相同（模拟的）数据，带有或不带有 Y 轴上的零点。显然，通过在 Y 轴上绘制这些数据（面板 A），我们在图中浪费了很多空间，因为一个活人的体温永远不可能降到零！通过包括零点，我们也使得第 21-30 天的温度变化不那么明显。总的来说，我倾向于在线图和散点图中使用图表中的所有空间，除非零点真的很重要需要突出。

图 4.8：随时间变化的体温，带有或不带有 Y 轴上的零点绘制。

爱德华·图夫特引入了“谎言因素”的概念，用来描述可视化中的物理差异与数据差异的大小程度。如果一个图形的谎言因素接近 1，那么它就适当地代表了数据，而远离 1 的谎言因素反映了对基础数据的扭曲。

谎言因素支持了在许多情况下应该始终在条形图中包括零点的观点。在图 4.9 中，我们绘制了相同的数据，带有或不带有 Y 轴上的零点。在面板 A 中，两个条之间的面积比例差与数值之间的比例差完全相同（即谎言因素=1），而在面板 B 中（不包括零点），两个条之间的面积比例差大约是数值之间的比例差的 2.8 倍，因此在视觉上夸大了差异的大小。

图 4.9：带有相关谎言因素的两个条形图。

4.3 容纳人类的局限性

人类既有感知限制又有认知限制，这些限制可能会使得一些可视化图表非常难以理解。在构建可视化图表时，牢记这些限制总是很重要的。

4.3.1 感知限制

许多人（包括我自己）面临的一个重要感知限制是色盲。这可能会使得很难感知图中的信息（比如图 4.10中的图），其中元素之间只有颜色对比而没有亮度对比。使用在亮度和/或纹理上有显著差异的图形元素总是有帮助的，除了颜色。许多可视化工具也提供了“色盲友好”的调色板。

图 4.10：仅依赖颜色对比的糟糕图例。

即使对于色觉完美的人来说，也存在感知限制，这可能使一些图表无效。这就是统计学家永远不使用饼图的原因：人类很难准确地感知形状的体积差异。图 4.11 中的饼图（呈现了我们上面展示的宗教信仰数据）展示了这一点有多棘手。

图 4.11：饼图的一个例子，突出了理解不同饼片的相对体积的困难。

这个图表有几个糟糕的地方。首先，它需要区分底部的大量颜色小块。其次，视觉透视扭曲了相对数量，使得天主教的饼块看起来比无信仰的饼块大得多，而实际上无信仰的数量略大（22.8%对 20.8%），正如在图 4.6 中所显示的那样。第三，通过将图例与图形分开，它要求观察者在工作记忆中保存信息，以便在图形和图例之间进行映射，并进行许多“表格查找”，以便不断地将图例标签与可视化相匹配。最后，它使用的文本太小，使得在不放大的情况下无法阅读。

使用更合理的方法绘制数据（图 4.12），我们可以更清楚地看到模式。这个图表可能看起来不像使用 Excel 生成的饼图那样引人注目，但它是数据更有效和准确的表现。

图 4.12：宗教信仰数据的更清晰呈现（来源于http://www.pewforum.org/religious-landscape-study/）。

这个图表允许观察者基于一个共同的比例尺（y 轴）来进行比较。人类倾向于更准确地解读基于这些感知元素的差异，而不是基于面积或颜色。

4.4 考虑其他因素的修正

通常我们对绘制的数据感兴趣，其中感兴趣的变量受到除我们感兴趣的变量之外的其他因素的影响。例如，假设我们想了解汽油价格随时间的变化。图 4.13 显示了历史汽油价格数据，无论是否考虑通货膨胀进行调整。尽管未经调整的数据显示了巨大的增长，但经过调整的数据表明这主要是通货膨胀的反映。其他需要调整数据以考虑其他因素的例子包括人口规模和跨不同季节收集的数据。

图 4.13：美国 1930 年至 2013 年的汽油价格（取自http://www.thepeoplehistory.com/70yearsofpricechange.html），是否考虑通货膨胀进行修正（基于消费者价格指数）。

4.5 学习目标

阅读完本章后，您应该能够：

描述区分好坏图表的原则，并使用它们来识别好坏图表。
了解必须适应的人类局限，以制作有效的图表。
承诺永远不要制作饼图。永远。

4.6 建议阅读和视频

数据可视化基础，作者克劳斯·威尔克
《视觉解释》，作者爱德华·图夫特
《数据可视化》，作者威廉·S·克利夫兰
《眼睛和心灵的图表设计》，作者斯蒂芬·M·科斯林
人类如何看待数据，作者约翰·劳塞尔

第五章：将模型拟合到数据

原文：statsthinking21.github.io/statsthinking21-core-site/fitting-models.html

译者：飞龙

协议：CC BY-NC-SA 4.0

统计学中的一个基本活动是创建能够用少量数字总结数据的模型，从而提供数据的简洁描述。在本章中，我们将讨论统计模型的概念以及如何用它来描述数据。

5.1 什么是模型？

在物理世界中，“模型”通常是对现实世界中的事物的简化，但仍然传达了被建模事物的本质。建筑物的模型传达了建筑物的结构，同时足够小和轻，可以用一只手拿起；生物学中细胞的模型比实际的细胞大得多，但同样传达了细胞的主要部分及其关系。

在统计学中，模型的目的是提供一个类似的简洁描述，但是针对的是数据而不是物理结构。与物理模型一样，统计模型通常比所描述的数据简单得多；它的目的是尽可能简单地捕捉数据的结构。在这两种情况下，我们意识到模型是一个方便的虚构，必然忽略了被建模的实际细节。正如统计学家 George Box 所说：“所有模型都是错误的，但有些是有用的。”将统计模型视为观察数据生成方式的理论也是有用的；我们的目标是找到最有效和准确地总结数据生成方式的模型。但正如我们将在下面看到的，效率和准确性的要求通常是截然相反的。

统计模型的基本结构是：

$$ 数据 = 模型 + 误差 $$

这表达了这样一个观点：数据可以分为两部分：一部分由统计模型描述，它表达了我们根据我们的知识期望数据采取的值，另一部分我们称之为误差，它反映了模型预测和观察数据之间的差异。

实质上，我们希望使用我们的模型来预测任何给定观察的数据值。我们会这样写方程：

$$ \widehat{data_i} = model_i $$

数据上的“帽子”表示这是我们的预测，而不是数据的实际值。这意味着观察$i$的数据的预测值等于该观察的模型值。一旦我们从模型得到预测，我们就可以计算误差：

$$ error_i = data_i - \widehat{data_i} $$

也就是说，任何观察的误差是数据的观察值与模型预测值之间的差异。

5.2 统计建模：一个例子

让我们看一个建立数据模型的例子，使用 NHANES 的数据。特别是，我们将尝试建立 NHANES 样本中儿童身高的模型。首先让我们加载数据并绘制它们（参见图 5.1）。

图 5.1：NHANES 儿童身高的直方图。

请记住，我们希望尽可能简单地描述数据，同时仍然捕捉到它们的重要特征。我们可以想象的最简单的模型将只涉及一个单一的数字；也就是说，该模型将预测每个观察值相同的值，而不管我们可能了解这些观察值的其他信息。我们通常用参数来描述模型，这些参数是我们可以改变以修改模型预测的值。在整本书中，我们将使用希腊字母 beta（$\beta$）来指代这些参数；当模型有多个参数时，我们将使用带下标的数字来表示不同的 beta（例如$\beta_1$）。习惯上，我们用字母$y$来表示数据的值，并使用带下标的版本$y_i$来表示个别观察值。

我们通常不知道参数的真实值，因此我们必须从数据中估计它们。因此，我们通常会在$\beta$符号上放一个“帽子”，表示我们使用的是参数值的估计值，而不是它的真实值（通常我们不知道）。因此，我们使用单个参数对身高的简单模型将是：

$$ y_i = \beta + \epsilon $$

方程的右侧没有出现下标$i$，这意味着模型的预测不取决于我们正在观察的是哪个观察值——对所有观察值都是相同的。那么问题就变成了：我们如何估计模型参数的最佳值？在这种情况下，什么单个值是$\beta$的最佳估计？更重要的是，我们如何定义最佳？

我们可能想象的一个非常简单的估计量是模式，它只是数据集中最常见的值。这将整个 1691 个孩子的数据重新描述为一个单一的数字。如果我们想要预测任何新孩子的身高，那么我们的预测值将是相同的数字：

$$ \hat{y_i} = 166.5 $$

然后，每个个体的误差将是预测值（$\hat{y_i}$）与他们实际身高（$y_i$）之间的差异：

$$ error_i = y_i - \hat{y_i} $$

这个模型有多好呢？通常我们根据误差的大小来定义模型的好坏，误差代表数据偏离模型预测的程度；其他条件相同，产生较小误差的模型更好。（尽管后面我们会看到，其他条件通常不相同...）在这种情况下，我们发现当我们使用模式作为$\beta$的估计量时，平均个体的误差相当大，为-28.8 厘米，这在表面上看起来并不好。

我们如何找到一个更好的模型参数估计量？我们可以尝试找到一个使平均误差为零的估计量。一个很好的选择是算术平均值（即平均值，通常用变量上方的横线表示，如$\bar{X}$），计算为所有值的总和除以值的数量。在数学上，我们表示为：

$$ \bar{X} = \frac{\sum_{i=1}^{n}x_i}{n} $$

事实证明，如果我们使用算术平均值作为我们的估计量，那么平均误差确实将为零（如果您感兴趣，可以在本章末尾看到简单的证明）。尽管从平均值的误差是零，但我们可以从图 5.2 的直方图中看到，每个个体仍然有一定程度的误差；有些是正的，有些是负的，它们相互抵消，使平均误差为零。

图 5.2：从平均值的误差分布。

负误差和正误差相互抵消的事实意味着两个不同的模型在绝对值上可能具有非常不同的误差量，但仍然具有相同的平均误差。这正是为什么平均误差不是我们估计器的良好标准的原因；我们希望一个试图最小化总体误差的标准，而不考虑其方向。因此，我们通常根据某种计算正负误差的度量来总结错误。我们可以使用每个误差值的绝对值，但更常见的是使用平方误差，原因我们将在本书的后面看到。

有几种常见的方法来总结平方误差，您将在本书的各个部分遇到，因此了解它们之间的关系很重要。首先，我们可以简单地将它们相加；这被称为平方误差的总和。我们通常不使用它的原因是它的大小取决于数据点的数量，因此除非我们观察相同数量的观察结果，否则很难解释。其次，我们可以取平方误差值的平均值，这被称为均方误差（MSE）。然而，由于我们在平均值之前对值进行了平方，它们与原始数据不在同一尺度上；它们是在$厘米^2$。因此，通常也会取均方误差的平方根，我们称之为均方根误差（RMSE），以便误差以与原始值相同的单位（在本例中为厘米）来衡量。

均值有相当大的误差-任何个体数据点平均将偏离均值约 27 厘米-但仍然比众数要好得多，众数的均方根误差约为 39 厘米。

5.2.1 改进我们的模型

我们能想象一个更好的模型吗？请记住，这些数据来自 NHANES 样本中所有 2 至 17 岁的儿童，他们的年龄变化很大。鉴于这一广泛的年龄范围，我们可能期望我们的身高模型也应包括年龄。让我们绘制身高与年龄的数据，看看这种关系是否真的存在。

图 5.3：NHANES 中儿童的身高，没有模型绘制（A），只包括年龄的线性模型（B）或年龄和常数的线性模型（C），以及适合男女年龄的线性模型（D）。

图 5.3 的面板 A 中的黑点显示了数据集中的个体，身高和年龄之间似乎存在着很强的关系，这是我们所期望的。因此，我们可能会建立一个将身高与年龄相关联的模型：

$$ \hat{y_i} = \hat{\beta} * age_i $$

其中$\hat{\beta}$是我们估计的参数，我们将其乘以年龄以生成模型预测。

您可能还记得代数中定义线的方式：

$$ y = 斜率*x + 截距 $$

如果年龄是 $X$ 变量，那么这意味着我们从年龄对身高的预测将是一条斜率为 $\beta$ 截距为零的直线——为了看到这一点，让我们在数据上用蓝色绘制最佳拟合线（图 5.3 的 B 面板）。显然，这个模型有明显的问题，因为这条线似乎并不很好地跟随数据。事实上，这个模型的均方根误差（39.16）实际上比只包括均值的模型还要高！问题在于我们的模型只包括年龄，这意味着模型对于年龄为零时的身高预测值必须为零。即使数据中没有任何年龄为零的儿童，数学上要求这条线在 x 为零时有一个 y 值为零，这就解释了为什么这条线被拉到了年轻数据点的下方。我们可以通过在模型中包括一个截距来解决这个问题，这基本上代表了当年龄等于零时的估计身高；即使在这个数据集中年龄为零是不合理的，这是一个数学技巧，可以让模型考虑到数据的整体幅度。模型是：

$$ \widehat{y_i} = \hat{\beta_0} + \hat{\beta_1} * age_i $$

其中 $\hat{\beta_0}$ 是我们对截距的估计，它是添加到每个个体预测值的常数值；我们称之为截距，因为它映射到直线方程中的截距。我们将在后面学习如何为特定数据集估计这些参数值；现在，我们将使用我们的统计软件来估计给出这些特定数据最小误差的参数值。图 5.3 的 C 面板显示了这个模型应用于 NHANES 数据，我们可以看到，这条线比没有常数的那条线更好地匹配了数据。

我们使用这个模型的误差要小得多——平均只有 8.36 厘米。你能想到其他可能与身高有关的变量吗？性别呢？在图 5.3 的 D 面板中，我们分别为男性和女性绘制了拟合线的数据。从图中看，似乎男性和女性之间存在差异，但这种差异相对较小，并且只在青春期后才显现。在图 5.4 中，我们绘制了不同模型的均方根误差值，包括一个额外参数来模拟性别的影响。从中我们可以看到，模型从模式到均值变得更好了一点，从均值到均值+年龄变得更好了很多，而包括性别后只稍微变得更好了一点。

图 5.4：对上面测试的每个模型绘制的均方误差。

5.3 什么使一个模型“好”？

我们通常希望从我们的统计模型中得到两种不同的东西。首先，我们希望它能很好地描述我们的数据；也就是说，我们希望在对数据建模时，它的误差尽可能低。其次，我们希望它能很好地推广到新的数据集；也就是说，当我们将其应用于新的数据集以进行预测时，我们希望它的误差尽可能低。事实证明，这两个特性经常会发生冲突。

为了理解这一点，让我们思考误差的来源。首先，如果我们的模型是错误的，误差就会产生；例如，如果我们错误地说身高随着年龄下降而不是上升，那么我们的误差将比正确模型的误差更大。同样，如果我们的模型中缺少一个重要因素，那也会增加我们的误差（就像我们在身高模型中没有考虑年龄时那样）。然而，即使模型是正确的，误差也可能发生，这是由于数据的随机变化造成的，我们通常称之为“测量误差”或“噪音”。有时，这确实是由于我们测量的错误 - 例如，当测量依赖于人类时，比如使用秒表来测量足球比赛中的经过时间。在其他情况下，我们的测量设备非常精确（比如用于测量体重的数字秤），但被测量的物体受到许多不同因素的影响，导致它变化。如果我们知道所有这些因素，那么我们就可以建立一个更准确的模型，但实际上这很少可能。

让我们用一个例子来说明这一点。我们将使用计算机模拟生成一些数据来进行示例，而不是使用真实数据（关于这一点我们将在几章后详细讨论）。假设我们想要了解一个人的血液酒精含量（BAC）与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系（参见图 5.5 的 A 面）。

图 5.5：在驾驶测试中血液酒精含量和反应时间之间的模拟关系，最佳拟合线性模型由线表示。A：与低测量误差的线性关系。B：与较高测量误差的线性关系。C：与低测量误差和（不正确的）线性模型的非线性关系

在这个例子中，反应时间随着血液酒精含量的增加而系统性增加 - 线条显示了最佳拟合模型，我们可以看到误差非常小，这在所有点都非常接近线条的事实中是显而易见的。

我们还可以想象出现相同线性关系的数据，但误差更大，就像图 5.5 的 B 面所示。在这里，我们可以看到反应时间随着血液酒精含量的增加仍然存在系统性增加，但在个体之间的变异性更大。

这些都是两个变量之间关系呈现线性的例子，误差反映了我们测量中的噪音。另一方面，还有其他情况下，变量之间的关系不是线性的，误差会增加，因为模型没有正确规定。比如，我们对咖啡因摄入量和测试表现之间的关系感兴趣。咖啡因等兴奋剂与测试表现之间的关系通常是非线性的 - 也就是说，它不是一条直线。这是因为测试表现随着较小剂量的咖啡因而提高（人变得更警觉），但随着较大剂量的咖啡因而开始下降（人变得紧张和焦虑）。我们可以模拟这种形式的数据，然后对数据进行线性模型拟合（参见图 5.5 的 C 面板）。蓝线显示了最适合这些数据的直线；显然，误差很大。尽管测试表现和咖啡因摄入之间存在非常合法的关系，但它遵循的是曲线而不是直线。假设线性关系的模型由于这些数据而产生了高误差，因为它对这些数据来说是错误的模型。

5.4 模型是否可能太好？

误差听起来像是一件坏事，通常我们会更喜欢具有较低误差的模型，而不是具有较高误差的模型。然而，我们上面提到，模型在准确拟合当前数据集和泛化到新数据集之间存在紧张关系，事实证明，具有最低误差的模型通常在泛化到新数据集时要比较差！

为了看到这一点，让我们再次生成一些数据，以便我们知道变量之间的真实关系。我们将创建两个模拟数据集，它们以完全相同的方式生成 - 只是它们分别添加了不同的随机噪声。也就是说，它们的方程式都是$y = \beta * X + \epsilon$；唯一的区别是在每种情况下，$\epsilon$使用了不同的随机噪声。

图 5.6：过度拟合的一个例子。两个数据集都是使用相同的模型生成的，每个集合都添加了不同的随机噪声。左面板显示了用于拟合模型的数据，蓝色表示简单线性拟合，红色表示复杂（8 阶多项式）拟合。图中显示了每个模型的均方根误差（RMSE）值；在这种情况下，复杂模型的 RMSE 低于简单模型。右面板显示了第二个数据集，上面覆盖了相同的模型，并使用从第一个数据集获得的模型计算了 RMSE 值。在这里，我们看到简单模型实际上比过度拟合到第一个数据集的更复杂模型更好地适应了新数据集。

图 5.6 的左面板显示，更复杂的模型（红色）比更简单的模型（蓝色）更好地拟合了数据。然而，当相同的模型应用于以相同方式生成的新数据集时，我们看到相反的情况-在这里，我们看到更简单的模型比更复杂的模型更好地拟合了新数据。直观地，我们可以看到更复杂的模型受到第一个数据集中特定数据点的影响很大;由于这些数据点的确切位置是由随机噪声驱动的，这导致更复杂的模型在新数据集上拟合不佳。这是我们所说的过度拟合现象。现在重要的是要记住，我们的模型拟合需要很好，但不要太好。正如阿尔伯特·爱因斯坦（1933 年）所说：“可以毫不夸张地说，所有理论的最高目标是使不可简化的基本元素尽可能简单，尽可能少，而不必放弃对单个经验数据的充分表征。”这经常被改编为：“一切都应该尽可能简单，但不要太简单。”

5.5 使用均值总结数据

我们已经遇到了均值（或平均值），实际上大多数人都知道平均值，即使他们从未上过统计课。它通常用来描述我们所说的数据集的“中心趋势”-也就是说，数据以什么值为中心？大多数人并不认为计算均值是将模型拟合到数据。然而，当我们计算均值时，这正是我们正在做的。

我们已经看到了计算样本数据均值的公式：

$$ \bar{X} = \frac{\sum_{i=1}^{n}x_i}{n} $$

请注意，我说过这个公式是特别针对样本数据的，这是从更大的人口中选择的一组数据点。使用样本，我们希望描述更大的人口-我们感兴趣的所有个体的完整集合。例如，如果我们是政治民意调查员，我们感兴趣的人口可能是所有注册选民，而我们的样本可能只包括从该人口中抽样的几千人。在第 7 章中，我们将更详细地讨论抽样，但现在重要的是统计学家通常喜欢使用不同的符号来区分描述样本值的统计量和描述人口真实值的参数;在这种情况下，人口均值的公式（表示为$\mu$）是：

$$ \mu = \frac{\sum_{i=1}^{N}x_i}{N} $$

其中 N 是整个人口的大小。

我们已经看到均值是一个保证给我们平均误差为零的估计量，但我们也学到了平均误差不是最好的标准；相反，我们希望一个给出最低平方误差和（SSE）的估计量，而均值也能做到。我们可以用微积分来证明这一点，但我们将在图 5.7 中用图形来演示它。

图 5.7：演示均值作为最小化平方误差和的统计量。使用 NHANES 儿童身高数据，我们计算均值（用蓝色条表示）。然后，我们测试一系列可能的参数估计值，对于每个值，我们计算每个数据点与该值之间的平方误差和，用黑色曲线表示。我们看到均值落在平方误差图的最小值处。

最小化 SSE 是一个很好的特性，这就是为什么平均值是最常用的总结数据的统计量。然而，平均值也有一个不好的一面。比如说有五个人在酒吧，我们检查每个人的收入（表 5.1）：

表 5.1：我们五个酒吧顾客的收入

收入	人
48000	乔
64000	卡伦
58000	马克
72000	安德烈
66000	帕特

平均值（61600.00）似乎是对这五个人的收入的一个很好的总结。现在让我们看看如果碧昂丝·诺尔斯走进酒吧会发生什么（表 5.2）。

表 5.2：我们五个酒吧顾客加上碧昂丝·诺尔斯的收入。

收入	人
48000	乔
64000	卡伦
58000	马克
72000	安德烈
66000	帕特
54000000	碧昂丝

现在平均值接近 1000 万美元，这实际上并不代表酒吧里的任何人 - 特别是，它受到碧昂丝这个异常值的极大影响。一般来说，平均值对极端值非常敏感，这就是为什么在使用平均值总结数据时，确保没有极端值总是很重要的原因。

5.5.1 使用中位数稳健地总结数据

如果我们想以一种对异常值不太敏感的方式总结数据，我们可以使用另一个叫做中位数的统计量。如果我们按照大小顺序对所有值进行排序，那么中位数就是中间的值。如果值的数量是偶数，那么会有两个值并列在中间位置，这种情况下我们取这两个数的平均值（即两个数的中间点）。

让我们看一个例子。假设我们想总结以下值：

8  6  3 14 12  7  6  4  9

如果我们对这些值进行排序：

3  4  6  6  7  8  9 12 14

然后中位数是中间值 - 在这种情况下，是 9 个值中的第 5 个。

而平均值最小化了平方误差的和，中位数最小化了一个略有不同的数量：误差的绝对值的和。这解释了为什么中位数对异常值不太敏感 - 平方会加剧大误差的影响，而绝对值不会。我们可以从收入的例子中看到这一点：中位收入（$65,000）更能代表整个群体，而不太敏感于一个大的异常值，而平均值（$9,051,333）。

鉴于此，我们为什么还要使用平均值呢？正如我们将在后面的章节中看到的，平均值是“最好的”估计量，因为它在样本之间的变化要比其他估计量小。这取决于我们是否认为这值得对潜在异常值的敏感性 - 统计学就是关于权衡的。

5.6 众数

有时我们希望描述一个非数值数据集的中心趋势。例如，假设我们想知道哪种型号的 iPhone 最常用。为了测试这一点，我们可以问一大群 iPhone 用户每个人拥有哪种型号。如果我们对这些值取平均值，我们可能会发现平均 iPhone 型号是 9.51，这显然是荒谬的，因为 iPhone 型号并不是量化的测量。在这种情况下，中心趋势的更合适的度量是众数，即数据集中最常见的值，正如我们上面讨论的那样。

5.7 变异性：平均值对数据拟合得有多好？

一旦我们描述了数据的中心趋势，我们通常也想描述数据的变异程度 - 这有时也被称为“离散度”，反映了它描述数据有多广泛分布的事实。

我们已经在上面遇到了平方误差的总和，这是最常用的变异性度量的基础：方差和标准差。人口的方差（表示为$\sigma^2$）简单地是平方误差的总和除以观察次数 - 也就是说，它与之前遇到的均方误差完全相同：

$$ \sigma^2 = \frac{SSE}{N} = \frac{\sum_{i=1}^n (x_i - \mu)^2}{N} $$

其中$\mu$是总体均值。总体标准差简单地是这个的平方根 - 也就是我们之前看到的均方根误差。标准差很有用，因为误差与原始数据的单位相同（撤销了我们对误差的平方）。

通常我们无法访问整个总体，所以我们必须使用样本来计算方差，我们称之为$\hat{\sigma}^{2$，其中“帽子”表示这是基于样本的估计。$\hat{\sigma}}2$的方程与$\sigma^2$的方程类似：

$$ \hat{\sigma}^2 = \frac{\sum_{i=1}^n (x_i - \bar{X})^2}{n-1} $$

两个方程之间唯一的区别是我们除以 n-1 而不是 N。这涉及到一个基本的统计概念：自由度。记住，为了计算样本方差，我们首先必须估计样本均值$\bar{X}$。在估计了这个值之后，数据中的一个值就不再自由变化。例如，假设我们有一个变量$x$的以下数据点：[3, 5, 7, 9, 11]，其均值为 7。因为我们知道这个数据集的均值是 7，我们可以计算如果缺少任何特定值的值。例如，假设我们要隐藏第一个值（3）。这样做之后，我们仍然知道它的值必须是 3，因为 7 的均值意味着所有值的总和是$7 * n = 35$，$35 - (5 + 7 + 9 + 11) = 3$。

所以当我们说我们“失去”了一个自由度时，这意味着在拟合模型后有一个值不再自由变化。在样本方差的背景下，如果我们不考虑失去的自由度，那么我们对样本方差的估计将是有偏的，导致我们低估了对均值估计的不确定性。

5.8 使用模拟来理解统计学

我坚信使用计算机模拟来理解统计概念，在后面的章节中我们将更深入地探讨它们的使用。在这里，我们将通过询问是否可以确认在计算样本方差时需要从样本大小中减去 1 来介绍这个想法。

让我们把 NHANES 数据中的所有儿童样本作为我们的“总体”，并看看使用分母中的$n$或$n-1$来计算样本方差会如何估计这个总体的方差，在从数据中模拟的大量随机样本中。我们将在后面的章节中详细介绍如何做到这一点。

表 5.3：使用 n 与 n-1 的方差估计；使用 n-1 的估计更接近于总体值

估计	值
总体方差	725
使用 n 的方差估计	710
使用 n-1 的方差估计	725

5.3 中的结果告诉我们，上面概述的理论是正确的：使用$n-1$作为分母的方差估计非常接近于在完整数据（即总体）上计算的方差，而使用$n$作为分母的方差估计是有偏的（较小），与真实值相比。

5.9 Z 分数

在以中心趋势和变异性来表征分布之后，通常有必要以个体得分在整体分布中的位置来表达。假设我们有兴趣描述不同州之间犯罪的相对水平，以确定加利福尼亚是否是一个特别危险的地方。我们可以使用来自FBI 统一犯罪报告网站的 2014 年数据来提出这个问题。图 5.8 的左侧面板显示了每个州暴力犯罪数量的直方图，突出显示了加利福尼亚的值。从这些数据来看，加利福尼亚似乎非常危险，当年有 153709 起犯罪。我们可以通过生成一张地图来可视化这些数据，显示一个变量在各州之间的分布，这在图 5.8 的右侧面板中呈现。

图 5.8：左侧：暴力犯罪数量的直方图。 CA 的值以蓝色绘制。右侧：相同数据的地图，以各州的犯罪数量（以千为单位）用颜色表示。

然而，您可能已经意识到，加利福尼亚也是美国人口最多的州，因此它拥有更多的犯罪是合理的。如果我们将每个州的犯罪数量与人口之一绘制成图（参见图 5.9 的左侧面板），我们会发现两个变量之间存在直接关系。

图 5.9：左侧：按州划分的暴力犯罪数量与人口的图。右侧：以每 10 万人口的犯罪率表示的暴力犯罪率的直方图。

我们应该使用每人口的暴力犯罪率，而不是使用原始犯罪数字，这可以通过将每个州的犯罪数量除以每个州的人口来获得。FBI 的数据集已经包括了这个值（以每 10 万人口的比率表示）。从图 5.9 的右侧面板可以看出，加利福尼亚并不那么危险 - 其每 10 万人口的犯罪率为 396.10，略高于各州的平均值 346.81，但远低于许多其他州。但是，如果我们想更清楚地了解它与其他分布的距离有多远呢？

Z 得分允许我们以一种更能洞察每个数据点与整体分布关系的方式来表达数据。计算给定个体数据点的 Z 得分的公式，假设我们知道总体均值$\mu$和标准偏差$\sigma$的值为：

$$ Z(x) = \frac{x - \mu}{\sigma} $$

直观地，您可以将 Z 得分视为告诉您任何数据点距离平均值有多远，以标准偏差为单位。我们可以计算犯罪率数据的 Z 得分，如图 5.10 所示，该图将 Z 得分绘制为原始得分。

图 5.10：原始犯罪率数据与 Z 得分数据的散点图。

散点图告诉我们，Z 分数的过程并不改变数据点的相对分布（在原始数据和 Z 分数数据相互绘制时，它们落在一条直线上），它只是将它们移动到具有零均值和标准偏差为一的位置。图 5.11 显示了使用地理视图的 Z 分数犯罪数据。

图 5.11：犯罪数据呈现为 Z 分数的美国地图。

这为我们提供了对数据稍微更易解释的视角。例如，我们可以看到内华达州、田纳西州和新墨西哥州的犯罪率大约是平均值的两个标准偏差。

5.9.1 解释 Z 分数

“Z 分数”中的“Z”来自于标准正态分布（即均值为零，标准偏差为 1 的正态分布）通常被称为“Z”分布。我们可以使用标准正态分布来帮助我们理解特定 Z 分数告诉我们关于数据点在分布的其余部分中所处位置的信息。

图 5.12：标准正态分布的密度（上）和累积分布（下），在一个标准偏差以上/以下的均值处有截断。

图 5.12 的上部显示我们预计大约 16%的值落在$Z\ge 1$，同样的比例落在$Z\le -1$。

图 5.13：标准正态分布的密度（上）和累积分布（下），在两个标准偏差以上/以下的均值处有截断。

图 5.13 显示了两个标准偏差的相同图。在这里，我们看到只有大约 2.3%的值落在$Z \le -2$，同样的在$Z \ge 2$。因此，如果我们知道特定数据点的 Z 分数，我们可以估计找到至少与该值一样极端的值的可能性或不可能性，这让我们更好地将值放入上下文中。在犯罪率的情况下，我们看到加利福尼亚的暴力犯罪率人均 Z 分数为 0.38，显示它与其他州的平均值相当接近，大约有 35%的州有更高的犯罪率，65%的州有更低的犯罪率。

5.9.2 标准化分数

假设我们不是用 Z 分数，而是想生成平均值为 100，标准偏差为 10 的标准化犯罪分数。这类似于对智力测试分数进行标准化以生成智商指数（IQ）。我们可以通过简单地将 Z 分数乘以 10 然后加上 100 来实现这一点。

图 5.14：犯罪数据以平均值为 100，标准偏差为 10 呈现为标准化分数。

5.9.2.1 使用 Z 分数比较分布

Z 得分的一个有用应用是比较不同变量的分布。假设我们想要比较各州的暴力犯罪和财产犯罪的分布。在图 5.15 的左面板中，我们将它们相互绘制，CA 用蓝色绘制。正如你所看到的，财产犯罪的原始率远高于暴力犯罪的原始率，所以我们不能直接比较这些数字。然而，我们可以将这些数据的 Z 得分相互绘制（图 5.15 的右面板）- 在这里我们再次看到数据的分布没有改变。将每个变量的数据转换为 Z 得分使它们可以相互比较，并让我们看到加利福尼亚实际上在暴力犯罪和财产犯罪方面都处于分布的中间位置。

图 5.15：暴力犯罪率与财产犯罪率的图表（左）和 Z 得分率（右）。

让我们在图中再添加一个因素：人口。在图 5.16 的左面板中，我们使用绘图符号的大小来显示这一点，这通常是向图中添加信息的有用方式。

图 5.16：左：暴力犯罪率与财产犯罪率的图表，通过绘图符号的大小呈现人口规模；加利福尼亚以蓝色呈现。右：暴力犯罪与财产犯罪的差异分数，绘制在人口上。

因为 Z 得分是直接可比较的，我们还可以计算一个差异分数，它表达了各州暴力与非暴力（财产）犯罪的相对率。然后我们可以将这些分数绘制在人口上（参见图 5.16 的右面板）。这显示了我们如何使用 Z 得分将不同的变量放在一个共同的尺度上。

值得注意的是，最小的州似乎在两个方向上都有最大的差异。虽然可能会诱人地查看每个州并尝试确定为什么它具有高或低的差异分数，但这可能反映了从较小样本中获得的估计值必然会更加变化，正如我们将在第 7 章中讨论的那样。

5.10 学习目标

描述统计模型的基本方程（数据=模型+误差）
描述不同的集中趋势和离散度测量，它们是如何计算的，以及在什么情况下适用。
计算 Z 得分并描述它们为什么有用。

5.11 附录

5.11.1 证明均值误差的总和为零

$$ 错误 = \sum_{i=1}^{n}(x_i - \bar{X}) = 0 $$

$$ \sum_{i=1}^{n}x_i - \sum_{i=1}^{n}\bar{X}=0 $$

$$ \sum_{i=1}^{n}x_i = \sum_{i=1}^{n}\bar{X} $$

$$ \sum_{i=1}^{n}x_i = n\bar{X} $$

$$ \sum_{i=1}^{n}x_i = \sum_{i=1}^{n}x_i $$

第六章：概率

原文：statsthinking21.github.io/statsthinking21-core-site/probability.html

译者：飞龙

协议：CC BY-NC-SA 4.0

概率论是处理机会和不确定性的数学分支。它构成了统计学基础的重要部分，因为它为我们提供了描述不确定事件的数学工具。概率的研究部分是由于对理解卡牌或骰子等游戏的兴趣。这些游戏提供了许多统计概念的有用例子，因为当我们重复这些游戏时，不同结果发生的可能性保持（大部分）不变。然而，关于概率含义的深刻问题我们在这里不会讨论；如果您对了解更多有关这个迷人主题及其历史感兴趣，请参阅结尾的建议阅读。

6.1 什么是概率？

非正式地，我们通常将概率视为描述某个事件发生可能性的数字，范围从零（不可能）到一（确定）。有时概率将以百分比的形式表示，范围从零到一百，就像天气预报预测今天下雨的概率为百分之二十一样。在每种情况下，这些数字都表达了该特定事件有多大可能发生，从绝对不可能到绝对确定。

为了形式化概率论，我们首先需要定义一些术语：

实验是产生或观察结果的任何活动。例如，抛硬币、掷一个六面骰子，或者尝试一条新的上班路线看看它是否比旧路线更快。
样本空间是实验的可能结果的集合。我们通过在一组花括号中列出它们来表示这些结果。对于抛硬币，样本空间是{正面，反面}。对于一个六面骰子，样本空间是可能出现的每个数字：{1,2,3,4,5,6}。对于到达工作地点所需的时间，样本空间是所有可能的实数大于零（因为到达某个地方不可能花费负数的时间，至少目前还不可能）。我们不会尝试在括号内写出所有这些数字。
事件是样本空间的子集。原则上，它可以是样本空间中可能结果的一个或多个，但在这里，我们将主要关注基本事件，它们由恰好一个可能结果组成。例如，这可能是在一次抛硬币中获得正面，掷骰子时掷出 4，或者通过新路线回家花费 21 分钟。

现在我们已经有了这些定义，我们可以概述概率的正式特征，这些特征是由俄罗斯数学家安德烈·科尔莫戈洛夫首次定义的。这些是值必须具备的特征，如果它要成为概率的话。假设我们有一个由 N 个独立事件${E_1, E_2, ... , E_N}$定义的样本空间，$X$是一个随机变量，表示发生了哪个事件。$P(X=E_i)$是事件$i$的概率：

概率不能为负数：$P(X=E_i) \ge 0$
样本空间中所有结果的总概率为 1；也就是说，如果我们取每个 Ei 的概率并将它们相加，它们必须加起来等于 1。我们可以使用求和符号$\sum$来表示这一点：

$$ \sum_{i=1}^N{P(X=E_i)} = P(X=E_1) + P(X=E_2) + ... + P(X=E_N) = 1 $$

这被解释为“取所有 N 个基本事件，我们已经从 1 到 N 进行了标记，并将它们的概率相加。它们必须加起来等于一。”
任何单个事件的概率都不能大于一：$P(X=E_i)\le 1$。这是由前面的观点所暗示的；因为它们必须加起来等于一，而且它们不能是负数，所以任何特定的概率都不能超过一。

6.2 我们如何确定概率？

既然我们知道了概率是什么，我们如何实际确定任何特定事件的概率呢？

6.2.1 个人信念

假设我问你如果伯尼·桑德斯在 2016 年总统选举中成为民主党提名人而不是希拉里·克林顿，他会赢得选举的概率是多少？我们实际上无法进行实验来找到结果。然而，大多数了解美国政治的人都愿意至少猜测这一事件的概率。在许多情况下，个人知识和/或意见是我们确定事件概率的唯一指南，但这并不是非常科学上令人满意的。

6.2.2 经验频率

确定事件概率的另一种方法是多次进行实验，并计算每个事件发生的频率。从不同结果的相对频率，我们可以计算出每个结果的概率。例如，假设我们想知道旧金山下雨的概率。我们首先必须定义实验 - 假设我们将查看 2017 年每一天的国家气象局数据，并确定在旧金山市中心气象站是否有下雨。根据这些数据，2017 年有 73 天下雨。为了计算旧金山下雨的概率，我们只需将下雨的天数除以计数的天数（365），得出 P（2017 年旧金山下雨）= 0.2。

我们如何知道经验概率给出了正确的数字？这个问题的答案来自于大数定律，它表明随着样本量的增加，经验概率将接近真实概率。我们可以通过模拟大量的硬币抛掷来看到这一点，并在每次抛掷后查看我们对正面概率的估计。我们将在后面的章节中更多地讨论模拟；现在，只需假设我们有一种计算方法来生成每次硬币抛掷的随机结果。

图 6.1 的左侧面板显示，随着样本数量（即，硬币抛掷试验）的增加，正面的估计概率会收敛到 0.5 的真实值。然而，请注意，当样本量较小时，估计值可能与真实值相差甚远。这在 2017 年阿拉巴马州美国参议院特别选举中得到了真实世界的例证，该选举将共和党人罗伊·摩尔对阵民主党人道格·琼斯。图 6.1 的右侧面板显示了在晚上的过程中每个候选人报告的相对选票数量，随着越来越多的选票被计算出来。晚上早些时候，选票数量特别不稳定，从琼斯的大幅领先到摩尔长时间领先，最终琼斯取得领先并赢得了比赛。

左侧：大数定律的演示。硬币被抛掷了 30,000 次，每次抛掷后，根据迄今为止收集到的正反面数量计算出正面的概率。大约需要 15,000 次抛掷，概率才会稳定在真实概率 0.5。右侧：2017 年 12 月 12 日阿拉巴马州参议院特别选举中的选票相对比例，作为报告选区百分比的函数。这些数据是从 https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/转录的。

图 6.1：左侧：大数定律的演示。硬币被抛掷了 30,000 次，每次抛掷后根据迄今为止收集到的正反面数量计算出正面的概率。大约需要 15,000 次抛掷才能使概率稳定在真实概率 0.5。右侧：2017 年 12 月 12 日阿拉巴马州参议院特别选举中的选票相对比例，作为报告选区百分比的函数。这些数据是从www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/转录的。

这两个例子表明，虽然大样本最终会收敛于真实概率，但小样本的结果可能相差甚远。不幸的是，许多人忘记了这一点，并过分解释了小样本的结果。这被心理学家丹尼·卡尼曼和阿莫斯·特沃斯基称为“小数定律”，他们表明人们（甚至是受过训练的研究人员）经常表现得好像大数定律甚至适用于小样本，对基于小数据集的结果给予了过多的信任。在课程中，我们将看到许多例子，说明当统计结果是基于小样本生成时，它们是多么不稳定。

6.2.3 古典概率

我们很少有人会抛掷硬币数万次，但我们仍然愿意相信抛掷正面的概率是 0.5。这反映了我们使用另一种计算概率的方法，我们称之为“古典概率”。在这种方法中，我们根据对情况的了解直接计算概率。

古典概率起源于对骰子和纸牌等游戏的研究。一个著名的例子来自于法国赌徒谢瓦利埃·德梅雷遇到的问题。德梅雷玩了两种不同的骰子游戏：在第一种游戏中，他押注至少有一个六在投掷六面骰子的四次中出现的机会，而在第二种游戏中，他押注至少有一个双六在投掷两个骰子的 24 次中出现的机会。他期望在这两个赌博中赚钱，但他发现，虽然平均上他在第一个赌博中赚了钱，但当他多次玩第二个赌博时，他实际上平均上是赔钱的。为了理解这一点，他求助于他的朋友、数学家布莱兹·帕斯卡，现在他被认为是概率论的创始人之一。

我们如何使用概率论来理解这个问题呢？在古典概率中，我们假设样本空间中的所有基本事件是等可能发生的；也就是说，当你掷骰子时，每种可能的结果（{1,2,3,4,5,6}）都是等可能发生的。（不允许使用偏骰子！）在这种情况下，我们可以计算任何单个结果的概率为 1 除以可能结果的数量：

$$ P(outcome_i) = \frac{1}{\text{number of possible outcomes}} $$

对于六面骰子，每个单个结果的概率是 1/6。

这很好，但德梅雷对更复杂的事件感兴趣，比如多次掷骰子会发生什么。我们如何计算复杂事件的概率（这是单个事件的“并集”），比如在第一次或第二次掷骰子时掷出一个六？我们用$\cup$符号在数学上表示事件的并集：例如，如果第一次掷骰子掷出六的概率被称为$P(Roll6_{throw1})$，第二次掷骰子掷出六的概率被称为$P(Roll6_{throw2})$，那么并集被称为$P(Roll6_{throw1} \cup Roll6_{throw2})$。

de Méré认为（我们将在下面看到是错误的），他可以简单地将两个事件的概率相加来计算组合事件的概率，这意味着首次或第二次掷出六的概率将如下计算：

$$ P(Roll6_{throw1}) = 1/6 $$

$$ P(Roll6_{throw2}) = 1/6 $$

de Méré的错误:

$$ P(Roll6_{throw1} \cup Roll6_{throw2}) = P(Roll6_{throw1}) + P(Roll6_{throw2}) = 1/6 + 1/6 = 1/3 $$

de Méré基于这个错误的假设推理，即四次掷骰子至少有一个六的概率是每次单独掷骰子的概率之和：$4\frac{1}{6}=\frac{2}{3}$。同样，他推断出，由于掷两个骰子时出现双六的概率是 1/36，那么掷两个骰子 24 次至少出现一次双六的概率将是$24\frac{1}{36}=\frac{2}{3}$。然而，尽管他在第一次赌注上一直赢钱，但在第二次赌注上却输钱了。是什么原因呢？

要理解 de Méré的错误，我们需要介绍一些概率论的规则。第一个是减法规则，它说事件 A 不发生的概率是 1 减去事件发生的概率：

$$ P(\neg A) = 1 - P(A) $$

其中$\neg A$表示“非 A”。这个规则直接源自我们上面讨论的公理；因为 A 和$\neg A$是唯一可能的结果，所以它们的总概率必须加起来为 1。例如，如果单次掷骰子掷出 1 的概率是$\frac{1}{6}$，那么掷出非 1 的概率就是$\frac{5}{6}$。

第二条规则告诉我们如何计算联合事件的概率 - 也就是两个事件都发生的概率。我们称之为交集，用$\cap$符号表示；因此，$P(A \cap B)$表示 A 和 B 都发生的概率。我们将专注于一种规则的版本，该规则告诉我们如何在两个事件彼此独立的特殊情况下计算这个数量；我们稍后将学习独立性概念的确切含义，但现在我们可以认为两次掷骰子是独立事件。我们通过简单地将两个事件的概率相乘来计算两个独立事件的交集的概率：

$$ P(A \cap B) = P(A) * P(B)\ \text{当且仅当 A 和 B 是独立的时候} $$

因此，两次掷出六的概率是$\frac{1}{6}*\frac{1}{6}=\frac{1}{36}$。

第三条规则告诉我们如何将概率相加 - 就是在这里我们看到了 de Méré的错误来源。加法规则告诉我们，要获得两个事件中任一事件发生的概率，我们将单独的概率相加，然后减去两者同时发生的可能性：

$$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$

从某种意义上说，这阻止我们将这些实例计算两次，这就是这条规则与 de Méré的错误计算有何不同。假设我们想要找到两次掷骰子中至少掷出 6 的概率。根据我们的规则：

$$ P(Roll6_{throw1} \cup Roll6_{throw2}) = P(Roll6_{throw1}) + P(Roll6_{throw2}) - P(Roll6_{throw1} \cap Roll6_{throw2}) $$

$$ = \frac{1}{6} + \frac{1}{6} - \frac{1}{36} = \frac{11}{36} $$

图 6.2：此矩阵中的每个单元格代表掷骰子两次的一个结果，列代表第一次掷骰子，行代表第二次掷骰子。红色表示第一次或第二次掷出六的单元格；其余显示为蓝色。

让我们使用图形描述来对这个规则有一个不同的视角。图 6.2 显示了表示两次投掷中所有可能结果组合的矩阵，并突出显示了涉及第一次或第二次投掷中的六的单元格。如果你数一数红色的单元格，你会发现有 11 个这样的单元格。这说明了为什么加法规则给出了与 de Méré不同的答案；如果我们像他一样简单地将两次投掷的概率相加，那么我们会将(6,6)计算两次，而实际上它只应该计算一次。

6.2.4 解决 de Méré的问题

Blaise Pascal 利用概率规则解决了 de Méré的问题。首先，他意识到计算至少一个事件的概率组合是棘手的，而计算某事在多个事件中不发生的概率相对容易——它只是各个事件概率的乘积。因此，他不是计算四次投掷中至少出现一个六的概率，而是计算所有投掷中没有六的概率：

$$ P(\text{四次投掷中没有六}) = \frac{5}{6}\frac{5}{6}\frac{5}{6}*\frac{5}{6}=\bigg(\frac{5}{6}\bigg)^4=0.482 $$

然后他利用四次投掷中没有六的概率是至少有一个六的概率的补集（因此它们必须相加为一），并使用减法规则计算感兴趣的概率：

$$ P(\text{四次投掷中至少有一个六}) = 1 - \bigg(\frac{5}{6}\bigg)^4=0.517 $$

de Méré打赌他在四次投掷中至少会掷出一个六的概率大于 0.5，这解释了为什么 de Méré平均赚钱。

但是 de Méré的第二次赌注呢？Pascal 使用了同样的技巧：

$$ P(\text{24 次投掷中没有双六}) = \bigg(\frac{35}{36}\bigg)^{24}=0.509 $$

$$ P(\text{24 次投掷中至少有一个双六}) = 1 - \bigg(\frac{35}{36}\bigg)^{24}=0.491 $$

这种结果的概率略低于 0.5，说明了为什么 de Méré在这个赌注上平均亏钱。

6.3 概率分布

概率分布描述了实验中所有可能结果的概率。例如，2018 年 1 月 20 日，篮球运动员斯蒂芬·库里在对休斯顿火箭队的比赛中只投中了 4 次罚球中的 2 次。我们知道库里整个赛季罚球的概率是 0.91，所以他在一场比赛中只投中 50%的罚球似乎是不太可能的，但确切有多少可能性呢？我们可以使用理论概率分布来确定这一点；在本书中，我们将遇到许多这些概率分布，每个都适合描述不同类型的数据。在这种情况下，我们使用二项式分布，它提供了一种计算在每次试验中成功或失败的情况下，某些成功次数的概率的方法，给定每次试验上的已知成功概率（称为“伯努利试验”）。这个分布被定义为：

$$ P(k; n,p) = P(X=k) = \binom{n}{k} p^k(1-p) $$

这指的是在概率为 p 的情况下，在 n 次试验中出现 k 次成功的概率。你可能不熟悉$\binom{n}{k}$，它被称为二项式系数。二项式系数也被称为“n 选 k”，因为它描述了从 n 个总项中选择 k 个项的不同方式的数量。二项式系数计算如下：

$$ \binom{n}{k} = \frac{n!}{k!(n-k)!} $$

其中感叹号（!）表示数字的阶乘：

$$ n! = \prod_{i=1}^n i = n(n-1)...21 $$

乘积运算符$\prod$类似于求和运算符$\sum$，只是它是相乘而不是相加。在这种情况下，它将从一到$n$的所有数字相乘在一起。

在斯蒂芬·库里罚球的例子中：

$$ P(2;4,0.91) = \binom{4}{2} 0.91^2(1-0.91) = 0.040 $$

这表明，鉴于库里的整体罚球命中率，他在 4 次罚球中只命中 2 次的概率是非常低的。这只是表明在现实世界中不太可能的事情实际上确实会发生。

6.3.1 累积概率分布

通常我们不仅想知道特定值有多大可能性，还想知道找到一个与特定值一样极端或更极端的值有多大可能性；当我们在第 9 章讨论假设检验时，这将变得非常重要。为了回答这个问题，我们可以使用累积概率分布；标准概率分布告诉我们某个特定值的概率，而累积分布告诉我们一个与某个特定值一样大或更大（或者一样小或更小）的值的概率。

在罚球的例子中，我们可能想知道：鉴于库里的整体罚球概率为 0.91，斯蒂芬·库里在四次尝试中命中 2 次或更少罚球的概率是多少。为了确定这一点，我们可以简单地使用二项概率方程，并将所有可能的 k 值代入并相加。

$$ P(k\le2)= P(k=2) + P(k=1) + P(k=0) = 6e^{-5} + .002 + .040 = .043 $$

在许多情况下，可能结果的数量对我们来说太大，无法通过枚举所有可能的值来计算累积概率；幸运的是，它可以直接计算任何理论概率分布。表 6.1 显示了上面示例中每个成功罚球次数的累积概率，从中我们可以看到库里在 4 次尝试中命中 2 次或更少罚球的概率为 0.043。

表 6.1：斯蒂芬·库里在 4 次尝试中成功罚球次数的简单和累积概率分布。

成功数量	概率	累积概率
0	0.000	0.000
1	0.003	0.003
2	0.040	0.043
3	0.271	0.314
4	0.686	1.000

6.4 条件概率

到目前为止，我们只限制在简单概率上 - 也就是单个事件或事件组合的概率。然而，我们经常希望确定某个事件发生的概率，假设发生了另一个事件，这被称为条件概率。

让我们以 2016 年美国总统选举为例。有两个简单的概率可以用来描述选民。首先，我们知道美国选民与共和党有关的概率：$p(共和党) = 0.44$。我们还知道投票支持唐纳德·特朗普的选民的概率：$p(特朗普选民)=0.46$。然而，假设我们想知道以下内容：一个人投票支持唐纳德·特朗普的概率是多少，假设他们是共和党人？

要计算给定 B 的条件概率 A（我们将其写为$P(A|B)$，“给定 B 的 A 的概率”），我们需要知道联合概率（即 A 和 B 同时发生的概率）以及 B 的整体概率：

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

也就是说，我们想知道在被条件限制的情况下，两件事情都是真的概率。

图 6.3：条件概率的图形描述，显示了条件概率如何将我们的分析限制在数据的子集中。

以图形方式思考这点可能会有所帮助。图 6.3 显示了一个流程图，描述了选民的整体人口是如何分为共和党人和民主党人的，并且条件概率（以政党为条件）如何进一步根据他们的投票将每个政党的成员细分。

6.5 从数据计算条件概率

我们还可以直接从数据中计算条件概率。假设我们对以下问题感兴趣：一个人患有糖尿病的概率是多少，假设他们不活跃？即，$P(糖尿病|不活跃)$。NHANES 数据集包括两个变量，涉及这个问题的两个部分。第一个（糖尿病）询问这个人是否被告知他们患有糖尿病，第二个（身体活动）记录这个人是否参加至少中等强度的体育、健身或娱乐活动。让我们首先计算简单概率，如表 6.2 所示。表格显示 NHANES 数据集中有糖尿病的人的概率为 0.1，不活跃的人的概率为 0.45。

表 6.2：糖尿病和体力活动的摘要数据

答案	无糖尿病	糖尿病概率	无身体活动	身体活动概率
否	4893	0.9	2472	0.45
是	550	0.1	2971	0.55

表 6.3：糖尿病和身体活动变量的联合概率。

糖尿病	身体活动	n	概率
否	否	2123	0.39
否	是	2770	0.51
是	否	349	0.06
是	是	201	0.04

要计算 $P(糖尿病|不活跃)$ ，我们还需要知道患糖尿病和不活跃的联合概率，除了每个简单概率。这些显示在表 6.3 中。根据这些联合概率，我们可以计算 $P(糖尿病|不活跃)$。在计算机程序中，一种方法是首先确定每个个体的 PhysActive 变量是否等于“否”，然后取这些真值的平均值。由于大多数编程语言（包括 R 和 Python）将 TRUE/FALSE 值分别视为 1/0，这使我们可以通过简单地取表示其真值的逻辑变量的平均值来轻松识别简单事件的概率。然后我们使用该值来计算条件概率，从中我们发现，患糖尿病的人在身体不活跃的情况下的概率为 0.141。

6.6 独立性

“独立”这个术语在统计学中有一个非常具体的含义，与常规用法略有不同。两个变量之间的统计独立意味着知道一个变量的值不会告诉我们关于另一个变量的值的任何信息。这可以表示为：

$$ P(A|B) = P(A) $$

也就是说，给定 B 的某个值时 A 的概率与 A 的整体概率是一样的。从这个角度来看，我们发现在现实世界中许多我们称之为“独立”的情况实际上并不是统计上独立的。例如，加利福尼亚州的一小部分公民目前正在推动宣布一个名为杰斐逊的新独立州，该州将包括加利福尼亚州北部和俄勒冈州的一些县。如果这种情况发生，那么当前加利福尼亚居民现在居住在杰斐逊州的概率将是 $P(\text{杰斐逊人})=0.014$，而他们仍然是加利福尼亚居民的概率将是 $P(\text{加利福尼亚人})=0.986$。新的州可能在政治上是独立的，但它们不在统计上是独立的，因为如果我们知道一个人是杰斐逊人，那么我们可以肯定他们不是加利福尼亚人！也就是说，尽管在日常语言中，“独立”通常指的是互斥的集合，但统计独立是指一个变量的值无法从另一个变量的值预测出来的情况。例如，知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。

让我们看另一个例子，使用 NHANES 数据：身体健康和心理健康是否彼此独立？NHANES 包括两个相关问题：PhysActive，询问个体是否进行身体活动，以及DaysMentHlthBad，询问个体在过去 30 天中有多少天经历了糟糕的心理健康。让我们考虑在过去一个月中有超过 7 天糟糕心理健康的人。基于此，我们可以定义一个名为badMentalHealth的新变量，作为一个逻辑变量，告诉每个人是否有超过 7 天的糟糕心理健康。我们可以首先总结数据，显示有多少个体落入两个变量的每种组合（在表 6.4 中显示），然后除以总观察数，创建一个比例表（在表 6.5 中显示）：

表 6.4：心理健康和身体活动的绝对频率数据总结。

身体活动	心理不健康	心理健康	总数
No	414	1664	2078
Yes	292	1926	2218
Total	706	3590	4296

表 6.5：心理健康和身体活动的相对频率数据总结。

身体活动	心理不健康	心理健康	总数
No	0.10	0.39	0.48
Yes	0.07	0.45	0.52
Total	0.16	0.84	1.00

这显示了所有观察结果中落入每个单元格的比例。然而，我们想要知道的是这里的条件概率，即取决于是否进行身体活动的糟糕心理健康的条件概率。为了计算这个，我们将每个身体活动组除以其总观察数，使得每行现在总和为 1（在表 6.6 中显示）。在这里，我们看到了每个身体活动组的糟糕或良好心理健康的条件概率（在前两行中），以及第三行中的总体糟糕或良好心理健康的概率。要确定心理健康和身体活动是否独立，我们将比较糟糕心理健康的简单概率（第三行）与在进行身体活动的情况下糟糕心理健康的条件概率（第二行）。

表 6.6：给定身体活动的条件概率总结。

身体活动	心理不健康	心理健康	总数
No	0.20	0.80	1
Yes	0.13	0.87	1
Total	0.16	0.84	1

糟糕心理健康的总体概率$P(\text{bad mental health})$为 0.16，而条件概率$P(\text{bad mental health|physically active})$为 0.13。因此，似乎条件概率略小于总体概率，这表明它们不是独立的，尽管我们不能仅凭数字就确定，因为这些数字可能由于样本中的随机变异而不同。本书后面我们将讨论统计工具，让我们直接测试两个变量是否独立。

6.7 反转条件概率：贝叶斯定理

在许多情况下，我们知道$P(A|B)$，但我们真正想知道的是$P(B|A)$。这在医学筛查中经常发生，我们知道$P(\text{疾病|阳性检测结果})$，但我们想知道的是$P(\text{阳性检测结果|疾病})$。例如，一些医生建议 50 岁以上的男性接受一种名为前列腺特异抗原（PSA）的检测，以筛查可能的前列腺癌。在一项测试被批准用于医学实践之前，制造商需要测试测试性能的两个方面。首先，他们需要展示它的敏感性 - 也就是说，当疾病存在时发现疾病的可能性有多大：$\text{敏感性} = P(\text{疾病|阳性检测})$。他们还需要展示它的特异性：也就是说，在没有疾病的情况下给出阴性结果的可能性有多大：$\text{特异性} = P(\text{无疾病|阴性检测})$。对于 PSA 测试，我们知道敏感性约为 80%，特异性约为 70%。然而，这些并不能回答医生想要为任何特定患者回答的问题：在检测结果呈阳性的情况下，他们实际上患癌症的可能性有多大？这要求我们反转定义敏感性的条件概率：我们想知道的不是$P(阳性\ 检测| 疾病)$，而是$P(疾病| 阳性\ 检测)$。

为了反转条件概率，我们可以使用贝叶斯定理：

$$ P(B|A) = \frac{P(A|B)*P(B)}{P(A)} $$

贝叶斯定理相当容易推导出来，基于我们在本章早些时候学到的概率规则（有关此推导，请参阅附录）。

如果我们只有两个结果，我们可以使用总和规则重新定义$P(A)$来更清晰地表达贝叶斯定理：

$$ P(A) = P(A|B)P(B) + P(A|\neg B)P(\neg B) $$

利用这一点，我们可以重新定义贝叶斯定理：

$$ P(B|A) = \frac{P(A|B)P(B)}{P(A|B)P(B) + P(A|\neg B)*P(\neg B)} $$

我们可以将相关数字代入这个方程中，以确定一个 PSA 检测结果呈阳性的个体实际上患癌症的可能性 - 但请注意，为了做到这一点，我们还需要知道该人群患癌症的总体概率，我们通常称之为基础率。让我们以一个 60 岁的男性为例，他在接下来的 10 年内患前列腺癌的概率为$P(癌症)=0.058$。使用我们上面概述的敏感性和特异性值，我们可以计算个体在检测结果呈阳性的情况下患癌症的可能性：

$$ P(\text{癌症|检测}) = \frac{P(\text{检测|癌症})P(\text{癌症})}{P(\text{检测|癌症})P(\text{癌症}) + P(\text{检测|}\neg\text{癌症})*P(\neg\text{癌症})} $$

$$ = \frac{0.80.058}{0.80.058 +0.3*0.942 } = 0.14 $$

这相当小 - 你觉得这让人惊讶吗？许多人确实如此，事实上有大量的心理学文献表明人们在判断中系统地忽视基础率（即总体患病率）。

6.8 从数据中学习

另一种思考贝叶斯定理的方式是作为一种根据数据更新我们对世界的信念的方式 - 也就是说，利用数据来了解世界。让我们再次看看贝叶斯定理：

$$ P(B|A) = \frac{P(A|B)*P(B)}{P(A)} $$

贝叶斯定理的不同部分有特定的名称，与它们在使用贝叶斯定理更新我们的信念中的作用有关。我们首先对 B 的概率有一个初始猜测（$P(B)$），我们称之为先验概率。在 PSA 示例中，我们使用基础率作为先验，因为这是我们在知道测试结果之前对个体患癌症机会的最佳猜测。然后我们收集一些数据，在我们的例子中是测试结果。数据 A 与结果 B 一致的程度由$P(A|B)$给出，我们称之为似然性。你可以把它看作是在特定假设为真的情况下，数据有多大可能性。在我们的例子中，被测试的假设是个体是否患有癌症，似然性是基于我们对测试敏感性的了解（即，给定癌症存在的情况下测试呈阳性的概率）。分母（$P(A)$）被称为边际似然性，因为它表达了数据的整体可能性，平均分布在 B 的所有可能值上（在我们的例子中是疾病存在和疾病不存在）。左边的结果（$P(B|A)$）被称为后验 - 因为它是计算的最终结果。

还有另一种写贝叶斯定理的方式，使得这一点更加清晰：

$$ P(B|A) = \frac{P(A|B)}{P(A)}*P(B) $$

左边的部分（$\frac{P(A|B)}{P(A)}$）告诉我们，相对于数据的整体（边际）概率，数据 A 在给定 B 的情况下更可能或更不可能发生，而右边的部分（$P(B)$）告诉我们，在我们对数据一无所知之前，我们认为 B 有多大可能性。这使得更清楚，贝叶斯定理的作用是根据数据在给定 B 的情况下比整体更可能发生的程度来更新我们的先验知识。如果假设在给定数据的情况下更可能发生，那么我们会增加对假设的信念；如果在给定数据的情况下更不可能发生，那么我们会减少对假设的信念。

6.9 赔率和赔率比

上一节的结果显示，基于阳性 PSA 测试结果，个体患癌症的可能性仍然相当低，尽管比我们知道测试结果之前大两倍。我们经常希望更直接地量化概率之间的关系，这可以通过将它们转换为赔率来实现，赔率表达了某件事发生或不发生的相对可能性：

$$ \text{A 的赔率} = \frac{P(A)}{P(\neg A)} $$

在我们的 PSA 示例中，患癌症的赔率（给定阳性测试）为：

$$ \text{癌症的赔率} = \frac{P(\text{癌症})}{P(\neg \text{癌症})} =\frac{0.14}{1 - 0.14} = 0.16 $$

这告诉我们，即使测试呈阳性，患癌症的赔率也相当低。作为对比，单次掷骰子出现 6 的赔率为：

$$ \text{赔率为 6} = \frac{1}{5} = 0.2 $$

顺便说一句，这就是为什么许多医学研究人员越来越谨慎地使用广泛的筛查测试来检测相对不常见的疾病的原因；大多数阳性结果最终都会被证明是假阳性，导致不必要的后续测试可能会出现并发症，更不用说给患者增加的压力了。

我们还可以使用赔率来比较不同的概率，通过计算所谓的赔率比 - 这正是它的名字。例如，假设我们想知道阳性测试如何增加个体患癌症的赔率。我们可以首先计算先验赔率 - 也就是，在我们知道这个人测试呈阳性之前的赔率。这些是使用基础率计算的：

$$ \text{先验赔率} = \frac{P(\text{癌症})}{P(\neg \text{癌症})} =\frac{0.058}{1 - 0.058} = 0.061 $$

然后我们可以将这些与后验赔率进行比较，后验赔率是使用后验概率计算的：

$$ \text{赔率比} = \frac{\text{后验赔率}}{\text{先验赔率}} = \frac{0.16}{0.061} = 2.62 $$

这告诉我们，给出阳性检测结果，患癌症的几率增加了 2.62 倍。赔率比是我们后来将称之为效应大小的一个例子，它是量化任何特定统计效应相对大小的一种方式。

6.10 概率是什么意思？

你可能会觉得谈论一个人患癌症的概率取决于检测结果有点奇怪；毕竟，一个人要么患癌症，要么不患。在历史上，概率有两种不同的解释方式。第一种（称为频率解释）是根据长期频率解释概率。例如，在抛硬币的情况下，它将反映在大量抛掷后长期内正面的相对频率。虽然这种解释对于可以重复多次的事件（如抛硬币）可能是有意义的，但对于只会发生一次的事件（如个人的生活或特定的总统选举）就不那么合理了；正如经济学家约翰·梅纳德·凯恩斯所说，“从长远来看，我们都会死去。”

概率的另一种解释（称为贝叶斯解释）是对特定命题的信念程度。如果我问你“美国在 2040 年前返回月球的可能性有多大”，你可以根据你的知识和信念回答这个问题，即使没有相关频率来计算频率概率。我们经常表达主观概率的一种方式是根据一个人愿意接受特定赌注的程度。例如，如果你认为美国在 2040 年前登月的概率是 0.1（即 9 比 1 的赔率），那意味着如果事件发生，你应该愿意接受任何超过 9 比 1 赔率的赌注。

正如我们将看到的，概率的这两种不同定义与统计学家在测试统计假设时所考虑的两种不同方式非常相关，我们将在后面的章节中遇到。

6.11 学习目标

阅读完本章后，你应该能够：

描述所选随机实验的样本空间。
计算给定事件集的相对频率和经验概率
计算单个事件、互补事件以及事件集合的并集和交集的概率。
描述大数定律。
描述概率和条件概率之间的差异
描述统计独立的概念
使用贝叶斯定理计算逆条件概率。

6.12 建议阅读

《醉汉的漫步：随机性如何统治我们的生活》，作者 Leonard Mlodinow
《关于机会的十大伟大思想》，作者 Persi Diaconis 和 Brian Skyrms

6.13 附录

6.13.1 贝叶斯规则的推导

首先，记住计算条件概率的规则：

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

我们可以重新排列这个公式，得到使用条件概率计算联合概率的公式：

$$ P(A \cap B) = P(A|B) * P(B) $$

利用这个公式，我们可以计算逆概率：

$$ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{P(A|B)*P(B)}{P(A)} $$

第七章：采样

原文：statsthinking21.github.io/statsthinking21-core-site/sampling.html

译者：飞龙

协议：CC BY-NC-SA 4.0

统计学中的一个基本思想是，我们可以根据人口的一个相对较小的样本对整个人口进行推断。在本章中，我们将介绍统计抽样的概念，并讨论为什么它有效。

在美国生活的任何人都会熟悉从政治民意调查中抽样的概念，这已经成为我们选举过程的核心部分。在某些情况下，这些民意调查可以非常准确地预测选举结果。最著名的例子来自 2008 年和 2012 年的美国总统选举，民意调查员内特·西尔弗（Nate Silver）在 2008 年正确预测了 49/50 个州的选举结果，在 2012 年预测了所有 50 个州的选举结果。西尔弗通过结合来自 21 个不同民意调查的数据来做到这一点，这些民意调查在倾向于共和党或民主党的程度上有所不同。每个民意调查包括大约 1000 名可能的选民的数据 - 这意味着西尔弗几乎可以准确预测超过 1.25 亿选民的选票模式，只使用了大约 2.1 万人的数据，以及其他知识（比如这些州过去的投票情况）。

7.1 我们如何进行抽样？

我们在采样中的目标是确定感兴趣的整个人口的统计量的值，只使用人口的一个小子集。我们主要这样做是为了节省时间和精力 - 当只需要一个小样本就足以准确估计感兴趣的统计量时，为什么要费劲测量人口中的每个个体呢？

在选举的例子中，人口是被调查地区的所有注册选民，样本是由民意调查组织选出的 1000 个个体。我们选择样本的方式对确保样本代表整个人口至关重要，这是统计抽样的主要目标。很容易想象一个非代表性的样本；如果民意调查员只打电话给他们从当地民主党那里得到的名单上的人，那么调查结果很可能不代表整个人口。一般来说，我们会定义代表性调查为每个人口成员被选中的机会相等。当这种情况失败时，我们就需要担心我们在样本上计算的统计量是否有偏 - 也就是说，它的值是否与人口值（我们称之为参数）有系统性的不同。请记住，我们通常不知道这个人口参数，因为如果我们知道的话，我们就不需要抽样了！但我们将使用一些例子来解释一些关键的思想，其中我们可以访问整个人口。

重要的是要区分两种不同的采样方式：有放回和无放回。在有放回采样中，从人口中抽取一个成员后，将其放回池中，这样他们有可能再次被抽样。在无放回采样中，一旦成员被抽样，他们就不再有资格被再次抽样。最常见的是使用无放回采样，但在某些情况下，我们会使用有放回采样，比如在第 8 章中讨论的一种叫做自助法的技术。

7.2 采样误差

无论我们的样本有多具代表性，我们计算出的统计量与人口参数至少略有不同的可能性很大。我们称之为抽样误差。如果我们抽取多个样本，我们的统计估计值的值也会因样本而异；我们将这个统计量在样本中的分布称为抽样分布。

抽样误差与我们对人口的测量质量直接相关。显然，我们希望从样本中获得的估计值尽可能接近人口参数的真实值。然而，即使我们的统计量是无偏的（也就是说，我们期望它具有与人口参数相同的值），任何特定估计值的值都将与人口值不同，并且当抽样误差更大时，这些差异将更大。因此，减少抽样误差是更好地测量的重要一步。

我们将以 NHANES 数据集为例；我们将假设 NHANES 数据集是感兴趣的整个人口，然后我们将从该人口中抽取随机样本。在下一章中，我们将更多地讨论计算机中“随机”样本生成的工作原理。

在这个例子中，我们知道成年人口的均值（168.35）和身高的标准差（10.16），因为我们假设 NHANES 数据集是人口。表 7.1 显示了从 NHANES 人口中抽取的 50 个个体的几个样本计算出的统计数据。

表 7.1：NHANES 身高变量的几个样本的均值和标准差示例。

样本均值	样本标准差
167	9.1
171	8.3
170	10.6
166	9.5
168	9.5

样本均值和标准差与人口值相似，但并非完全相等。现在让我们抽取 50 个个体的大量样本，计算每个样本的均值，并查看得到的均值的抽样分布。我们必须决定抽取多少样本才能很好地估计抽样分布 - 在这种情况下，我们将抽取 5000 个样本，以便我们对答案非常有信心。请注意，像这样的模拟有时可能需要几分钟才能运行，并且可能会使您的计算机变得吃力。图 7.1 中的直方图显示，对于 50 个个体的每个样本估计的均值有些变化，但总体上它们都集中在人口均值周围。5000 个样本均值的平均值（168.3463）非常接近真实的人口均值（168.3497）。

图 7.1：蓝色直方图显示了从 NHANES 数据集中随机抽取的 5000 个样本的均值的抽样分布。灰色直方图是完整数据集的参考。

7.3 均值的标准误差

在本书的后面，能够描述我们的样本有多么变化是至关重要的，以便对样本统计量进行推断。对于均值，我们使用一个称为均值的标准误差（SEM）的量来做到这一点，可以将其视为均值的抽样分布的标准差。要计算我们样本的均值的标准误差，我们将估计的标准偏差除以样本大小的平方根：

$$ SEM = \frac{\hat{\sigma}}{\sqrt{n}} $$

请注意，如果我们的样本很小（大约小于 30），在使用估计标准偏差计算 SEM 时必须小心。

因为我们从 NHANES 人口中有许多样本，并且我们实际上知道人口 SEM（通过将人口标准差除以人口大小计算），我们可以确认使用人口参数（1.44）计算的 SEM 非常接近我们从 NHANES 数据集中抽取的样本的均值的观察标准差（1.43）。

均值标准误差的公式意味着我们的测量质量涉及两个量：总体变异性和样本大小。因为样本大小是 SEM 公式中的分母，所以在保持总体变异性恒定时，较大的样本大小将产生较小的 SEM。我们无法控制总体变异性，但我们可以控制样本大小。因此，如果我们希望改善样本统计数据（通过减少抽样变异性），那么我们应该使用更大的样本。然而，该公式还告诉我们关于统计抽样的一个非常基本的事实，即较大样本的效用随着样本大小的平方根而减小。这意味着加倍样本大小不会使统计数据的质量加倍，而是会使其提高$\sqrt{2}$倍。在10.3 节中，我们将讨论统计功效，这与这个想法密切相关。

7.4 中心极限定理

中心极限定理告诉我们，随着样本大小的增大，均值的抽样分布将变得正态分布，即使每个样本内的数据不是正态分布。

首先，让我们简单介绍一下正态分布。它也被称为高斯分布，以数学家卡尔·弗里德里希·高斯命名，他并没有发明它，但在其发展中起了一定作用。正态分布用两个参数描述：均值（可以认为是峰值的位置）和标准差（指定分布的宽度）。分布的钟形外观永远不会改变，只有其位置和宽度会改变。正态分布在现实世界中收集的数据中经常观察到，正如我们在第 3 章中已经看到的那样，中心极限定理为我们解释了为什么会发生这种情况。

为了看到中心极限定理的作用，让我们使用 NHANES 数据集中的变量 AlcoholYear，该变量呈高度偏斜，如图 7.2 的左面板所示。这个分布，缺乏更好的词来形容，有点奇怪，绝对不是正态分布。现在让我们看看这个变量的均值抽样分布。图 7.2 显示了这个变量的均值抽样分布，通过反复从 NHANES 数据集中抽取大小为 50 的样本并取均值获得。尽管原始数据明显不是正态分布，但抽样分布与正态分布非常接近。

图 7.2：左图：NHANES 数据集中变量 AlcoholYear 的分布，反映了个体一年内饮酒的天数。右图：NHANES 数据集中 AlcoholYear 的均值抽样分布，通过从 NHANES 数据集中重复抽取大小为 50 的样本获得，用蓝色表示。具有相同均值和标准差的正态分布用红色表示。

中心极限定理对统计学很重要，因为它允许我们安全地假设平均数的抽样分布在大多数情况下是正态的。这意味着我们可以利用假设正态分布的统计技术，正如我们将在下一节中看到的那样。它也很重要，因为它告诉我们为什么正态分布在现实世界中如此普遍；每当我们将许多不同因素合并成一个单一数字时，结果很可能是正态分布。例如，任何成年人的身高取决于他们的遗传和经验的复杂混合；即使这些个体贡献可能不是正态分布的，当我们将它们结合起来时，结果就是正态分布。

7.5 学习目标

阅读完本章后，您应该能够：

区分总体和样本，以及总体参数和样本统计量
描述抽样误差和抽样分布的概念
计算平均数的标准误差
描述中心极限定理如何决定平均数的抽样分布的性质

7.6 建议阅读

《信号与噪音：为什么这么多预测失败-但有些不会》，作者：内特·席尔瓦

第八章：重采样和模拟

原文：statsthinking21.github.io/statsthinking21-core-site/resampling-and-simulation.html

译者：飞龙

协议：CC BY-NC-SA 4.0

计算机模拟的使用已经成为现代统计学的一个重要方面。例如，实际计算机科学中最重要的书之一，名为《数值方法》，说：

“如果让我们选择掌握五英尺高的分析统计书籍和在执行统计蒙特卡洛模拟方面具有一般能力之间，我们肯定会选择后者的技能。”

在本章中，我们将介绍蒙特卡洛模拟的概念，并讨论如何使用它进行统计分析。

8.1 蒙特卡洛模拟

蒙特卡洛模拟的概念是由数学家斯坦·乌拉姆和尼古拉斯·梅特罗波利斯提出的，他们正在为美国曼哈顿计划的原子武器开发工作。他们需要计算中子在物质中与原子核碰撞之前的平均距离，但他们无法使用标准数学计算。乌拉姆意识到这些计算可以使用随机数来模拟，就像赌场游戏一样。在赌场游戏中，例如轮盘赌，数字是随机生成的；为了估计特定结果的概率，可以玩数百次游戏。乌拉姆的叔叔曾在摩纳哥的蒙特卡洛赌场赌博，这显然是这种新技术的名称来源。

执行蒙特卡洛模拟有四个步骤：

定义可能值的域
从概率分布中生成该域内的随机数
使用随机数进行计算
在许多重复中结合结果

例如，假设我想弄清楚为课堂测验留多少时间。我们暂时假设我们知道测验完成时间的分布是正态分布，均值为 5 分钟，标准差为 1 分钟。在这种情况下，测试时间需要多长，以便我们预计所有学生 99%的时间都能完成考试？解决这个问题有两种方法。第一种是使用称为极值统计的数学理论计算答案。然而，这涉及复杂的数学。或者，我们可以使用蒙特卡洛模拟。为此，我们需要从正态分布中生成随机样本。

8.2 统计学中的随机性

“随机”一词在口语中经常用来指称奇怪或意外的事物，但在统计学中，这个词有一个非常具体的含义：如果一个过程是随机的，那么它是不可预测的。例如，如果我抛一枚公平的硬币 10 次，一次抛硬币的结果的值并不能提供任何信息，让我能够预测下一次抛硬币的结果。重要的是要注意，某事是不可预测的并不一定意味着它不是确定性的。例如，当我们抛硬币时，抛硬币的结果是由物理定律决定的；如果我们以足够详细的方式知道所有条件，我们应该能够预测抛硬币的结果。然而，许多因素结合在一起，使得硬币抛掷的结果在实践中是不可预测的。

心理学家已经证明，人类实际上对随机性有相当糟糕的感觉。首先，我们倾向于在不存在的情况下看到模式。在极端情况下，这导致了错觉现象，即人们会在随机模式中看到熟悉的物体（例如将云看作人脸或在一片面包上看到圣母玛利亚）。其次，人类倾向于认为随机过程是自我纠正的，这使我们期望在游戏中输了很多轮之后“应该赢了”，这种现象被称为“赌徒谬误”。

8.3 生成随机数

运行蒙特卡洛模拟需要生成随机数。生成真正的随机数（即完全不可预测的数）只能通过物理过程来实现，例如原子衰变或掷骰子，这些过程很难获得和/或太慢，以至于对于计算机模拟来说不实用（尽管可以从NIST 随机性信标获得）。

通常情况下，我们使用计算机算法生成的伪随机数，而不是真正的随机数；这些数字在某种意义上看起来是随机的，因为它们很难预测，但实际上数字序列会在某个时候重复。例如，在 R 中使用的随机数生成器在$2^{19937} - 1$个数字后会重复。这远远超过了宇宙历史上的秒数，我们普遍认为这对于统计分析的大多数目的来说是可以接受的。

大多数统计软件包括用于生成每个主要概率分布的随机数的函数，例如均匀分布（0 到 1 之间的所有值均等）、正态分布和二项分布（例如掷骰子、抛硬币）。图 8.1 显示了从均匀分布和正态分布函数生成的数字的示例。

图 8.1：从均匀（左）或正态（右）分布生成的随机数示例。

我们还可以使用分布的分位数函数生成任何分布的随机数。这是累积分布函数的反函数；分位数函数不是为一组值确定累积概率，而是为一组累积概率确定值。使用分位数函数，我们可以从均匀分布中生成随机数，然后通过其分位数函数将其映射到感兴趣的分布中。

在统计软件中，默认情况下，随机数生成器每次运行时都会生成不同的随机数集。然而，也可以通过将所谓的随机种子设置为特定值来生成完全相同的随机数集。如果你看一下生成这些图表的代码，我们将在本书的许多示例中这样做，以确保这些示例是可重现的。

8.4 使用蒙特卡洛模拟

让我们回到我们的考试完成时间的例子。假设我进行了三次测验，并记录了每个学生对每次考试的完成时间，这可能看起来像图 8.2 中呈现的分布。

图 8.2：模拟完成时间分布。

为了回答我们的问题，我们真正想知道的不是完成时间的分布是什么样子，而是每次测验的最长完成时间的分布是什么样子。为了做到这一点，我们可以模拟测验的完成时间，使用上面提到的完成时间分布正态分布的假设；对于这些模拟的测验中，我们记录最长的完成时间。我们重复这个模拟很多次（5000 次应该足够），并记录完成时间的分布，如图 8.3 所示。

图 8.3：模拟中最长完成时间的分布。

这表明完成时间分布的第 99 百分位数为 8.74，这意味着如果我们给予这么多时间来做测验，那么 99%的时间每个人都应该能完成。重要的是要记住我们的假设很重要 - 如果它们是错误的，那么模拟的结果就毫无意义。在这种情况下，我们假设完成时间分布是正态分布的，具有特定的平均值和标准差；如果这些假设是不正确的（几乎肯定是不正确的，因为经过的时间很少是正态分布的），那么真实的答案可能会大不相同。

8.5 使用模拟进行统计：bootstrap

到目前为止，我们已经使用模拟来演示统计原理，但我们也可以使用模拟来回答真实的统计问题。在本节中，我们将介绍一个称为bootstrap的概念，它让我们可以使用模拟来量化我们对统计估计的不确定性。在课程的后面，我们将看到其他例子，说明模拟通常可以用来回答统计问题，特别是当理论统计方法不可用或者它们的假设太难满足时。

8.5.1 计算 bootstrap

在上一章中，我们利用对平均值的抽样分布的了解来计算平均值的标准误差。但是，如果我们不能假设估计值是正态分布的，或者我们不知道它们的分布是什么怎么办？bootstrap 的想法是使用数据本身来估计答案。这个名字来源于一个拉自己的靴带的想法，表达了我们没有任何外部杠杆的想法，所以我们必须依靠数据本身。bootstrap 方法是由斯坦福大学统计系的 Bradley Efron 构想的，他是世界上最有影响力的统计学家之一。

bootstrap 背后的想法是我们反复从实际数据集中抽样；重要的是，我们进行有放回的抽样，这样同一个数据点往往会在一个样本中被多次表示。然后我们计算我们感兴趣的统计量在每个 bootstrap 样本上，然后使用这些估计值的分布作为我们的抽样分布。在某种意义上，我们将我们特定的样本视为整个人口，然后反复进行有放回的抽样来生成我们用于分析的样本。这假设我们特定的样本是人口的准确反映，对于较大的样本来说可能是合理的，但在样本较小时可能会失效。

让我们首先使用 bootstrap 来估计 NHANES 数据集中成年人身高的平均值的抽样分布，以便我们可以将结果与我们之前讨论的平均标准误差（SEM）进行比较。

图 8.4：使用 bootstrap 来计算 NHANES 数据集中成年人身高的平均标准误差的示例。直方图显示了 bootstrap 样本中平均值的分布，而红线显示了基于样本平均值和标准差的正态分布。

图 8.4 显示，通过自助法样本的均值分布与基于正态分布假设的理论估计相当接近。通常情况下，我们不会使用自助法来计算均值的置信区间（因为我们通常可以假设正态分布适用于均值的抽样分布，只要我们的样本足够大），但这个例子展示了这种方法给我们带来了与基于正态分布的标准方法大致相同的结果。自助法更常用于生成我们知道或怀疑正态分布不适用的其他统计量的标准误差。此外，在后面的章节中，您将看到我们还可以使用自助法样本来生成我们样本统计量的不确定性估计。

8.6 学习目标

阅读完本章后，您应该能够：

描述蒙特卡洛模拟的概念。
描述统计学中随机性的含义
描述伪随机数是如何生成的
描述自助法的概念

8.7 建议阅读

计算机时代的统计推断：算法、证据和数据科学，作者：布拉德利·埃夫隆（Bradley Efron）和特雷弗·哈斯蒂（Trevor Hastie）

第九章：假设检验

原文：statsthinking21.github.io/statsthinking21-core-site/hypothesis-testing.html

译者：飞龙

协议：CC BY-NC-SA 4.0

在第一章中，我们讨论了统计学的三个主要目标：

描述
决定
预测

在本章中，我们将介绍使用统计数据做出决策的思想，特别是关于某个特定假设是否得到数据支持的决策。

9.1 零假设统计检验（NHST）

我们将讨论的特定类型的假设检验被称为零假设统计检验（NHST）（出于将要明确的原因）。如果你拿起几乎任何科学或生物医学研究出版物，你会看到 NHST 被用来测试假设，在他们的心理学入门教科书中，Gerrig & Zimbardo（2002）将 NHST 称为“心理研究的支柱”。因此，学习如何使用和解释假设检验的结果对于理解许多研究领域的结果至关重要。

然而，你也需要知道，NHST 存在严重缺陷，许多统计学家和研究人员（包括我自己）认为它已经导致了科学上的严重问题，我们将在第[18]章（进行可重复研究.html#进行可重复研究）中讨论。50 多年来，人们一直呼吁放弃 NHST，转而采用其他方法（就像我们将在接下来的章节中讨论的那些方法）：

“心理研究中的统计显著性检验可以被视为研究进行中一种基本的无意识”（Bakan，1966）
假设检验是“关于构成科学进步的错误观点”（Luce，1988）

NHST 也被广泛误解，主要是因为它违反了我们对统计假设检验应该如何工作的直觉。让我们看一个例子来看看这一点。

9.2 零假设统计检验：一个例子

人们对警察佩戴身体摄像头的兴趣很大，认为这可以减少使用武力并改善警察的行为。然而，为了证实这一点，我们需要实验证据，政府越来越普遍地使用随机对照试验来测试这样的想法。华盛顿特区政府和华盛顿特区警察局在 2015/2016 年进行了一项关于身体摄像头有效性的随机对照试验。警察被随机分配佩戴或不佩戴身体摄像头，然后跟踪他们的行为，以确定摄像头是否导致使用武力减少以及有关警察行为的民事投诉减少。

在我们得出结果之前，让我们问一下你认为统计分析可能是如何工作的。假设我们想具体测试佩戴摄像头是否减少使用武力的假设。随机对照试验为我们提供了测试假设的数据，即分配给摄像头组或对照组的警官使用武力的比率。下一个明显的步骤是查看数据，并确定它们是否提供有力的证据支持或反对这一假设。也就是说：鉴于数据和我们所知道的其他一切，佩戴身体摄像头是否减少了使用武力的可能性有多大？

事实证明，这不是零假设检验的工作方式。相反，我们首先拿出我们感兴趣的假设（即佩戴身体摄像头会减少使用武力），然后将其颠倒过来，创建一个零假设 - 在这种情况下，零假设将是摄像头不会减少使用武力。重要的是，我们假设零假设为真。然后我们看数据，并确定如果零假设为真，数据会有多大可能性。如果数据在零假设下不够可能，我们可以拒绝零假设，支持备择假设，这是我们感兴趣的假设。如果没有足够的证据来拒绝零假设，那么我们说我们保留（或“未能拒绝”）零假设，坚持我们最初的假设零假设为真。

理解 NHST 的一些概念，特别是臭名昭著的“p 值”，第一次遇到它们无疑是具有挑战性的，因为它们是如此违反直觉。正如我们将在后面看到的，还有其他方法可以提供更直观的方式来处理假设检验（但它们也有自己的复杂性）。然而，在我们接触这些方法之前，你有必要深刻理解假设检验的工作原理，因为显然它不会很快消失。

9.3 零假设检验的过程

我们可以将零假设检验的过程分解为几个步骤：

制定一个包含我们预测的假设（在看到数据之前）
指定零假设和备择假设
收集与假设相关的一些数据
将模型拟合到代表备择假设的数据中，并计算一个检验统计量
计算假设为真时观察值的概率
评估结果的“统计显著性”

举个实际例子，让我们使用 NHANES 数据来问以下问题：体力活动是否与身体质量指数有关？在 NHANES 数据集中，参与者被问及是否经常参与中等或剧烈强度的体育、健身或娱乐活动（存储在变量$PhysActive$中）。研究人员还测量了身高和体重，并用它们来计算身体质量指数（BMI）：

$$ BMI = \frac{weight(kg)}{height(m)^2} $$

9.3.1 步骤 1：制定感兴趣的假设

我们假设不参与体力活动的人的 BMI 比参与的人更高。

9.3.2 步骤 2：指定零假设和备择假设

对于步骤 2，我们需要指定我们的零假设（我们称之为$H_0$）和我们的备择假设（我们称之为$H_A$）。$H_0$是我们测试感兴趣的假设的基准：也就是说，如果没有效应，我们期望数据看起来会是什么样子？零假设总是涉及某种形式的相等（=，$\le$或$\ge$）。$H_A$描述了如果实际上有效应，我们期望的情况。备择假设总是涉及某种形式的不等式（$\ne$，>或<）。重要的是，零假设检验在假设零假设为真的情况下进行。

我们还必须决定是否要测试定向或非定向假设。非定向假设只是预测会有差异，而不预测差异的方向。对于 BMI/活动的例子，非定向零假设将是：

$H0: BMI_{active} = BMI_{inactive}$

相应的非定向备择假设将是：

$HA: BMI_{active} \neq BMI_{inactive}$

另一方面，定向假设预测了差异的方向。例如，我们有强烈的先验知识来预测参与体力活动的人应该比不参与的人体重更轻，因此我们提出以下定向零假设：

$H0: BMI_{active} \ge BMI_{inactive}$

和定向备择假设：

$HA: BMI_{active} < BMI_{inactive}$

正如我们将在后面看到的，测试非定向假设更为保守，因此通常更可取，除非有强有力的先验理由假设特定方向上的效应。假设，包括它们是否是定向的，应该在查看数据之前始终明确指定！

9.3.3 步骤 3：收集一些数据

在这种情况下，我们将从 NHANES 数据集中抽取 250 个个体。图 9.1 展示了这样一个样本的示例，其中 BMI 分别显示为活跃和不活跃的个体，表 9.1 显示了每组的摘要统计信息。

表 9.1：活动与不活动个体的 BMI 数据总结

身体活动	N	均值	标准差
编号	131	30	9.0
是	119	27	5.2

图 9.1：来自 NHANES 数据集成年人样本的 BMI 数据的箱线图，按是否报告参与定期体育活动进行分割。

9.3.4 步骤 4：对数据进行建模并计算检验统计量

接下来，我们希望使用数据计算一个统计量，最终让我们决定是否拒绝零假设。为此，模型需要量化支持备择假设的证据量，相对于数据的变异性。因此，我们可以将检验统计量视为提供效应大小相对于数据变异性的一种度量。一般来说，这个检验统计量将与概率分布相关联，因为这使我们能够确定在零假设下我们观察到的统计量的概率有多大。

对于 BMI 的例子，我们需要一个检验统计量，允许我们测试两个均值之间的差异，因为假设是以每组的平均 BMI 来陈述的。经常用于比较两个均值的统计量是t统计量，最初由统计学家威廉·西利·高斯特(Wiliam Sealy Gossett)开发，他在都柏林的吉尼斯啤酒厂工作，并以笔名“学生”写作，因此通常被称为“学生t统计量”。当样本量相对较小且总体标准差未知时，t统计量适用于比较两组的均值。用于比较两个独立组的t统计量计算如下：

$$ t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} $$

其中$\bar{X}_1$和$\bar{X}_2$是两组的均值，$S^2_1$和$S2_2$是两组的估计方差，$n_1$和$n_2$是两组的样本量。因为两个独立变量的差异的方差是每个单独变量的方差的总和($var(A - B) = var(A) + var(B)$)，我们将每组的方差除以它们的样本量，以计算差异的标准误差。因此，可以将t统计量视为量化组间差异与均值差异的抽样变异性之间的大小关系的一种方式。

t统计量根据一个被称为t分布的概率分布进行分布。t分布看起来非常类似于正态分布，但它根据自由度的数量而有所不同。当自由度很大（比如 1000），那么t分布看起来基本上就像正态分布，但当自由度很小时，t分布的尾部比正态分布要长（见图 9.2）。在最简单的情况下，如果组的大小相同且方差相等，t检验的自由度就是观察值的数量减去 2，因为我们计算了两个均值，因此放弃了两个自由度。在这种情况下，从箱线图中很明显可以看出，非活跃组的变异性比活跃组更大，并且每组的数字也不同，因此我们需要使用一个稍微复杂一点的自由度公式，通常被称为“韦尔奇 t 检验”。公式为：

$$ \mathrm{d.f.} = \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^{2}{n_2}\right)}2}{\frac{\left(S_1^2/n_1\right)2}{n_1-1} + \frac{\left(S_2^2/n_2\right)2}{n_2-1}} $$

当方差和样本大小相等时，这将等于$n_1 + n_2 - 2$，否则会更小，实际上对样本大小或方差的差异对检验施加了惩罚。对于这个例子，计算结果为 241.12，略低于从样本大小减去 2 得到的 248。

图 9.2：每个面板显示了 t 分布（蓝色虚线）叠加在正态分布（红色实线）上。左面板显示了自由度为 4 的 t 分布，此时分布类似但尾部略宽。右面板显示了自由度为 1000 的 t 分布，此时它几乎与正态分布相同。

9.3.5 第 5 步：确定零假设下观察结果的概率

这一步是 NHST 开始违反我们的直觉的地方。我们不是确定在数据给定的情况下零假设为真的可能性，而是确定在零假设下观察到至少与我们观察到的统计量一样极端的可能性 — 因为我们最初假设零假设为真！为了做到这一点，我们需要知道在零假设下统计量的预期概率分布，这样我们就可以问在该分布下结果有多大可能性。请注意，当我说“结果有多大可能性”时，我真正的意思是“观察到的结果或更极端的结果有多大可能性”。我们需要添加这个警告的原因至少有两个。第一个是当我们谈论连续值时，任何特定值的概率都是零（如果你上过微积分课程，可能还记得）。更重要的是，我们试图确定如果零假设成立，我们的结果有多奇怪，任何更极端的结果都会更奇怪，因此在计算零假设下我们的结果的概率时，我们希望计算所有这些更奇怪的可能性。

我们可以使用理论分布（如t分布）或使用随机化来获得这个“零分布”。在我们转向 BMI 的例子之前，让我们从一些更简单的例子开始。

9.3.5.1 P 值：一个非常简单的例子

假设我们想要确定一枚特定硬币是否有偏向翻转为正面的倾向。为了收集数据，我们翻转了 100 次硬币，假设我们数到了 70 次正面。在这个例子中，$H_0: P(正面) \le 0.5$ 和 $H_A: P(正面) > 0.5$，我们的检验统计量就是我们数到的正面次数。然后我们想要问的问题是：如果正面的真实概率是 0.5，那么我们观察到 100 次翻转中 70 次或更多正面的可能性有多大？我们可以想象这可能偶尔会发生，但似乎不太可能。为了量化这个概率，我们可以使用二项分布：

$$ P(X \le k) = \sum_{i=0}^k \binom{N}{k} p^i (1-p)^{(n-i)} $$

这个方程将告诉我们在特定的头像概率（$p$）和事件数量（$N$）的情况下，特定数量的头像（$k$）或更少的概率。然而，我们真正想知道的是特定数量或更多的概率，我们可以通过减去一来获得，根据概率规则：

$$ P(X \ge k) = 1 - P(X < k) $$

图 9.3：100,000 次模拟运行中头像数量（100 次翻转）的分布，观察到的 70 次翻转由垂直线表示。

使用二项分布，给定 P(头像)=0.5，69 个或更少头像的概率为 0.999961，因此 70 个或更多头像的概率就是 1 减去这个值（0.000039）。这个计算告诉我们，如果硬币确实是公平的，那么得到 70 个或更多头像的可能性是非常小的。

现在，如果我们没有一个标准函数告诉我们那个数量的头像的概率会怎么样？我们可以通过模拟来确定，我们重复翻转一枚硬币 100 次，使用真实概率 0.5，然后计算这些模拟运行中头像数量的分布。图 9.3 显示了这个模拟的结果。在这里我们可以看到，通过模拟计算的概率（0.000030）非常接近理论概率（0.000039）。

9.3.5.2 使用t分布计算 p 值

现在让我们使用t分布来计算我们 BMI 示例的 p 值。首先，我们使用上面计算的样本值计算t统计量，我们发现 t = 3.86。然后我们想要问的问题是：如果组之间的真实差异为零或更小（即方向性零假设），那么我们会发现这样大小的t统计量的可能性是多少？

我们可以使用t分布来确定这个概率。在上面我们注意到，适当的自由度（在校正方差和样本大小的差异后）是 t = 241.12。我们可以使用统计软件中的函数来确定找到大于或等于我们观察到的t统计值的概率。我们发现 p(t > 3.86, df = 241.12) = 0.000072，这告诉我们，如果零假设确实成立，那么我们观察到的t统计值 3.86 相对不太可能。

在这种情况下，我们使用了定向假设，因此我们只需要查看零分布的一端。如果我们想要测试非定向假设，那么我们需要能够确定效应大小的意外程度，而不考虑其方向。在 t 检验的背景下，这意味着我们需要知道统计量在正向或负向方向上有多么意外的可能性。为了做到这一点，我们将观察到的 t 值乘以 -1，因为 t 分布以零为中心，然后将两个尾部概率相加，得到双尾 p 值：p(t > 3.86 或 t< -3.86, df = 241.12) = 0.000145。在这里，我们看到双尾检验的 p 值是单尾检验的两倍，这反映了一个极端值不那么令人惊讶，因为它可能发生在任何方向。

你如何选择使用单尾还是双尾检验？双尾检验总是更保守，所以最好使用双尾检验，除非你有非常强烈的先验理由使用单尾检验。在这种情况下，你应该在查看数据之前就写下假设。在第 18 章中，我们将讨论假设的预先注册的概念，这正式了在查看实际数据之前写下假设的想法。一旦查看了数据，你绝对不应该对如何进行假设检验做出决定，因为这可能会导致结果严重偏倚。

9.3.5.3 使用随机化计算 p 值

到目前为止，我们已经看到了如何使用 t 分布来计算零假设下数据的概率，但我们也可以使用模拟来做到这一点。基本思想是，我们生成类似于零假设下预期数据的模拟数据，然后询问观察到的数据与这些模拟数据相比有多极端。关键问题是：我们如何生成使零假设成立的数据？一般的答案是，我们可以以一种特定的方式随机重新排列数据，使数据看起来像如果零假设真的成立时会是什么样子。这类似于自举的概念，因为它使用我们自己的数据来得出答案，但它的方式不同。

9.3.5.4 随机化：一个简单的例子

让我们从一个简单的例子开始。假设我们想比较足球运动员和越野跑步者的平均深蹲能力，其中 $H_0: \mu_{FB} \le \mu_{XC}$ 和 $H_A: \mu_{FB} > \mu_{XC}$。我们测量了 5 名足球运动员和 5 名越野跑步者的最大深蹲能力（我们将随机生成），假设 $\mu_{FB} = 300$，$\mu_{XC} = 140$，和 $\sigma = 30$。数据如表 9.2 所示。

表 9.2：两组深蹲数据

组	深蹲	打乱的深蹲
FB	265	125
FB	310	230
FB	335	125
FB	230	315
FB	315	115
XC	155	335
XC	125	155
XC	125	125
XC	125	265
XC	115	310

图 9.4：左：模拟足球运动员和越野跑步者深蹲能力的箱线图。右：在混淆组标签后分配给每组受试者的箱线图。

从图 9.4 的左侧图表可以清楚地看出两组之间存在很大的差异。我们可以进行标准的 t 检验来测试我们的假设；在这个例子中，我们将使用 R 中的 t.test() 命令，得到以下结果：

## 
##  Welch Two Sample t-test
## 
## data:  squat by group
## t = 8, df = 5, p-value = 2e-04
## alternative hypothesis: true difference in means between group FB and group XC is greater than 0
## 95 percent confidence interval:
##  121 Inf
## sample estimates:
## mean in group FB mean in group XC 
##              291              129

如果我们看一下这里报告的 p 值，我们会发现在零假设下出现这样的差异的可能性非常小，使用t分布来定义零。

现在让我们看看如何使用随机化来回答相同的问题。基本思想是，如果没有组之间的差异的零假设成立，那么来自哪个组（足球运动员与越野跑步者）就不重要 - 因此，为了创建像我们实际数据一样但也符合零假设的数据，我们可以随机重新排列数据集中个体的数据，然后重新计算组之间的差异。这样的洗牌结果显示在表 9.2 的“shuffleSquat”列中，生成的数据的箱线图显示在图 9.4 的右面板中。

图 9.5：在随机洗牌组成员资格后，足球和越野组之间的平均差异的 t 值的直方图。垂直线表示两组之间观察到的实际差异，虚线显示了此分析的理论 t 分布。

在混淆数据之后，我们看到两组现在更加相似，事实上越野组现在的平均值略高。现在让我们这样做 10000 次，并存储每次迭代的t统计量；如果你在自己的电脑上进行这个操作，完成需要一段时间。图 9.5 显示了所有随机洗牌的t值的直方图。如预期的那样，在零假设下，这个分布以零为中心（分布的均值为 0.007）。从图中我们还可以看到，在洗牌后t值的分布大致遵循零假设下的理论t分布（均值=0），表明随机化工作生成了零数据。我们可以通过测量多少洗牌值至少与观察值一样极端来计算来自随机数据的 p 值：p(t > 8.01, df = 8) using randomization = 0.00410。这个 p 值与我们使用t分布得到的 p 值非常相似，两者都非常极端，表明如果零假设成立，观察到的数据非常不可能出现 - 在这种情况下，我们知道它不是真的，因为我们生成了数据。

9.3.5.4.1 随机化：BMI/活动示例

现在让我们使用随机化来计算 BMI/活动示例的 p 值。在这种情况下，我们将随机洗牌PhysActive变量，并在每次洗牌后计算两组之间的差异，然后将我们观察到的t统计量与洗牌数据的t统计量的分布进行比较。图 9.6 显示了来自洗牌样本的t值的分布，我们还可以计算找到一个与观察值一样大或更大的值的概率。从随机化得到的 p 值（0.000000）与使用t分布得到的 p 值（0.000075）非常相似。随机化检验的优势在于，它不要求我们假设每个组的数据都是正态分布的，尽管 t 检验通常对该假设的违反具有相当的鲁棒性。此外，随机化检验可以让我们计算统计量的 p 值，即使我们没有像 t 检验那样的理论分布。

图 9.6：在组标签混洗后 t 统计直方图，垂直线显示 t 统计的观察值，至少与观察值一样极端的值显示为浅灰色

当我们使用随机化检验时，我们必须做出一个主要假设，我们称之为可交换性。这意味着所有的观察结果都以相同的方式分布，这样我们可以互换它们而不改变整体分布。这种假设可能会破坏的主要地方是当数据中存在相关的观察结果时；例如，如果我们有来自 4 个不同家庭的个体数据，那么我们不能假设个体是可交换的，因为兄弟姐妹之间的距离比他们与其他家庭的个体之间的距离更近。一般来说，如果数据是通过随机抽样获得的，那么可交换性的假设应该成立。

9.3.6 步骤 6：评估结果的“统计显著性”

下一步是确定从前一步得出的 p 值是否足够小，以至于我们愿意拒绝零假设，相反地得出替代假设是真实的。我们需要多少证据？这是统计学中最具争议的问题之一，部分原因是因为它需要主观判断——没有“正确”的答案。

历史上，对这个问题最常见的答案是，如果 p 值小于 0.05，我们应该拒绝零假设。这来自于罗纳德·费舍尔的著作，他被称为“20 世纪统计学中最重要的人物”（Efron 1998）：

“如果 P 在 .1 和 .9 之间，肯定没有理由怀疑被检验的假设。如果它低于 .02，强烈表明假设未能解释所有的事实。如果它低于 .05，我们不会经常走错路……在大约我们可以说的水平上画一条线：要么治疗有效，要么发生了一次在二十次试验中不会再次发生的巧合”（R. A. Fisher 1925）

然而，费舍尔从未打算 $p < 0.05$ 成为一个固定的规则：

“没有科学工作者有一个固定的显著性水平，从一年到另一年，在所有情况下，他拒绝假设；相反，他根据他的证据和想法来考虑每个特定情况”（罗纳德·艾尔默·费舍尔 1956）

相反，p < .05 很可能成为一种仪式，因为在计算变量的任意值的 p 值变得容易之前，人们依赖于使用表格的 p 值。所有的表格都有一个 0.05 的条目，这样就很容易确定自己的统计量是否超过了达到那个显著水平所需的值。

统计阈值的选择仍然存在深刻的争议，最近（Benjamin et al., 2018）提出将默认阈值从 0.05 更改为 0.005，使其更严格，因此更难拒绝零假设。在很大程度上，这一举措是由于越来越多的人担心从 $p < .05$ 的显著结果获得的证据相对较弱；我们将在第 18 章中讨论可重复性时返回到这一点。

9.3.6.1 假设检验作为决策：内曼-皮尔逊方法

而 Fisher 认为 p 值可以提供关于特定假设的证据，统计学家 Jerzy Neyman 和 Egon Pearson 则强烈反对。相反，他们提出我们应该从长期的错误率角度来考虑假设检验：

“基于概率理论的任何测试本身都不能提供任何有价值的关于假设真假的证据。但我们可以从另一个角度来看待测试的目的。在不希望知道每个单独假设是真还是假的情况下，我们可以寻找规则来指导我们对待它们的行为，通过遵循这些规则，我们确保在长期的经验中，我们不会经常犯错”（J. Neyman and Pearson 1933）

也就是说：我们无法知道具体的决策是对还是错，但如果我们遵循规则，至少可以知道我们的决策在长期内会有多少错误。

为了理解 Neyman 和 Pearson 开发的决策框架，我们首先需要讨论统计决策的结果类型。现实存在两种可能的状态（$H_0$为真，或$H_0$为假），以及两种可能的决策（拒绝$H_0$，或保留$H_0$）。我们可以做出正确决策的两种方式：

当$H_0$为假时我们拒绝$H_0$（在信号检测理论的术语中，我们称之为命中）
当$H_0$为真时我们保留$H_0$（在这种情况下有些令人困惑，这被称为正确拒绝）

我们也可以犯两种错误：

当$H_0$实际上为真时我们拒绝$H_0$（我们称之为虚警，或I 型错误）
当$H_0$实际上为假时我们保留$H_0$（我们称之为漏失，或II 型错误）

Neyman 和 Pearson 创造了两个术语来描述长期内这两种错误的概率：

P(I 型错误) = $\alpha$
P(II 型错误) = $\beta$

也就是说，如果我们将$\alpha$设为 0.05，那么长期内我们应该有 5%的概率犯 I 型错误。虽然通常将$\alpha$设为 0.05，但可接受的$\beta$水平的标准值为 0.2——也就是说，我们愿意接受 20%的时间我们无法检测到真实效应。我们将在后面讨论统计功效时再回到这一点，统计功效是 II 型错误的补充。

9.3.7 显著结果意味着什么？

关于 p 值的实际含义存在很多混淆（Gigerenzer, 2004）。假设我们进行一个实验，比较不同条件下的平均值，发现 p 值为 0.01。可能有多种解释。

9.3.7.1 这意味着零假设为真的概率是 0.01 吗？

不是。请记住，在零假设检验中，p 值是给定零假设下数据的概率（$P(data|H_0)$）。它并不支持关于给定数据的零假设的概率（$P(H_0|data)$）的结论。当我们在后面的章节讨论贝叶斯推断时，我们将回到这个问题，因为贝叶斯定理让我们以一种方式反转条件概率，从而能够确定给定数据的假设概率。

9.3.7.2 这意味着你做出错误决策的概率是 0.01 吗？

不是。这将是$P(H_0|data)$，但请记住，p 值是在$H_0$下数据的概率，而不是假设的概率。

9.3.7.3 这意味着如果你再次进行研究，你会 99%的时间得到相同的结果吗？

不是。p 值是关于在零假设下特定数据集的可能性的陈述；它不允许我们对未来事件的可能性（如重复实验）进行推断。

9.3.7.4 这意味着你发现了一个实际重要的效应吗？

不。统计显著性和实际显著性之间存在重要区别。举个例子，假设我们进行了一项随机对照试验，以检验某种特定饮食对体重的影响，并且我们发现在 p<.05 的水平上存在统计学上显著的影响。这并不能告诉我们实际上减掉了多少体重，这被称为效应大小（将在第 10 章中更详细地讨论）。如果我们考虑一项减肥研究，那么我们可能不认为失去一盎司（即几片薯条的重量）是实际上显著的。让我们看看随着样本量的增加，我们能否检测到 1 盎司的显著差异。

图 9.7 显示，随着样本量的增加，显著结果的比例增加，因此在非常大的样本量（约 262,000 名受试者）中，当两种饮食之间的体重减少差异为 1 盎司时，我们将在超过 90%的研究中发现显著结果。尽管这些是统计上显著的，但大多数医生不会认为减重一盎司在实际上或临床上是显著的。当我们回到第 10.3 节讨论统计功效的概念时，我们将更详细地探讨这种关系，但从这个例子中已经很清楚，统计显著性并不一定表明实际显著性。

图 9.7：对于一个非常小的变化（1 盎司，大约为.001 标准差）的显著结果的比例，作为样本量的函数。

9.4 现代语境下的 NHST：多重检验

到目前为止，我们已经讨论了我们感兴趣的测试单个统计假设的例子，这与传统科学一致，传统科学通常一次只测量少量变量。然而，在现代科学中，我们通常可以测量每个个体的数百万个变量。例如，在量化整个基因组的遗传研究中，每个个体可能有数百万个测量值，在我所在的大脑成像研究中，我们经常一次从大脑的 10 万多个位置收集数据。在这些情况下应用标准的假设检验，除非我们适当地加以注意，否则会发生不好的事情。

让我们举个例子来看看这可能是如何工作的。人们对了解可以使个体易患严重精神疾病（如精神分裂症）的遗传因素非常感兴趣，因为我们知道大约 80%的精神分裂症患者之间的差异是由遗传差异引起的。人类基因组计划及随后的基因组科学革命提供了工具，可以检查人类在基因组方面的许多差异。近年来使用的一种方法称为全基因组关联研究（GWAS），其中对每个个体的基因组进行表征，以确定他们在每个位置的遗传密码中有哪些字母，重点关注人类经常不同的位置。确定了这些位置后，研究人员在基因组的每个位置进行统计检验，以确定被诊断为精神分裂症的人是否更有可能在该位置具有遗传序列的一个特定版本。

让我们想象一下，如果研究人员简单地询问每个位置的测试是否在 p<.05 水平上显著，而实际上在任何位置都没有真正的效应会发生什么。为了做到这一点，我们从零分布中生成大量模拟的t值，并询问有多少个在 p<.05 水平上显著。让我们多次这样做，每次计算有多少测试结果显著（见图 9.8）。

图 9.8：左：当实际上没有真正效应时，在每一百万次统计测试中每组显著结果的直方图。右：应用多重测试的邦费罗尼校正后，在所有模拟运行中显著结果的直方图。

这表明每次运行中约 5%的测试都是显著的，这意味着即使在真正没有显著关系的情况下，如果我们将 p < .05 作为统计显著性的阈值，那么即使在每项研究中也会“发现”约 500 个基因在统计上是显著的（显著结果的预期数量简单地是$n * \alpha$）。这是因为虽然我们控制了每次测试的错误，但我们没有控制整个测试家族的错误率（称为家族智误差），这才是我们真正想要控制的，如果我们要查看大量测试的结果。在上面的例子中，使用 p<.05，我们的家族智误差率是 1 - 也就是说，在任何特定研究中，我们几乎肯定会至少犯一个错误。

控制家族智误差的一种简单方法是将α水平除以测试次数；这被称为邦费罗尼校正，以意大利统计学家卡洛·邦费罗尼命名。使用上面例子中的数据，我们可以看到在图 9.8 中，只有约 5%的研究显示出任何显著结果，使用校正后的α水平 0.000005，而不是名义水平 0.05。我们有效地控制了家族智误差，使得我们研究中出现任何错误的概率控制在 0.05 左右。

9.5 学习目标

识别假设检验的组成部分，包括感兴趣的参数、零假设和备择假设以及检验统计量。
描述 p 值的正确解释以及常见的误解
在假设检验中区分两种类型的错误以及决定它们的因素。
描述如何使用重抽样来计算 p 值。
描述多重检验的问题以及如何解决
描述零假设统计检验的主要批评。

9.6 建议阅读

《无意义的统计学》，作者格尔德·吉格伦策

参考资料

Efron, Bradley. 1998. “R. A. Fisher in the 21st Century (Invited Paper Presented at the 1996 r. A. Fisher Lecture).” Statist. Sci. 13 (2): 95–122. https://doi.org/10.1214/ss/1028905930.
Fisher, R. A. 1925. Statistical Methods for Research Workers. Edinburgh Oliver & Boyd.
Fisher, Ronald Aylmer. 1956. Statistical Methods and Scientific Inference. New York: Hafner Pub. Co.
Neyman, J., and K. Pearson. 1933. “On the Problem of the Most Efficient Tests of Statistical Hypotheses.” Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 231 (694-706): 289–337. https://doi.org/10.1098/rsta.1933.0009.

第十章：量化效应和设计研究

原文：statsthinking21.github.io/statsthinking21-core-site/ci-effect-size-power.html

译者：飞龙

协议：CC BY-NC-SA 4.0

在上一章中，我们讨论了如何使用数据来检验假设。这些方法提供了一个二元答案：我们要么拒绝要么未能拒绝零假设。然而，这种决定忽略了一些重要的问题。首先，我们想知道答案有多大的不确定性（无论结果如何）。此外，有时我们没有一个明确的零假设，因此我们想看到与数据一致的估计范围。其次，我们想知道效应实际上有多大，因为正如我们在上一章中的减重示例中看到的，统计上显著的效应未必是实际上重要的效应。

在本章中，我们将讨论解决这两个问题的方法：置信区间提供我们对估计的不确定性的度量，以及效应大小提供了一种标准化的方式来理解效应的大小。我们还将讨论统计功效的概念，它告诉我们我们有多大可能发现实际存在的任何真实效应。

10.1 置信区间

到目前为止，本书中我们一直专注于估计单个数值统计量。例如，假设我们想要估计 NHANES 数据集中成年人的平均体重，因此我们从数据集中抽取样本并估计平均值。在这个样本中，平均体重为 79.92 公斤。我们将这称为点估计，因为它为我们提供了一个单一的数字来描述我们对总体参数的估计。然而，根据我们之前对抽样误差的讨论，我们知道对这个估计存在一定的不确定性，这由标准误差描述。您还应该记住，标准误差由两个组成部分确定：总体标准差（分子）和样本大小的平方根（分母）。总体标准差是一个通常未知但固定的参数，不在我们的控制范围内，而样本大小在我们的控制范围内。因此，我们可以通过增加样本大小来减少对估计的不确定性-直到整个人口规模的极限，此时没有任何不确定性，因为我们可以直接从整个人口的数据中计算出总体参数。

我们经常希望有一种更直接地描述我们对统计估计的不确定性的方法，这可以通过使用置信区间来实现。大多数人通过政治民意调查中“误差范围”的概念熟悉置信区间。这些调查通常试图提供一个在+/- 3%内准确的答案。例如，当估计候选人在选举中以 9 个百分点的优势获胜，误差范围为 3 时，他们将获胜的百分比估计在 6-12 个百分点之间。在统计学中，我们将这种数值范围称为置信区间，它提供了一系列与我们的样本数据一致的参数估计值，而不仅仅是基于数据给出一个单一的估计。置信区间越宽，我们对参数估计的不确定性就越大。

置信区间因其含义常常令人困惑，主要是因为它们的含义并不是我们直觉上认为的含义。如果我告诉你我已经计算出了我的统计量的“95%置信区间”，那么似乎自然地认为我们可以有 95%的信心，真实的参数值落在这个区间内。然而，正如我们在整个课程中将看到的那样，统计学中的概念通常并不是我们认为它们应该是的。在置信区间的情况下，我们不能以这种方式解释它们，因为总体参数具有固定值 - 它要么在区间内，要么不在区间内，因此谈论发生这种情况的概率是没有意义的。置信区间的发明者 Jerzy Neyman 说过：

“参数是一个未知的常数，关于它的值不可能做出概率陈述。”(J. Neyman 1937)

相反，我们必须从与我们观察假设检验相同的角度来看待置信区间过程：作为一个长期来看，它将允许我们以特定概率做出正确的陈述的过程。因此，95%置信区间的正确解释是，它是一个区间，将在 95%的时间内包含真实的总体均值，事实上，我们可以使用模拟来确认这一点，如下所示。

均值的置信区间计算如下：

$$ CI = \text{点估计} \pm \text{临界值} * \text{标准误差} $$

其中临界值由估计的抽样分布确定。那么，重要的问题是我们如何获得我们的估计值的抽样分布。

10.1.1 正态分布下的置信区间

如果我们知道总体标准差，那么我们可以使用正态分布来计算置信区间。我们通常不知道，但对于 NHANES 数据集的示例，我们知道，因为我们将整个数据集视为总体（体重为 21.3）。

假设我们想要计算均值的 95%置信区间。临界值将是标准正态分布的值，这些值捕获了分布的 95%；这些值只是分布的第 2.5 百分位数和第 97.5 百分位数，我们可以使用统计软件计算出来，结果为$\pm 1.96$。因此，均值（$\bar{X}$）的置信区间是：

$$ CI = \bar{X} \pm 1.96*SE $$

使用样本的估计均值（79.92）和已知的总体标准差，我们可以计算出置信区间为[77.28,82.56]。

10.1.2 使用 t 分布的置信区间

如上所述，如果我们知道总体标准差，那么我们可以使用正态分布来计算置信区间。然而，一般情况下我们不知道 - 在这种情况下，t分布更适合作为抽样分布。请记住，t 分布比正态分布略宽，特别是对于较小的样本，这意味着置信区间将比使用正态分布时稍微宽一些。这包括了在我们基于小样本估计参数时产生的额外不确定性。

我们可以以与上面正态分布示例类似的方式计算 95%置信区间，但临界值由适当自由度的t分布的第 2.5 百分位数和第 97.5 百分位数确定。因此，均值（$\bar{X}$）的置信区间是：

$$ CI = \bar{X} \pm t_{crit}*SE $$

其中$t_{crit}$是临界 t 值。对于 NHANES 体重示例（样本量为 250），置信区间将是 79.92 +/- 1.97 * 1.41 [77.15 - 82.69]。

请记住，这并不告诉我们真实总体值落入此区间的概率，因为它是一个固定参数（在这种情况下，我们知道是 81.77，因为我们在这种情况下有整个总体），它要么在这个特定的区间内，要么不在（在这种情况下，它在）。相反，它告诉我们，从长远来看，如果我们使用这个程序计算置信区间，有 95%的时间置信区间将捕获真实的总体参数。

我们可以使用 NHANES 数据作为我们的总体；在这种情况下，我们知道总体参数的真实值，因此我们可以看到在许多不同的样本中置信区间最终捕获该值的频率。图 10.1 显示了从 NHANES 数据集中计算的估计平均体重的 100 个样本的置信区间。其中有 95 个捕获了真实的总体平均体重，表明置信区间程序的执行效果如预期。

图 10.1：从 NHANES 数据集中重复取样，为每个样本计算了平均值的 95%置信区间。红色区间未捕获真实的总体均值（显示为虚线）。

10.1.3 置信区间和样本量

由于标准误差随样本量的减少而减少，因此随着样本量的增加，置信区间应该变得更窄，为我们的估计提供逐渐更紧的界限。图 10.2 显示了置信区间在体重示例中随样本量变化的示例。从图中可以明显看出，随着样本量的增加，置信区间变得越来越紧，但增加样本提供的回报递减，这与置信区间项的分母与样本量的平方根成比例的事实一致。

图 10.2：样本量对平均值置信区间宽度的影响的示例。

10.1.4 使用自助法计算置信区间

在某些情况下，我们不能假设正态性，或者我们不知道统计量的抽样分布。在这些情况下，我们可以使用自助法（我们在第[8]章中介绍过）。提醒一下，自助法涉及重复使用有替换的数据进行重新抽样，然后使用在这些样本上计算的统计量的分布作为统计量的抽样分布的替代品。这是我们在 R 中使用内置的自助法函数来计算 NHANES 样本中体重的置信区间的结果：

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = bs, type = "perc")
## 
## Intervals : 
## Level     Percentile     
## 95%   (78, 84 )  
## Calculations and Intervals on Original Scale

这些值与上面使用 t 分布获得的值非常接近，尽管不完全相同。

10.1.5 置信区间与假设检验的关系

置信区间与假设检验之间有着密切的关系。特别是，如果置信区间不包括零假设，那么相关的统计检验将具有统计显著性。例如，如果您正在测试样本的平均值是否大于零，$\alpha = 0.05$，您可以简单地检查零是否包含在平均值的 95%置信区间内。

如果我们想要比较两个条件的均值（Schenker and Gentleman 2001），事情就会变得更加棘手。有一些情况是明确的。首先，如果每个均值都包含在另一个均值的置信区间内，那么在所选的置信水平下肯定没有显著差异。其次，如果置信区间之间没有重叠，那么在所选的水平上肯定存在显著差异；事实上，这个测试实际上是保守的，这样实际的错误率将低于所选的水平。但是如果置信区间彼此重叠但不包含另一组的均值呢？在这种情况下，答案取决于两个变量的相对变异性，没有通用的答案。然而，一般来说，应该避免使用“目测法”来判断重叠的置信区间。

10.2 效应量

“统计显著性是关于结果最不重要的事情。你应该用量级的度量来描述结果——不仅仅是，治疗是否影响人们，而是它对他们产生了多大影响。” Gene Glass 在(Sullivan and Feinn 2012)中引用。

在前一章中，我们讨论了统计显著性可能并不一定反映实际显著性的想法。为了讨论实际显著性，我们需要一种标准的方式来描述效应的大小，我们称之为效应量。在本节中，我们将介绍这个概念，并讨论计算效应量的各种方法。

效应量是一种标准化的测量，它将某种统计效应的大小与参考数量（如统计的变异性）进行比较。在一些科学和工程领域，这个想法被称为“信噪比”。效应量可以用许多不同的方式来量化，这取决于数据的性质。

10.2.1 Cohen's D

效应量的最常见测量之一被称为Cohen's d，以统计学家雅各布·科恩（以他 1994 年的论文“地球是圆的（p < .05）”而闻名）命名。它用于量化两个均值之间的差异，以它们的标准偏差为单位：

$$ d = \frac{\bar{X}_1 - \bar{X}_2}{s} $$

$\bar{X}_1$和$\bar{X}_2$是两组的均值，$s$是合并标准偏差（这是两个样本的标准偏差的组合，按其样本大小加权）：

$$ s = \sqrt{\frac{(n_1 - 1)s^2_1 + (n_2 - 1)s^2_2 }{n_1 +n_2 -2}} $$

其中$n_1$和$n_2$是样本大小，$s^2_1$和$s2_2$分别是两组的标准偏差。请注意，这在精神上与 t 统计量非常相似——主要区别在于 t 统计量的分母是基于均值的标准误差，而 Cohen's D 的分母是基于数据的标准偏差。这意味着随着样本量的增加，t 统计量会增长，而 Cohen's D 的值将保持不变。

表 10.1：Cohen's D 的解释

D	解释
0.0 - 0.2	可忽略的
0.2 - 0.5	小
0.5 - 0.8	中等
0.8 -	大

解释效应大小的常用尺度是科恩的 d，如表 10.1 所示。查看一些常见的效应可以帮助理解这些解释是很有用的。例如，成年人身高的性别差异的效应大小（d = 2.05）根据我们上面的表格是非常大的。我们也可以通过查看 NHANES 数据集中样本中男性和女性身高的分布来看到这一点。图 10.3 显示，这两个分布相当分开，但仍有重叠，突出了即使两个群体之间存在非常大的效应大小，仍会有一些个体更像另一群体。

图 10.3: NHANES 数据集中男性和女性身高的平滑直方图，显示出明显不同但也有明显重叠的分布。

值得注意的是，我们在科学中很少遇到这种程度的效应，部分原因是它们是如此明显的效应，我们不需要科学研究来发现它们。正如我们将在第 18 章中看到的，科学研究中报告的非常大的效应往往反映了可疑的研究做法，而不是自然界中真正巨大的效应。值得注意的是，即使对于如此巨大的效应，两个分布仍然有重叠 - 会有一些女性比平均男性更高，反之亦然。对于大多数有趣的科学效应，重叠程度会更大，因此我们不应该立即根据即使是很大的效应大小就对来自不同群体的个体做出强烈的结论。

10.2.2 皮尔逊相关系数 r

皮尔逊r，也称为相关系数，是衡量两个连续变量之间线性关系强度的指标。我们将在第 13 章中更详细地讨论相关性，所以我们将详细内容留到那一章；在这里，我们只是介绍r作为量化两个变量之间关系的一种方式。

r是一个从-1 到 1 变化的度量，其中 1 表示变量之间的完全正相关关系，0 表示没有关系，-1 表示完全负相关关系。图 10.4 使用随机生成的数据显示了不同水平的相关性的示例。

图 10.4: 不同水平的皮尔逊相关系数 r 的示例。

10.2.3 赔率比

在我们之前对概率的讨论中，我们讨论了赔率的概念 - 也就是某个事件发生与不发生的相对可能性：

$$ A 的赔率 = \frac{P(A)}{P(\neg A)} $$

我们还讨论了赔率比，它只是两个赔率的比率。赔率比是描述二元变量效应大小的一种有用方式。

例如，让我们以吸烟和肺癌为例。2012 年发表在《国际癌症杂志》上的一项研究（Pesch et al. 2012）结合了关于吸烟者和从未吸烟者在许多不同研究中肺癌发生情况的数据。请注意，这些数据来自病例对照研究，这意味着研究参与者之所以被招募，是因为他们有或没有癌症；然后检查了他们的吸烟状况。因此，这些数字（在表 10.2 中显示）并不代表一般人群中吸烟者患癌症的患病率-但它们可以告诉我们癌症和吸烟之间的关系。

表 10.2：吸烟者和从未吸烟者的肺癌发生率分别

状态	从未吸烟	现在吸烟者
无癌症	2883	3829
癌症	220	6784

我们可以将这些数字转换为每个组的几率比。从未吸烟者患肺癌的几率为 0.08，而现在吸烟者患肺癌的几率为 1.77。这些几率的比率告诉我们关于两组之间癌症相对发生率的情况：23.22 的几率比告诉我们吸烟者患肺癌的几率大约是从未吸烟者的 23 倍。

10.3 统计学力量

请记住前一章中提到的，根据 Neyman-Pearson 假设检验方法，我们必须指定我们对两种错误的容忍水平：假阳性（他们称之为第一类错误）和假阴性（他们称之为第二类错误）。人们经常非常关注第一类错误，因为做出假阳性声明通常被视为一件非常糟糕的事情；例如，Wakefield（1999）声称自闭症与疫苗接种有关导致了反疫苗情绪，从而导致麻疹等儿童疾病大幅增加。同样，我们也不想声称一种药物治愈了一种疾病，如果实际上并非如此。这就是为什么对第一类错误的容忍通常设置得相当低，通常为$\alpha = 0.05$。但第二类错误呢？

统计学力量的概念是第二类错误的补充-也就是说，它是在存在积极结果的情况下找到积极结果的可能性：

$$ 力量 = 1 - \beta $$

Neyman-Pearson 模型的另一个重要方面是我们之前没有讨论的，即除了指定可接受的第一类和第二类错误水平外，我们还必须描述一个特定的备择假设-也就是说，我们希望检测的效应大小是多少？否则，我们无法解释$\beta$ - 发现大效应的可能性总是比发现小效应的可能性要高，因此$\beta$将取决于我们试图检测的效应大小。

有三个因素可以影响统计学力量：

样本量：较大的样本提供更大的统计学力量
效应大小：给定的设计总是比小效应具有更大的功率来发现大效应（因为发现大效应更容易）
第一类错误率：第一类错误与力量之间存在关系，即（其他条件相等）降低第一类错误也会降低力量。

我们可以通过模拟来看到这一点。首先让我们模拟一个单一实验，其中我们使用标准 t 检验比较两组的平均值。我们将改变效应大小（以 Cohen 的 d 表示），第一类错误率和样本量，对于每个这些因素，我们将检查显著结果的比例（即力量）如何受到影响。图 10.5 显示了力量如何随这些因素的变化而变化的示例。

图 10.5：来自功率模拟的结果，显示功率作为样本大小的函数，效应大小显示为不同的颜色，α显示为线型。标准的 80%功率标准由虚线黑线表示。

这个模拟告诉我们，即使样本大小为 96，我们也几乎没有足够的功效来发现一个小效应（$d = 0.2$），$\alpha = 0.005$。这意味着设计这样一个研究将是徒劳的 - 也就是说，即使存在这样大小的真实效应，几乎肯定找不到任何东西。

关于统计功效有至少两个重要的原因。首先，如果你是一名研究人员，你可能不想浪费时间做徒劳的实验。进行功效不足的研究基本上是徒劳的，因为这意味着很低的可能性会发现一个效应，即使它存在。其次，结果表明，与功效充足的研究相比，来自功效不足的研究的任何积极发现更有可能是错误的，这一点我们在第 18 章中会更详细地讨论。

10.3.1 功效分析

幸运的是，有可用的工具可以帮助我们确定实验的统计功效。这些工具最常见的用途是在规划实验时，我们想确定我们的样本需要多大才能有足够的功效来找到我们感兴趣的效应。

假设我们有兴趣进行一项研究，研究 iOS 用户和 Android 用户之间某种个性特征的差异。我们的计划是收集两组个体，并在个性特征上对他们进行测量，然后使用 t 检验比较这两组。在这种情况下，我们认为中等效应（$d = 0.5$）是科学上感兴趣的，因此我们将在我们的功效分析中使用这个水平。为了确定必要的样本量，我们可以使用统计软件中的功效函数：

## 
##      Two-sample t test power calculation 
## 
##               n = 64
##           delta = 0.5
##              sd = 1
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

这告诉我们，为了有足够的功效找到中等大小的效应，每组至少需要 64 名受试者。在开始新研究之前进行功效分析总是很重要的，以确保研究不会因为样本太小而徒劳。

你可能会想到，如果效应大小足够大，那么所需的样本将会非常小。例如，如果我们使用 d=2 运行相同的功效分析，那么我们将看到我们只需要每组大约 5 个受试者就足够有能力找到差异。

## 
##      Two-sample t test power calculation 
## 
##               n = 5.1
##               d = 2
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

然而，在科学中很少进行预期发现如此大的效应的实验 - 就像我们不需要统计数据告诉我们 16 岁的人比 6 岁的人更高一样。当我们进行功效分析时，我们需要指定一个对我们的研究来说是合理和/或科学上有趣的效应大小，这通常来自先前的研究。然而，在第 18 章中，我们将讨论一个被称为“赢家诅咒”的现象，这可能导致发表的效应大小比真实效应大小更大，因此这也应该牢记在心中。

10.4 学习目标

阅读完本章后，您应该能够：

描述置信区间的正确解释，并计算给定数据集的均值的置信区间。
定义效应大小的概念，并计算给定测试的效应大小。
描述统计功效的概念以及为什么它对研究很重要。

10.5 建议阅读

Hoekstra 等人的《置信区间的强偏误解释》

参考资料

Neyman, J. 1937. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 236 (767): 333–80. https://doi.org/10.1098/rsta.1937.0005.
Pesch, Beate, Benjamin Kendzia, Per Gustavsson, Karl-Heinz Jöckel, Georg Johnen, Hermann Pohlabeln, Ann Olsson, et al. 2012. “Cigarette Smoking and Lung Cancer–Relative Risk Estimates for the Major Histological Types from a Pooled Analysis of Case-Control Studies.” Int J Cancer 131 (5): 1210–19. https://doi.org/10.1002/ijc.27339.
Schenker, Nathaniel, and Jane F. Gentleman. 2001. “On Judging the Significance of Differences by Examining the Overlap Between Confidence Intervals.” The American Statistician 55 (3): 182–86. http://www.jstor.org/stable/2685796.
Sullivan, Gail M, and Richard Feinn. 2012. “Using Effect Size-or Why the p Value Is Not Enough.” J Grad Med Educ 4 (3): 279–82. https://doi.org/10.4300/JGME-D-12-00156.1.
Wakefield, A J. 1999. “MMR Vaccination and Autism.” Lancet 354 (9182): 949–50. https://doi.org/10.1016/S0140-6736(05)75696-8.

第十一章：贝叶斯统计

原文：statsthinking21.github.io/statsthinking21-core-site/bayesian-statistics.html

译者：飞龙

协议：CC BY-NC-SA 4.0

在本章中，我们将采用与你在第 9 章中遇到的零假设检验框架相对立的统计建模和推断方法。这被称为“贝叶斯统计”，以纪念托马斯·贝叶斯牧师，你在第 6 章已经遇到过他的定理。在本章中，你将学习贝叶斯定理如何提供了一种理解数据的方式，解决了我们讨论的关于零假设检验的许多概念问题，同时也引入了一些新的挑战。

11.1 生成模型

假设你正在走在街上，你的一个朋友就在你身边走过，但没有打招呼。你可能会试图弄清楚为什么会发生这种情况 - 他们没有看到你吗？他们生你的气了吗？你突然被一个魔法隐形盾牌包裹了吗？贝叶斯统计背后的一个基本思想是，我们想根据数据本身推断数据是如何生成的细节。在这种情况下，你想要使用数据（即你的朋友没有打招呼的事实）来推断生成数据的过程（例如他们是否真的看到了你，他们对你的感觉如何等）。

生成模型背后的思想是一个潜在（未见）过程生成我们观察到的数据，通常在过程中有一定的随机性。当我们从一个群体中取样数据并从样本中估计参数时，我们实质上是在试图学习一个潜在变量（群体均值），通过取样产生观察到的数据（样本均值）。图 11.1 显示了这个想法的示意图。

图 11.1：生成模型的想法的示意图。

如果我们知道潜在变量的值，那么重建观察到的数据应该是很容易的。例如，假设我们抛一枚我们知道是公平的硬币，我们期望它 50%的时间会正面朝上。我们可以用二项分布描述硬币，其值为$P_{heads}=0.5$，然后我们可以从这样的分布中生成随机样本，以便看到观察到的数据应该是什么样子。然而，一般情况下我们处于相反的情况：我们不知道感兴趣的潜在变量的值，但我们有一些数据，我们希望用它来估计它。

11.2 贝叶斯定理和逆推推断

贝叶斯统计之所以得名，是因为它利用贝叶斯定理从数据中推断生成数据的潜在过程。假设我们想知道一枚硬币是否公平。为了测试这一点，我们抛了 10 次硬币，得到了 7 次正面。在这个测试之前，我们相当确定$P_{heads}=0.5$，但如果我们相信$P_{heads}=0.5$，那么在 10 次抛硬币中得到 7 次或更多次正面的条件概率（$P(n\ge7|p_{heads}=0.5)$）会让我们感到犹豫不决。我们已经知道如何使用二项分布计算这个条件概率。

得到的概率是 0.055。这是一个相当小的数字，但这个数字并没有真正回答我们所问的问题 —— 它告诉我们在给定某个特定的正面概率的情况下，出现 7 次或更多正面的可能性，而我们真正想知道的是这枚硬币的真实正面概率。这应该听起来很熟悉，因为这正是我们在零假设检验中遇到的情况，它告诉我们的是数据的可能性而不是假设的可能性。

记住，贝叶斯定理为我们提供了反转条件概率的工具：

$$ P(H|D) = \frac{P(D|H)*P(H)}{P(D)} $$

我们可以将这个定理看作有四个部分：

先验（$P(假设)$）：在观察到数据 D 之前我们对假设 H 的信念程度
似然（$P(数据|假设)$）：在假设 H 下观察到的数据 D 有多大可能性？
边际似然（$P(Data)$）：观察到的数据有多大可能性，结合所有可能的假设？
后验（$P(假设|数据)$）：在观察到数据 D 后我们对假设 H 的更新信念

在我们抛硬币的例子中：

先验（$P_{heads}$）：我们对抛硬币出现正面的可能性的信念程度，即$P_{heads}=0.5$
似然（$P(\text{10 次抛硬币中出现 7 次或更多正面}|P_{heads}=0.5)$）：如果$P_{heads}=0.5$，10 次抛硬币中出现 7 次或更多正面的可能性有多大？
边际似然（$P(\text{10 次抛硬币中出现 7 次或更多正面}$）：一般情况下，我们观察到 10 次抛硬币中出现 7 次正面的可能性有多大？
后验（$P_{heads}|\text{10 次抛硬币中出现 7 次或更多正面}$）：观察到的抛硬币结果后我们对$P_{heads}$的更新信念

在这里，我们看到频率派和贝叶斯统计之间的主要区别之一。频率派不相信有关假设概率的概念（即我们对假设的信念程度） —— 对他们来说，一个假设要么成立要么不成立。另一种说法是，对于频率派来说，假设是固定的，数据是随机的，这就是为什么频率派推断侧重于描述在假设下数据的概率（即 p 值）。另一方面，贝叶斯派则可以舒适地对数据和假设做出概率陈述。

11.3 进行贝叶斯估计

我们最终希望使用贝叶斯统计来对假设做出决策，但在这之前我们需要估计做出决策所需的参数。在这里，我们将介绍贝叶斯估计的过程。让我们再举一个筛查的例子：机场安检。如果你经常飞行，随机的爆炸物筛查结果呈阳性只是时间问题；我在 2001 年 9 月 11 日后不久就经历了这样的不幸经历，当时机场安检人员特别紧张。

安检人员想要知道的是一个人携带爆炸物的可能性，假设机器给出了阳性测试。让我们通过贝叶斯分析来计算这个值。

11.3.1 指定先验

要使用贝叶斯定理，我们首先需要指定假设的先验概率。在这种情况下，我们不知道真实数字，但我们可以假设它相当小。根据FAA的数据，2017 年美国有 971,595,898 名航空乘客。假设其中一名旅客携带了爆炸物 —— 这将给出一个先验概率为 971 百万分之一，非常小！安检人员在 9/11 袭击后的几个月内可能会有更强烈的先验概率，所以我们假设他们的主观信念是每百万名飞行者中有一人携带爆炸物。

11.3.2 收集一些数据

数据由爆炸物筛查测试的结果组成。假设安全人员将袋子通过他们的测试设备进行 3 次测试，并且在 3 次测试中有 3 次阳性读数。

11.3.3 计算可能性

我们想计算在有爆炸物存在的假设下数据的可能性。假设我们知道（来自机器制造商）测试的灵敏度为 0.99 - 也就是说，当设备存在时，它会在 99%的时间内检测到它。为了确定在有设备存在的假设下我们的数据的可能性，我们可以将每个测试视为伯努利试验（即具有真或假结果的试验），成功的概率为 0.99，我们可以使用二项分布来建模。

11.3.4 计算边际可能性

我们还需要知道数据的整体可能性 - 也就是说，在 3 次测试中找到 3 个阳性。计算边际可能性通常是贝叶斯分析中最困难的部分之一，但对于我们的例子来说很简单，因为我们可以利用我们在第[6.7]节中介绍的二元结果的贝叶斯定理的特定形式：

$$ P(E|T) = \frac{P(T|E)P(E)}{P(T|E)P(E) + P(T|\neg E)*P(\neg E)} $$

其中$E$指的是爆炸物的存在，$T$指的是阳性测试结果。

在这种情况下，边际可能性是数据在爆炸物存在或不存在的情况下的可能性的加权平均值，乘以爆炸物存在的概率（即先验）。在这种情况下，假设我们知道（来自制造商）测试的特异性为 0.99，因此当没有爆炸物时的阳性结果的可能性（$P(T|\neg E)$）为 0.01。

11.3.5 计算后验

现在我们已经有了计算爆炸物存在的后验概率所需的所有部分，这是在观察到 3 次测试中的 3 次阳性结果后。

这个结果告诉我们，在这些阳性测试中，爆炸物在袋子里的后验概率（0.492）略低于 50%，再次突出了测试罕见事件几乎总是容易产生大量假阳性的事实，即使特异性和灵敏度非常高。

贝叶斯分析的一个重要方面是它可以是顺序的。一旦我们有了一个分析的后验，它可以成为下一个分析的先验！

11.4 估计后验分布

在先前的例子中，只有两种可能的结果 - 爆炸物要么存在，要么不存在 - 我们想知道在给定数据的情况下哪种结果最有可能。然而，在其他情况下，我们想使用贝叶斯估计来估计参数的数值。假设我们想了解一种新药物对疼痛的有效性；为了测试这一点，我们可以向一组患者施用药物，然后询问他们在服药后疼痛是否有所改善。我们可以使用贝叶斯分析来估计使用这些数据药物对患者有效的比例。

11.4.1 指定先验

在这种情况下，我们没有关于药物有效性的先验信息，因此我们将使用均匀分布作为我们的先验，因为在均匀分布下所有值都是同等可能的。为了简化例子，我们只会查看 99 个可能有效性值的子集（从.01 到.99，步长为.01）。因此，每个可能的值都有 1/99 的先验概率。

11.4.2 收集一些数据

我们需要一些数据来估计药物的效果。假设我们向 100 个人施用药物，我们发现 64 人对药物有积极反应。

11.4.3 计算可能性

我们可以使用二项密度函数计算在任何特定效果参数值下的观察数据的似然性。在图 11.2 中，您可以看到在几种不同$P_{respond}$值下对响应者数量的似然曲线。从这个图中可以看出，我们的观察数据在$P_{respond}=0.7$的假设下相对更可能，在$P_{respond}=0.5$的假设下略不太可能，在$P_{respond}=0.3$的假设下相当不可能。贝叶斯推断的一个基本思想是，我们应该根据数据在这些值下的可能性来加强我们对感兴趣参数值的信念，同时平衡我们在看到数据之前对参数值的信念（我们的先验知识）。

图 11.2：在几种不同假设下每个可能的响应者数量的似然性（p(respond)=0.5（实线），0.7（虚线），0.3（虚线）。观察值显示在垂直线上

11.4.4 计算边际似然

除了在不同假设下数据的似然性，我们还需要知道数据的整体似然性，结合所有假设（即边际似然）。这种边际似然主要重要是因为它有助于确保后验值是真实概率。在这种情况下，我们使用一组离散可能的参数值使得计算边际似然变得容易，因为我们可以计算每个假设下每个参数值的似然性并将它们相加。

11.4.5 计算后验

我们现在拥有计算后验概率分布的所有部分所需的部分，这些部分涵盖了所有可能的$p_{respond}$值，如图 11.3 所示。

图 11.3：观察数据的后验概率分布以实线绘制，与均匀先验分布（虚线）相对。最大后验概率（MAP）值由菱形符号表示。

11.4.6 最大后验概率（MAP）估计

根据我们的数据，我们想要获得样本的$p_{respond}$估计值。一种方法是找到后验概率最高的$p_{respond}$值，我们称之为最大后验概率（MAP）估计。我们可以从 11.3 的数据中找到这个值——它是在分布顶部标记的值。请注意，结果（0.64）只是我们样本中响应者的比例——这是因为先验是均匀的，因此并没有影响我们的估计。

11.4.7 可信区间

通常，我们不仅想知道后验的单个估计值，还想知道一个区间，我们对后验落在其中有信心。我们之前在频率派推断的背景下讨论了置信区间的概念，您可能还记得置信区间的解释特别复杂：它是一个将包含参数值 95%的时间的区间。我们真正想要的是一个我们对真实参数落在其中有信心的区间，而贝叶斯统计可以给我们这样的区间，我们称之为可信区间。

这个可信区间的解释更接近我们希望从置信区间中得到的（但没有得到）：它告诉我们，有 95%的概率$p_{respond}$的值在这两个数值之间。重要的是，在这种情况下，它表明我们非常有信心$p_{respond} > 0.0$，这意味着药物似乎有积极的效果。

在某些情况下，可信区间可以根据已知分布数值计算，但更常见的是通过从后验分布中抽样来生成可信区间，然后计算样本的分位数。当我们没有简单的方法来数值表达后验分布时，这种方法特别有用，而在真实的贝叶斯数据分析中通常是这种情况。这样的一种方法（拒绝抽样）在本章末尾的附录中有更详细的解释。

11.4.8 不同先验的影响

在前面的例子中，我们使用了平坦先验，这意味着我们没有理由相信$p_{respond}$的任何特定值更可能或更不可能。然而，假设我们之前有一些先前的数据：在一项先前的研究中，研究人员测试了 20 人，发现其中有 10 人对治疗作出了积极反应。这将导致我们开始具有先验信念，即治疗对 50%的人有效。我们可以做与上面相同的计算，但使用我们先前研究的信息来指导我们的先验（参见图 11.4 的 A 面板）。

请注意，似然和边际似然没有改变 - 只有先验改变了。先验变化的效果是将后验拉近到新先验的集中点，即 0.5。

现在让我们看看如果我们带着更强烈的先验信念进行分析会发生什么。假设我们之前观察到 20 个人中有 10 个反应者，而先前的研究测试了 500 人，发现 250 个反应者。这原则上应该给我们一个更强的先验，正如我们在图 11.4 的 B 面板中看到的那样：先验更加集中在 0.5 附近，后验也更接近先验。总的想法是，贝叶斯推断结合了先验和似然的信息，权衡了每个的相对强度。

这个例子也突出了贝叶斯分析的顺序性质 - 一个分析的后验可以成为下一个分析的先验。

最后，重要的是要意识到，如果先验足够强大，它们可以完全压倒数据。假设你有一个绝对先验，即$p_{respond}$大于等于 0.8，这样你就将所有其他值的先验概率设为零。如果我们计算后验会发生什么呢？

图 11.4：A：先验对后验分布的影响。基于平坦先验的原始后验分布以蓝色绘制。基于 20 人中 10 名回答者的观察的先验以虚线黑色线绘制，使用此先验的后验以红色绘制。B：先验强度对后验分布的影响。蓝线显示使用基于 100 人中 50 个头的先验获得的后验。虚线黑线显示基于 500 次抛硬币中 250 个头的先验，红线显示基于该先验的后验。C：先验强度对后验分布的影响。蓝线显示使用绝对先验获得的后验，该先验表明 p（回答）为 0.8 或更高。先验以虚线黑线显示。

在图 11.4 的 C 面板中，我们看到后验中没有任何值的密度，其中先验被设为零 - 数据被绝对先验所压倒。

11.5 选择先验

贝叶斯统计中最具争议的方面是先验对推断结果的影响。什么是正确的先验？如果先验的选择决定了结果（即后验），你如何确信你的结果是可信的？这些是困难的问题，但我们不应该因为面对困难问题而退缩。正如我们之前讨论过的，贝叶斯分析给我们提供了可解释的结果（可信区间等）。这本身就应该激励我们认真思考这些问题，以便得出合理和可解释的结果。

有各种方法可以选择先验，这些方法（如上所述）可能会影响结果的推断。有时我们有一个非常具体的先验，就像我们预期硬币掷出正面的概率为 50%一样，但在许多情况下，我们没有这样强烈的起点。无信息先验试图尽可能少地影响结果的后验，就像我们在上面的均匀先验的例子中看到的那样。使用弱信息先验（或默认先验）也很常见，它们只会轻微地影响结果。例如，如果我们使用基于两次抛硬币中的一次正面的二项分布，先验将以 0.5 为中心，但相当平坦，只会轻微地影响后验。还可以使用基于科学文献或现有数据的先验，我们称之为经验先验。然而，总的来说，我们将坚持使用无信息/弱信息先验，因为它们最少地引起我们对结果的担忧。

11.6 贝叶斯假设检验

学会了如何进行贝叶斯估计后，我们现在转向使用贝叶斯方法进行假设检验。假设有两位政治家在他们对公众是否支持额外税收以支持国家公园的信念上存在差异。史密斯参议员认为只有 40%的人支持这项税收，而琼斯参议员认为有 60%的人支持。他们安排进行一项民意调查来测试这一点，询问了 1000 名随机选取的人是否支持这样的税收。结果是，在接受调查的样本中，有 490 人支持这项税收。基于这些数据，我们想知道：数据是否支持一位参议员的主张胜过另一位，以及胜过多少？我们可以使用一个称为贝叶斯因子的概念来测试这一点，它通过比较每个假设对观察到的数据的预测能力来量化哪个假设更好。

11.6.1 贝叶斯因子

贝叶斯因子表征了数据在两种不同假设下的相对可能性。它的定义如下：

$$ BF = \frac{p(data|H_1)}{p(data|H_2)} $$

对于两个假设$H_1$和$H_2$。在我们的两位参议员的情况下，我们知道如何使用二项分布计算每个假设下数据的可能性；暂时假设每位参议员的先验概率相同（$P_{H_1} = P_{H_2} = 0.5$）。我们将参议员史密斯放在分子中，参议员琼斯放在分母中，这样大于一的值将反映对参议员史密斯更大的证据，小于一的值将反映对参议员琼斯更大的证据。得到的贝叶斯因子（3325.26）提供了关于数据支持两个假设的证据的度量 - 在这种情况下，它告诉我们数据支持参议员史密斯比支持参议员琼斯强大 3000 多倍。

11.6.2 统计假设的贝叶斯因子

在前面的例子中，我们对每位参议员都有具体的预测，我们可以使用二项分布来量化它们的可能性。此外，我们对两个假设的先验概率是相等的。然而，在实际数据分析中，我们通常必须处理关于参数的不确定性，这使得贝叶斯因子变得复杂，因为我们需要计算边际似然（即在所有可能的模型参数上的似然的综合平均，按其先验概率加权）。然而，作为交换，我们获得了量化支持零假设与备择假设相对证据量的能力。

假设我们是一名进行糖尿病治疗临床试验的医学研究人员，我们希望知道一种特定药物是否与安慰剂相比能够降低血糖。我们招募了一组志愿者，并将他们随机分配到药物组或安慰剂组，然后我们测量在药物或安慰剂使用期间每组的血红蛋白 A1C（血糖水平的标志）的变化。我们想知道的是：药物和安慰剂之间是否有差异？

首先，让我们生成一些数据并使用零假设检验进行分析（参见图 11.5）。然后让我们进行独立样本 t 检验，结果显示组之间存在显著差异：

图 11.5：箱线图显示药物组和安慰剂组的数据。

## 
##  Welch Two Sample t-test
## 
## data:  hbchange by group
## t = 2, df = 32, p-value = 0.02
## alternative hypothesis: true difference in means between group 0 and group 1 is greater than 0
## 95 percent confidence interval:
##  0.11  Inf
## sample estimates:
## mean in group 0 mean in group 1 
##          -0.082          -0.650

这个检验告诉我们组之间存在显著差异，但它并没有量化证据支持零假设与备择假设的强度。为了衡量这一点，我们可以使用 R 中 BayesFactor 包的ttestBF函数计算贝叶斯因子：

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 0<d<Inf    : 3.4  ±0%
## [2] Alt., r=0.707 !(0<d<Inf) : 0.12 ±0.01%
## 
## Against denominator:
##   Null, mu1-mu2 = 0 
## ---
## Bayes factor type: BFindepSample, JZS

我们特别关注大于零效应的贝叶斯因子，在报告中标有“[1]”的行中列出。这里的贝叶斯因子告诉我们，备择假设（即差异大于零）相对于点零假设（即均值差异恰好为零）在数据给定的情况下大约有 3 倍的可能性。因此，虽然效应是显著的，但它提供给我们支持备择假设的证据量相当弱。

11.6.2.1 单侧检验

我们通常对特定点值的零假设（例如，平均差异= 0）进行测试的兴趣不如对方向性零假设（例如，差异小于或等于零）进行测试。我们还可以使用ttestBF分析的结果执行方向（或单侧）检验，因为它提供两个贝叶斯因子：一个是备择假设，即平均差异大于零，另一个是备择假设，即平均差异小于零。如果我们想评估正效应的相对证据，我们可以通过简单地将函数返回的两个贝叶斯因子相除来计算比较正效应与负效应的相对证据：

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 0<d<Inf : 29 ±0.01%
## 
## Against denominator:
##   Alternative, r = 0.707106781186548, mu =/= 0 !(0<d<Inf) 
## ---
## Bayes factor type: BFindepSample, JZS

现在我们看到，正效应与负效应的贝叶斯因子大得多（几乎 30）。

11.6.2.2 解释贝叶斯因子

我们如何知道贝叶斯因子为 2 或 20 是好还是坏？Kass & Rafferty (1995)提出了贝叶斯因子解释的一般指导方针：

BF	证据的强度
1 到 3	不值一提
3 到 20	正效应
20 到 150	强
>150	非常强

基于此，即使统计结果显着，支持备择假设与点零假设相比的证据量也很弱，几乎不值一提，而对于方向性假设的证据相对较强。

11.6.3 评估零假设的证据

因为贝叶斯因子比较了两个假设的证据，所以它还允许我们评估是否有证据支持零假设，这是标准零假设检验无法做到的（因为它假设零假设为真）。这对于确定非显著结果是否真的提供了无效果的强有力证据，或者只是总体证据较弱非常有用。

11.7 学习目标

阅读完本章后，应该能够：

描述贝叶斯分析和零假设检验之间的主要区别
描述并执行贝叶斯分析的步骤
描述不同先验的影响以及选择先验的考虑因素
描述置信区间和贝叶斯可信区间之间的解释差异

11.8 建议阅读

《不会消失的理论：贝叶斯定理如何破译了密码，追踪俄罗斯潜艇，并在两个世纪的争议中胜出》，作者：沙龙·伯奇·麦格雷恩
《贝叶斯数据分析：R 的教程介绍》，作者：约翰·K·克鲁斯克

11.9 附录：

11.9.1 拒绝抽样

我们将使用一种称为拒绝抽样的简单算法从后验分布中生成样本。其思想是我们从均匀分布中选择 x（在本例中为$p_{respond}$）和 y（在本例中为$p_{respond}$的后验概率）的随机值。然后，我们只接受样本，如果$y < f(x)$ - 在本例中，如果随机选择的 y 值小于 y 的实际后验概率。图 11.6 显示了使用拒绝抽样的样本直方图示例，以及使用该方法获得的 95％可信区间（表??中的值）。

	x
2.5%	0.54
97.5%	0.73

图 11.6：拒绝抽样示例。黑线显示了 p(回答)所有可能值的密度；蓝线显示了分布的 2.5 和 97.5 百分位数，代表了对 p(回答)估计的 95%可信区间。

第十二章：建模分类关系

原文：statsthinking21.github.io/statsthinking21-core-site/modeling-categorical-relationships.html

译者：飞龙

协议：CC BY-NC-SA 4.0

到目前为止，我们已经讨论了统计建模和假设检验的一般概念，并将它们应用于一些简单的分析；现在我们将转向如何在我们的数据中建模特定类型的关系的问题。在本章中，我们将重点关注分类关系的建模，这意味着我们测量的变量之间的关系是定性的。这些数据通常用计数来表示；也就是说，对于变量的每个值（或多个变量的组合的值），有多少观察值取该值？例如，当我们统计我们班上每个专业的人数时，我们正在对数据进行分类建模。

12.1 示例：糖果颜色

假设我购买了一袋 100 颗糖果，标有 1/3 巧克力、1/3 甘露和 1/3 甘露的标签。当我数袋子里的糖果时，我们得到以下数字：30 颗巧克力，33 颗甘露和 37 颗甘露。因为我比甘露或甘露更喜欢巧克力，我觉得有点被欺骗，我想知道这是否只是一个偶然事件。为了回答这个问题，我需要知道：如果每种糖果的真实概率是平均比例的 1/3，那么计数出现这种情况的可能性是多少？

12.2 皮尔逊卡方检验

Pearson 卡方检验为我们提供了一种测试一组观察计数是否与定义零假设的特定期望值不同的方法：

$$ \chi^2 = \sum_i\frac{(observed_i - expected_i)^2}{expected_i} $$

在我们糖果的例子中，零假设是每种类型的糖果的比例相等。要计算卡方统计量，我们首先需要在零假设下得出我们的期望计数：因为零假设是它们都相同，那么这只是在三个类别之间分割的总计数（如表 12.1 所示）。然后我们取每个计数与其在零假设下的期望值之间的差异，对它们进行平方，除以零假设，然后将它们相加以获得卡方统计量。

表 12.1：糖果数据中的观察计数、零假设下的期望值和平方差

糖果类型	计数	零假设	平方差
巧克力	30	33	11.11
甘露	33	33	0.11
口香糖	37	33	13.44

这个分析的卡方统计量为 0.74，单独来看是无法解释的，因为它取决于被加在一起的不同值的数量。然而，我们可以利用卡方统计量在零假设下分布的事实，这被称为卡方分布。该分布被定义为一组标准正态随机变量的平方和；它的自由度数量等于被加在一起的变量的数量。分布的形状取决于自由度的数量。图 12.1 的左面板显示了几个不同自由度的分布示例。

图 12.1：左：不同自由度下卡方分布的示例。右：随机正态变量平方和的模拟。直方图基于 50,000 组 8 个随机正态变量的平方和；虚线显示了具有 8 个自由度的理论卡方分布的值。

让我们通过模拟验证卡方分布是否准确描述了一组标准正态随机变量的平方和，为此，我们反复抽取 8 个随机数，并在平方每个值后将每组相加。图 12.1 的右面板显示，理论分布与重复添加一组随机正态变量的平方的模拟结果非常接近。

对于糖果的例子，我们可以计算在所有糖果上频率相等的零假设下观察到的卡方值 0.74 的可能性。我们使用自由度等于 k - 1 的卡方分布（其中 k = 类别数），因为当我们计算均值以生成期望值时，我们失去了一个自由度。得到的 p 值（P(Chi-squared) > 0.74 = 0.691）显示，根据糖果袋上印刷的比例，观察到的糖果数量并不特别令人惊讶，我们不会拒绝等比例的零假设。

12.3 列联表和双向检验

我们经常使用卡方检验的另一种方式是询问两个分类变量是否彼此相关。作为更现实的例子，让我们来看看一个问题，即当警察拦下一名司机时，黑人司机是否比白人司机更有可能被搜查。斯坦福开放警务项目(openpolicing.stanford.edu/)对此进行了研究，并提供了我们可以用来分析这个问题的数据。我们将使用康涅狄格州的数据，因为它们相对较小，因此更容易分析。

用列联表来表示分类分析数据的标准方法，它展示了每个变量可能组合的观察数量或比例。下面的表 12.2 显示了警察搜查数据的列联表。使用比例而不是原始数字来查看列联表也是有用的，因为它们在视觉上更容易比较，因此我们在这里包括了绝对和相对数字。

表 12.2：警察搜查数据的列联表

被搜查	黑	白	黑（相关）	白（相关）
FALSE	36244	239241	0.13	0.86
TRUE	1219	3108	0.00	0.01

皮尔逊卡方检验允许我们测试观察频率是否与期望频率不同，因此我们需要确定如果搜查和种族无关，即我们可以定义为独立，则每个单元格中我们期望的频率是什么。请记住，从概率章节中可以知道，如果 X 和 Y 是独立的，那么：

$$ P(X \cap Y) = P(X) * P(Y) $$

也就是说，在独立性的零假设下，联合概率简单地是每个单独变量的边际概率的乘积。边际概率只是每个事件发生的概率，而不考虑其他事件。我们可以计算这些边际概率，然后将它们相乘以得到独立性下的期望比例。

	黑色	白色
没被搜查	`P(NS)*P(B)`	`P(NS)*P(W)`	`P(NS)`
被搜查	`P(S)*P(B)`	`P(S)*P(W)`	`P(S)`
	`P(B)`	`P(W)`

然后我们计算卡方统计量，结果为 828.3。为了计算 p 值，我们需要将其与零假设下的卡方分布进行比较，以确定我们的卡方值与零假设下的预期相比有多极端。这个分布的自由度是$df = (nRows - 1) * (nColumns - 1)$ - 因此，对于像这里的 2X2 表，$df = (2-1)*(2-1)=1$。直觉在于计算期望频率需要我们使用三个值：观察总数和两个变量的边际概率。因此，一旦这些值被计算出来，就只有一个数字可以自由变化，因此只有一个自由度。鉴于此，我们可以计算卡方统计量的 p 值，这个 p 值接近于零：$3.79 \times 10^{-182}$。这表明如果种族和警察搜查真的没有关系，观察到的数据将是非常不可能的，因此我们应该拒绝独立性的零假设。

我们也可以使用我们的统计软件轻松进行这个测试。

## 
##  Pearson's Chi-squared test
## 
## data:  summaryDf2wayTable and 1
## X-squared = 828, df = 1, p-value <2e-16

12.4 标准化残差

当我们在卡方检验中发现显著效应时，这告诉我们数据在零假设下不太可能发生，但它并不告诉我们数据有何不同。为了更深入地了解数据与零假设下的预期有何不同，我们可以检查模型的残差，这反映了数据（即观察频率）与模型（即期望频率）在每个单元格中的偏差。与查看原始残差（这将仅根据数据中的观察次数而变化）不同，更常见的是查看标准化残差（有时称为皮尔逊残差），计算公式如下：

$$ 标准化残差 _{ij} = \frac{观察 _{ij} - 期望 _{ij}}{\sqrt{期望 _{ij}}} $$

其中$i$和$j$分别是行和列的索引。

表 12.3 显示了警察停车数据的标准化残差。这些标准化残差可以解释为 Z 分数 - 在这种情况下，我们看到黑人被搜查的次数远远高于独立性预期，而白人被搜查的次数远远低于预期。这为我们提供了解释显著卡方结果所需的背景。

表 12.3：警察停车数据的标准化残差总结

搜查	驾驶员种族	标准化残差
FALSE	黑人	-3.3
TRUE	黑人	26.6
FALSE	白人	1.3
TRUE	白人	-10.4

12.5 赔率比

我们还可以使用我们之前介绍的赔率比来表示列联表中不同结果的相对可能性，以更好地理解效应的大小。首先，我们表示每个种族被停车的赔率，然后计算它们的比率：

$$ 赔率 {黑人被搜查} = \frac{N{黑人被搜查}}{N_{黑人未被搜查}} = \frac{1219}{36244} = 0.034 $$

$$ 赔率 {白人被搜查} = \frac{N{白人被搜查}}{N_{白人未被搜查}} = \frac{3108}{239241} = 0.013 $$

$$ 赔率比 = \frac{赔率 _{黑人被搜查}}{赔率 _{白人被搜查}} = 2.59 $$

赔率比显示，根据这个数据集，黑人被搜查的赔率是白人的 2.59 倍。

12.6 贝叶斯因子

我们在之前关于贝叶斯统计的章节中讨论了贝叶斯因子 - 你可能还记得它代表了数据在两个假设下的可能性比：

$$ K = \frac{P(data|H_A)}{P(data|H_0)} = \frac{P(H_A|data)P(H_A)}{P(H_0|data)P(H_0)} $$

我们可以使用我们的统计软件计算警察搜查数据的贝叶斯因子：

## Bayes factor analysis
## --------------
## [1] Non-indep. (a=1) : 1.8e+142 ±0%
## 
## Against denominator:
##   Null, independence, a = 1 
## ---
## Bayes factor type: BFcontingencyTable, independent multinomial

这表明在这个数据集中，关于驾驶员种族和警察搜查之间关系的证据非常强大——$1.8 * 10^{142}$接近无穷大，这在统计学中是我们能想象到的最接近无穷大的了。

12.7 超过 2X2 表的分类分析

分类分析也可以应用于列联表，其中每个变量有两个以上的类别。

例如，让我们看看 NHANES 数据，并比较变量Depressed，它表示“参与者感到沮丧、抑郁或绝望的天数”。这个变量编码为None、Several或Most。让我们测试一下这个变量是否与SleepTrouble变量相关，后者表示个体是否向医生报告了睡眠问题。

12.4 表：NHANES 数据集中抑郁和睡眠问题之间的关系

抑郁	无睡眠问题	有睡眠问题
None	2614	676
Several	418	249
Most	138	145

仅仅通过观察这些数据，我们就可以得知这两个变量之间可能存在关系；值得注意的是，尽管有睡眠问题的人数远少于没有睡眠问题的人数，但对于报告大部分时间感到抑郁的人来说，有睡眠问题的人数大于没有睡眠问题的人数。我们可以直接使用卡方检验来量化这一点：

## 
##  Pearson's Chi-squared test
## 
## data:  depressedSleepTroubleTable
## X-squared = 191, df = 2, p-value <2e-16

这个检验表明抑郁和睡眠问题之间存在着强烈的关系。我们还可以计算贝叶斯因子来量化支持备择假设的证据的强度：

## Bayes factor analysis
## --------------
## [1] Non-indep. (a=1) : 1.8e+35 ±0%
## 
## Against denominator:
##   Null, independence, a = 1 
## ---
## Bayes factor type: BFcontingencyTable, joint multinomial

在这里，我们看到贝叶斯因子非常大（$1.8 * 10^{35}$），表明抑郁和睡眠问题之间的关系证据非常强大。

12.8 小心辛普森悖论

上面呈现的列联表代表了大量观察结果的总结，但总结有时可能会产生误导。让我们以棒球为例。下表显示了 1995-1997 年间 Derek Jeter 和 David Justice 的击球数据（安打/打数和击球平均率）：

运动员	1995		1996		1997		合并后
Derek Jeter	12/48	.250	183/582	.314	190/654	.291	385/1284	.300
David Justice	104/411	.253	45/140	.321	163/495	.329	312/1046	.298

如果你仔细观察，你会发现有些奇怪的事情发生了：在每个单独的年份里，贾斯蒂斯的击球平均率都高于杰特，但当我们将所有三年的数据合并时，杰特的平均率实际上高于贾斯蒂斯的！这是辛普森悖论的一个例子，即在合并数据集中存在的模式可能在数据子集中不存在。这是因为在不同的子集中可能有另一个变量在变化——在这种情况下，打数在不同年份中变化，贾斯蒂斯在 1995 年击球次数更多（当时击球平均率较低）。我们称之为潜在变量，在检验分类数据时，始终要注意这些变量是非常重要的。

12.9 学习目标

描述分类数据的列联表概念。
描述卡方检验的关联概念，并为给定的列联表计算它。
描述辛普森悖论及其对分类数据分析的重要性。

12.10 额外阅读

心理科学中的辛普森悖论：实用指南

第十三章：建模连续关系

原文：statsthinking21.github.io/statsthinking21-core-site/modeling-continuous-relationships.html

译者：飞龙

协议：CC BY-NC-SA 4.0

大多数人都熟悉相关性的概念，在本章中，我们将对这个常用且常被误解的概念提供更正式的理解。

13.1 例子：仇恨犯罪和收入不平等

2017 年，网站 Fivethirtyeight.com 发表了一篇名为Higher Rates Of Hate Crimes Are Tied To Income Inequality的故事，讨论了 2016 年总统选举后仇恨犯罪的流行程度与收入不平等之间的关系。该故事报道了来自 FBI 和南方贫困法律中心的仇恨犯罪数据的分析，根据这些数据，他们报道：

“我们发现收入不平等是美国各地人口调整后的仇恨犯罪和仇恨事件的最重要决定因素”。

这项分析的数据可作为 R 统计软件的fivethirtyeight包的一部分获得，这使我们可以轻松访问它们。故事中报告的分析侧重于收入不平等（由一种称为基尼指数的数量定义——有关更多细节，请参见附录）与每个州仇恨犯罪的流行程度之间的关系。

13.2 收入不平等与仇恨犯罪有关吗？

图 13.1：仇恨犯罪率与基尼指数的图表。

收入不平等与仇恨犯罪率之间的关系显示在图 13.1 中。从数据来看，似乎这两个变量之间可能存在正相关关系。我们如何量化这种关系呢？

13.3 协方差和相关性

量化两个变量之间关系的一种方法是协方差。记住，单个变量的方差是每个数据点与均值之间的平方差的平均值：

$$ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{N - 1} $$

这告诉我们每个观察值平均而言与均值的距离是多少的平方单位。协方差告诉我们观察中两个不同变量的偏差之间是否存在关系。它的定义是：

$$ covariance = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{N - 1} $$

当个体数据点以相似的方式偏离各自的均值时，这个值将远离零；如果它们以相同的方向偏离，协方差是正的，而如果它们以相反的方向偏离，协方差是负的。让我们先看一个玩具示例。数据如表 13.1 所示，以及它们与均值的个体偏差和它们的交叉乘积。

表 13.1：协方差玩具示例的数据

x	y	y_dev	x_dev	交叉乘积
3	5	-3.6	-4.6	16.56
5	4	-4.6	-2.6	11.96
8	7	-1.6	0.4	-0.64
10	10	1.4	2.4	3.36
12	17	8.4	4.4	36.96

协方差简单地是交叉乘积的平均值，在这种情况下是 17.05。我们通常不使用协方差来描述变量之间的关系，因为它随着数据中方差的整体水平而变化。相反，我们通常会使用相关系数（通常在统计学家卡尔·皮尔逊之后称为皮尔逊相关系数）。相关性是通过将协方差按两个变量的标准差进行缩放来计算的。

$$ r = \frac{covariance}{s_xs_y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{(N - 1)s_x s_y} $$

在这种情况下，该值为 0.89。相关系数很有用，因为它在数据的性质不同的情况下都在-1 和 1 之间变化 - 实际上，我们在讨论效应大小时已经讨论过相关系数。正如我们在上一章中看到的，相关系数为 1 表示完美的线性关系，相关系数为-1 表示完美的负相关关系，相关系数为零表示没有线性关系。

13.3.1 相关性的假设检验

仇恨犯罪和收入不平等之间的相关值为 0.42，似乎表明两者之间有相当强的关系，但我们也可以想象即使没有关系，这种情况也可能发生。我们可以使用一个简单的方程来测试相关性是否为零，这个方程可以将相关值转换为t统计量：

$$ \textit{t}_r = \frac{r\sqrt{N-2}}{\sqrt{1-r^2}} $$

在零假设$H_0:r=0$下，这个统计量服从自由度为$N - 2$的 t 分布。我们可以使用我们的统计软件来计算这个值：

## 
##  Pearson's product-moment correlation
## 
## data:  hateCrimes$avg_hatecrimes_per_100k_fbi and hateCrimes$gini_index
## t = 3, df = 48, p-value = 0.002
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.16 0.63
## sample estimates:
##  cor 
## 0.42

这个检验表明在零假设下，出现这么极端或更极端的 r 值的可能性是相当低的，所以我们会拒绝$r=0$的零假设。请注意，这个检验假设两个变量都是正态分布的。

我们也可以通过随机化来测试这一点，即我们反复洗牌其中一个变量的值并计算相关性，然后将我们观察到的相关值与这个零分布进行比较，以确定在零假设下我们观察到的值有多大可能性。结果显示在图 13.2 中。使用随机化计算的 p 值与 t 检验给出的答案相当相似。

图 13.2: 在零假设下相关值的直方图，通过洗牌值获得。观察值由蓝线表示。

我们也可以使用贝叶斯推断来估计相关性；更多信息请参见附录。

13.3.2 鲁棒相关性

你可能已经注意到在图 13.1 中有一些奇怪的地方 - 其中一个数据点（哥伦比亚特区的数据点）似乎与其他数据点相当分离。我们称之为离群值，标准相关系数对离群值非常敏感。例如，在图 13.3 中，我们可以看到一个离群数据点会导致一个非常高的正相关值，即使其他数据点之间的实际关系是完全负相关的。

图 13.3: 离群值对相关性的影响的模拟示例。没有离群值，其余数据点具有完美的负相关关系，但单个离群值将相关值改变为高度正相关。

解决异常值的一种方法是对数据进行排序后计算秩相关性，而不是对数据本身进行计算；这被称为Spearman 相关性。在图 13.3 的示例中，皮尔逊相关性为 0.83，而 Spearman 相关性为-0.45，显示秩相关性减少了异常值的影响，并反映了大多数数据点之间的负相关关系。

我们也可以对仇恨犯罪数据进行秩相关性计算：

## 
##  Spearman's rank correlation rho
## 
## data:  hateCrimes$avg_hatecrimes_per_100k_fbi and hateCrimes$gini_index
## S = 20146, p-value = 0.8
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##   rho 
## 0.033

现在我们看到相关性不再显著（实际上非常接近零），这表明 FiveThirtyEight 博客文章的说法可能是错误的，因为异常值的影响。

13.4 相关性和因果关系

当我们说一件事导致另一件事时，我们是什么意思？哲学上长期存在关于因果关系含义的讨论，但在统计学中，我们通常认为因果关系的一种方式是通过实验控制来思考。也就是说，如果我们认为因素 X 导致因素 Y，那么操纵 X 的值也应该改变 Y 的值。

在医学上，有一套被称为柯赫氏假说的观念，它们历来被用来确定特定生物是否导致疾病。基本思想是，该生物应该存在于患有疾病的人体内，而在没有疾病的人体内不存在——因此，消除该生物的治疗也应该消除疾病。此外，感染该生物应该导致患者患上疾病。马歇尔博士的工作中就有一个例子，他假设胃溃疡是由一种细菌（幽门螺杆菌）引起的。为了证明这一点，他用这种细菌感染了自己，不久之后他的胃就严重发炎了。然后他用抗生素治疗自己，他的胃很快就恢复了。后来他因这项工作获得了诺贝尔医学奖。

通常我们想要测试因果假设，但实际上我们无法进行实验，要么是因为不可能（“人类碳排放与地球气候之间的关系是什么？”），要么是不道德的（“严重虐待对儿童大脑发育的影响是什么？”）。然而，我们仍然可以收集可能与这些问题相关的数据。例如，我们可以潜在地收集受虐待儿童和未受虐待儿童的数据，然后问他们的大脑发育是否不同。

假设我们进行了这样的分析，并发现受虐待的儿童的大脑发育不如未受虐待的儿童。这是否证明虐待导致大脑发育不良？不。每当我们观察到两个变量之间的统计关联时，其中一个变量导致另一个变量是完全可能的。但也有可能两个变量都受到第三个变量的影响；在这个例子中，可能是儿童虐待与家庭压力相关，家庭压力也可能通过较少的智力参与、食物压力或其他可能的途径导致大脑发育不良。关键是，两个变量之间的相关性通常告诉我们某件事可能导致另一件事，但它并没有告诉我们是什么导致了什么。

13.4.1 因果图

描述变量之间因果关系的一种有用方法是通过因果图，它将变量显示为圆圈，变量之间的因果关系显示为箭头。例如，图 13.4 显示了学习时间和我们认为应受其影响的两个变量之间的因果关系：考试成绩和考试完成时间。

然而，实际上，完成时间和成绩的影响并不是直接由学习时间决定的，而是由学生通过学习获得的知识量决定的。我们通常会说知识是一个潜在变量 - 也就是说，我们无法直接测量它，但我们可以通过我们可以测量的变量（比如成绩和完成时间）来看到它的反映。图 13.5 展示了这一点。

图 13.4：一个图表显示了三个变量之间的因果关系：学习时间、考试成绩和考试完成时间。绿色箭头代表正相关关系（即更多的学习时间导致考试成绩提高），红色箭头代表负相关关系（即更多的学习时间导致考试完成时间更快）。

图 13.5：一个图表显示了与上文相同的因果关系，但现在还显示了潜在变量（知识）使用一个方框来表示。

在这里，我们会说知识中介了学习时间和成绩/完成时间之间的关系。这意味着如果我们能够保持知识恒定（例如，通过给药物导致立即遗忘），那么学习时间就不应该再对成绩和完成时间产生影响了。

请注意，如果我们只是测量考试成绩和完成时间，我们通常会看到它们之间存在负相关关系，因为通常情况下，完成考试最快的人得到的成绩最高。然而，如果我们将这种相关性解释为因果关系，这将告诉我们为了获得更好的成绩，我们实际上应该更快地完成考试！这个例子展示了从非实验数据中推断因果关系有多么棘手。

统计学和机器学习领域有一个非常活跃的研究社区，目前正在研究如何从非实验数据中推断因果关系的问题。然而，这些方法通常需要做出强烈的假设，并且必须谨慎使用。

13.5 学习目标

阅读完本章后，您应该能够：

描述相关系数的概念及其解释
计算两个连续变量之间的相关性
描述异常数据点的影响以及如何处理它们。
描述可能导致观察到的相关性的潜在因果影响。

13.6 建议阅读

Judea Pearl 的《为什么》（http://bayes.cs.ucla.edu/WHY/）- 一个关于因果推断背后思想的优秀介绍。

13.7 附录：

13.7.1 量化不平等：基尼系数

在我们看报道中的分析之前，首先了解基尼系数如何用来量化不平等是很有用的。基尼系数通常是用收入和收入低于或等于该水平的人口比例之间的关系来定义的，称为洛伦兹曲线。然而，另一种更直观的思考方式是：它是收入之间的相对平均绝对差异，除以二（来自en.wikipedia.org/wiki/Gini_coefficient）：

$$ G = \frac{\displaystyle{\sum_{i=1}^n \sum_{j=1}^n \left| x_i - x_j \right|}}{\displaystyle{2n\sum_{i=1}^n x_i}} $$

图 13.6：A）完全平等，B）正态分布收入和 C）高度不平等（除了一个非常富有的个人外，收入相等）的洛伦兹曲线。

图 13.6 显示了几种不同收入分布的洛伦兹曲线。左上面板（A）显示了一个有 10 个人的例子，每个人的收入完全相同。点之间的间隔长度相等，表明每个人在总人口收入中赚取了相同的份额。右上面板（B）显示了一个收入正态分布的例子。左下面板显示了一个高度不平等的例子；每个人的收入都相等（40,000 美元），除了一个人，他的收入是 40,000,000 美元。根据美国人口普查，2010 年美国的基尼系数为 0.469，大致处于我们正态分布和最不平等的例子之间。

13.7.2 贝叶斯相关分析

我们还可以使用贝叶斯分析来分析 FiveThirtyEight 数据，这有两个优点。首先，它为我们提供了后验概率 - 在这种情况下，相关值超过零的概率。其次，贝叶斯估计结合了观察到的证据和先验，这使得正则化相关估计，有效地将其拉向零。在这里，我们可以使用 R 中的BayesFactor包来计算它。

## Bayes factor analysis
## --------------
## [1] Alt., r=0.333 : 21 ±0%
## 
## Against denominator:
##   Null, rho = 0 
## ---
## Bayes factor type: BFcorrelation, Jeffreys-beta*

## Summary of Posterior Distribution
## 
## Parameter | Median |       95% CI |     pd |          ROPE | % in ROPE |    BF |         Prior
## ----------------------------------------------------------------------------------------------
## rho       |   0.38 | [0.13, 0.58] | 99.88% | [-0.05, 0.05] |        0% | 20.85 | Beta (3 +- 3)

请注意，使用贝叶斯方法估计的相关性（0.38）略小于使用标准相关系数估计的相关性（0.42），这是因为估计是基于证据和先验的组合，有效地将估计值收缩到零。然而，请注意，贝叶斯分析对异常值不具有鲁棒性，它仍然表明有相当强的证据表明相关性大于零（贝叶斯因子超过 20）。

第十四章：通用线性模型

原文：statsthinking21.github.io/statsthinking21-core-site/the-general-linear-model.html

译者：飞龙

协议：CC BY-NC-SA 4.0

请记住，在本书的早期，我们描述了统计学的基本模型：

$$ 数据 = 模型 + 误差 $$，我们的一般目标是找到最小化误差的模型，同时满足其他一些约束（例如保持模型相对简单，以便我们可以推广到我们的特定数据集之外）。在本章中，我们将专注于这种方法的特定实现，即通用线性模型（或 GLM）。在早期关于将模型拟合到数据的章节中，您已经看到了通用线性模型，我们对 NHANES 数据集中的身高建模为年龄的函数；在这里，我们将更一般地介绍 GLM 的概念及其许多用途。几乎统计学中使用的每个模型都可以用通用线性模型或其扩展来表述。

在讨论通用线性模型之前，让我们首先定义两个对我们讨论重要的术语：

因变量：这是我们的模型旨在解释的结果变量（通常称为Y）
自变量：这是我们希望用来解释因变量的变量（通常称为X）。

可能会有多个自变量，但在本课程中，我们将主要关注分析中只有一个因变量的情况。

通用线性模型是一个模型，其中因变量的模型由独立变量的线性组合组成，每个独立变量都乘以一个权重（通常称为希腊字母 beta - $\beta$），这决定了该独立变量对模型预测的相对贡献。

图 14.1：学习时间和成绩之间的关系

举个例子，让我们生成一些模拟数据，来描述学习时间和考试成绩之间的关系（见图 14.1）。根据这些数据，我们可能想要进行统计学的三个基本活动：

描述：成绩和学习时间之间的关系有多强？
决定：成绩和学习时间之间是否存在统计学上显著的关系？
预测：给定特定的学习时间，我们期望得到什么成绩？

在上一章中，我们学习了如何使用相关系数描述两个变量之间的关系。让我们使用统计软件来计算这些数据的相关关系，并测试相关性是否显著不同于零：

## 
##  Pearson's product-moment correlation
## 
## data:  df$grade and df$studyTime
## t = 2, df = 6, p-value = 0.09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.13  0.93
## sample estimates:
##  cor 
## 0.63

相关性非常高，但请注意，估计周围的置信区间非常宽，几乎涵盖了从零到一的整个范围，这在一定程度上是由于样本量较小造成的。

14.1 线性回归

我们可以使用通用线性模型来描述两个变量之间的关系，并决定该关系是否具有统计学意义；此外，该模型还允许我们根据自变量的新值来预测因变量的值。最重要的是，通用线性模型将允许我们构建包含多个自变量的模型，而相关系数只能描述两个单独变量之间的关系。

我们用于此的 GLM 的具体版本被称为线性回归。回归一词是由弗朗西斯·高尔顿创造的，他注意到当他比较父母和他们的孩子在某些特征上（如身高）时，极端父母的孩子（即非常高或非常矮的父母）通常比他们的父母更接近平均值。这是一个非常重要的观点，我们将在下面回到这一点。

线性回归模型的最简单版本（具有单个自变量）可以表示如下：

$$ y = x * \beta_x + \beta_0 + \epsilon $$ $\beta_x$值告诉我们，我们期望 y 在给定 x 变化一个单位时会发生多大变化。截距$\beta_0$是一个整体偏移量，告诉我们当$x=0$时我们期望 y 有什么值；您可能还记得我们早期建模讨论中提到的，即使$x$从未真正达到零，这对于模拟数据的整体幅度也很重要。误差项$\epsilon$指的是模型拟合后剩下的东西；我们经常将这些称为模型的残差。如果我们想知道在估计了$\beta$值之后如何预测 y（我们称之为$\hat{y}$），那么我们可以去掉误差项：

$$ \hat{y} = x * \hat{\beta_x} + \hat{\beta_0} $$

请注意，这只是一条线的方程，其中$\hat{\beta_x}$是我们对斜率的估计，$\hat{\beta_0}$是截距。图 14.2 显示了将此模型应用于研究时间数据的示例。

图 14.2：研究时间数据的线性回归解决方案显示在实线中，截距的值等于当 x 变量等于零时 y 变量的预测值；这用虚线表示。 beta 的值等于线的斜率-也就是说，y 在 x 变化一个单位时的变化量。这在虚线中以示意图的方式显示，显示了学习时间增加一个单位时成绩的增加程度。

我们不会详细介绍如何从数据中实际估计最佳拟合斜率和截距；如果您感兴趣，可以在附录中找到详细信息。

14.1.1 回归到平均值

回归到平均值的概念是高尔顿对科学的重要贡献之一，当我们解释实验数据分析的结果时，这仍然是一个关键点。假设我们想研究阅读干预对差阅读者表现的影响。为了测试我们的假设，我们可能会进入学校并招募那些在某项阅读测试的分布中处于最低 25%的个体，进行干预，然后检查他们在干预后的测试中的表现。假设干预实际上没有效果，这样每个个体的阅读分数只是来自正态分布的独立样本。这个假设实验的计算机模拟结果在表 14.1 中呈现。

表 14.1：测试 1 的阅读分数（较低，因为它是选择学生的基础）和测试 2 的阅读分数（较高，因为它与测试 1 无关）。

	分数
测试 1	88
测试 2	101

如果我们看一下第一次和第二次测试的平均测试表现之间的差异，似乎干预帮助了这些学生，因为他们的分数在测试中提高了超过十分！然而，我们知道实际上学生们并没有改善，因为在这两种情况下，分数只是从随机正态分布中随机选择的。发生的是一些学生在第一次测试中由于随机机会而表现不佳。如果我们仅基于他们的第一次测试成绩选择这些学科，他们肯定会在第二次测试中回到整个组的平均水平，即使培训没有任何效果。这就是为什么我们总是需要一个未经处理的对照组来解释由于干预而导致的任何性能变化；否则我们很可能会被回归到平均值所欺骗。此外，参与者需要被随机分配到对照组或治疗组，这样两组之间就不会有任何系统性差异（平均而言）。

14.1.2 相关和回归之间的关系

相关系数和回归系数之间有着密切的关系。记住 Pearson 相关系数是由 x 和 y 的协方差和标准差的乘积的比值计算得出的：

$$ \hat{r} = \frac{covariance_{xy}}{s_x * s_y} $$

而 x 的回归 beta 计算如下：

$$ \hat{\beta_x} = \frac{covariance_{xy}}{s_x*s_x} $$

基于这两个方程，我们可以推导出$\hat{r}$和$\hat{beta}$之间的关系：

$$ covariance_{xy} = \hat{r} * s_x * s_y $$

$$ \hat{\beta_x} = \frac{\hat{r} * s_x * s_y}{s_x * s_x} = r * \frac{s_y}{s_x} $$

也就是说，回归斜率等于相关值乘以 y 和 x 的标准差的比值。这告诉我们的一件事是，当 x 和 y 的标准差相同时（例如当数据已转换为 Z 分数时），相关估计等于回归斜率估计。

14.1.3 回归模型的标准误差

如果我们想对回归参数估计进行推断，那么我们还需要估计它们的变异性。为了计算这一点，我们首先需要计算模型的残差方差或误差方差——也就是，因变量中有多少变异性不是由模型解释的。我们可以计算模型残差如下：

$$ residual = y - \hat{y} = y - (x*\hat{\beta_x} + \hat{\beta_0}) $$

然后我们计算平方误差和（SSE）：

$$ SS_{error} = \sum_{i=1}^n{(y_i - \hat{y_i})^2} = \sum_{i=1}^n{residuals2} $$

然后我们计算均方误差：

$$ MS_{error} = \frac{SS_{error}}{df} = \frac{\sum_{i=1}^n{(y_i - \hat{y_i})^2} }{N - p} $$

其中自由度（$df$）由观测数（$N$）减去估计参数数（在这种情况下为 2：$\hat{\beta_x}$和$\hat{\beta_0}$）确定。一旦我们有了均方误差，我们就可以计算模型的标准误差。

$$ SE_{model} = \sqrt{MS_{error}} $$

为了获得特定回归参数估计的标准误差$SE_{\beta_x}$，我们需要通过 X 变量的平方和的平方根重新调整模型的标准误差：

$$ SE_{\hat{\beta}x} = \frac{SE{model}}{\sqrt{{\sum{(x_i - \bar{x})^2}}}} $$

14.1.4 回归参数的统计检验

一旦我们有了参数估计和它们的标准误差，我们就可以计算一个t统计量，告诉我们观察到的参数估计与零假设下的某个期望值相比的可能性。在这种情况下，我们将针对没有效果的零假设进行检验（即$\beta=0$）：

$$ \begin{array}{c} t_{N - p} = \frac{\hat{\beta} - \beta_{expected}}{SE_{\hat{\beta}}}\ t_{N - p} = \frac{\hat{\beta} - 0}{SE_{\hat{\beta}}}\ t_{N - p} = \frac{\hat{\beta} }{SE_{\hat{\beta}}} \end{array} $$

一般来说，我们会使用统计软件来计算这些值，而不是手工计算。以下是 R 中线性模型函数的结果：

## 
## Call:
## lm(formula = grade ~ studyTime, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.656  -2.719   0.125   4.703   7.469 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    76.16       5.16   14.76  6.1e-06 ***
## studyTime       4.31       2.14    2.01    0.091 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.4 on 6 degrees of freedom
## Multiple R-squared:  0.403,  Adjusted R-squared:  0.304 
## F-statistic: 4.05 on 1 and 6 DF,  p-value: 0.0907

在这种情况下，我们看到截距与零显著不同（这并不是很有趣），而 studyTime 对成绩的影响略显显著（p = .09）- 与我们之前进行的相关性检验相同的 p 值。

14.1.5 量化模型的拟合优度

有时候量化模型整体拟合数据的好坏是很有用的，其中一种方法是询问模型能解释数据变异性的多少。这可以用一个叫做$R^2$的值来量化（也被称为决定系数）。如果只有一个 x 变量，那么可以通过简单地平方相关系数来计算：

$$ R^2 = r^2 $$

在我们的学习时间示例中，$R^2$ = 0.4，这意味着我们解释了大约 40%的成绩方差。

更一般地，我们可以将$R^2$看作是模型解释数据方差的比例，可以通过将方差分解为多个部分来计算：

这很令人困惑，改为残差而不是误差

$$ SS_{total} = SS_{model} + SS_{error} $$

其中$SS_{total}$是数据（$y$）的方差，$SS_{model}$和$SS_{error}$如本章前面所示计算。有了这些，我们可以计算决定系数：

$$ R^2 = \frac{SS_{model}}{SS_{total}} = 1 - \frac{SS_{error}}{SS_{total}} $$

一个小的$R^2$值告诉我们，即使模型拟合在统计上是显著的，它可能只解释了数据中的一小部分信息。

14.2 拟合更复杂的模型

通常我们希望了解多个变量对某个特定结果的影响，以及它们之间的关系。在我们的学习时间示例中，假设我们发现一些学生之前曾上过相关课程。如果我们绘制他们的成绩（见图 14.3），我们可以看到那些之前上过课程的学生在相同的学习时间下表现得比那些没有上过课程的学生要好得多。我们希望建立一个统计模型来考虑这一点，我们可以通过扩展上面建立的模型来实现：

$$ \hat{y} = \hat{\beta_1}studyTime + \hat{\beta_2}priorClass + \hat{\beta_0} $$

为了模拟每个个体是否之前上过课程，我们使用所谓的虚拟编码，其中我们创建一个新变量，其值为 1 表示之前上过课程，否则为 0。这意味着对于之前上过课程的人，我们将简单地将$\hat{\beta_2}$的值添加到他们的预测值中-也就是说，使用虚拟编码，$\hat{\beta_2}$反映了两组之间的均值差异。我们对$\hat{\beta_1}$的估计反映了所有数据点的回归斜率-我们假设回归斜率在某人之前是否上过课程的情况下是相同的（见图 14.3）。

## 
## Call:
## lm(formula = grade ~ studyTime + priorClass, data = df)
## 
## Residuals:
##       1       2       3       4       5       6       7       8 
##  3.5833  0.7500 -3.5833 -0.0833  0.7500 -6.4167  2.0833  2.9167 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    70.08       3.77   18.60  8.3e-06 ***
## studyTime       5.00       1.37    3.66    0.015 *  
## priorClass1     9.17       2.88    3.18    0.024 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4 on 5 degrees of freedom
## Multiple R-squared:  0.803,  Adjusted R-squared:  0.724 
## F-statistic: 10.2 on 2 and 5 DF,  p-value: 0.0173

图 14.3：包括先前经验作为模型中的附加组件的学习时间和成绩之间的关系。实线将学习时间与没有先前经验的学生的成绩联系起来，虚线将成绩与具有先前经验的学生的学习时间联系起来。点线对应于两组之间的平均差异。

14.3 变量之间的交互作用

在先前的模型中，我们假设学习时间对成绩的影响（即回归斜率）对两组是相同的。然而，在某些情况下，我们可能会想象一个变量的影响可能会根据另一个变量的值而有所不同，我们称之为变量之间的交互作用。

让我们使用一个新的例子来提出问题：咖啡因对公开演讲有什么影响？首先让我们生成一些数据并绘制它们。从图 14.4 的 A 面来看，似乎没有关系，我们可以通过对数据进行线性回归来确认这一点。

## 
## Call:
## lm(formula = speaking ~ caffeine, data = df)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -33.10 -16.02   5.01  16.45  26.98 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)   -7.413      9.165   -0.81     0.43
## caffeine       0.168      0.151    1.11     0.28
## 
## Residual standard error: 19 on 18 degrees of freedom
## Multiple R-squared:  0.0642, Adjusted R-squared:  0.0122 
## F-statistic: 1.23 on 1 and 18 DF,  p-value: 0.281

但现在假设我们发现研究表明焦虑和非焦虑的人对咖啡因有不同的反应。首先让我们分别为焦虑和非焦虑的人绘制数据。

从图 14.4 的 B 面可以看出，似乎演讲和咖啡因之间的关系对两组是不同的，咖啡因可以提高没有焦虑的人的表现，但会降低有焦虑的人的表现。我们想要创建一个可以回答这个问题的统计模型。首先让我们看看如果我们只在模型中包括焦虑会发生什么。

## 
## Call:
## lm(formula = speaking ~ caffeine + anxiety, data = df)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -32.97  -9.74   1.35  10.53  25.36 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)
## (Intercept)        -12.581      9.197   -1.37     0.19
## caffeine             0.131      0.145    0.91     0.38
## anxietynotAnxious   14.233      8.232    1.73     0.10
## 
## Residual standard error: 18 on 17 degrees of freedom
## Multiple R-squared:  0.204,  Adjusted R-squared:  0.11 
## F-statistic: 2.18 on 2 and 17 DF,  p-value: 0.144

在这里我们看到咖啡因和焦虑都没有显著的影响，这可能有点令人困惑。问题在于这个模型试图使用相同的斜率来关联演讲和咖啡因对两组。如果我们想要使用具有不同斜率的线来拟合它们，我们需要在模型中包括交互作用，这相当于为两组中的每一组拟合不同的线；这通常用在模型中使用$*)符号来表示。

## 
## Call:
## lm(formula = speaking ~ caffeine + anxiety + caffeine * anxiety, 
##     data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.385  -7.103  -0.444   6.171  13.458 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 17.4308     5.4301    3.21  0.00546 ** 
## caffeine                    -0.4742     0.0966   -4.91  0.00016 ***
## anxietynotAnxious          -43.4487     7.7914   -5.58  4.2e-05 ***
## caffeine:anxietynotAnxious   1.0839     0.1293    8.38  3.0e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.1 on 16 degrees of freedom
## Multiple R-squared:  0.852,  Adjusted R-squared:  0.825 
## F-statistic: 30.8 on 3 and 16 DF,  p-value: 7.01e-07

从这些结果中，我们看到咖啡因和焦虑都有显著的影响（我们称之为主效应），以及咖啡因和焦虑之间的交互作用。图 14.4 的 C 面显示了每组的分开回归线。

图 14.4：A：咖啡因和公开演讲之间的关系。B：咖啡因和公开演讲之间的关系，焦虑由数据点的形状表示。C：公开演讲和咖啡因之间的关系，包括与焦虑的交互作用。这导致了两条分别为每组建模的线（对焦虑的虚线，对非焦虑的点线）。

一个重要的要点是，如果存在显著的交互作用，我们必须非常小心地解释显著的主效应，因为交互作用表明主效应根据另一个变量的值而不同，因此不容易解释。

有时我们想要比较两个不同模型的相对拟合，以确定哪个是更好的模型；我们称之为模型比较。对于上面的模型，我们可以使用所谓的方差分析来比较具有交互作用和不具有交互作用的模型的拟合度：

## Analysis of Variance Table
## 
## Model 1: speaking ~ caffeine + anxiety
## Model 2: speaking ~ caffeine + anxiety + caffeine * anxiety
##   Res.Df  RSS Df Sum of Sq    F Pr(>F)    
## 1     17 5639                             
## 2     16 1046  1      4593 70.3  3e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

这告诉我们有很好的证据表明，更喜欢具有交互作用的模型而不是没有交互作用的模型。在这种情况下，模型比较相对简单，因为这两个模型是嵌套的 - 其中一个模型是另一个模型的简化版本，简化模型中的所有变量都包含在更复杂的模型中。与非嵌套模型的模型比较可能会变得更加复杂。

14.4 超越线性预测和结果

重要的是要注意，尽管它被称为一般线性模型，我们实际上可以使用相同的方法来建模不遵循直线的效应（如曲线）。一般线性模型中的“线性”并不是指响应的形状，而是指模型在其参数上是线性的 - 也就是说，模型中的预测变量只与参数相乘，而不是像被提高到参数的幂这样的非线性关系。分析的数据通常是二元的而不是连续的，正如我们在分类结果的章节中所看到的那样。有一些方法可以调整一般线性模型（称为广义线性模型），允许进行这种类型的分析。我们将在本书的后面探讨这些模型。

14.5 批评我们的模型和检查假设

“垃圾进，垃圾出”这句话在统计学中同样适用。在统计模型的情况下，我们必须确保我们的模型被正确指定，并且我们的数据适合模型。

当我们说模型“被正确指定”时，我们的意思是我们已经在模型中包含了适当的自变量集。我们已经看到了错误指定模型的例子，在图 5.3 中。请记住，我们看到了几种情况，模型未能正确解释数据，比如未包括截距。在构建模型时，我们需要确保它包括所有适当的变量。

我们还需要担心我们的模型是否满足我们统计方法的假设。当使用一般线性模型时，我们做出的最重要的假设之一是残差（即模型预测与实际数据之间的差异）是正态分布的。这可能会因为模型未正确指定或者我们建模的数据不合适而失败。

我们可以使用称为Q-Q（分位数-分位数）图来查看我们的残差是否服从正态分布。您已经遇到过分位数 - 它们是截断特定累积分布的比例值。Q-Q 图将两个分布的分位数相互对比；在这种情况下，我们将实际数据的分位数与同一数据拟合的正态分布的分位数进行对比。图 14.5 显示了两个这样的 Q-Q 图的示例。左侧面板显示了来自正态分布的数据的 Q-Q 图，而右侧面板显示了来自非正态数据的 Q-Q 图。右侧面板中的数据点与线明显偏离，反映了它们不是正态分布的事实。

qq_df <- tibble(norm=rnorm(100),
 unif=runif(100))

p1 <- ggplot(qq_df,aes(sample=norm)) + 
 geom_qq() + 
 geom_qq_line() + 
 ggtitle('Normal data')

p2 <- ggplot(qq_df,aes(sample=unif)) + 
 geom_qq() + 
 geom_qq_line()+ 
 ggtitle('Non-normal data')

plot_grid(p1,p2)

图 14.5：正态（左）和非正态（右）数据的 Q-Q 图。线显示了 x 轴和 y 轴相等的点。

模型诊断将在后面的章节中更详细地探讨。

14.6 “预测”真正意味着什么？

当我们在日常生活中谈论“预测”时，我们通常指的是在看到数据之前估计某个变量的值的能力。然而，在线性回归的背景下，这个术语通常用来指代将模型拟合到数据；估计的值（$\hat{y}$）有时被称为“预测”，而独立变量被称为“预测变量”。这有一个不幸的含义，因为它意味着我们的模型也应该能够预测未来新数据点的值。实际上，将模型拟合到用于获取参数的数据集的拟合几乎总是比将模型拟合到新数据集的拟合要好（Copas 1983）。

例如，让我们从 NHANES 中抽取 48 个儿童的样本，并为包括几个回归器（年龄、身高、看电视和使用电脑的小时数以及家庭收入）及其交互作用的体重拟合回归模型。

表 14.2：应用于原始数据和新数据的模型的均方根误差，以及在对 y 变量的顺序进行洗牌后的结果（实质上使零假设成立）

数据类型	RMSE（原始数据）	RMSE（新数据）
真实数据	3.0	25
洗牌数据	7.8	59

在这里，我们看到，尽管在原始数据上拟合的模型显示出非常好的拟合（每个个体只有几公斤的偏差），但对于从同一人群中抽样的新儿童的体重值，同样的模型预测效果要差得多（每个个体超过 25 公斤的偏差）。这是因为我们指定的模型相当复杂，因为它不仅包括每个单独的变量，还包括它们的所有可能组合（即它们的交互作用），导致一个具有 32 个参数的模型。由于这几乎与数据点（即 48 个儿童的身高）一样多的系数，该模型对数据过拟合，就像我们在 5.4 节中过拟合的初始示例中的复杂多项式曲线一样。

另一种看过拟合效果的方法是看看如果我们随机洗牌权重变量的值会发生什么（在表的第二行显示）。随机洗牌的值应该使得从其他变量预测权重变得不可能，因为它们不应该有系统关系。表中的结果表明，即使没有真正的关系要建模（因为洗牌应该已经消除了关系），复杂模型在拟合数据的预测中仍然显示出非常低的误差，因为它适应了特定数据集中的噪音。然而，当该模型应用于新数据集时，我们看到误差要大得多，正如应该的那样。

14.6.1 交叉验证

为了解决过拟合问题，已经开发出一种称为交叉验证的方法。这种技术通常在机器学习领域中使用，该领域专注于构建能够很好地推广到新数据的模型，即使我们没有新的数据集来测试模型。交叉验证的想法是，我们反复拟合我们的模型，每次都留出一部分数据，然后测试模型预测每个保留子集中的值的能力。

图 14.6：交叉验证程序的示意图。

让我们看看这对我们的体重预测例子会有什么影响。在这种情况下，我们将进行 12 折交叉验证，这意味着我们将数据分成 12 个子集，然后在每种情况下拟合模型 12 次，每次留出一个子集，然后测试模型对这些留出数据点的因变量值的准确预测能力。大多数统计软件都提供工具来对数据应用交叉验证。使用这个函数，我们可以在 NHANES 数据集的 100 个样本上运行交叉验证，并计算交叉验证的 RMSE，以及原始数据和新数据的 RMSE，就像我们上面计算的那样。

表 14.3：交叉验证和新数据的 R 平方，显示交叉验证提供了对模型在新数据上性能的合理估计。

	R 平方
原始数据	0.95
新数据	0.34
交叉验证	0.60

在这里，我们看到交叉验证给出了一个对预测准确性的估计，这个估计比我们在原始数据集上看到的要接近一个全新数据集的情况，实际上，它甚至比一个新数据集的平均值稍微悲观一些，可能是因为只有部分数据被用来训练每个模型。

请注意，正确使用交叉验证是棘手的，建议在实践中使用之前咨询专家。然而，本节希望向你展示了三件事：

“预测”并不总是意味着你认为的那样
复杂模型可能会严重过拟合数据，以至于即使没有真正的信号来预测，也会观察到看似良好的预测
除非使用了适当的方法，否则对预测准确性的声明应该持怀疑态度。

14.7 学习目标

阅读完本章后，你应该能够：

描述线性回归的概念，并将其应用于数据集
描述一般线性模型的概念，并提供其应用示例
描述交叉验证如何允许我们估计模型在新数据上的预测性能

14.8 建议阅读

统计学习的要素：数据挖掘、推断和预测（第二版） - 机器学习方法的“圣经”，可在网上免费获取。

14.9 附录

14.9.1 估计线性回归参数

我们通常使用线性代数从数据中估计线性模型的参数，线性代数是应用于向量和矩阵的代数形式。如果你不熟悉线性代数，不用担心 - 你实际上不需要在这里使用它，因为 R 会为我们做所有的工作。然而，简短的线性代数探讨可以提供一些关于模型参数在实践中是如何估计的见解。

首先，让我们介绍向量和矩阵的概念；你已经在 R 的上下文中遇到过它们，但我们将在这里进行复习。矩阵是一组按照方形或矩形排列的数字，这样矩阵在一个或多个维度上变化。习惯上，将不同的观测单位（比如人）放在行中，将不同的变量放在列中。让我们拿上面的学习时间数据来说。我们可以将这些数字排列成一个矩阵，它将有八行（每个学生一行）和两列（一个是学习时间，一个是成绩）。如果你在想“这听起来像是 R 中的数据框”，那么你说对了！实际上，数据框是矩阵的一种特殊形式，我们可以使用as.matrix()函数将数据框转换为矩阵。

df <-
 tibble(
 studyTime = c(2, 3, 5, 6, 6, 8, 10, 12) / 3,
 priorClass = c(0, 1, 1, 0, 1, 0, 1, 0)
 ) %>%
 mutate(
 grade = 
 studyTime * betas[1] + 
 priorClass * betas[2] + 
 round(rnorm(8, mean = 70, sd = 5))
 )

df_matrix <- 
 df %>%
 dplyr::select(studyTime, grade) %>%
 as.matrix()

我们可以将一般线性模型用线性代数表示如下：

$$ Y = X*\beta + E $$

这看起来很像我们之前使用的方程，只是所有的字母都是大写的，这是为了表达它们是向量的事实。

我们知道成绩数据进入 Y 矩阵，但$X$矩阵中放入了什么？请记住，从我们对线性回归的最初讨论中，我们需要在我们感兴趣的自变量之外添加一个常数，因此我们的$X$矩阵（我们称之为设计矩阵）需要包括两列：一个代表学习时间变量，另一列对于每个个体都具有相同的值（通常我们用全为 1 的值填充）。我们可以以图形方式查看生成的设计矩阵（参见图 14.7）。

图 14.7：用矩阵代数表示学习时间数据的线性模型的描绘。

矩阵乘法规则告诉我们，矩阵的维度必须相互匹配；在这种情况下，设计矩阵的维度为 8（行）X 2（列），Y 变量的维度为 8 X 1。因此，$\beta$矩阵的维度需要为 2 X 1，因为 8 X 2 矩阵乘以 2 X 1 矩阵的结果是 8 X 1 矩阵（因为匹配的中间维度被消除）。$\beta$矩阵中的两个值的解释是它们分别与学习时间和 1 相乘，以获得每个个体的估计成绩。我们还可以将线性模型视为每个个体的一组单独方程：

$\hat{y}_1 = studyTime_1\beta_1 + 1\beta_2$

$\hat{y}_2 = studyTime_2\beta_1 + 1\beta_2$

…

$\hat{y}_8 = studyTime_8\beta_1 + 1\beta_2$

请记住，我们的目标是确定给定$X$和$Y$的已知值的最佳拟合值$\beta$。一个天真的方法是使用简单的代数来解决$\beta$ – 在这里我们忽略了误差项$E$，因为它不在我们的控制范围内：

$$ \hat{\beta} = \frac{Y}{X} $$

这里的挑战是$X$和$\beta$现在是矩阵，而不是单个数字 – 但线性代数的规则告诉我们如何除以矩阵，这与乘以矩阵的逆（称为$X^{-1}$）相同。我们可以在 R 中这样做：

# compute beta estimates using linear algebra

#create Y variable 8 x 1 matrix
Y <- as.matrix(df$grade) 
 #create X variable 8 x 2 matrix
X <- matrix(0, nrow = 8, ncol = 2)
#assign studyTime values to first column in X matrix
X[, 1] <- as.matrix(df$studyTime) 
#assign constant of 1 to second column in X matrix
X[, 2] <- 1 

# compute inverse of X using ginv()
# %*% is the R matrix multiplication operator

beta_hat <- ginv(X) %*% Y #multiple the inverse of X by Y
print(beta_hat)

##      [,1]
## [1,]  8.2
## [2,] 68.0

对于对统计方法感兴趣的任何人，强烈建议投入一些时间学习线性代数，因为它为标准统计中使用的几乎所有工具提供了基础。

参考资料

Copas, J. B. 1983. “Regression, Prediction and Shrinkage (with Discussion).” Journal of the Royal Statistical Society, Series B: Methodological 45: 311–54.

第十五章：比较均值

原文：statsthinking21.github.io/statsthinking21-core-site/comparing-means.html

译者：飞龙

协议：CC BY-NC-SA 4.0

我们已经遇到了许多情况，我们想要询问样本均值的问题。在本章中，我们将更深入地探讨我们可以比较不同组均值的各种方法。

15.1 测试单个均值的值

我们可能想要询问均值是否具有特定值的最简单的问题。假设我们想要测试 NHANES 数据集中成年人的舒张压均值是否高于 80，这是根据美国心脏病学会的高血压标准。为了询问这个问题，我们从数据集中抽取了 200 名成年人；每个成年人的血压被测量了三次，我们使用这些值的平均值进行我们的检验。

测试这种差异的一种简单方法是使用称为符号检验的检验，它询问实际值与假设值之间的正差异的比例是否与我们预期的差异不同。为了做到这一点，我们取每个数据点与假设均值的差异并计算它们的符号。如果数据呈正态分布且实际均值等于假设均值，那么高于假设均值（或低于它）的值的比例应该是 0.5，这样正差异的比例也应该是 0.5。在我们的样本中，我们看到 19.0%的个体舒张压高于 80。然后我们可以使用二项检验来询问这种正差异的比例是否大于 0.5，使用我们统计软件中的二项检验函数：

## 
##  Exact binomial test
## 
## data:  npos and nrow(NHANES_sample)
## number of successes = 38, number of trials = 200, p-value = 1
## alternative hypothesis: true probability of success is greater than 0.5
## 95 percent confidence interval:
##  0.15 1.00
## sample estimates:
## probability of success 
##                   0.19

在零假设$p \le 0.5$下，我们看到具有正符号的个体比例并不令人惊讶，这不应该让我们感到惊讶，因为观察到的值实际上小于 0.5。

我们也可以使用学生 t 检验来询问这个问题，这是你在本书中早些时候已经遇到过的。我们将均值称为$\bar{X}$，假设总体均值为$\mu$。然后，单个均值的 t 检验为：

$$ t = \frac{\bar{X} - \mu}{SEM} $$

其中 SEM（你可能还记得抽样章节中的内容）被定义为：

$$ SEM = \frac{\hat{\sigma}}{\sqrt{n}} $$

实质上，t 统计量询问样本均值与假设数量的偏差在均值的抽样变异性方面有多大。

我们可以使用我们的统计软件计算 NHANES 数据集的这个值：

## 
##  One Sample t-test
## 
## data:  NHANES_adult$BPDiaAve
## t = -55, df = 4593, p-value = 1
## alternative hypothesis: true mean is greater than 80
## 95 percent confidence interval:
##   69 Inf
## sample estimates:
## mean of x 
##        70

这告诉我们数据集中的舒张压均值（69.5）实际上远低于 80，因此我们对它是否高于 80 的检验远非显著。

记住，大的 p 值并不能为我们提供支持零假设的证据，因为我们已经假定零假设是真实的。然而，正如我们在贝叶斯分析的章节中讨论的那样，我们可以使用贝叶斯因子来量化支持或反对零假设的证据：

ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80))

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 -Inf<d<80    : 2.7e+16  ±NA%
## [2] Alt., r=0.707 !(-Inf<d<80) : NaNe-Inf ±NA%
## 
## Against denominator:
##   Null, mu = 80 
## ---
## Bayes factor type: BFoneSample, JZS

这里列出的第一个贝叶斯因子（$2.73 * 10^{16}$）表示支持零假设胜过备择假设的证据非常强。

15.2 比较两个均值

统计学中经常出现的一个更常见的问题是两个不同组的均值是否有差异。假设我们想知道定期吸大麻的人是否看更多电视，我们也可以使用 NHANES 数据集来询问这个问题。我们从数据集中抽取了 200 个个体的样本，并测试每天看电视的小时数是否与定期吸大麻有关。图 15.1 的左侧面板显示了使用小提琴图展示的这些数据。

左图：小提琴图显示了通过定期使用大麻分开的电视观看分布。右图：小提琴图显示了每个组的数据，用虚线连接了每个组的预测值，这些值是基于线性模型的结果计算得出的。

图 15.1：左图：小提琴图显示了通过定期使用大麻分开的电视观看分布。右图：小提琴图显示了每个组的数据，用虚线连接了每个组的预测值，这些值是基于线性模型的结果计算得出的。

我们也可以使用学生 t 检验来测试两组独立观察的差异（正如我们在前面的章节中看到的）；我们将在本章后面讨论观察不独立的情况。作为提醒，用于比较两个独立组的 t 统计量计算如下：

$$ t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} $$

其中$\bar{X}_1$和$\bar{X}_2$是两组的均值，$S^2_1$和$S2_2$是每组的方差，$n_1$和$n_2$是两组的大小。在均值无差异的零假设下，这个统计量根据 t 分布分布，使用韦尔奇检验计算自由度（如前面讨论的），因为两组个体数量不同。在这种情况下，我们从具体假设开始，即吸大麻与更多的电视观看有关，因此我们将使用单尾检验。以下是我们统计软件的结果：

## 
##  Welch Two Sample t-test
## 
## data:  TVHrsNum by RegularMarij
## t = -3, df = 85, p-value = 6e-04
## alternative hypothesis: true difference in means between group No and group Yes is less than 0
## 95 percent confidence interval:
##   -Inf -0.39
## sample estimates:
##  mean in group No mean in group Yes 
##               2.0               2.8

在这种情况下，我们看到组之间存在统计上显著的差异，且方向符合预期 - 经常吸大麻的人看更多电视。

15.3 t 检验作为线性模型

t 检验通常被呈现为比较均值的专门工具，但也可以被视为一般线性模型的应用。在这种情况下，模型如下：

$$ \hat{TV} = \hat{\beta_1}*Marijuana + \hat{\beta_0} $$

由于吸烟是一个二元变量，我们将其视为前一章中讨论的虚拟变量，对于吸烟者设置为 1，对于非吸烟者设置为 0。在这种情况下，$\hat{\beta_1}$ 简单地是两组之间均值的差异，$\hat{\beta_0}$ 是编码为零的组的均值。我们可以使用统计软件中的一般线性模型函数拟合这个模型，并且可以看到它给出了与上面的 t 检验相同的 t 统计量，只是在这种情况下是正的，因为我们的软件安排了这些组的方式：

## 
## Call:
## lm(formula = TVHrsNum ~ RegularMarij, data = NHANES_sample)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2843 -1.0067 -0.0067  0.9933  2.9933 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        2.007      0.116   17.27  < 2e-16 ***
## RegularMarijYes    0.778      0.230    3.38  0.00087 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.4 on 198 degrees of freedom
## Multiple R-squared:  0.0546, Adjusted R-squared:  0.0498 
## F-statistic: 11.4 on 1 and 198 DF,  p-value: 0.000872

我们也可以以图形方式查看线性模型的结果（参见 15.1 的右面板）。在这种情况下，非吸烟者的预测值是$\hat{\beta_0}$（2.0），吸烟者的预测值是$\hat{\beta_0} +\hat{\beta_1}$（2.8）。

为了计算这个分析的标准误差，我们可以使用与线性回归相同的方程 - 因为这实际上只是线性回归的另一个例子。实际上，如果你比较上面 t 检验的 p 值和大麻使用变量的线性回归分析中的 p 值，你会发现线性回归分析的 p 值是 t 检验的两倍，因为线性回归分析执行的是双尾检验。

15.3.1 比较两个均值的效应大小

比较两个均值最常用的效应大小是科恩的 d，这是一个用标准差单位表示的效应大小的表达式（你可能还记得第 10 章中的内容）。对于使用上面概述的一般线性模型估计的 t 检验（即使用单个虚拟编码变量），这可以表示为：

$$ d = \frac{\hat{\beta_1}}{\sigma_{residual}} $$

我们可以从上面的分析输出中获得这些值，得到 d = 0.55，通常我们会解释为中等效应。

我们还可以为这个分析计算 $R^2$，它告诉我们电视观看的方差有多少被大麻吸烟解释。这个值（在上面线性模型分析的摘要底部报告）为 0.05，这告诉我们，虽然效应可能在统计上显著，但它解释了相对较少的电视观看方差。

15.4 平均差异的贝叶斯因子

正如我们在贝叶斯分析的章节中讨论的那样，贝叶斯因子提供了一种更好地量化支持或反对零假设的证据的方法。我们可以对相同的数据进行这种分析：

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 0<d<Inf    : 0.041 ±0%
## [2] Alt., r=0.707 !(0<d<Inf) : 61    ±0%
## 
## Against denominator:
##   Null, mu1-mu2 = 0 
## ---
## Bayes factor type: BFindepSample, JZS

由于数据的组织方式，第二行向我们展示了这个分析的相关贝叶斯因子，为 61.4。这告诉我们，反对零假设的证据非常强。

15.5 比较配对观测

在实验研究中，我们经常使用受试者内部设计，即我们比较同一个人的多次测量。这种设计产生的测量通常被称为重复测量。例如，在 NHANES 数据集中，血压被测量了三次。假设我们有兴趣测试在样本中个体的第一次和第二次测量之间的平均收缩压是否有差异（见图 15.2）。

图 15.2：左侧：NHANES 数据集中第一次和第二次记录的收缩压的小提琴图。右侧：相同的小提琴图，显示了每个个体的两个数据点之间的连线。

我们看到第一次和第二次测量之间的平均血压没有太大的差异（大约一点）。首先让我们使用独立样本 t 检验来测试差异，忽略了数据点成对来自同一个个体的事实。

## 
##  Two Sample t-test
## 
## data:  BPsys by timepoint
## t = 0.6, df = 398, p-value = 0.5
## alternative hypothesis: true difference in means between group BPSys1 and group BPSys2 is not equal to 0
## 95 percent confidence interval:
##  -2.1  4.1
## sample estimates:
## mean in group BPSys1 mean in group BPSys2 
##                  121                  120

这个分析显示没有显著差异。然而，这个分析是不合适的，因为它假设两个样本是独立的，而实际上它们并不是，因为数据来自同一个个体。我们可以绘制每个个体的数据线来展示这一点（见图 15.2 的右侧面板）。

在这个分析中，我们真正关心的是每个人的血压在两次测量之间是否以系统的方式发生了变化，因此表示数据的另一种方式是计算每个个体两个时间点之间的差异，然后分析这些差异分数而不是分析个体测量值。在图 15.3 中，我们展示了这些差异分数的直方图，蓝线表示平均差异。

图 15.3：第一次和第二次血压测量之间差异分数的直方图。垂直线代表样本中的平均差异。

15.5.1 符号检验

一个简单的测试差异的方法是使用符号检验。为此，我们取差异并计算它们的符号，然后使用二项式检验来询问正符号的比例是否与 0.5 不同。

## 
##  Exact binomial test
## 
## data:  npos and nrow(NHANES_sample)
## number of successes = 96, number of trials = 200, p-value = 0.6
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.41 0.55
## sample estimates:
## probability of success 
##                   0.48

在这里，我们看到具有积极迹象的个体比例（0.48）不足以在零假设下的 p=0.5 下令人惊讶。然而，符号检验的一个问题是它丢弃了关于差异大小的信息，因此可能会漏掉一些东西。

15.5.2 配对 t 检验

更常见的策略是使用配对 t 检验，它相当于每个人的测量之间的均值差异是否为零的单样本 t 检验。我们可以使用我们的统计软件计算这个，告诉它数据点是配对的：

## 
##  Paired t-test
## 
## data:  BPsys by timepoint
## t = 3, df = 199, p-value = 0.007
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  0.29 1.75
## sample estimates:
## mean difference 
##               1

通过这些分析，我们看到两次测量之间实际上存在显著差异。让我们计算贝叶斯因子，看看结果提供了多少证据：

## Bayes factor analysis
## --------------
## [1] Alt., r=0.707 : 3 ±0.01%
## 
## Against denominator:
##   Null, mu = 0 
## ---
## Bayes factor type: BFoneSample, JZS

观察到的贝叶斯因子为 2.97 告诉我们，尽管配对 t 检验中的效应是显著的，但实际上提供了非常微弱的证据支持备择假设。

配对 t 检验也可以用线性模型来定义；有关此更多详细信息，请参阅附录。

15.6 比较两个以上的均值

通常我们希望比较两个以上的均值，以确定它们是否彼此不同。假设我们正在分析治疗高血压的临床试验数据。在这项研究中，志愿者被随机分配到三种条件中的一种：药物 1、药物 2 或安慰剂。让我们生成一些数据并绘制它们（见图 15.4）。

图 15.4：显示我们临床试验中三个不同组的血压的箱线图。

15.6.1 方差分析

我们首先想要测试所有组的均值是否相等的零假设 - 也就是说，与安慰剂相比，治疗都没有任何效果。我们可以使用一种称为方差分析（ANOVA）的方法来做到这一点。这是心理统计学中最常用的方法之一，我们只会在这里浅尝辄止。ANOVA 的基本思想是我们在一般线性模型章节中已经讨论过的，实际上 ANOVA 只是这种模型的一个特定版本的名称。

还记得上一章我们可以将数据的总方差（$SS_{total}$）分成模型解释的方差（$SS_{model}$）和未解释的方差（$SS_{error}$）。然后我们可以通过将它们除以它们的自由度来计算每个的均方；对于误差，这是$N - p$（其中$p$是我们计算的均值的数量），对于模型，这是$p - 1$：

$$ MS_{model} =\frac{SS_{model}}{df_{model}}= \frac{SS_{model}}{p-1} $$

$$ MS_{error} = \frac{SS_{error}}{df_{error}} = \frac{SS_{error}}{N - p} $$

对于 ANOVA，我们想要测试模型解释的方差是否大于我们在零假设下预期的随机方差，即均值之间没有差异。而对于 t 分布，在零假设下期望值为零，但在这里情况并非如此，因为平方和始终是正数。幸运的是，还有另一个理论分布描述了在零假设下平方和的比率是如何分布的：F分布（见图 15.5）。这个分布有两个自由度，对应于分子（在这种情况下是模型）和分母（在这种情况下是误差）的自由度。

图 15.5：零假设下的 F 分布，不同自由度的值。

要创建 ANOVA 模型，我们扩展了您在上一章中遇到的“虚拟编码”的概念。请记住，对于比较两个均值的 t 检验，我们创建了一个单一的虚拟变量，该变量对于其中一个条件取值为 1，对于其他条件取值为零。在这里，我们通过创建两个虚拟变量来扩展这个想法，一个编码药物 1 条件，另一个编码药物 2 条件。就像在 t 检验中一样，我们将有一个条件（在这种情况下是安慰剂），它没有虚拟变量，因此代表了与其他条件进行比较的基线；其均值定义了模型的截距。使用药物 1 和 2 的虚拟编码，我们可以使用与上一章相同的方法拟合模型：

## 
## Call:
## lm(formula = sysBP ~ d1 + d2, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.084  -7.745  -0.098   7.687  23.431 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   141.60       1.66   85.50  < 2e-16 ***
## d1            -10.24       2.34   -4.37  2.9e-05 ***
## d2             -2.03       2.34   -0.87     0.39    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.9 on 105 degrees of freedom
## Multiple R-squared:  0.169,  Adjusted R-squared:  0.154 
## F-statistic: 10.7 on 2 and 105 DF,  p-value: 5.83e-05

此命令的输出为我们提供了两件事。首先，它向我们显示了每个虚拟变量的 t 检验结果，基本上告诉我们每个条件是否与安慰剂分别不同；看起来药物 1 确实有差异，而药物 2 没有。但是，请记住，如果我们想要解释这些测试，我们需要校正 p 值，以考虑我们进行了多个假设检验的事实；我们将在下一章中看到如何做到这一点。

请记住，我们最初想要测试的假设是是否在任何条件之间存在差异；我们将这称为“总体”假设检验，这是 F 统计提供的测试。F 统计基本上告诉我们我们的模型是否比仅包括一个截距的简单模型更好。在这种情况下，我们看到 F 检验非常显著，与我们的印象一致，即似乎各组之间确实存在差异（事实上我们知道确实存在差异，因为我们创建了数据）。

15.7 学习目标

阅读完本章后，您应该能够：

描述标志检验背后的原理
描述 t 检验如何用于将单个均值与假设值进行比较
使用双样本 t 检验比较两个配对或非配对组的均值
描述方差分析如何用于测试两个以上均值之间的差异。

15.8 附录

15.8.1 配对 t 检验作为线性模型

我们还可以根据一般线性模型来定义配对 t 检验。为此，我们将每个受试者的所有测量数据作为数据点（在整洁的数据框中）。然后，在模型中包括一个变量，该变量编码每个个体的身份（在这种情况下，包含每个人的受试者 ID 的 ID 变量）。这被称为“混合模型”，因为它包括独立变量的效应以及个体的效应。标准模型拟合过程“lm（）”无法做到这一点，但我们可以使用一个名为“lme4”的流行 R 包中的“lmer（）”函数来实现这一点，该包专门用于估计混合模型。公式中的“(1|ID)”告诉“lmer（）”估计一个单独的截距（这是“1”所指的内容）用于“ID”变量的每个值（即数据集中的每个个体），然后估计一个将时间点与 BP 相关联的公共斜率。

# compute mixed model for paired test

lmrResult <- lmer(BPsys ~ timepoint + (1 | ID), 
 data = NHANES_sample_tidy)
summary(lmrResult)

## Linear mixed model fit by REML. t-tests use Satterthwaite's method [
## lmerModLmerTest]
## Formula: BPsys ~ timepoint + (1 | ID)
##    Data: NHANES_sample_tidy
## 
## REML criterion at convergence: 2895
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.3843 -0.4808  0.0076  0.4221  2.1718 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  ID       (Intercept) 236.1    15.37   
##  Residual              13.9     3.73   
## Number of obs: 400, groups:  ID, 200
## 
## Fixed effects:
##                 Estimate Std. Error      df t value Pr(>|t|)    
## (Intercept)      121.370      1.118 210.361  108.55   <2e-16 ***
## timepointBPSys2   -1.020      0.373 199.000   -2.74   0.0068 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr)
## tmpntBPSys2 -0.167

您可以看到，这向我们显示了一个 p 值，该 p 值与使用“t.test（）”函数计算的配对 t 检验的结果非常接近。

第十六章：多元统计

原文：statsthinking21.github.io/statsthinking21-core-site/multivariate.html

译者：飞龙

协议：CC BY-NC-SA 4.0

术语多元指的是涉及多个随机变量的分析。虽然我们之前看到的模型包括多个变量（如线性回归），但在这些情况下，我们特别关注的是如何解释因变量的变化，这些变化通常由实验者而不是被测量的自变量来解释。在多元分析中，我们通常将所有变量视为平等，并试图理解它们如何作为一个群体相互关联。

本章中有许多不同种类的多元分析，但我们将重点关注两种主要方法。首先，我们可能只是想要理解和可视化数据中存在的结构，通常指的是哪些变量或观察与其他变量或观察相关。我们通常会根据一些衡量指标来定义“相关”，这些指标可以衡量跨变量值之间的距离。属于这一类别的一个重要方法被称为聚类，旨在找到在变量或观察之间相似的聚类。

其次，我们可能希望将大量变量减少到较少的变量，同时尽量保留尽可能多的信息。这被称为降维，其中“维度”指的是数据集中的变量数量。我们将讨论两种常用的降维技术，即主成分分析和因子分析。

聚类和降维通常被归类为无监督学习的形式；这与迄今为止学到的线性回归等监督学习形成对比。我们认为线性回归是“监督学习”的原因是，我们知道我们试图预测的事物的价值（即依赖变量），并且我们试图找到最佳预测这些值的模型。在无监督学习中，我们没有特定的值要预测；相反，我们试图发现数据中可能有用于理解情况的结构，这通常需要一些关于我们想要找到什么样的结构的假设。

在本章中，您将发现，虽然在监督学习中通常存在一个“正确”的答案（一旦我们已经同意如何确定“最佳”模型，例如平方误差的总和），但在无监督学习中通常没有一个一致的“正确”答案。不同的无监督学习方法可能会给出关于相同数据的非常不同的答案，通常原则上无法确定哪一个是“正确”的，因为这取决于分析的目标和对产生数据的机制愿意做出的假设。有些人会觉得这很沮丧，而其他人会觉得这很令人振奋；您将需要弄清楚自己属于哪个阵营。

16.1 多元数据：一个例子

作为多元分析的一个例子，我们将看一下由我的团队收集并由 Eisenberg 等人发布的数据集。(Eisenberg:2019um?)。这个数据集很有用，因为它收集了大量有趣的变量，并且涉及相对较多的个体，并且可以在网上免费获取，因此您可以自行探索。

进行这项研究是因为我们对了解心理功能的几个不同方面如何相互关联感兴趣，特别关注自我控制和相关概念的心理测量。参与者在一周内进行了长达十小时的认知测试和调查；在这个第一个例子中，我们将关注与自我控制的两个特定方面相关的变量。反应抑制被定义为迅速停止行动的能力，在这项研究中使用了一组称为停止信号任务的任务来衡量。这些任务的感兴趣变量是一个估计一个人停止自己所需的时间，称为停止信号反应时间（SSRT），数据集中有四种不同的测量。冲动性被定义为倾向于冲动决策，不考虑潜在后果和长期目标。研究包括了许多不同的调查来衡量冲动性，但我们将关注UPPS-P调查，该调查评估了冲动性的五个不同方面。

在为艾森伯格的研究中的 522 名参与者计算了这些分数之后，我们得到了每个个体的 9 个数字。虽然多变量数据有时可能有数千甚至数百万个变量，但首先了解这些方法如何处理少量变量是有用的。

16.2 可视化多变量数据

多变量数据的一个基本挑战是，人眼和大脑只能够可视化三维以上的数据。我们可以使用各种工具来尝试可视化多变量数据，但随着变量数量的增加，所有这些工具都会失效。一种方法是首先减少维度（如下文所述），然后可视化减少后的数据集。

16.2.1 矩阵散点图

可视化少量变量的一种有用方法是将每对变量相互绘制，有时被称为“矩阵散点图”；图 16.1 中显示了一个例子。面板中的每行/列都指代一个单一变量 - 在这种情况下是我们之前例子中的心理变量之一。图中的对角元素显示了每个变量的分布情况，即直方图。对角线以下的元素显示了每对矩阵的散点图，并叠加了描述变量关系的回归线。对角线以上的元素显示了每对变量的相关系数。当变量数量相对较少（大约 10 个或更少）时，这可以是一种有用的方式来深入了解多变量数据集。

图 16.1：自我控制数据集中九个变量的矩阵散点图。矩阵中的对角元素显示了每个单独变量的直方图。左下方的面板显示了每对变量之间的关系散点图，右上方的面板显示了每对变量的相关系数。

16.2.2 热力图

在某些情况下，我们希望一次可视化大量变量之间的关系，通常关注相关系数。这样做的一个有用方式是将相关值绘制成热图，其中地图的颜色与相关性的值相关。图 16.2 显示了一个相对较少变量的示例，使用了上面的心理学示例。在这种情况下，热图帮助我们看到数据的结构；我们看到 SSRT 变量内部和 UPPS 变量内部之间存在强相关，而两组变量之间的相关性相对较小。

图 16.2：九个自我控制变量的相关矩阵热图。左上角和右下角的较亮的黄色区域突出了两个变量子集内部的更高相关性。

热图特别适用于可视化大量变量之间的相关性。我们可以以脑成像数据为例。神经科学研究人员通常使用功能磁共振成像（fMRI）从大脑的许多位置收集关于脑功能的数据，然后评估这些位置之间的相关性，以测量区域之间的“功能连接”。例如，图 16.3 显示了一个大的相关矩阵的热图，基于单个个体（即我自己）大脑中 300 多个区域的活动。通过查看热图，数据中的清晰结构显而易见。特别是，我们看到有大量脑区域的活动彼此高度相关（在相关矩阵对角线上的大黄色块中可见），而这些块也与其他块强烈负相关（在对角线外的大蓝色块中可见）。热图是一种强大的工具，可以轻松可视化大型数据矩阵。

图 16.3：显示单个个体左半球 316 个脑区活动之间的相关系数的热图。黄色的单元格反映了强正相关，而蓝色的单元格反映了强负相关。矩阵对角线上的大块正相关对应于大脑中的主要连接网络

16.3 聚类

聚类是指一组方法，根据观测值的相似性在数据集中识别相关观测或变量的群组。通常，这种相似性将以某种多变量值的距离度量来量化。然后，聚类方法找到成员之间距离最小的一组群组。

聚类中常用的距离度量是欧氏距离，基本上是连接两个数据点的线的长度。图 16.4 显示了一个具有两个数据点和两个维度（X 和 Y）的数据集的示例。这两个点之间的欧氏距离是空间中连接点的虚线的长度。

图 16.4：两点之间的欧几里德距离的描绘，(1,2)和(4,3)。这两点在 X 轴上相差 3，在 Y 轴上相差 1。

欧几里德距离是通过平方每个维度中点的位置的差异，将这些平方差异相加，然后取平方根来计算的。当有两个维度$x$和$y$时，这将被计算为：

$$ d(x, y) = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2} $$

将我们示例数据的值代入公式：

$$ d(x, y) = \sqrt{(1 - 4)^2 + (2 - 3)^2} = 3.16 $$

如果欧几里德距离的公式看起来有点熟悉，那是因为它与大多数人在几何课上学到的毕达哥拉斯定理是相同的，该定理根据两边的长度计算直角三角形的斜边长度。在这种情况下，三角形的两边的长度对应于沿着两个维度之一的点之间的距离。虽然这个例子是在两个维度上，但我们经常处理的数据的维度远远超过两个，但是相同的思想可以扩展到任意数量的维度。

欧几里德距离的一个重要特征是它对数据的整体均值和变异性敏感。在这个意义上，它不像相关系数，后者测量变量之间的线性关系，对整体均值或变异性不敏感。因此，通常在计算欧几里德距离之前对数据进行缩放，这相当于将每个变量转换为其 Z 得分版本。

16.3.1 K 均值聚类

一种常用的聚类数据的方法是K 均值聚类。这种技术识别一组聚类中心，然后将每个数据点分配给离该数据点最近的聚类（即欧几里德距离最小的聚类）。举个例子，让我们以世界各国的纬度和经度作为我们的数据点，并看看 K 均值聚类是否能有效地识别世界各大洲。

大多数统计软件包都有一个内置函数，可以使用单个命令执行 K 均值聚类，但了解它是如何一步一步工作的是很有用的。我们必须首先决定K的具体值，即要在数据中找到的聚类数。重要的是要指出，聚类数没有唯一的“正确”值；有各种技术可以尝试确定哪个解决方案是“最佳”的，但它们通常会给出不同的答案，因为它们包含不同的假设或权衡。尽管如此，聚类技术如 K 均值对于理解数据的结构是一种重要工具，特别是当它们变得高维时。

在选择我们希望找到的聚类数（K）之后，我们必须想出 K 个位置，这些位置将成为我们聚类中心的起始猜测（因为我们最初不知道中心在哪里）。一个简单的开始方法是随机选择 K 个实际数据点，并将它们用作我们的起始点，这些点被称为质心。然后，我们计算每个数据点到每个质心的欧几里德距离，并根据最接近的质心将每个点分配到一个聚类中。使用这些新的聚类分配，我们通过对分配给该聚类的所有点的位置进行平均来重新计算每个聚类的质心。然后重复这个过程，直到找到一个稳定的解决方案；我们将这称为迭代过程，因为它迭代直到答案不再改变，或者直到达到其他种类的限制，比如可能的最大迭代次数。

图 16.5：对世界各国的纬度和经度进行聚类的二维描述。方形黑色符号显示了每个簇的起始质心，线条显示了该簇在算法迭代中的移动。

将 K 均值聚类应用于纬度/经度数据（图 16.5），我们看到结果簇与大洲之间有合理的匹配，尽管没有一个大洲完全匹配任何一个簇。我们可以通过绘制一个表格来进一步检查这一点，该表格比较了每个国家的每个簇的成员资格与实际大洲；这种表格通常被称为混淆矩阵。

##       
## labels AF AS EU NA OC SA
##      1  5  1 36  0  0  0
##      2  3 24  0  0  0  0
##      3  0  0  0  0  0  7
##      4  0  0  0 15  0  4
##      5  0 10  0  0  6  0
##      6 35  0  0  0  0  0

簇 1 包含所有欧洲国家，以及来自北非和亚洲的国家。
簇 2 包含亚洲国家以及一些非洲国家。
簇 3 包含南美洲南部的国家。
簇 4 包含所有北美国家以及南美洲北部国家。
簇 5 包含大洋洲以及一些亚洲国家
簇 6 包含所有剩余的非洲国家。

尽管在这个例子中我们知道实际的簇（也就是世界各大洲），但通常我们并不知道无监督学习问题的真实情况，所以我们只能相信聚类方法在数据中找到了有用的结构。然而，关于 K 均值聚类和迭代过程的一个重要点是，它们不能保证每次运行时都会得到相同的答案。使用随机数确定起始点意味着起始点每次可能不同，而且根据数据的不同，有时可能会导致找到不同的解决方案。对于这个例子，K 均值聚类有时会找到一个包含北美和南美的单一簇，有时会找到两个簇（就像在这里使用的特定随机种子的选择一样）。每当使用涉及迭代解决方案的方法时，重要的是使用不同的随机种子多次重新运行该方法，以确保答案在运行之间不会有太大的分歧。如果有的话，那么就不应该基于不稳定的结果得出坚定的结论。实际上，基于聚类结果得出坚定的结论可能是一个好主意；它们主要用于对可能存在于数据集中的结构有直观感觉。

图 16.6：K=3 的 K 均值聚类算法的 10 次运行结果的可视化。图中的每一行代表聚类算法的不同运行（使用不同的随机起始点），颜色相同的变量属于同一簇。

我们可以对自我控制变量应用 K 均值聚类，以确定哪些变量彼此之间最密切相关。对于 K=2，K 均值算法始终选择包含 SSRT 变量和包含冲动性变量的一个聚类。对于较高的 K 值，结果不太一致；例如，对于 K=3，该算法有时会识别出一个仅包含 UPPS 感觉寻求变量的第三个聚类，而在其他情况下，它将 SSRT 变量分成两个单独的聚类（如图 16.6 所示）。K=2 时聚类的稳定性表明，这可能是这些数据的最稳健的聚类，但这些结果也突显了多次运行算法以确定任何特定聚类结果是否稳定的重要性。

16.3.2 层次聚类

另一种检查多元数据集结构的有用方法被称为层次聚类。这种技术也利用数据点之间的距离来确定聚类，但它还提供了一种可视化数据点之间关系的方式，即树状结构，称为树状图。

最常用的层次聚类程序被称为聚合聚类。该程序首先将每个数据点视为自己的一个聚类，然后通过合并两个距离最小的聚类来逐渐创建新的聚类。它继续这样做，直到只剩下一个单一的聚类。这需要计算聚类之间的距离，有许多方法可以做到这一点；在这个例子中，我们将使用平均链接方法，它简单地取两个聚类中每个数据点之间的所有距离的平均值。例如，我们将检查上面描述的自我控制变量之间的关系。

图 16.7：树状图显示了九个自我控制变量的相对相似性。三条彩色垂直线代表三个不同的截断点，分别得到两个（蓝线）、三个（绿线）或四个（红线）聚类。

图 16.7 显示了从自我调节数据集生成的树状图。在这里，我们看到变量之间的关系具有结构，可以通过“剪切”树来在不同层次上理解：如果我们在 25 处剪切树，我们得到两个聚类；如果我们在 20 处剪切，我们得到三个聚类，而在 19 处我们得到四个聚类。

有趣的是，对自我控制数据进行层次聚类分析找到的解与大多数 K 均值聚类运行找到的解相同，这令人欣慰。

我们对这个分析的解释是，每个变量集合（SSRT 和 UPPS）内部之间存在高度相似性，而与集合之间相比则相对较少。在 UPPS 变量中，似乎寻求感觉变量与其他变量有所不同，其他变量之间更相似。在 SSRT 变量中，似乎刺激选择性 SSRT 变量与其他三个变量有所不同，其他三个变量更相似。这些是可以从聚类分析中得出的结论。重要的是要指出，没有单一“正确”的聚类数量；不同的方法依赖于不同的假设或启发式方法，可能会给出不同的结果和解释。一般来说，最好以几个不同的层次呈现聚类数据，并确保这不会大幅改变数据的解释。

16.4 降维

在多变量数据中，往往许多变量之间会高度相似，它们在很大程度上测量相同的事物。一种思考方式是，虽然数据具有特定数量的变量，我们称之为维度，但实际上信息源并不像变量那么多。降维的想法是减少变量数量，以创建反映数据中潜在信号的复合变量。

16.4.1 主成分分析

主成分分析的想法是找到一组变量的低维描述，以解释完整数据集中可能的最大信息量。对主成分分析的深入理解需要对线性代数有深刻的理解，这超出了本书的范围；请参阅本章末尾的资源，了解有关此主题的有用指南。在本节中，我将概述这个概念，并希望激发您学习更多的兴趣。

我们将从一个简单的例子开始，只有两个变量，以便直观地理解它是如何工作的。首先，我们为变量 X 和 Y 生成一些合成数据，两个变量之间的相关性为 0.7。主成分分析的目标是找到数据集中观察变量的线性组合，以解释最大量的方差；这里的想法是数据中的方差是信号和噪音的组合，我们希望找到变量之间最强的共同信号。第一个主成分是解释最大方差的组合。第二个成分是解释剩余最大方差的组合，同时与第一个成分不相关。对于更多的变量，我们可以继续这个过程，获得与变量数量相同的成分（假设观察次数多于变量数量），尽管在实践中，我们通常希望找到能解释大部分方差的少数成分。

在我们的二维示例中，我们可以计算主成分并将它们绘制在数据上（图 16.8）。我们看到第一个主成分（显示为绿色）沿着最大方差的方向。这条线与线性回归线相似，尽管不完全相同；虽然线性回归解决方案最小化了每个数据点与回归线在相同 X 值（即垂直距离）的距离，但主成分最小化了数据点与表示该成分的线之间的欧几里得距离（即垂直于成分的距离）。第二个成分指向与第一个成分垂直的方向（相当于不相关）。

图 16.8：合成数据的绘图，第一个主成分以绿色绘制，第二个以红色绘制。

通常使用 PCA 来降低更复杂数据集的维度。例如，假设我们想知道早期数据集中所有四个停止信号任务变量的表现是否与五个冲动性调查变量相关。我们可以分别对这些数据集执行 PCA，并检查数据中多少方差由第一个主成分解释，这将作为我们对数据的摘要。

图 16.9：Eisenberg 数据集中应用 PCA 分别应用于反应抑制和冲动性变量的方差解释（或屏幕图）的绘图。

我们在图 16.9 中看到，对于停止信号变量，第一个主成分解释了数据中约 60%的方差，而对于 UPPS，它解释了约 55%的方差。然后，我们可以计算使用每组变量的第一个主成分获得的分数之间的相关性，以了解两组变量之间是否存在关系。两个摘要变量之间的-0.014 的相关性表明，在这个数据集中，反应抑制和冲动性之间没有总体关系。

## 
##  Pearson's product-moment correlation
## 
## data:  pca_df$SSRT and pca_df$UPPS
## t = -0.3, df = 327, p-value = 0.8
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.123  0.093
## sample estimates:
##    cor 
## -0.015

我们还可以同时对所有这些变量进行 PCA。查看图 16.7 中解释的方差的绘图（也称为屏幕图），我们可以看到前两个成分解释了数据中相当多的方差。然后，我们可以查看每个单独变量在这两个成分上的载荷，以了解每个特定变量与不同成分的关联。

（#fig:imp_pc_scree）绘制了在全套自控变量上计算的 PCA 成分解释的方差。

图 16.10：在包括所有自控变量的 PCA 解决方案中计算的 PCA 成分的变量载荷的绘图。每个变量都显示为其在两个成分中的载荷；分别反映在两行中。

对冲动性数据集进行这样的操作（图 16.10），我们看到第一个成分（在图的第一行）对大多数 UPPS 变量具有非零载荷，对每个 SSRT 变量几乎没有载荷，而第二主成分的情况正好相反，它主要对 SSRT 变量进行载荷。这告诉我们，第一个主成分主要捕获了与冲动性测量相关的方差，而第二个主成分主要捕获了与反应抑制测量相关的方差。您可能会注意到这些变量的载荷实际上是负的；载荷的符号是任意的，因此我们应该确保查看大的正载荷和负载荷。

16.4.2 因子分析

虽然主成分分析对于将数据集减少到较少数量的复合变量可能是有用的，但是标准的 PCA 方法有一些局限性。最重要的是，它确保组件之间不相关；虽然这有时可能是有用的，但通常存在我们希望提取可能彼此相关的维度的情况。第二个限制是 PCA 不考虑正在分析的变量中的测量误差，这可能导致难以解释结果的载荷。虽然有修改 PCA 可以解决这些问题，但在某些领域（如心理学）中更常见的是使用一种称为探索性因子分析（或 EFA）的技术来降低数据集的维度。¹

EFA 的理念是每个观察变量都是通过一组潜在变量的贡献组合而成的，即不能直接观察到的变量，以及每个变量的一定量的测量误差。因此，EFA 模型通常被称为属于一类称为潜在变量模型的统计模型。

例如，假设我们想了解几个不同变量的测量与产生这些测量的潜在因素之间的关系。我们将首先生成一个合成数据集，以展示这可能是如何工作的。我们将生成一组个体，假装我们知道几个潜在心理变量的值：冲动性、工作记忆能力和流体推理。我们假设工作记忆能力和流体推理彼此相关，但两者都与冲动性不相关。然后，我们将从这些潜在变量中为每个个体生成一组八个观察变量，这些变量只是潜在变量的线性组合，同时加入随机噪声以模拟测量误差。

我们可以通过显示与所有这些变量相关的相关矩阵的热图来进一步检查数据（图 16.7）。从中我们可以看到，有三个变量簇对应于我们的三个潜在变量，这正是应该的。

（#fig:efa_cor_hmap）显示从三个潜在潜在变量生成的变量之间的相关性的热图。

我们可以将 EFA 视为一次性估计一组线性模型的参数，其中每个模型将每个观察变量与潜在变量相关联。对于我们的示例，这些方程将如下所示。在这些方程中，$\beta$字符有两个下标，一个是指任务，另一个是指潜在变量，还有一个变量$\epsilon$指的是误差。在这里，我们假设一切都有零的平均值，因此我们不需要为每个方程包括额外的截距项。

$$ \begin{array}{lcl} nback & = &beta_{[1, 1]} * WM + \beta_{[1, 2]} * FR + \beta_{[1, 3]} * IMP + \epsilon \ dspan & = &beta_{[2, 1]} * WM + \beta_{[2, 2]} * FR + \beta_{[2, 3]} * IMP + \epsilon \ ospan & = &beta_{[3, 1]} * WM + \beta_{[3, 2]} * FR + \beta_{[3, 3]} * IMP + \epsilon \ ravens & = &beta_{[4, 1]} * WM + \beta_{[4, 2]} * FR + \beta_{[4, 3]} * IMP + \epsilon \ crt & = &beta_{[5, 1]} * WM + \beta_{[5, 2]} * FR + \beta_{[5, 3]} * IMP + \epsilon \ UPPS & = &beta_{[6, 1]} * WM + \beta_{[6, 2]} * FR + \beta_{[6, 3]} * IMP + \epsilon \ BIS11 & = &beta_{[7, 1]} * WM + \beta_{[7, 2]} * FR + \beta_{[7, 3]} * IMP + \epsilon \ dickman & = &beta_{[8, 1]} * WM + \beta_{[8, 2]} * FR + \beta_{[8, 3]} * IMP + \epsilon \ \end{array} $$

实际上，我们使用 EFA 想要做的是估计将潜在变量映射到观察变量的系数（beta）矩阵。对于我们生成的数据，我们知道这个矩阵中的大多数 beta 都是零，因为我们是这样创建的；对于每个任务，只有一个权重被设置为 1，这意味着每个任务是单个潜在变量的嘈杂测量。

我们可以将 EFA 应用于我们的合成数据集以估计这些参数。我们不会详细介绍 EFA 是如何实际执行的，只是提到一个重要的点。本书中大多数先前的分析都依赖于试图最小化观察数据值与模型预测值之间的差异的方法。用于估计 EFA 参数的方法反而试图最小化观察变量之间的协方差与模型参数暗示的协方差之间的差异。因此，这些方法通常被称为协方差结构模型。

让我们将探索性因子分析应用到我们的合成数据上。与聚类方法一样，我们首先需要确定我们的模型中要包含多少个潜在因子。在这种情况下，我们知道有三个因子，所以让我们从这个开始；稍后我们将研究直接从数据中估计因子数量的方法。这是我们统计软件对这个模型的输出：

## 
## Factor analysis with Call: fa(r = observed_df, nfactors = 3)
## 
## Test of the hypothesis that 3 factors are sufficient.
## The degrees of freedom for the model is 7  and the objective function was  0.04 
## The number of observations was  200  with Chi Square =  8  with prob <  0.34 
## 
## The root mean square of the residuals (RMSA) is  0.01 
## The df corrected root mean square of the residuals is  0.03 
## 
## Tucker Lewis Index of factoring reliability =  0.99
## RMSEA index =  0.026  and the 10 % confidence intervals are  0 0.094
## BIC =  -29
##  With factor correlations of 
##      MR1  MR2  MR3
## MR1 1.00 0.03 0.47
## MR2 0.03 1.00 0.03
## MR3 0.47 0.03 1.00

我们想要问的一个问题是我们的模型实际上对数据拟合得有多好。没有单一的方法来回答这个问题；相反，研究人员已经开发了许多不同的方法，这些方法可以提供一些关于模型对数据拟合程度的见解。例如，一个常用的标准是基于均方根逼近误差（RMSEA）统计量，它量化了预测的协方差与实际协方差之间的距离；RMSEA 小于 0.08 的值通常被认为反映了一个适当拟合的模型。在这个例子中，RMSEA 值为 0.026，这表明模型拟合得相当好。

我们还可以检查参数估计，以查看模型是否适当地识别了数据中的结构。通常将这个作为图表，用箭头从潜在变量（表示为椭圆）指向观察变量（表示为矩形），其中箭头表示观察变量对潜在变量的实质性载荷；这种图通常被称为路径图，因为它反映了变量之间的路径关系。这在图 16.11 中显示。在这种情况下，EFA 过程正确地识别了数据中存在的结构，无论是哪些观察变量与每个潜在变量相关，还是潜在变量之间的相关性。

图 16.11：探索性因子分析模型的路径图。

16.4.3 确定因子的数量

应用 EFA 的主要挑战之一是确定因子的数量。一个常见的做法是在改变因子数量的同时检查模型的拟合情况，然后选择给出最佳拟合的模型。这并不是绝对可靠的，有多种方法来量化模型的拟合程度，有时会得出不同的答案。

有人可能会认为我们可以简单地看模型拟合得有多好，然后选择最拟合的因素数量，但这不起作用，因为更复杂的模型总是会更好地拟合数据（正如我们在之前关于过度拟合的讨论中看到的）。因此，我们需要使用一个惩罚模型参数数量的模型拟合度量。在这个例子中，我们将选择一种常见的量化模型拟合度的方法，即样本大小调整的贝叶斯信息准则（或SABIC）。这个度量量化了模型对数据的拟合程度，同时还考虑了模型中的参数数量（在这种情况下与因素数量有关）以及样本大小。虽然 SABIC 的绝对值是不可解释的，但是当使用相同的数据和相同类型的模型时，我们可以使用 SABIC 来比较模型，以确定哪个对数据最合适。关于 SABIC 和其他类似的度量（称为信息准则）的一个重要事实是，较低的值代表模型拟合得更好，因此在这种情况下，我们希望找到具有最低 SABIC 的因素数量。在图 16.12 中，我们看到具有最低 SABIC 的模型有三个因素，这表明这种方法能够准确确定用于生成数据的因素数量。

图 16.12：不同因素数量的 SABIC 图。

现在让我们看看当我们将这个模型应用到 Eisenberg 等人数据集的真实数据时会发生什么，该数据集包含了上面示例中模拟的所有八个变量的测量值。三因素模型在这些真实数据中的 SABIC 也是最低的。

图 16.13：Eisenberg 等人数据上三因素模型的路径图。

绘制路径图（图 16.13），我们看到真实数据展示了一个与我们在模拟数据中看到的非常相似的因素结构。这并不奇怪，因为模拟数据是基于对这些不同任务的知识生成的，但是知道人类行为是有系统性的，我们可以可靠地识别这些关系是令人欣慰的。主要的区别是工作记忆因素（MR3）和流体推理因素（MR1）之间的相关性甚至比模拟数据中更高。这个结果在科学上是有用的，因为它向我们展示了，虽然工作记忆和流体推理密切相关，但分别对它们进行建模是有用的。

16.5 学习目标

阅读完本章后，您应该能够：

描述监督学习和无监督学习之间的区别。
使用可视化技术，包括热图，来可视化多变量数据的结构。
了解聚类的概念以及如何用它来识别数据中的结构。
理解降维的概念。
描述主成分分析和因素分析如何用于进行降维。

16.6 建议阅读

多元统计的几何学，Thomas Wickens
线性代数的无废话指南，Ivan Savov

还有另一种因素分析的应用，称为验证性因素分析（或 CFA），我们在这里不讨论；在实践中，它的应用可能存在问题，最近的研究已经开始转向修改 EFA 以回答通常使用 CFA 解决的问题。(Marsh:2014th?)↩︎

第十七章：实际统计建模

原文：statsthinking21.github.io/statsthinking21-core-site/practical-example.html

译者：飞龙

协议：CC BY-NC-SA 4.0

在本章中，我们将通过将我们所学到的一切应用到一个实际例子中来汇总一切。 2007 年，斯坦福大学的克里斯托弗·加德纳和同事在《美国医学会杂志》上发表了一篇题为“阿特金斯，区域，奥尼什和学习饮食对超重绝经前妇女体重和相关危险因素变化的比较 - A TO Z 减肥研究：随机试验”的研究（Gardner et al. 2007）。我们将使用这项研究来展示如何从头到尾分析实验数据。

17.1 统计建模的过程

当我们想要使用我们的统计模型来测试科学假设时，通常会经历一系列步骤：

指定您感兴趣的问题
确定或收集适当的数据
为分析准备数据
确定适当的模型
将模型拟合到数据
批评模型以确保其适当拟合
测试假设并量化效应大小

17.1.1 1: 指定您感兴趣的问题

根据作者的说法，他们研究的目标是：

比较代表低至高碳水化合物摄入谱的 4 种减肥饮食对体重减轻和相关代谢变量的影响。

17.1.2 2: 确定或收集适当的数据

为了回答他们的问题，调查人员随机分配了 311 名超重/肥胖妇女中的每一位到四种不同的饮食（阿特金斯，区域，奥尼什或学习），并随着时间测量了她们的体重以及许多其他健康指标。作者记录了大量变量，但对于感兴趣的主要问题，让我们专注于一个单一变量：身体质量指数（BMI）。此外，由于我们的目标是测量 BMI 的持久变化，我们只会关注饮食开始后 12 个月的测量。

17.1.3 3: 为分析准备数据

图 17.1：每个条件的箱线图，每组的第 50 百分位数（即中位数）显示为黑线。

A 到 Z 研究的实际数据并不是公开的，因此我们将使用他们的论文中报告的摘要数据来生成一些大致符合其研究中获得的数据的合成数据，每组的均值和标准差相同。一旦我们有了数据，我们可以将它们可视化，以确保没有异常值。箱线图对于查看分布的形状很有用，如图 17.1 所示。这些数据看起来相当合理-在各个组内有一些异常值（由箱线图外的点表示），但它们似乎不会在其他组方面极端。我们还可以看到，这些分布在方差上似乎有些不同，阿特金斯的变异性略大于其他饮食。这意味着任何假设方差在各组之间相等的分析可能是不合适的。幸运的是，我们计划使用的 ANOVA 模型对此相当健壮。

17.1.4 4. 确定适当的模型

为了确定我们分析的适当统计模型，我们需要提出几个问题。

什么样的因变量？
BMI：连续，大致正态分布
我们在比较什么？
四种饮食组的平均 BMI
ANOVA 是合适的
观察是否独立？
随机分配应确保独立性的假设是适当的
使用差异分数（在本例中是起始体重和 12 个月后体重之间的差异）在某种程度上是有争议的，特别是当不同组之间的起始点不同时。在这种情况下，各组的起始体重非常相似，因此我们将使用差异分数，但一般来说，在将这样的模型应用于真实数据之前，人们会希望咨询统计学家。

17.1.5 5. 将模型拟合到数据

让我们对 BMI 变化进行一项方差分析，比较四种饮食之间的差异。大多数统计软件会自动将名义变量转换为一组虚拟变量。使用公式表示法是指定统计模型的常见方式，其中模型使用以下形式的公式进行指定：

$$ \text{因变量} \sim \text{自变量} $$

在这种情况下，我们希望查看 BMI 的变化（存储在一个名为BMIChange12Months的变量中）作为饮食（存储在一个名为diet的变量中）的函数，因此我们使用以下公式：

$$ BMIChange12Months \sim diet $$

大多数统计软件（包括 R）在模型包含名义变量（例如包含每个人所接受的饮食名称的diet变量）时会自动生成一组虚拟变量。以下是拟合到我们数据的这个模型的结果：

## 
## Call:
## lm(formula = BMIChange12Months ~ diet, data = dietDf)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -8.14  -1.37   0.07   1.50   6.33 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -1.622      0.251   -6.47  3.8e-10 ***
## dietLEARN      0.772      0.352    2.19   0.0292 *  
## dietOrnish     0.932      0.356    2.62   0.0092 ** 
## dietZone       1.050      0.352    2.98   0.0031 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.2 on 307 degrees of freedom
## Multiple R-squared:  0.0338, Adjusted R-squared:  0.0243 
## F-statistic: 3.58 on 3 and 307 DF,  p-value: 0.0143

请注意，软件自动生成了对应于四种饮食中三种的虚拟变量，使得阿特金斯饮食没有虚拟变量。这意味着截距代表了阿特金斯饮食组的均值，其他三个变量则模拟了这些饮食的均值与阿特金斯饮食均值之间的差异。阿特金斯饮食被选择为未建模的基线变量，仅仅是因为它在字母顺序中排在第一位。

17.1.6 6. 批评模型以确保其适当

我们首先要做的是批评模型，确保它是适当的。我们可以做的一件事是查看模型的残差。在图 17.2 中，我们按饮食对每个个体的残差进行了绘制。在不同条件下残差的分布没有明显的差异，我们可以继续进行分析。

图 17.2: 每个条件下残差的分布

我们应用于线性模型的统计检验的另一个重要假设是模型的残差呈正态分布。人们普遍错误地认为线性模型要求数据呈正态分布，但事实并非如此；正确的统计要求只是残差误差呈正态分布。图 17.3 的右侧显示了一个 Q-Q（分位数-分位数）图，它将残差值根据正态分布中的分位数与其期望值进行了对比。如果残差呈正态分布，那么数据点应该沿着虚线分布 — 在这种情况下看起来相当不错，除了在底部明显的一些离群值。由于这个模型对正态性的违反也相对健壮，并且这些违反相当小，我们将继续使用这些结果。

图 17.3: 实际残差值与理论残差值的 Q-Q 图

17.1.7 7. 测试假设并量化效应大小

首先让我们回顾一下上面第 5 步中 ANOVA 的结果摘要。显著的 F 检验告诉我们饮食之间存在显著差异，但我们还应该注意到模型实际上并没有解释数据的很多变异；R 平方值只有 0.03，表明模型只解释了体重减轻变异的几个百分点。因此，我们不希望过分解释这个结果。

在整体 F 检验中的显著结果也没有告诉我们哪些饮食与其他饮食有差异。我们可以通过比较不同条件下的均值来了解更多信息。因为我们进行了几次比较，所以需要对这些比较进行校正，这是通过一种称为 Tukey 方法的程序来实现的，该方法由我们的统计软件实现：

##  diet   emmean    SE  df lower.CL upper.CL .group
##  Atkins  -1.62 0.251 307    -2.11    -1.13  a    
##  LEARN   -0.85 0.247 307    -1.34    -0.36  ab   
##  Ornish  -0.69 0.252 307    -1.19    -0.19   b   
##  Zone    -0.57 0.247 307    -1.06    -0.08   b   
## 
## Confidence level used: 0.95 
## P value adjustment: tukey method for comparing a family of 4 estimates 
## significance level used: alpha = 0.05 
## NOTE: Compact letter displays can be misleading
##       because they show NON-findings rather than findings.
##       Consider using 'pairs()', 'pwpp()', or 'pwpm()' instead.

右侧列中的字母告诉我们哪些组彼此不同，使用一种调整进行比较的方法；共享一个字母的条件彼此之间没有显著差异。这表明 Atkins 和 LEARN 饮食彼此没有差异（因为它们共享字母 a），LEARN、Ornish 和 Zone 饮食彼此没有差异（因为它们共享字母 b），但 Atkins 饮食与 Ornish 和 Zone 饮食有差异（因为它们没有共享字母）。

17.1.8 可能的混杂因素是什么？

如果我们更仔细地查看 Gardner 的论文，我们会发现他们还报告了每组中被诊断为代谢综合征的个体数量的统计数据，代谢综合征的特征是高血压、高血糖、腰部多余脂肪和异常的胆固醇水平，与心血管问题的风险增加有关。Gardner 的数据在表 17.1 中呈现。

表 17.1：AtoZ 研究中每个组中代谢综合征的存在。

饮食	N	P(代谢综合征)
Atkins	77	0.29
LEARN	79	0.25
Ornish	76	0.38
Zone	79	0.34

从数据来看，各组之间的比例略有不同，Ornish 和 Zone 饮食中代谢综合征病例更多，而这两种饮食的结果也较差。假设我们有兴趣测试代谢综合征的发病率在各组之间是否存在显著差异，因为这可能使我们担心这些差异可能影响了饮食结果。

17.1.8.1 确定适当的模型

什么样的因变量？
比例
我们在比较什么？
四种饮食组中代谢综合征的比例
对拟合优度的卡方检验适用于没有差异的零假设

让我们首先使用统计软件中的卡方检验函数计算该统计量：

## 
##  Pearson's Chi-squared test
## 
## data:  contTable
## X-squared = 4, df = 3, p-value = 0.3

这个检验表明均值之间没有显著差异。然而，它并没有告诉我们有多大把握确定没有差异；请记住，在 NHST 下，我们总是假设零假设成立，除非数据给出足够的证据使我们拒绝零假设。

如果我们想要量化支持或反对零假设的证据怎么办？我们可以使用贝叶斯因子来做到这一点。

## Bayes factor analysis
## --------------
## [1] Non-indep. (a=1) : 0.058 ±0%
## 
## Against denominator:
##   Null, independence, a = 1 
## ---
## Bayes factor type: BFcontingencyTable, independent multinomial

这告诉我们，备择假设比零假设更可能 0.058 倍，这意味着在这些数据给出的情况下，零假设比备择假设更可能 1/0.058 ~ 17 倍。这是相当强大的，即使不是完全压倒性的，支持零假设的证据。

17.2 寻求帮助

在分析真实数据时，最好与经过训练的统计学家核对分析计划，因为真实数据可能会出现许多潜在问题。事实上，最好在项目开始之前就与统计学家交谈，因为他们关于研究设计或实施方面的建议可能会在未来避免给你带来重大麻烦。大多数大学都设有统计咨询办公室，为大学社区成员提供免费帮助。理解本书的内容并不会阻止你在某个时候需要他们的帮助，但它将帮助你与他们进行更加明智的对话，并更好地理解他们提供的建议。

参考资料

Gardner, Christopher D, Alexandre Kiazand, Sofiya Alhassan, Soowon Kim, Randall S Stafford, Raymond R Balise, Helena C Kraemer, and Abby C King. 2007. “Comparison of the Atkins, Zone, Ornish, and LEARN Diets for Change in Weight and Related Risk Factors Among Overweight Premenopausal Women: The a TO z Weight Loss Study: A Randomized Trial.” JAMA 297 (9): 969–77. https://doi.org/10.1001/jama.297.9.969.

第十八章：进行可重复研究

原文：statsthinking21.github.io/statsthinking21-core-site/doing-reproducible-research.html

译者：飞龙

协议：CC BY-NC-SA 4.0

大多数人认为科学是回答世界问题的可靠方法。当我们的医生开处方时，我们相信它已经通过研究证明是有效的，我们也同样相信我们乘坐的飞机不会从天上掉下来。然而，自 2005 年以来，人们越来越担心科学可能并不总是像我们长期以来认为的那样有效。在本章中，我们将讨论关于科学研究可重复性的这些担忧，并概述可以采取的步骤，以确保我们的统计结果尽可能具有可重复性。

18.1 我们认为科学应该如何工作

假设我们对一个关于儿童选择吃什么的研究项目感兴趣。这是著名饮食研究员布莱恩·万辛克及其同事在 2012 年的一项研究中提出的问题。标准（并且，正如我们将看到的，有些天真）观点大致如下：

你从一个假设开始
使用受欢迎角色的品牌可能会导致孩子更频繁地选择“健康”的食物
你收集一些数据
给孩子提供选择，要么是带有 Elmo 品牌贴纸的饼干和苹果，要么是带有控制贴纸的饼干和苹果，并记录他们的选择
你做统计来检验零假设
预先计划的比较显示，带有 Elmo 品牌的苹果与饼干相比，儿童选择苹果的比例从 20.7%增加到 33.8%（$\chi^2$=5.158; P=.02）（Wansink, Just, and Payne 2012）
你根据数据得出结论
“这项研究表明，品牌或有吸引力的品牌角色的使用可能对更健康的食物产生更多好处，而不是对放纵、更加加工的食物产生好处。正如已经证明有吸引力的名称可以增加学校午餐室中更健康食物的选择一样，品牌和卡通角色也可以在年幼儿童中产生同样的效果。”（Wansink, Just, and Payne 2012）

18.2 科学（有时）实际上是如何工作的

布莱恩·万辛克以他的《无意识进食》一书而闻名，他的企业演讲费曾一度高达数万美元。2017 年，一组研究人员开始审查他发表的一些研究，首先是一组关于人们在自助餐厅吃了多少比萨的论文。研究人员要求万辛克分享研究数据，但他拒绝了，所以他们深入研究了他发表的论文，并在论文中发现了大量的不一致和统计问题。围绕这一分析的公开报道引起了其他许多人对万辛克过去的关注，包括获取万辛克和他的合作者之间的电子邮件。正如 Buzzfeed 的 Stephanie Lee 报道的那样，这些电子邮件显示了万辛克的实际研究实践与天真模型有多么不同：

……回到 2008 年 9 月，当 Payne 在数据收集后不久查看数据时，他并没有发现明显的苹果和艾尔莫之间的联系——至少目前还没有。……“我在这封邮件中附上了儿童研究的一些初步结果，供您的报告使用，”Payne 写道。 “不要绝望。看起来水果上的贴纸可能有效（需要更多的魔法）。 ”……Wansink 在准备提交论文时也承认了论文的薄弱之处。P 值为 0.06，刚好低于 0.05 的黄金标准。正如他在 2012 年 1 月 7 日的一封电子邮件中所说的那样，这是一个“瓶颈”。……“在我看来，它应该更低，”他在附上一份草案的时候写道。“你想看看它，看看你的想法。如果你能得到数据，并且需要一些调整，那么将这个值降低到 0.05 以下将是很好的。”……2012 年晚些时候，这项研究发表在著名的《JAMA 儿科学》，0.06 的 P 值保持不变。但在 2017 年 9 月，它被撤回，并以一个列出 P 值为 0.02 的版本取而代之。一个月后，它因为完全不同的原因再次被撤回：Wansink 承认实验并不是在 8 至 11 岁的孩子身上进行的，正如他最初所声称的那样，而是在学龄前儿童身上进行的。

这种行为最终让 Wansink 受到了惩罚；他的 15 项研究被撤回，并且在 2018 年，他辞去了康奈尔大学的教职。

18.3 科学中的可重复性危机

虽然我们认为 Wansink 案中出现的欺诈行为相对罕见，但越来越清楚的是，科学中的可重复性问题比以前想象的要普遍得多。这在 2015 年变得特别明显，当时一大群研究人员在《科学》杂志上发表了一篇题为“估计心理科学可重复性”的研究（Open Science Collaboration 2015）。在这篇论文中，研究人员选取了 100 篇心理学领域的已发表研究，并试图重现这些论文中最初报告的结果。他们的发现令人震惊：原始论文中有 97%报告了统计显著的发现，但在复制研究中，只有 37%的效应在统计上是显著的。尽管心理学中存在这些问题已经引起了很多关注，但似乎几乎每个科学领域都存在这些问题，从癌症生物学（Errington et al. 2014）和化学（Baker 2017）到经济学（Christensen and Miguel 2016）和社会科学（Camerer et al. 2018）。

2010 年后出现的可重复性危机实际上是由斯坦福大学的医生约翰·约阿尼迪斯预测的，他在 2005 年写了一篇名为“为什么大多数发表的研究结果是错误的”（Ioannidis 2005）的论文。在这篇文章中，约阿尼迪斯认为，在现代科学背景下使用零假设统计检验必然会导致高水平的错误结果。

18.3.1 阳性预测值和统计显著性

Ioannidis 的分析集中在一个称为“阳性预测值”的概念上，它被定义为阳性结果（通常翻译为“统计显著的发现”）中真实的比例：

$$ PPV = \frac{p(true\ positive\ result)}{p(true\ positive\ result) + p(false\ positive\ result)} $$

假设我们知道假设为真的概率 ($p(hIsTrue)$)，那么真正阳性结果的概率就是 $p(hIsTrue)$ 乘以研究的统计功效。

$$ p(true\ positive\ result) = p(hIsTrue) * (1 - \beta) $$

其中 $\beta$ 是假阴性率。假阳性结果的概率由 $p(hIsTrue)$ 和假阳性率 $\alpha$ 决定：

$$ p(false\ positive\ result) = (1 - p(hIsTrue)) * \alpha $$

PPV 的定义如下：

$$ PPV = \frac{p(hIsTrue) * (1 - \beta)}{p(hIsTrue) * (1 - \beta) + (1 - p(hIsTrue)) * \alpha} $$

让我们首先举一个概率假设为真的概率很高的例子，比如说 0.8 - 尽管一般来说我们实际上无法知道这个概率。假设我们进行了一项研究，使用标准值$\alpha=0.05$和$\beta=0.2$。我们可以计算 PPV 如下：

$$ PPV = \frac{0.8 * (1 - 0.2)}{0.8 * (1 - 0.2) + (1 - 0.8) * 0.05} = 0.98 $$

这意味着如果我们在假设可能为真且功效高的研究中发现了积极的结果，那么它的真实性很高。然而，请注意，假设一个研究领域的假设有如此高的真实可能性可能并不是一个非常有趣的研究领域；当研究告诉我们一些意外的事情时，研究是最重要的！

让我们对$p(hIsTrue)=0.1$的领域进行相同的分析 - 也就是说，大多数被测试的假设都是错误的。在这种情况下，PPV 是：

$$ PPV = \frac{0.1 * (1 - 0.2)}{0.1 * (1 - 0.2) + (1 - 0.1) * 0.05} = 0.307 $$

这意味着在一个大部分假设可能是错误的领域（也就是说，一个有趣的科学领域，研究人员正在测试冒险的假设），即使我们发现了积极的结果，它更可能是假的而不是真的！事实上，这只是我们在假设检验的背景下讨论的基本率效应的另一个例子 - 当结果不太可能时，几乎可以肯定大多数积极的结果都是假阳性。

我们可以模拟这一点，展示 PPV 如何与统计功效和假设真实的先验概率相关（见图 18.1）。

图 18.1：后验预测值的模拟，作为统计功效的函数（绘制在 x 轴上），以及假设真实的先验概率（作为单独的线绘制）。

不幸的是，在许多科学领域，统计功效仍然很低（Smaldino and McElreath 2016），这表明许多发表的研究结果是错误的。

一个有趣的例子是乔纳森·肖恩菲尔德和约翰·约阿尼迪斯的一篇论文，题为“我们吃的一切都与癌症有关吗？系统的食谱评论”（Schoenfeld and Ioannidis 2013）。他们检查了大量评估不同食物与癌症风险关系的论文，发现 80%的成分与增加或减少癌症风险有关。在大多数情况下，统计证据很弱，当结果在研究中结合时，结果为零。

18.3.2 胜者诅咒

当统计功效低时，还会发生另一种错误：我们对效应大小的估计会被夸大。这种现象通常被称为“胜者诅咒”，这个术语来自经济学，在那里它指的是对于某些类型的拍卖（其中价值对每个人都是相同的，比如一罐季度，出价是私人的），获胜者保证要支付比商品价值更多的钱。在科学上，胜者诅咒指的是从显著结果（即获胜者）中估计的效应大小几乎总是真实效应大小的夸大。

我们可以模拟这个，以查看显著结果的估计效应大小与实际基础效应大小的关系。让我们生成一个真实效应大小为 d = 0.2 的数据，并估计检测到显著效应的结果的效应大小。图 18.2 的左面板显示，当功效低时，显著结果的估计效应大小可能与实际效应大小相比高度膨胀。

图 18.2：左：赢家诅咒的模拟，作为统计功效的函数（x 轴）。实线显示估计的效应大小，虚线显示实际效应大小。右：直方图显示了来自数据集的多个样本的效应大小估计，显著结果显示为蓝色，非显著结果显示为红色。

我们可以看一个单独的模拟来看为什么会出现这种情况。在图 18.2 的右面板中，您可以看到 1000 个样本的估计效应大小的直方图，根据检验是否具有统计显著性进行分隔。从图中应该清楚，如果我们仅基于显著结果来估计效应大小，那么我们的估计将会被夸大；只有当大多数结果是显著的（即功效高且效应相对较大）时，我们的估计才会接近实际效应大小。

18.4 可疑的研究行为

美国心理学协会出版的一本名为《The Compleat Academic: A Career Guide》的畅销书（Darley, Zanna, and Roediger 2004）旨在为有抱负的研究人员提供如何建立职业生涯的指导。社会心理学家达里尔·贝姆在一章中提到了“撰写实证期刊文章”，他提供了一些建议关于如何写一篇研究论文。不幸的是，他提出的做法存在严重问题，已经被称为可疑的研究行为（QRPs）。

你应该写哪篇文章？有两篇可能的文章可以写：（1）你在设计研究时计划写的文章，或者（2）你已经看到结果后现在最有意义的文章。它们很少相同，正确答案是（2）。

Bem 在这里建议的是HARKing（在结果已知后进行假设）(Kerr 1998)。这可能看起来无害，但是有问题，因为它允许研究人员重新构建事后结论（我们应该持保留态度）作为先验预测（我们会更有信心）。实质上，它允许研究人员根据事实重写他们的理论，而不是使用理论进行预测，然后进行测试——类似于移动球门，使其最终停在任何地方。因此，非常难以证伪不正确的想法，因为球门总是可以移动以匹配数据。Bem 继续说道：

分析数据 从各个角度检查它们。分别分析性别。制作新的综合指数。如果一个数据表明一个新的假设，试着在数据的其他地方找到进一步的证据。如果你看到有趣模式的微弱痕迹，试着重新组织数据以使它们更加醒目。如果有你不喜欢的参与者，或者试验、观察者或采访者给你异常结果，暂时放弃它们。进行一次钓鱼远征，寻找一些有趣的东西。不，这不是不道德的。

Bem 在这里提出的是p-hacking，这意味着尝试许多不同的分析，直到找到一个显着的结果。 Bem 正确地指出，如果报告数据上进行的每一项分析，那么这种方法就不会“不道德”。然而，很少看到一篇论文讨论对数据集执行的所有分析; 相反，论文通常只呈现有效的分析 - 这通常意味着他们找到了统计上显着的结果。有许多不同的方法可以进行 p-hack：

在每个受试者之后分析数据，并在 p <.05 时停止收集数据
分析许多不同的变量，但只报告那些 p <.05 的变量
收集许多不同的实验条件，但只报告那些 p <.05 的条件
排除参与者以获得 p <.05
转换数据以获得 p <.05

Simmons，Nelson 和 Simonsohn（2011）发表的一篇著名论文表明，使用这些 p-hacking 策略可以大大增加实际的假阳性率，导致大量的假阳性结果。

18.4.1 ESP 或 QRP？

2011 年，同样是 Daryl Bem 发表了一篇文章（Bem 2011），声称已经找到了超感知的科学证据。文章中指出：

本文报告了 9 个实验，涉及 1000 多名参与者，测试了通过“时间逆转”已经建立的心理效应来测试超前影响。 …所有 9 个实验中的超感知表现的平均效应大小（d）为 0.22，除一个实验外，所有实验都产生了统计上显着的结果。

当研究人员开始检查 Bem 的文章时，很明显他已经参与了上面讨论的所有 QRPs。正如 Tal Yarkoni 在一篇审查该文章的博客文章中指出的那样：

样本大小在研究中有所不同
不同的研究似乎已经被合并在一起或分开
这些研究允许许多不同的假设，目前尚不清楚事先计划了哪些假设
Bem 在没有明确有方向性预测的情况下使用单尾检验（因此α实际上为 0.1）
大多数 p 值非常接近 0.05
目前尚不清楚有多少其他研究进行了但没有报告

18.5 进行可重复研究

自可重复性危机爆发以来，已经出现了一个强大的运动，旨在开发工具，以帮助保护科学研究的可重复性。

18.5.1 预注册

最受欢迎的想法之一是预注册，其中将研究的详细描述（包括所有数据分析）提交给受信任的存储库（例如Open Science Framework或AsPredicted.org）。通过在分析数据之前详细说明计划，预注册提供了更大的信心，使分析不会受到 p-hacking 或其他可疑的研究实践的影响。

在医学临床试验中，预先注册的影响是显著的。2000 年，国家心脏，肺部和血液研究所（NHLBI）开始要求所有临床试验在临床试验.gov上进行预先注册。这提供了一个自然实验来观察研究预先注册的影响。当 Kaplan 和 Irvin（2015）在一段时间内检查临床试验结果时，他们发现 2000 年之后临床试验的积极结果数量大大减少，与之前相比。虽然有许多可能的原因，但似乎在研究注册之前，研究人员能够改变他们的方法或假设以找到积极的结果，而在注册后这变得更加困难。

18.5.2 可重复的实践

Simmons, Nelson 和 Simonsohn（2011）提出了一套建议的实践，使研究更具可重复性，所有这些实践都应该成为研究人员的标准：

作者必须在数据收集开始之前决定终止数据收集的规则，并在文章中报告这个规则。

作者必须每个单元收集至少 20 个观察结果，否则必须提供令人信服的数据收集成本的理由。

作者必须列出研究中收集的所有变量。

作者必须报告所有实验条件，包括失败的操作。

如果观察结果被排除，作者必须报告如果包括这些观察结果，统计结果是什么。

如果分析包括一个协变量，作者必须报告没有协变量的分析的统计结果。

18.5.3 复制

科学的一个标志是复制的概念-也就是说，其他研究人员应该能够进行相同的研究并获得相同的结果。不幸的是，正如我们在之前讨论的复制项目的结果中看到的那样，许多发现是不可复制的。确保研究的可复制性的最佳方法是首先在自己身上复制它；对于一些研究来说，这可能是不可能的，但每当可能时，应确保自己的发现在新样本中成立。新样本应具有足够的功效来发现感兴趣的效应大小；在许多情况下，这实际上将需要比原始样本更大的样本。

在复制方面，有几件事情很重要。首先，复制尝试失败并不一定意味着原始发现是错误的；请记住，以 80%的功效水平，即使存在真实效应，结果仍有五分之一的机会是不显著的。因此，我们通常希望在决定是否相信某个重要发现之前看到多次复制。不幸的是，包括心理学在内的许多领域过去未能遵循这一建议，导致“教科书”上的发现最终被证明是错误的。关于 Daryl Bem 对超感知的研究，一个包括 7 个研究的大型复制尝试未能复制他的发现（Galak 等人，2012）。

其次，要记住 p 值并不能提供给我们一个发现复制的可能性的度量。正如我们之前讨论过的，p 值是关于特定零假设下数据的可能性的陈述；它并不能告诉我们关于发现实际上是真实的概率（正如我们在贝叶斯分析的章节中学到的）。为了知道复制的可能性，我们需要知道发现是真实的概率，而这通常是我们不知道的。

18.6 进行可重复的数据分析

到目前为止，我们已经专注于在新实验中复制其他研究人员的发现的能力，但可再现性的另一个重要方面是能够在其自己的数据上重现某人的分析，我们称之为计算可再现性。这要求研究人员分享他们的数据和分析代码，以便其他研究人员既可以尝试重现结果，也可以在相同数据上测试不同的分析方法。心理学领域越来越倾向于公开分享代码和数据；例如，《心理科学》杂志现在为分享研究材料、数据和代码以及预注册的论文提供“徽章”。

能够重现分析是我们强烈主张使用脚本分析（如使用 R 语言）而不是使用“点与点击”软件包的原因之一。这也是我们主张使用免费开源软件（如 R）而不是商业软件包的原因，后者需要其他人购买软件才能重现任何分析。

有许多分享代码和数据的方式。分享代码的常见方式是通过支持软件版本控制的网站，例如Github。小型数据集也可以通过这些网站分享；较大的数据集可以通过数据共享门户网站（如Zenodo）或专门用于特定类型数据的门户网站（如OpenNeuro）进行分享。

18.7 结论：做更好的科学

每个科学家都有责任改进他们的研究实践，以增加其研究的可再现性。必须记住，研究的目标不是找到显著结果，而是以最真实的方式提出和回答关于自然的问题。我们的大部分假设都会是错误的，我们应该对此感到舒适，这样当我们找到一个正确的假设时，我们会更加对其真实性有信心。

18.8 学习目标

描述 P-值操纵的概念及其对科学实践的影响
描述阳性预测值的概念及其与统计功效的关系
描述预注册的概念以及它如何帮助防止可疑的研究实践

18.9 建议阅读

《严谨之死：草率的科学如何制造毫无价值的治疗，粉碎希望，浪费数十亿》（作者：理查德·哈里斯）
改善您的统计推断 - 一门关于如何进行更好的统计分析的在线课程，包括本章提出的许多要点。

参考资料

Baker, Monya. 2017. “Reproducibility: Check Your Chemistry.” Nature 548 (7668): 485–88. https://doi.org/10.1038/548485a.
Bem, Daryl J. 2011. “Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect.” J Pers Soc Psychol 100 (3): 407–25. https://doi.org/10.1037/a0021524.
Camerer, Colin F., Anna Dreber, Felix Holzmeister, Teck-Hua Ho, Jürgen Huber, Magnus Johannesson, Michael Kirchler, et al. 2018. “Evaluating the Replicability of Social Science Experiments in Nature and Science Between 2010 and 2015.” Nature Human Behaviour 2: 637–44.
Christensen, Garret S, and Edward Miguel. 2016. “Transparency, Reproducibility, and the Credibility of Economics Research.” Working Paper 22989. Working Paper Series. National Bureau of Economic Research. https://doi.org/10.3386/w22989.
Darley, John M, Mark P Zanna, and Henry L Roediger. 2004. The Compleat Academic: A Career Guide. 2nd ed. Washington, DC: American Psychological Association. http://www.loc.gov/catdir/toc/fy037/2003041830.html.
Errington, Timothy M, Elizabeth Iorns, William Gunn, Fraser Elisabeth Tan, Joelle Lomax, and Brian A Nosek. 2014. “An Open Investigation of the Reproducibility of Cancer Biology Research.” Elife 3 (December). https://doi.org/10.7554/eLife.04333.
Galak, Jeff, Robyn A LeBoeuf, Leif D Nelson, and Joseph P Simmons. 2012. “Correcting the Past: Failures to Replicate Psi.” J Pers Soc Psychol 103 (6): 933–48. https://doi.org/10.1037/a0029709.
Ioannidis, John P A. 2005. “Why Most Published Research Findings Are False.” PLoS Med 2 (8): e124. https://doi.org/10.1371/journal.pmed.0020124.
Kaplan, Robert M, and Veronica L Irvin. 2015. “Likelihood of Null Effects of Large NHLBI Clinical Trials Has Increased over Time.” PLoS One 10 (8): e0132382. https://doi.org/10.1371/journal.pone.0132382.
Kerr, N L. 1998. “HARKing: Hypothesizing After the Results Are Known.” Pers Soc Psychol Rev 2 (3): 196–217. https://doi.org/10.1207/s15327957pspr0203_4.
Open Science Collaboration. 2015. “PSYCHOLOGY. Estimating the Reproducibility of Psychological Science.” Science 349 (6251): aac4716. https://doi.org/10.1126/science.aac4716.
Schoenfeld, Jonathan D, and John P A Ioannidis. 2013. “Is Everything We Eat Associated with Cancer? A Systematic Cookbook Review.” Am J Clin Nutr 97 (1): 127–34. https://doi.org/10.3945/ajcn.112.047142.
Simmons, Joseph P, Leif D Nelson, and Uri Simonsohn. 2011. “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychol Sci 22 (11): 1359–66. https://doi.org/10.1177/0956797611417632.
Smaldino, Paul E, and Richard McElreath. 2016. “The Natural Selection of Bad Science.” R Soc Open Sci 3 (9): 160384. https://doi.org/10.1098/rsos.160384.
Wansink, Brian, David R Just, and Collin R Payne. 2012. “Can Branding Improve School Lunches?” Arch Pediatr Adolesc Med 166 (10): 1–2. https://doi.org/10.1001/archpediatrics.2012.999.

参考资料

原文：statsthinking21.github.io/statsthinking21-core-site/references.html

译者：飞龙

协议：CC BY-NC-SA 4.0

Baker, Monya. 2017. “Reproducibility: Check Your Chemistry.” Nature 548 (7668): 485–88. https://doi.org/10.1038/548485a.
Bem, Daryl J. 2011. “Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect.” J Pers Soc Psychol 100 (3): 407–25. https://doi.org/10.1037/a0021524.
Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures (with Comments and a Rejoinder by the Author).” Statist. Sci. 16 (3): 199–231. https://doi.org/10.1214/ss/1009213726.
Camerer, Colin F., Anna Dreber, Felix Holzmeister, Teck-Hua Ho, Jürgen Huber, Magnus Johannesson, Michael Kirchler, et al. 2018. “Evaluating the Replicability of Social Science Experiments in Nature and Science Between 2010 and 2015.” Nature Human Behaviour 2: 637–44.
Christensen, Garret S, and Edward Miguel. 2016. “Transparency, Reproducibility, and the Credibility of Economics Research.” Working Paper 22989. Working Paper Series. National Bureau of Economic Research. https://doi.org/10.3386/w22989.
Copas, J. B. 1983. “Regression, Prediction and Shrinkage (with Discussion).” Journal of the Royal Statistical Society, Series B: Methodological 45: 311–54.
Darley, John M, Mark P Zanna, and Henry L Roediger. 2004. The Compleat Academic: A Career Guide. 2nd ed. Washington, DC: American Psychological Association. http://www.loc.gov/catdir/toc/fy037/2003041830.html.
Dehghan, Mahshid, Andrew Mente, Xiaohe Zhang, Sumathi Swaminathan, Wei Li, Viswanathan Mohan, Romaina Iqbal, et al. 2017. “Associations of Fats and Carbohydrate Intake with Cardiovascular Disease and Mortality in 18 Countries from Five Continents (PURE): A Prospective Cohort Study.” Lancet 390 (10107): 2050–62. https://doi.org/10.1016/S0140-6736(17)32252-3.
Efron, Bradley. 1998. “R. A. Fisher in the 21st Century (Invited Paper Presented at the 1996 r. A. Fisher Lecture).” Statist. Sci. 13 (2): 95–122. https://doi.org/10.1214/ss/1028905930.
Errington, Timothy M, Elizabeth Iorns, William Gunn, Fraser Elisabeth Tan, Joelle Lomax, and Brian A Nosek. 2014. “An Open Investigation of the Reproducibility of Cancer Biology Research.” Elife 3 (December). https://doi.org/10.7554/eLife.04333.
Fisher, R. A. 1925. Statistical Methods for Research Workers. Edinburgh Oliver & Boyd.
Fisher, Ronald Aylmer. 1956. Statistical Methods and Scientific Inference. New York: Hafner Pub. Co.
Galak, Jeff, Robyn A LeBoeuf, Leif D Nelson, and Joseph P Simmons. 2012. “Correcting the Past: Failures to Replicate Psi.” J Pers Soc Psychol 103 (6): 933–48. https://doi.org/10.1037/a0029709.
Gardner, Christopher D, Alexandre Kiazand, Sofiya Alhassan, Soowon Kim, Randall S Stafford, Raymond R Balise, Helena C Kraemer, and Abby C King. 2007. “Comparison of the Atkins, Zone, Ornish, and LEARN Diets for Change in Weight and Related Risk Factors Among Overweight Premenopausal Women: The a TO z Weight Loss Study: A Randomized Trial.” JAMA 297 (9): 969–77. https://doi.org/10.1001/jama.297.9.969.
Ioannidis, John P A. 2005. “Why Most Published Research Findings Are False.” PLoS Med 2 (8): e124. https://doi.org/10.1371/journal.pmed.0020124.
Kaplan, Robert M, and Veronica L Irvin. 2015. “Likelihood of Null Effects of Large NHLBI Clinical Trials Has Increased over Time.” PLoS One 10 (8): e0132382. https://doi.org/10.1371/journal.pone.0132382.
Kerr, N L. 1998. “HARKing: Hypothesizing After the Results Are Known.” Pers Soc Psychol Rev 2 (3): 196–217. https://doi.org/10.1207/s15327957pspr0203_4.
Neyman, J. 1937. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 236 (767): 333–80. https://doi.org/10.1098/rsta.1937.0005.
Neyman, J., and K. Pearson. 1933. “On the Problem of the Most Efficient Tests of Statistical Hypotheses.” Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 231 (694-706): 289–337. https://doi.org/10.1098/rsta.1933.0009.
Open Science Collaboration. 2015. “PSYCHOLOGY. Estimating the Reproducibility of Psychological Science.” Science 349 (6251): aac4716. https://doi.org/10.1126/science.aac4716.
Pesch, Beate, Benjamin Kendzia, Per Gustavsson, Karl-Heinz Jöckel, Georg Johnen, Hermann Pohlabeln, Ann Olsson, et al. 2012. “Cigarette Smoking and Lung Cancer–Relative Risk Estimates for the Major Histological Types from a Pooled Analysis of Case-Control Studies.” Int J Cancer 131 (5): 1210–19. https://doi.org/10.1002/ijc.27339.
Schenker, Nathaniel, and Jane F. Gentleman. 2001. “On Judging the Significance of Differences by Examining the Overlap Between Confidence Intervals.” The American Statistician 55 (3): 182–86. http://www.jstor.org/stable/2685796.
Schoenfeld, Jonathan D, and John P A Ioannidis. 2013. “Is Everything We Eat Associated with Cancer? A Systematic Cookbook Review.” Am J Clin Nutr 97 (1): 127–34. https://doi.org/10.3945/ajcn.112.047142.
Simmons, Joseph P, Leif D Nelson, and Uri Simonsohn. 2011. “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychol Sci 22 (11): 1359–66. https://doi.org/10.1177/0956797611417632.
Smaldino, Paul E, and Richard McElreath. 2016. “The Natural Selection of Bad Science.” R Soc Open Sci 3 (9): 160384. https://doi.org/10.1098/rsos.160384.
Stigler, Stephen M. 2016. The Seven Pillars of Statistical Wisdom. Harvard University Press.
Sullivan, Gail M, and Richard Feinn. 2012. “Using Effect Size-or Why the p Value Is Not Enough.” J Grad Med Educ 4 (3): 279–82. https://doi.org/10.4300/JGME-D-12-00156.1.
Teicholz, Nina. 2014. The Big Fat Surprise. Simon & Schuster.
Wakefield, A J. 1999. “MMR Vaccination and Autism.” Lancet 354 (9182): 949–50. https://doi.org/10.1016/S0140-6736(05)75696-8.
Wansink, Brian, David R Just, and Collin R Payne. 2012. “Can Branding Improve School Lunches?” Arch Pediatr Adolesc Med 166 (10): 1–2. https://doi.org/10.1001/archpediatrics.2012.999.

posted @ 2026-03-26 13:17 布客飞龙V 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

组	深蹲	打乱的深蹲
FB	265	125
FB	310	230
FB	335	125
FB	230	315
FB	315	115
XC	155	335
XC	125	155
XC	125	125
XC	125	265
XC	115	310

组	深蹲	打乱的深蹲
FB	265	125
FB	310	230
FB	335	125
FB	230	315
FB	315	115
XC	155	335
XC	125	155
XC	125	125
XC	125	265
XC	115	310

龙哥盟

斯坦福-Stats60-21-世纪的统计思维-全-

斯坦福 Stats60：21 世纪的统计思维（全）

前言

0.1 为什么这本书存在？

0.2 数据的黄金时代

0.3 做统计的重要性

0.4 一本开源书

0.5 致谢

第一章：引言

1.1 什么是统计思维？

1.2 处理统计焦虑

1.3 统计学对我们有什么作用？

1.4 统计学的重要思想

1.4.1 从数据中学习

1.4.2 聚合

1.4.3 不确定性

1.4.4 从人口中抽样

1.5 因果关系和统计学

1.6 学习目标

1.7 建议阅读

参考资料

第二章：数据处理

2.1 什么是数据？

2.1.1 定性数据

2.1.2 定量数据

2.1.2.1 数字的类型

离散与连续测量

什么构成一个好的测量？

2.3.1 可靠性

2.3.2 有效性

2.4 学习目标

2.5 建议阅读

2.6 附录

2.6.1 测量尺度

第三章：总结数据

3.1 为什么总结数据？

3.2 使用表格总结数据

3.2.1 频率分布

3.2.2 累积分布

3.2.3 绘制直方图

3.2.4 直方图箱

3.3 分布的理想化表示

3.3.1 偏度

3.3.2 长尾分布

3.4 学习目标

3.5 建议阅读

第四章：数据可视化

4.1 情节解剖

4.2 良好可视化的原则

4.2.1 展示数据并使其突出显示

4.2.2 最大化数据/墨水比

4.2.3 避免图表垃圾

4.2.4 避免扭曲数据

4.3 容纳人类的局限性

4.3.1 感知限制

4.4 考虑其他因素的修正

4.5 学习目标

4.6 建议阅读和视频

第五章：将模型拟合到数据

5.1 什么是模型？

5.2 统计建模：一个例子

5.2.1 改进我们的模型

5.3 什么使一个模型“好”？

5.4 模型是否可能太好？

5.5 使用均值总结数据

5.5.1 使用中位数稳健地总结数据

5.6 众数

5.7 变异性：平均值对数据拟合得有多好？

5.8 使用模拟来理解统计学

5.9 Z 分数

5.9.1 解释 Z 分数

5.9.2 标准化分数

5.9.2.1 使用 Z 分数比较分布

5.10 学习目标

5.11 附录

5.11.1 证明均值误差的总和为零

第六章：概率

6.1 什么是概率？

6.2 我们如何确定概率？

组	深蹲	打乱的深蹲
FB	265	125
FB	310	230
FB	335	125
FB	230	315
FB	315	115
XC	155	335
XC	125	155
XC	125	125
XC	125	265
XC	115	310