DLAI-概率统计笔记-全-

DLAI 概率统计笔记（全）

001：概率与统计课程介绍 🎯

在本课程中，我们将学习概率与统计的核心概念，这些知识对于理解和设计机器学习算法至关重要。掌握概率思维框架，能帮助我们更好地解释算法输出、调整模型，并理解许多常见技术（如平方误差、正则化）背后的数学原理。

上一节我们介绍了本课程的重要性，本节中我们来看看课程将涵盖的具体核心主题。

以下是本课程将深入探讨的几个关键领域：

贝叶斯定理：该定理是概率论中最重要的定理之一，它告诉我们在给定某些事件的情况下如何计算概率。一个经典应用是疾病检测：即使检测结果为阳性，如果疾病本身非常罕见，根据贝叶斯定理计算后，你实际患病的概率可能依然很低。公式表示为：P(A|B) = [P(B|A) * P(A)] / P(B)。
最大似然估计：这在机器学习中无处不在。当训练模型时，我们希望找到最可能产生现有数据的模型，即最大化模型生成该数据的概率。许多模型都可以从这个角度理解。
高斯（正态）分布：这是最常用的分布之一。有趣的是，当我们假设数据来自高斯分布并进行最大似然估计时，对数似然函数中会自然地出现平方项，这解释了为什么线性回归等算法常使用平方误差作为损失函数。
假设检验：这对于验证结论至关重要，例如检验一种新药是否有效，或某个网页功能是否提升了浏览量。本课程将精确解释置信度、置信区间和P值等术语的数学含义，帮助你准确理解和运用这些概念。

此外，课程还会揭示一些机器学习实践背后的概率原理。例如，L2正则化可以从对模型参数的高斯分布先验假设中推导出来。

本节课中我们一起学习了概率与统计在机器学习中的基础性作用，以及本课程将涵盖的核心主题：贝叶斯定理、最大似然估计、高斯分布和假设检验。理解这些概念，将为你构建、优化和解释机器学习模型打下坚实的数学基础。

现在，让我们开始学习概率与统计，进入下一个视频吧。🚀

002：关于编程经验的说明 🐍

在本节课中，我们将要学习本课程对编程经验的要求，并了解如何为课程中的实践环节做好准备。

本课程旨在为您提供机器学习背后的数学理论基础，并向您展示这些概念如何在实践中应用。这意味着您需要进行一些编程。课程包含评分编程作业和未评分编程实验，这些练习专注于应用您正在学习的技能和概念。

编程语言与工具

上一节我们介绍了课程包含编程实践，本节中我们来看看具体使用的工具和语言。

这些练习使用 Python 编写，并以 Jupyter Notebook 的形式呈现。Jupyter Notebook 是一个基于网页的交互式界面，允许您阅读、运行和编辑这些程序。

您不需要成为 Python 专家也能成功完成这些练习，但您应该熟悉通常在 Python 入门课程中教授的概念。

以下是您需要掌握的核心 Python 概念：

数据类型与数据结构：例如整数、浮点数、字符串、列表、字典等。
控制流：使用条件语句（if/elif/else）、循环（for/while）和函数。
库的使用：导入和使用不同的 Python 库（如 numpy, pandas）。

所需技能水平

您应该能够运用上述概念来阅读和编辑 Python 代码，编写和调试自己的代码，并偶尔查阅新软件包的文档。

如果您精通另一种编程语言，那么在学习本课程的过程中，同步学习所需的 Python 知识应该没有问题。

然而，如果您是编程新手，建议您在开始本课程之前，先学习一门 Python 入门课程。

在接下来的阅读材料中，您将找到一些关于从何处开始学习 Python 的优秀资源。

本节课中我们一起学习了本课程对编程经验的具体要求。我们了解到课程实践部分使用 Python 和 Jupyter Notebook，并明确了成功完成练习所需具备的编程基础技能。对于有经验或无经验的学员，课程也给出了相应的学习路径建议。

003：什么是概率

在本节课中，我们将要学习概率的基本概念。我们将从一个简单的例子开始，理解概率的定义和计算方法，然后通过掷硬币的例子，逐步探索更复杂的概率问题。

概述

概率是衡量一个事件发生可能性的度量。例如，抛一枚公平的硬币，正面朝上的概率是50%或1/2。掷一个骰子，得到数字4的概率是1/6。理解这些基础概念是学习机器学习和数据科学中更高级概率理论的第一步。

概率的基本定义

简单来说，概率是衡量一个事件发生可能性的度量。

为了开始我们的探索，我们将通过一个有趣的问题来测试你的概率技能。想象你在一所有10个孩子的学校里，你想从学校的所有孩子中随机挑选一个。其中，有3个孩子踢足球，7个不踢。

问题是，你随机挑选的孩子踢足球的概率是多少？

让我们深入概率的世界，一起学习如何解决这个问题。

回想一下，你想找到随机挑选的孩子踢足球的概率。在数学中，我们有一种方式来表示这个陈述，我们将使用 P(足球) 来表示一个孩子踢足球的概率。

为了计算一个孩子踢足球的概率，我们需要知道踢足球的孩子数量以及学校里的孩子总数。我们将用以下概率公式来表达：踢足球的孩子数量 / 孩子总数。

因此，随机挑选的孩子踢足球的概率是 3/10 或 30%，也可以写成 0.3。

分子代表事件，即实验中有利的结果。在我们的案例中，就是踢足球的孩子，数量是3。这是事件的大小。
分母对应样本空间，即所有可能结果的总数。这个数量是10。这是样本空间的大小。

这样，我们就成功地运用概率的基本原理解决了问题。通过理解这个简单的问题，你将能够在机器学习和数据科学中更复杂的现实世界场景中应用这些概念。

使用文氏图理解概率

现在，使用文氏图的概念，总人口（所有孩子）在这里由绿色矩形表示，这将是100%的人口。包含踢足球和不踢足球孩子的绿色矩形就是样本空间。

踢足球的30%的孩子将在这个圆圈内，这就是事件，即你感兴趣的群体。而不喜欢足球的孩子将在圆圈外，但仍在绿色矩形内，因为他们仍然是人口的一部分。

因此，我们可以通过将有利结果的数量除以可能结果的总数来计算概率。

掷硬币实验

在我们的下一个例子中，我们将抛一枚硬币。当我们这样做时，硬币可能正面朝上或反面朝上。因为抛硬币这个活动会产生一个不确定的结果，我们称之为实验。在概率论中，实验是任何产生不确定结果的过程。

因此，在我们的语境中，抛硬币是一个实验，我们将确定硬币正面朝上的概率，记为 P(正面)。

我们将抛一枚公平的硬币，这意味着每个结果（正面或反面）发生的可能性相等，因此两者都以50%的概率发生。

P(正面) 等于正面朝上事件除以结果总数，即 1/2 或 0.5。

更复杂的概率问题

现在让我们把问题变得稍微复杂一点，抛两枚硬币。两枚硬币都正面朝上的概率是多少？

为了回答这个问题，让我们逐步分析实验以确定结果总数。

第一枚硬币可以正面朝上或反面朝上。
现在，对于第一枚硬币的每一种结果，第二枚硬币也可以正面朝上或反面朝上。

所以我们的最终结果是：

正面，正面。
正面，反面。
反面，正面。
反面，反面。

总共有四种结果。

在这些四种可能结果中，我们感兴趣的是两枚硬币都正面朝上的那一种，所以只有一种这样的结果，即“正面，正面”。

因此，两枚硬币都正面朝上的概率，记为 P(HH)，是有利结果数（1）除以结果总数（4），所以是 1/4 或 0.25，也称为 25%。这就是两枚硬币都正面朝上的概率。

扩展到三枚硬币

现在，如果我们抛三枚硬币呢？让我们计算三枚硬币都正面朝上的概率。

当你抛三枚硬币时：

第一枚硬币可以正面朝上或反面朝上。
现在，对于第一枚硬币的每一种结果，第二枚硬币可以正面朝上或反面朝上。
并且，对于第一枚和第二枚硬币的每一种结果组合，第三枚硬币可以正面朝上或反面朝上。

我们总共有多少种结果？我们有八种：

正面，正面，正面。
正面，正面，反面。
正面，反面，正面。
正面，反面，反面。
反面，正面，正面。
反面，正面，反面。
反面，反面，正面。
反面，反面，反面。

现在的问题是，三次都得到正面的概率是多少？

在这八种可能结果中，我们感兴趣的是三枚硬币都正面朝上的那一种，即 1 除以结果总数 8。

因此，答案是 1/8 或 0.125。

总结

在本节课中，我们一起学习了概率的基本概念。我们从概率的定义开始，即事件发生可能性的度量。我们通过一个挑选孩子的例子，学习了如何用公式 P(事件) = 有利结果数 / 可能结果总数 来计算概率。接着，我们使用文氏图直观地展示了样本空间和事件。然后，我们通过抛一枚、两枚和三枚硬币的例子，实践了计算更复杂事件的概率，理解了如何通过列举所有可能结果（样本空间）来解决问题。这些基础是构建后续更高级概率知识，如概率规则、贝叶斯定理和概率分布的基石。

004：骰子示例 🎲

在本节课中，我们将通过掷骰子的示例来巩固对概率的理解。我们将学习如何计算单一事件和复合事件的概率，并观察实验频率如何随着试验次数的增加而趋近于理论概率。

掷一个公平的六面骰子

上一节我们介绍了概率的基本概念，本节中我们来看看一个具体的例子：掷一个公平的六面骰子。

现在有一个问题：掷一次这个骰子，得到点数为6的概率是多少？

由于骰子是公平的，所有六个面（1到6）出现的可能性均等。样本空间包含6个等可能的结果。事件“掷出6点”只对应其中一个结果。

因此，掷出6点的概率计算公式为：

P(6) = 1 / 6

掷两个骰子

理解了单一事件的概率后，我们进一步探讨更复杂的情况：同时掷两个骰子。

下一个问题是：同时掷两个骰子，得到两个都是6点（即结果为“66”）的概率是多少？

我们需要考虑整个样本空间。对于第一个骰子的每一种结果（6种可能），第二个骰子也有6种可能的结果。因此，总的可能结果数量是：

6 × 6 = 36

样本空间包含从(1,1)、(1,2)一直到(6,6)的36种等可能组合。事件“两个骰子都是6点”只对应(6,6)这一个结果。

因此，得到“66”的概率计算公式为：

P(66) = 1 / 36

交互实验：频率与概率

理论概率为我们提供了预期，而实际实验中的频率可能会有所不同。以下是一个可以强化你概率概念的工具。

你可以通过反复抛硬币或掷骰子来进行实验。随着抛掷或投掷次数的增加，观察每个结果出现的频率是如何逐渐接近其理论概率的。

请尝试这个实验。当你准备好后，可以继续学习接下来的视频内容。

总结

本节课中，我们一起学习了如何通过掷骰子的例子计算概率。我们首先计算了掷一个骰子得到特定点数的概率（P(6) = 1/6），然后计算了掷两个骰子得到特定组合的概率（P(66) = 1/36）。最后，我们通过交互实验观察了频率随着试验次数增加而逼近理论概率的现象，加深了对概率本质的理解。

005：概率的补集

概述

在本节课中，我们将要学习概率论中的一个重要概念——事件的补集及其概率。我们将了解如何计算一个事件不发生的概率，并学习一个简洁的规则来简化计算过程。

补集概率的概念

上一节我们介绍了如何计算一个事件发生的概率。本节中，我们来看看如何计算该事件不发生的概率，这被称为事件的补集概率。

例如，如果一个事件发生的概率是75%，那么该事件不发生的概率就是25%。

通过实例理解补集

让我们回到之前有10个孩子的学校例子，其中3个孩子踢足球，7个不踢。

以下是一个问题：如果随机挑选一个孩子，这个孩子不踢足球的概率是多少？

要计算孩子不踢足球的概率，我们记为P(不踢足球)。我们采用和之前相同的方法：计算不踢足球的孩子数量，然后除以孩子总数。结果是7除以10，即0.7。

然而，你可能已经注意到，这个概率与孩子踢足球的概率有关。不踢足球的概率是0.7，而踢足球的概率是0.3，两者相加等于1。事实证明，这种情况总是成立。

我们可以将其重写为1减去0.3。这本质上就是补集规则。

补集规则

补集规则指出：一个事件A不发生的概率等于1减去事件A发生的概率。

因此，不踢足球的概率等于1减去踢足球的概率。这就是补集规则。

我们可以用以下公式形式化这个规则：
P(A') = 1 - P(A)
其中，A'代表事件A的补集，即事件A不发生的情况。

使用这个公式，我们可以用一种更直接的方式计算事件不发生的概率。

文氏图表示

我们可以用文氏图以类似的方式来看待这个问题。整个矩形代表样本空间。圆圈内部代表“踢足球”的事件，圆圈外部则代表“不踢足球”的事件。图中显示，圆圈外部的面积占70%，圆圈内部占30%。

应用补集规则：抛硬币实验

现在，让我们将补集规则应用到抛三枚硬币的实验中。

以下是一个问题：不得到三个正面的概率是多少？

根据补集规则，不得到三个正面的概率P(非三个正面)等于1减去得到三个正面的概率P(三个正面)。正如你在之前的视频中所见，P(三个正面)是1/8。

因此，我们有：
P(非三个正面) = 1 - 1/8 = 7/8

你也可以将其理解为：所有可能情况（8种）减去“三个正面”这一种情况，剩下的7种“好情况”除以总数8。

应用补集规则：掷骰子实验

现在，让我们将补集规则应用到掷骰子实验中。

如果你掷一个骰子，得到非6点的概率是多少？

我们知道总共有6种可能结果。得到非6点的概率P(非6)等于1（即6/6）减去得到6点的概率P(6)。P(6)是1/6。

因此：
P(非6) = 1 - 1/6 = 5/6

总结

本节课中，我们一起学习了概率论中的补集概念。我们了解到，一个事件不发生的概率可以通过补集规则轻松计算：P(A') = 1 - P(A)。我们通过学校孩子、抛硬币和掷骰子等多个实例应用了这个规则，证明了它在简化概率计算方面的实用性。掌握补集规则是理解更复杂概率概念的重要基础。

006：互斥事件的概率之和 🎲

在本节课中，我们将要学习一个核心的概率概念：互斥事件的概率之和。这个概念非常简单，它描述了当我们想知道两个事件中至少有一个发生的概率时，如果这两个事件是互斥的，我们可以直接将它们的概率相加。

核心概念：互斥事件的概率加法规则

上一节我们介绍了概率的基本定义，本节中我们来看看当事件互斥时，如何计算它们的“或”概率。

两个事件是互斥的，意味着它们不能同时发生。例如，掷一次骰子，得到“2”和得到“3”就是互斥事件，因为一次掷骰的结果只能是其中一个。

对于互斥事件A和B，它们中至少有一个发生的概率（即A发生或B发生）等于它们各自概率的和。这可以用以下公式表示：

P(A ∪ B) = P(A) + P(B)

其中，符号 ∪ 表示“并集”或“或”。

学校运动示例 🏫

让我们通过一个具体的例子来理解这个概念。假设有一所学校，规定每个学生只能参加一项体育运动，可以选择足球或篮球。

学生踢足球的概率 P(足球) = 0.3
学生打篮球的概率 P(篮球) = 0.4

由于一个学生不能同时参加两项运动（事件互斥），那么一个学生参加足球或篮球的概率就是：

P(足球 ∪ 篮球) = P(足球) + P(篮球) = 0.3 + 0.4 = 0.7

我们可以这样理解：如果有10个学生，那么3个踢足球，4个打篮球。参加其中一项运动的学生总数为 3 + 4 = 7人。因此概率是 7/10 = 0.7。

骰子示例 🎲

现在，让我们将这个概念应用到掷骰子的场景中。

示例1：掷一个骰子

问题：掷一个公平的六面骰子一次，得到偶数或数字5的概率是多少？

以下是分析步骤：

事件A（得到偶数）：结果为 {2, 4, 6}，概率 P(A) = 3/6。
事件B（得到5）：结果为 {5}，概率 P(B) = 1/6。
事件A和B是互斥的（一个数字不能既是偶数又是5）。
因此，概率为：P(A ∪ B) = 3/6 + 1/6 = 4/6 = 2/3。

示例2：掷两个骰子（点数之和）

问题：同时掷两个骰子，得到的点数之和为7或10的概率是多少？

以下是分析步骤：

总共有 6 × 6 = 36 种等可能的结果。
事件A（和为7）：有6种组合：(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)。概率 P(A) = 6/36。
事件B（和为10）：有3种组合：(4,6), (5,5), (6,4)。概率 P(B) = 3/36。
和为7与和为10是互斥事件（一次投掷只能有一个总和）。
因此，概率为：P(A ∪ B) = 6/36 + 3/36 = 9/36 = 1/4。

示例3：掷两个骰子（点数之差）

问题：同时掷两个骰子，得到的点数之差的绝对值为2或1的概率是多少？

以下是分析步骤：

事件A（差值为2）：有8种组合，例如 (1,3), (3,1), (2,4) 等。概率 P(A) = 8/36。
事件B（差值为1）：有10种组合，例如 (1,2), (2,1), (2,3) 等。概率 P(B) = 10/36。
差值为2和差值为1是互斥事件。
因此，概率为：P(A ∪ B) = 8/36 + 10/36 = 18/36 = 1/2。

总结 📝

本节课中我们一起学习了互斥事件的概率加法规则。核心要点是：

当两个事件互斥（不能同时发生）时，计算它们中至少有一个发生的概率非常简单，只需将各自的概率相加。
其核心公式为：P(A 或 B) = P(A) + P(B)。
我们通过学校选择运动、掷一个骰子和掷两个骰子（求和、求差）等多个例子，实践了这一规则的应用。

记住这个规则的关键前提：事件必须互斥。在接下来的课程中，我们将探讨当事件不互斥时，概率计算会有什么不同。

007：相容事件的概率之和

概述

在本节课中，我们将要学习如何处理相容事件的概率计算。上一节我们介绍了互斥事件的概率加法规则，本节中我们来看看当事件可以同时发生时，如何正确计算它们的并集概率。

相容事件的问题

在之前的课程中，我们讨论了互斥事件的概率之和。但当事件不是互斥时会发生什么？这时可能会出现问题。

让我给你一个例子。假设下雨的概率是80%，刮风的概率是70%。那么下雨或刮风的概率是多少？如果你将它们相加，会得到80%加70%，即150%。这显然太多了，并且是完全错误的，因为事件不是互斥的。你可以同时遇到下雨和刮风，这是关键所在。

在现实世界的情况中，事件通常不是互斥的，我们需要考虑结果重叠的可能性。相容事件的加法规则允许我们做到这一点，并计算组合事件的概率。

学校运动示例

我们回到之前例子中的学校，但这次孩子们可以参加任意多的运动，不再有只能参加一项运动的限制。选项仍然是足球和篮球。

这里有一个问题：如果一个孩子踢足球的概率是0.6，打篮球的概率是0.5，那么一个孩子踢足球或打篮球的概率是多少？如果你需要提示，可以想象学校只有10个孩子，并以此进行计算。

让我们看看这个例子稍微复杂一些。这里有10个孩子，踢足球的60%可能是这6个，打篮球的50%可能是这5个。但这可能会改变，可能存在重叠。当这种情况发生时，我们并不真正知道有多少孩子参加多项运动。

让我们用文氏图来看。这里是100%的孩子，这里是踢足球的60%，这里是打篮球的50%。最初我们有这个公式：P(S ∪ B) = P(S) + P(B)，但这行不通。事实上，即使你尝试将它们相加，也会得到110%，这超过了学校的孩子数量。所以有些东西我们重复计算了，重复计算的就是这里的交集，即这个同时参加两项运动的孩子。

这就是P(S ∩ B)。两个事件的交集是当它们同时发生时的情况，即同时踢足球和打篮球的孩子。它可能是一个，但也可能是不同的数字，例如可能是3。

因此，我们需要知道有多少孩子同时踢足球和打篮球的信息来解决这个问题。

具体数字示例

这是信息。同一所学校。孩子们可以踢足球或打篮球。现在让我们用数字来做：6个孩子踢足球，5个孩子打篮球，3个孩子同时参加两项运动。

那么问题是：有多少孩子踢足球或打篮球？可以是足球，或篮球，或两者都参加。

让我们分解问题。6个踢足球，5个打篮球，这就是这里所有的孩子。我们知道有3个同时参加两项运动，所以总数是8，因为这里的两个不踢足球也不打篮球。

在文氏图中，是这样的。这里是100%的孩子，这里是踢足球的，这里是打篮球的，同时参加两项运动的孩子在这个额外的部分。这就是同时踢足球和打篮球的孩子，我们有以下公式：

参加足球的集合S与参加篮球的集合B的并集的大小，等于集合S的大小（即这里的6）加上集合B的大小（即这里的5）。但我们重复计算了，注意到那3个同时参加两项运动的孩子被计算了两次，所以我们需要减去它们。我们需要减去这里的3个，现在我们得到了踢足球或打篮球的孩子数量：6 + 5 - 3 = 8。这也被称为容斥原理。

概率表示

现在我们可以用概率来表示同样的事情。

同样是足球和篮球的问题，但现在我们不说10个孩子中有6个踢足球，而是说一个孩子踢足球的概率是0.6，打篮球的概率是0.5，同时参加两项运动的概率是0.3。

那么，给定这个信息，一个孩子踢足球或打篮球的概率是多少？

和之前一样，我们可以做一个文氏图，我们可以看看踢足球的和打篮球的，概率遵循与之前相同的容斥原理。我们有P(S ∪ B) = P(S) + P(B)，但我们重复计算了交集，我们重复计算了P(S ∩ B)，所以我们必须减去它，因为我们计算了两次。

那就是0.6 + 0.5 - 0.3 = 0.8。

互斥与相容对比

通过左右两个例子直观地看，左边的问题中孩子只能参加一项运动，所以事件是互斥的，计算概率要容易得多，因为我们只需要将它们相加，它们不重叠。

在右边的情况下，它们重叠了，所以为了计算事件的并集的概率，我们需要考虑交集。左边的情况称为互斥事件，对于这种情况，并集的概率是概率之和。对于右边的情况，这被称为相容事件，也称为非互斥事件，对于这种情况，我们必须遵循公式：P(S ∪ B) = P(S) + P(B) - P(S ∩ B)。

注意，左边的情况是右边情况的一个特例，因为S ∩ B只是空集，所以概率为0。但为了更精确，我们可以看看这两种情况。

骰子示例

现在让我们看一个骰子的例子。问题是：获得点数和为7或点数差为1的概率是多少？

让我们看看。和为7是所有这里的情况，正如你已经看到的。差为1是所有这里的情况。以前我们只是将它们相加，但这次有点困难。

我们将左边的称为事件A，右边的称为事件B。我们会说A或B是这里的情况，除了我们重复计算了这两个：和为7且差为1的情况被重复计算了两次。为了不重复计算，我们必须减去那个概率。

所以，点数和为7或差为1的概率是：和为7的6/36，加上差为1的10/36，减去我们重复计算的，因为(4,3)和(3,4)被计算了两次，所以我们必须减去2/36。

因此我们得到：6/36 + 10/36 - 2/36 = 14/36。这就是P(和为7) + P(差为1) - P(和为7且差为1)。所以是14/36，约分后是7/18。

总结

本节课中我们一起学习了如何处理相容事件的概率计算。我们了解到，当两个事件可以同时发生时，计算它们的并集概率不能简单地将各自的概率相加，否则会重复计算交集部分。正确的公式是 P(A ∪ B) = P(A) + P(B) - P(A ∩ B)。我们通过学校运动和骰子的具体例子，直观地理解了容斥原理的应用。这个规则是概率论中的一个基础且重要的工具。

008：独立性

在本节课中，我们将要学习概率论中的一个核心概念——独立性。理解独立性对于简化概率计算和进行机器学习预测至关重要。

什么是独立性？🤔

上一节我们介绍了概率的基本概念，本节中我们来看看独立性。

独立性是指一个事件的发生不会影响另一个事件发生的概率。例如，抛一枚硬币两次，第一次抛掷的结果不会影响第二次抛掷的结果。另一方面，在下棋时，第10步棋的走法会影响第11步棋的走法，因此这些事件不是独立的。

理解独立性在概率论和机器学习中非常重要，因为假设事件相互独立可以帮助我们简化计算并做出预测。

独立性实例分析：学生分班问题

以下是两个关于学生分班的例子，帮助我们直观理解独立性。

实例一：均匀分班

一所学校有100名学生。其中一半（50名）喜欢踢足球，另一半不喜欢。这些学生被随机平均分配到两个房间，每个房间50人。

基于你的知识，你对房间1中喜欢踢足球的学生数量最好的估计是多少？

由于学生是随机分配的，且总体中喜欢足球的比例是50%，因此每个房间中喜欢足球的学生数量很可能也接近一半。所以，最好的估计是房间1中大约有25名学生喜欢踢足球。

实例二：非均匀分班

另一所学校也有100名学生，但其中只有40名喜欢踢足球（概率为0.4），60名不喜欢（概率为0.6）。这次，学生被随机分配到两个大小不同的房间：房间1可容纳30人（概率为0.3），房间2可容纳70人。

基于你的知识，你对房间1中喜欢踢足球的学生数量最好的估计是多少？

由于分配是随机的，我们期望每个房间中喜欢足球的学生比例与总体比例（40%）保持一致。因此，房间1中喜欢足球的学生数量预计为 30 * 0.4 = 12 人。

更正式地，我们寻找一个学生既喜欢足球又在房间1的概率，即事件“喜欢足球”（S）与事件“在房间1”（R1）的交集概率。

独立事件的乘积法则 ✖️

从上面的例子中，我们引出了独立事件的核心计算法则。

当两个事件A和B相互独立时，它们同时发生的概率（即交集的概率）等于各自发生概率的乘积。这被称为乘积法则。

其公式表示为：
P(A ∩ B) = P(A) * P(B)

在我们的例子中：
P(S ∩ R1) = P(S) * P(R1) = 0.4 * 0.3 = 0.12

这意味着，随机抽取一名学生，他既喜欢足球又在房间1的概率是12%。

乘积法则的扩展应用

乘积法则可以扩展到多个相互独立的事件。

以下是两个应用乘积法则的经典概率问题。

应用一：连续抛硬币

考虑连续抛掷一枚公平硬币五次。每次抛掷都是独立的。那么，硬币连续五次都正面朝上的概率是多少？

计算过程如下：
P(五次都是正面) = (1/2) * (1/2) * (1/2) * (1/2) * (1/2) = (1/2)^5 = 1/32

应用二：连续掷骰子

首先，掷一个公平的六面骰子，得到6点的概率是 1/6。
掷两个骰子，两个都得到6点（即得到“双六”）的概率是多少？

由于两次掷骰子是独立的，根据乘积法则：
P(第一个是6 ∩ 第二个是6) = P(第一个是6) * P(第二个是6) = (1/6) * (1/6) = 1/36

进一步，如果连续掷10个公平的骰子，全部得到6点的概率是：
P(十个都是6) = (1/6)^10
这是一个非常小的数字。

总结 📝

本节课中我们一起学习了概率论中的独立性概念及其核心计算法则——乘积法则。

我们了解到：

当事件A的发生不影响事件B的发生概率时，称事件A和B相互独立。
对于独立事件，它们同时发生的概率等于各自概率的乘积，即 P(A ∩ B) = P(A) * P(B)。
乘积法则可以推广到任意多个相互独立的事件。
利用独立性假设，可以极大地简化复杂场景下的概率计算，这在机器学习和数据分析中是非常有用的工具。

理解并正确应用独立性，是构建概率模型和进行统计推断的重要基础。

009：生日问题 🎂

在本节课中，我们将探讨概率论中最引人入胜的问题之一：生日问题。我们将计算在一群人中，至少两人拥有相同生日的概率。这个问题的结果常常出人意料。

概述

生日问题旨在探究：在一个随机人群中，至少两人在同一天过生日的概率有多大？直觉上，这个概率可能看起来很低，但数学计算会揭示一个令人惊讶的事实。

问题定义

假设你身处一个派对，现场有30位朋友（不包括你自己）。我们想知道，在这30人中，存在至少两人生日相同的概率大，还是所有人的生日都不同的概率大？为简化问题，我们假设一年有365天，不考虑2月29日。

计算过程

计算“至少两人生日相同”的概率，最直接的方法是先计算其对立事件——“所有人生日都不同”的概率，然后用1减去它。

以下是计算“所有人生日都不同”概率的逐步推导：

第一个人：他可以是一年中的任何一天生日，不会与他人冲突。概率为：
365 / 365 = 1
第二个人：为了不与第一个人生日相同，他必须在剩下的364天中选择一天。概率为：
364 / 365
第三个人：为了不与前两人生日相同，他必须在剩下的363天中选择一天。概率为：
363 / 365
以此类推：每增加一个人，就乘以一个递减的分数。

因此，对于 n 个人，所有人生日都不同的概率 P(不同) 计算公式为：

P(不同) = (365/365) * (364/365) * (363/365) * ... * ((365-n+1)/365)

那么，至少两人生日相同的概率 P(相同) 为：

P(相同) = 1 - P(不同)

结果分析

让我们将这个公式应用于不同规模的人群：

以下是不同人数对应的“所有人生日都不同”的概率：

9人：概率约为 0.905。这意味着在9人的小团体中，有90.5%的可能性所有人的生日都不同。
20人：概率降至 0.589。
23人：概率约为 0.493。这是关键转折点。在23人中，“至少两人生日相同”的概率（1-0.493=0.507）首次超过了50%。
30人：概率迅速降至 0.294。这意味着在30人的群体中，有超过70%的概率存在生日相同的人。
50人：概率仅为 0.03，几乎可以确定存在生日相同的人。
100人：概率变得微乎其微。
366人：根据鸽巢原理，概率为0，必然存在生日相同的人。

可视化与结论

右侧的图表清晰地展示了这一趋势：横轴是人数，纵轴是“所有人生日都不同”的概率。曲线在人数达到23左右时跌破0.5，之后急剧下降。

这个结果之所以反直觉，是因为我们倾向于从“某个人与我生日相同”的个体角度思考，而问题考虑的是“任意两人之间”的组合可能性。随着人数增加，这种配对的数量呈组合级增长，导致重复的概率迅速上升。

总结

本节课我们一起学习了著名的生日问题。通过计算“所有人生日都不同”这一对立事件的概率，我们推导出，仅需23人，就有一半以上的概率出现生日相同的情况；而在30人的群体中，这个概率高达约70%。这个例子生动地展示了概率论如何帮助我们量化反直觉的随机现象，并理解组合效应在其中的巨大影响。

011：条件概率第二部分

在本节课中，我们将继续学习条件概率，并通过具体的学校学生案例，深入理解事件之间的独立性与依赖性。我们将学习如何计算联合概率，并使用概率树来直观地表示和分析复杂的概率场景。

应用条件概率规则

上一节我们介绍了条件概率的基本概念。本节中，我们来看看如何在一个具体的场景中应用这些规则。

再次假设一所学校有100名学生。其中50名喜欢踢足球，另外50名不喜欢。现在，我们将他们分配到两个各能容纳50人的房间。

学生们可以自由选择去哪个房间，但这里有一个关键信息：第一个房间的电视正在播放世界杯，而第二个房间的电视在播放一部与足球完全无关的电影。

根据你的直觉，你预计第一个房间里会有多少孩子喜欢足球？请记住，第一个房间的电视在播放世界杯。

在公平的情况下，我们可以想象所有喜欢足球的孩子都去了播放世界杯的房间，如图所示。也许实际情况并非如此，但我们可以假设这种情况发生了。

因此，事件“喜欢足球”和“在房间一”是依赖的。在我们之前做的例子中，孩子们是随机分配的，这使得事件独立。但在这里，情况并非如此，它们是依赖的，概率发生了变化。

计算联合概率

现在，让我们看一个略有不同的问题。假设一所学校有100名孩子，其中40名踢足球，其余的不踢。在踢足球的孩子中，我们注意到在任何一天，有80%的人喜欢穿跑鞋。现在，请帮我估算有多少孩子既踢足球又穿跑鞋。

这里有40名孩子。假设其中80%穿跑鞋。让我们将他们按20%一组分开，其中四组（即80%）穿跑鞋。所以是32人，因为40的80%是32。32就是我们估算的既喜欢足球又穿跑鞋的孩子数量。

让我们从另一个角度看待同一个问题。

一个孩子踢足球的概率是40%。这意味着如果我们有100个孩子，其中40个踢足球。即 P(足球) = 0.4。

不踢足球的概率是0.6或60%。这意味着在这100个孩子中，60个不喜欢足球。

在踢足球的孩子中，80%穿跑鞋。因此，给定踢足球时穿跑鞋的条件概率 P(跑鞋 | 足球) = 0.8。

现在我们想要足球和跑鞋的联合概率 P(足球 ∩ 跑鞋)。为此，我们需要足球的概率（这里的40%），乘以给定踢足球时穿跑鞋的条件概率（这里的80%）。即80%的40%。

或者用公式表示：P(足球 ∩ 跑鞋) = P(足球) × P(跑鞋 | 足球)。

计算：0.4 × 0.8 = 0.32。这就是我们预期的32%的孩子会既踢足球又穿跑鞋。

因此，我们说 P(S ∩ R) = 0.32。

考虑相反情况

现在，让我们看看其他情况。假设有人告诉我以下信息：一个孩子在不踢足球时穿跑鞋的概率是50%。这意味着在不踢足球的孩子中，有一半穿跑鞋。

那么，“不踢足球且穿跑鞋”的概率是多少？即 P(非足球 ∩ 跑鞋)。

这等于 P(非足球)（这里的60%）乘以 P(跑鞋 | 非足球)（这里的50%）。

计算：0.6 × 0.5 = 0.3。这就是一个孩子不喜欢足球但穿跑鞋的概率，为30%。

使用概率树

另一种看待问题的方式是使用概率树。

可能发生两件事：孩子踢足球或不踢足球。

踢足球的概率是40%（P(S)=0.4）。
不踢足球的概率是60%（P(非S)=0.6）。

在踢足球的孩子中：

穿跑鞋的概率是80%（P(R|S)=0.8）。
不穿跑鞋的概率是20%（P(非R|S)=0.2）。

在不踢足球的孩子中：

穿跑鞋的概率是50%（P(R|非S)=0.5）。
不穿跑鞋的概率是50%（P(非R|非S)=0.5）。

这样就产生了四种场景：

踢足球且穿跑鞋（S ∩ R）：概率为32%（即40%的80%）。
踢足球且不穿跑鞋（S ∩ 非R）：概率为8%（即40%的20%）。
不踢足球且穿跑鞋（非S ∩ R）：概率为30%（即60%的50%）。
不踢足球且不穿跑鞋（非S ∩ 非R）：概率为30%（即60%的50%）。

这些是所有可能性。

案例回顾与总结

现在，让我们回顾一下我们从一开始看到的各种情况。

首先，我们将孩子们随机分配到两个房间，这创造了两个独立事件。从图形上看，当划分“房间一”和“房间二”的线与划分“踢足球”和“不踢足球”的线在图中相交时，事件是独立的。

然后，我们遇到了“穿跑鞋”或“不穿跑鞋”的情况，这些事件是依赖的，因为如果一个孩子踢足球，他穿跑鞋的可能性比不踢足球时更大。

另一个案例是当我们根据偏好（一个房间放足球赛）将他们送到两个不同的房间时，这些情况也非常依赖，因为喜欢足球的孩子更有可能去看足球赛。

简而言之，当图中的线交叉时，案例是独立的（如左图）；当它们不交叉时，案例是依赖的（如右图）。

在接下来的未评分实验课中，你将有机会看到一些已经学过的概率概念的实际应用。你将使用Python模拟我之前展示的“生日问题”，并将模拟得到的结果与分析求解这些问题得到的结果进行比较。你将研究生日问题的几种不同变体，查看用于解决每个问题的模拟可视化，并学习如何分析性地处理它们。希望你享受巩固所学知识的过程，完成实验后我们下个视频再见。

本节课中我们一起学习了条件概率在具体场景中的应用，重点区分了事件的独立性与依赖性。我们通过计算联合概率 P(A ∩ B) = P(A) × P(B|A) 来解决实际问题，并利用概率树来清晰地枚举和分析所有可能的结果场景。理解这些概念是构建更复杂概率模型和机器学习算法的基础。

012：贝叶斯定理直观理解 🧠

在本节课中，我们将通过一个具体的医学诊断例子，直观地理解贝叶斯定理。贝叶斯定理是概率论中最重要的定理之一，在机器学习的诸多领域，如垃圾邮件识别、语音检测等，都有广泛应用。

场景设定

想象以下场景：一种罕见疾病正在流行，你希望接受检测。你去看医生，医生告诉你：“我有一个非常有效的检测方法，大多数时候都是准确的。”你接受了检测并回家，随后医生打电话通知你：检测结果为阳性。

在恐慌之前，我们最好先做一些数学计算。我们的目标是计算：在已知检测结果为阳性的条件下，你真正患有该疾病的概率。

引入具体数字

为了让分析更清晰，我们引入一些具体数字。

假设总人口为 1,000,000 人。
该疾病非常罕见，发病率仅为 万分之一。这意味着在总人口中，只有 100 人患病，而 999,900 人是健康的。
医生提供的检测方法 有效率为 99%。这包含两层含义：
1. 对于真正的患者：每 100 名患者中，有 99 人被正确诊断为阳性（真阳性），有 1 人被错误诊断为阴性（假阴性）。
2. 对于真正的健康者：每 100 名健康者中，有 99 人被正确诊断为阴性（真阴性），有 1 人被错误诊断为阳性（假阳性）。

现在，你的检测结果是阳性。问题是：你真正患病的概率有多大？

人群分类分析

上一节我们设定了人群和检测的基本数据，本节中我们来看看如何对整个人群进行分类。

让我们根据患病状态和检测结果，将一百万人分成四组：

患病且检测为阳性（真阳性）：患者共100人，检测正确率为99%，因此这组人数为 100 * 0.99 = 99 人。
患病但检测为阴性（假阴性）：患者共100人，检测错误率为1%，因此这组人数为 100 * 0.01 = 1 人。
健康但检测为阳性（假阳性）：健康者共999,900人，检测错误率为1%，因此这组人数为 999,900 * 0.01 = 9,999 人。
健康且检测为阴性（真阴性）：健康者共999,900人，检测正确率为99%，因此这组人数为 999,900 * 0.99 = 989,901 人。

我们可以用以下伪代码来概括这个分类过程：

total_population = 1_000_000
disease_prevalence = 0.0001 # 万分之一
test_accuracy = 0.99

sick_count = total_population * disease_prevalence # 100
healthy_count = total_population - sick_count # 999,900

true_positive = sick_count * test_accuracy # 99
false_negative = sick_count * (1 - test_accuracy) # 1

![](https://github.com/OpenDocCN/dsai-notes-pt1-zh/raw/master/docs/dlai-prob-stat/img/b1a607826e22909701094ab2d38e6747_4.png)

false_positive = healthy_count * (1 - test_accuracy) # 9,999
true_negative = healthy_count * test_accuracy # 989,901

计算条件概率

现在，我们已知你的检测结果为阳性。这意味着你只可能属于第1组（真阳性）或第3组（假阳性）。这两组构成了“所有检测为阳性的人”。

因此，在检测为阳性的条件下，你真正患病的概率计算公式为：

P(患病 | 检测阳性) = 真阳性人数 / 所有检测阳性人数

代入我们的数字：

真阳性人数 = 99
所有检测阳性人数 = 真阳性 + 假阳性 = 99 + 9,999 = 10,098

所以：
P(患病 | 检测阳性) = 99 / 10,098 ≈ 0.0098

这个结果小于 1%。

结果分析与贝叶斯思想

这个结果可能令人惊讶：尽管检测准确率高达99%，但在收到阳性结果后，你真正患病的概率却不到1%。

原因在于疾病的先验概率（基础发病率）极低（0.01%）。虽然检测犯错的概率（1%）也很低，但由于健康人群基数巨大（999,900人），即使很小的错误率也会产生大量的假阳性病例（9,999人）。相比之下，真正的患者数量（100人）本身就很稀少。

因此，在分析检测结果时，必须结合疾病的先验概率。这正是贝叶斯定理的核心思想：利用新的证据（检测结果）来更新我们对某个事件（患病）发生概率的信念（从先验概率更新为后验概率）。

贝叶斯定理的通用公式可以表示为：
P(A|B) = [P(B|A) * P(A)] / P(B)
其中：

P(A|B) 是后验概率：在B发生条件下A发生的概率（本例中为“检测阳性下患病的概率”）。
P(B|A) 是似然度：在A发生条件下B发生的概率（本例中为“患病者检测呈阳性的概率”，即99%）。
P(A) 是先验概率：A发生的初始概率（本例中为疾病的发病率，0.01%）。
P(B) 是证据B发生的总概率。

总结

本节课中，我们一起学习了贝叶斯定理的直观应用。我们通过一个医学诊断的例子，展示了如何计算在得到新证据（检测阳性）后的后验概率。关键要点是：即使测试本身非常准确，如果所检测事件的先验概率极低，那么阳性结果也可能主要来自误报。在机器学习和数据科学中，贝叶斯定理为我们提供了一种强大的框架，用于在不确定性下进行推理和更新预测。

013：贝叶斯定理数学公式 🧮

在本节课中，我们将学习贝叶斯定理的数学推导过程。我们将从一个具体的医学诊断问题出发，逐步推导出贝叶斯定理的公式，并理解其背后的逻辑。

概述

我们试图解决的问题是：在已知某人检测结果为阳性的情况下，计算他实际患病的概率。这需要用到条件概率和贝叶斯定理。

问题设定与基础概率

首先，我们回顾一下问题中的已知信息。假设总人口为100万，其中只有万分之一的人患病。因此，患病的概率 P(患病) 为：

P(患病) = 1 / 10000 = 0.0001

相应地，健康的概率 P(健康) 为：

P(健康) = 1 - P(患病) = 0.9999

检测的准确率为99%。这意味着，对于真正患病的人，检测结果为阳性的概率 P(检测阳性 | 患病) 为99%。对于健康的人，被误诊为阳性的概率 P(检测阳性 | 健康) 为1%。

推导目标概率

我们的目标是计算 P(患病 | 检测阳性)。根据条件概率的定义，我们有：

P(患病 | 检测阳性) = P(患病 ∩ 检测阳性) / P(检测阳性)

接下来，我们需要分别计算分子 P(患病 ∩ 检测阳性) 和分母 P(检测阳性)。

计算分子

根据条件概率公式，P(患病 ∩ 检测阳性) 可以表示为：

P(患病 ∩ 检测阳性) = P(患病) * P(检测阳性 | 患病)

代入已知数值：

P(患病 ∩ 检测阳性) = 0.0001 * 0.99

计算分母

分母 P(检测阳性) 表示所有检测结果为阳性的人群比例。这部分人由两个互斥的群体组成：

真正患病且被正确诊断为阳性的人。
健康但被误诊为阳性的人。

因此，P(检测阳性) 是这两个事件概率的和：

P(检测阳性) = P(患病 ∩ 检测阳性) + P(健康 ∩ 检测阳性)

其中，P(健康 ∩ 检测阳性) 同样可以用条件概率公式计算：

P(健康 ∩ 检测阳性) = P(健康) * P(检测阳性 | 健康) = 0.9999 * 0.01

所以，分母为：

P(检测阳性) = (0.0001 * 0.99) + (0.9999 * 0.01)

贝叶斯定理公式

将分子和分母代入最初的公式，我们得到：

P(患病 | 检测阳性) = [P(患病) * P(检测阳性 | 患病)] / [P(患病) * P(检测阳性 | 患病) + P(健康) * P(检测阳性 | 健康)]

这就是贝叶斯定理在本问题中的具体形式。更一般地，如果我们用 A 代表“患病”，用 B 代表“检测阳性”，用 A' 代表“不患病”（即健康），贝叶斯定理的通用公式可以写作：

P(A|B) = [P(A) * P(B|A)] / [P(A) * P(B|A) + P(A') * P(B|A')]

代入计算与结果

现在，我们将具体数值代入公式进行计算：

P(患病 | 检测阳性) = (0.0001 * 0.99) / [(0.0001 * 0.99) + (0.9999 * 0.01)]

计算这个表达式，得到的结果约为 0.0098 或 0.98%。

这个结果直观地展示了贝叶斯定理的核心洞察：即使检测准确率高达99%，但由于患病的基础概率极低（0.01%），一个阳性检测结果更可能来自庞大的健康人群中的误诊，而非来自极少数真正的患者。因此，在得到阳性结果后，实际患病的概率仍然很低。

总结

本节课中，我们一起学习了贝叶斯定理的数学推导。我们从条件概率的基本定义出发，通过分解联合概率和全概率公式，逐步构建了贝叶斯定理。这个定理为我们提供了一种在已知新证据（如检测结果）后，更新对某个假设（如是否患病）发生概率的方法。理解这个推导过程，对于掌握贝叶斯思想在机器学习和数据科学中的应用至关重要。

接下来，你将会在Python实验中发现一个关于“蒙提霍尔问题”的练习。这是一个经典的概率问题，是加深你对条件概率理解的绝佳机会，同时也让你能再次比较通过模拟仿真和通过解析方法（如贝叶斯定理）解决问题所得到的结果。

014：贝叶斯定理垃圾邮件示例 🧠📧

在本节课中，我们将学习如何应用贝叶斯定理来解决一个实际问题：构建一个简单的垃圾邮件分类器。我们将通过一个具体的例子，一步步理解如何计算在已知邮件包含特定词汇（如“彩票”）的条件下，该邮件是垃圾邮件的概率。

问题设定与数据

假设我们有一个包含100封邮件的数据集。其中，20封是垃圾邮件（Spam），其余80封是非垃圾邮件（Ham）。我们的目标是构建一个分类器。

最初，我们只知道垃圾邮件的先验概率是20%。一个最简单的分类器可以预测任何邮件有20%的概率是垃圾邮件。但我们可以利用更多信息来改进它。

引入特征：“彩票”一词

我们观察到，垃圾邮件中经常出现“彩票”（lottery）这个词。因此，我们决定将这个特征纳入分类器。

以下是数据集中关于“彩票”一词的统计：

在20封垃圾邮件中，有14封包含“彩票”一词。
在80封非垃圾邮件中，有10封包含“彩票”一词。

直观理解条件概率

我们想知道：如果一封邮件包含“彩票”这个词，那么它是垃圾邮件的概率是多少？ 即求 P(Spam | Lottery)。

我们可以直观地计算。我们只关心包含“彩票”的邮件，总共有 14 + 10 = 24 封。在这24封邮件中，有14封是垃圾邮件。因此，概率为：
P(Spam | Lottery) = 14 / 24 ≈ 0.583

这个计算过程的核心思想是：在应用条件（包含“彩票”）后，我们只关注满足该条件的样本子集，然后在这个子集中计算目标事件（是垃圾邮件）的概率。

应用贝叶斯定理公式

上一节我们通过直观筛选数据得到了结果。本节中，我们来看看如何通过贝叶斯定理的公式得到相同的答案。

贝叶斯定理的公式如下：
P(A|B) = [P(B|A) * P(A)] / [P(B|A) * P(A) + P(B|¬A) * P(¬A)]

在我们的例子中：

A 代表事件“邮件是垃圾邮件”（Spam）。
B 代表事件“邮件包含‘彩票’一词”（Lottery）。
¬A 代表事件“邮件不是垃圾邮件”（Not Spam）。

我们需要计算公式中的各个组成部分：

以下是需要计算的概率值：

先验概率 P(Spam)：在不知道邮件内容的情况下，它是垃圾邮件的概率。P(Spam) = 20/100 = 0.2
先验概率 P(Not Spam)：P(Not Spam) = 1 - P(Spam) = 80/100 = 0.8
似然度 P(Lottery | Spam)：在已知是垃圾邮件的条件下，它包含“彩票”一词的概率。P(Lottery | Spam) = 14/20 = 0.7
似然度 P(Lottery | Not Spam)：在已知不是垃圾邮件的条件下，它包含“彩票”一词的概率。P(Lottery | Not Spam) = 10/80 = 0.125

现在，我们将这些值代入贝叶斯公式：

P(Spam | Lottery) = (0.7 * 0.2) / (0.7 * 0.2 + 0.125 * 0.8)
P(Spam | Lottery) = 0.14 / (0.14 + 0.1)
P(Spam | Lottery) = 0.14 / 0.24 ≈ 0.583

计算结果与之前直观方法得到的结果完全一致。

本节课中我们一起学习了如何将贝叶斯定理应用于垃圾邮件分类的实例。我们首先通过直接筛选数据子集计算了条件概率，然后使用贝叶斯公式验证了结果。这个过程清晰地展示了贝叶斯定理如何结合先验知识（垃圾邮件的总体比例）和新的证据（邮件包含特定词汇）来更新我们对事件发生概率的信念。这是构建许多机器学习分类器（如朴素贝叶斯分类器）的基础。

015：贝叶斯定理中的先验与后验 📊

在本节课中，我们将要学习贝叶斯定理中的核心概念：先验概率、事件与后验概率。我们将通过几个具体的例子，理解如何利用新信息（事件）来更新我们对某个假设的概率估计。

上一节我们介绍了条件概率的基本概念，本节中我们来看看如何将条件概率应用于贝叶斯推理，具体表现为先验概率到后验概率的更新过程。

核心概念定义

首先，我们来正式定义几个关键术语。

先验概率：这是在未获得任何额外信息之前，对某个假设或事件发生可能性的初始估计。其计算公式通常基于历史数据或基本假设。
- 公式表示为：P(A)
事件：这是一个发生的事实或观察到的数据，它为我们提供了关于世界的新信息。
- 通常表示为 E
后验概率：这是在考虑了事件 E 所提供的证据之后，对假设 A 发生概率的更新估计。它是给定证据 E 时 A 发生的条件概率。
- 公式表示为：P(A|E)

后验概率总是比先验概率更准确，因为它包含了事件所带来的新信息。

实例解析

以下是几个例子，用以说明先验、事件与后验如何在实际情境中运作。

1. 垃圾邮件过滤示例 📧

先验概率：一封邮件是垃圾邮件的初始概率。假设根据历史数据，所有邮件中有20%是垃圾邮件。
- P(垃圾邮件) = 20%
事件：我们观察到这封邮件中包含“彩票”这个词。
后验概率：在已知邮件包含“彩票”一词的条件下，该邮件是垃圾邮件的概率。这个概率不再是简单的20%，而是所有包含“彩票”的邮件中，垃圾邮件所占的比例。
- P(垃圾邮件 | 包含“彩票”) = (包含“彩票”的垃圾邮件数量) / (所有包含“彩票”的邮件数量)

2. 医疗诊断示例 🏥

先验概率：一个人患某种疾病的初始概率（发病率）。
事件：该人的诊断检测结果为阳性。
后验概率：在诊断检测为阳性的条件下，该人实际患病的概率。这通常需要结合检测的准确率（灵敏度和特异度）来计算。

3. 掷骰子示例 🎲

假设我们投掷两个骰子。

先验概率：两个骰子点数之和为10的概率。总共有36种等可能结果，其中(4,6), (5,5), (6,4)三种情况满足条件。
- P(点数和为10) = 3/36
事件：我们观察到第一个骰子的点数是6。
后验概率：在已知第一个骰子为6的条件下，两个骰子点数之和为10的概率。此时，第二个骰子必须为4，而在第一个骰子为6的6种可能结果中，只有1种满足条件。
- P(点数和为10 | 第一个骰子=6) = 1/6

4. 抛硬币示例 🪙

假设我们抛掷两枚均匀硬币。

先验概率：两枚硬币都正面朝上的概率。
- P(两个正面) = 1/4
事件：我们观察到第一枚硬币是正面朝上。
后验概率：在已知第一枚硬币为正面的条件下，两枚硬币都正面朝上的概率。此时，样本空间缩小，只需要第二枚硬币也为正面即可。
- P(两个正面 | 第一枚为正面) = 1/2

总结

本节课中我们一起学习了贝叶斯推理的基石：先验概率、事件与后验概率。我们了解到，先验概率 P(A) 是我们的初始信念；当事件 E 发生后，我们获得了新证据；利用这个证据，我们可以计算出更新后的、更精确的后验概率 P(A|E)。通过垃圾邮件过滤、医疗诊断、掷骰子和抛硬币等多个例子，我们看到了这一过程如何在不同场景下应用，其核心思想是用证据更新信念，这是机器学习中许多分类和预测算法（如朴素贝叶斯分类器）背后的基本原理。

016：朴素贝叶斯模型 🧠

在本节课中，我们将要学习朴素贝叶斯模型。这是一种基于贝叶斯定理的简单而强大的分类算法，尤其适用于文本分类任务，如垃圾邮件过滤。我们将从回顾贝叶斯定理开始，逐步引入“朴素”的独立性假设，并最终展示如何利用多个特征（如单词）来计算后验概率。

从单一特征到多特征

上一节我们介绍了使用单一单词（如“lottery”）来判断邮件是否为垃圾邮件的贝叶斯定理示例。本节中我们来看看如何结合多个单词（例如“lottery”和“winning”）来构建一个更强的分类器。

理想情况下，我们希望直接计算邮件在同时包含“lottery”和“winning”这两个单词的条件下，属于垃圾邮件的概率。根据贝叶斯定理，这需要计算以下公式：

P(Spam | Lottery ∩ Winning) = [P(Lottery ∩ Winning | Spam) * P(Spam)] / P(Lottery ∩ Winning)

然而，直接计算 P(Lottery ∩ Winning | Spam) 会遇到问题。它等于垃圾邮件中同时包含这两个单词的数量除以垃圾邮件的总数。当我们试图扩展到100个甚至更多单词时，要求一封邮件同时包含所有指定单词的条件极为苛刻，很可能在我们的数据集中找不到这样的邮件，导致概率估计为0或无法计算。

引入“朴素”假设

为了解决上述问题，朴素贝叶斯模型引入了一个关键假设：特征（在本例中是单词的出现）在给定类别条件下是相互独立的。这就是“朴素”一词的由来。

虽然这个假设在现实中通常不成立（例如，“good”和“morning”这两个词经常一起出现），但采用此假设后，数学计算变得非常简便，并且往往能取得相当好的分类效果。

基于独立性假设，多个特征（单词）的联合条件概率可以简化为每个特征条件概率的乘积。因此，对于包含n个单词 W1, W2, ..., Wn 的邮件，其属于垃圾邮件的后验概率计算公式变为：

P(Spam | W1 ∩ W2 ∩ ... ∩ Wn) ∝ P(Spam) * Π [P(Wi | Spam)]

这里，Π 表示连乘。分母 P(W1 ∩ W2 ∩ ... ∩ Wn) 的计算也遵循同样的独立性假设，并涉及垃圾邮件（Spam）和非垃圾邮件（Ham）两个类别。

计算示例

让我们通过一个具体的例子来演示朴素贝叶斯算法的计算过程。假设我们有一个包含100封邮件的数据集：

垃圾邮件（Spam）：20封
非垃圾邮件（Ham）：80封

因此，先验概率为：
P(Spam) = 0.2
P(Ham) = 0.8

关于单词“lottery”的统计如下：

在20封垃圾邮件中，有14封包含“lottery”。
在80封非垃圾邮件中，有10封包含“lottery”。

因此，条件概率为：
P(Lottery | Spam) = 14/20 = 0.7
P(Lottery | Ham) = 10/80 = 0.125

关于单词“winning”的统计如下：

在20封垃圾邮件中，有15封包含“winning”。
在80封非垃圾邮件中，有8封包含“winning”。

因此，条件概率为：
P(Winning | Spam) = 15/20 = 0.75
P(Winning | Ham) = 8/80 = 0.1

现在，我们使用朴素贝叶斯公式计算一封同时包含“lottery”和“winning”的邮件是垃圾邮件的概率：

代入数值：
= [0.2 * 0.7 * 0.75] / [0.2 * 0.7 * 0.75 + 0.8 * 0.125 * 0.1]
= 0.105 / (0.105 + 0.01)
= 0.105 / 0.115 ≈ 0.913

计算结果表明，一封同时包含“lottery”和“winning”的邮件有高达91.3%的概率是垃圾邮件。这比仅使用一个单词时的判断要强有力得多。

总结

本节课中我们一起学习了朴素贝叶斯模型的核心思想。我们首先回顾了贝叶斯定理在处理单一特征时的应用，然后指出了将其扩展到多特征时面临的计算难题。接着，我们引入了特征条件独立性这一“朴素”假设，从而将复杂的联合概率计算简化为单个概率的乘积。最后，通过一个具体的数值示例，我们演示了如何利用先验概率和条件概率来计算邮件属于垃圾邮件的后验概率。朴素贝叶斯算法因其简单、高效且在实践中效果良好，成为了文本分类和许多其他机器学习任务中的基础工具之一。

017：机器学习中的概率 🧮

在本节课中，我们将探讨概率论与机器学习之间的紧密联系。我们将看到，许多机器学习任务的核心本质是计算条件概率。无论是垃圾邮件检测、情感分析还是图像识别，理解概率都是构建有效模型的关键。

概率在机器学习中的应用

你可能会好奇，为什么我们要如此深入地讨论概率，它与机器学习有何关系？事实上，机器学习在很大程度上是关于概率的。在机器学习中，很多时候你需要计算在给定某些因素的情况下，某件事发生的概率。

例如，在垃圾邮件检测中，你试图根据邮件中的词语、收件人或附件等特征，计算一封邮件是垃圾邮件的概率。这是一个条件概率，即 P(垃圾邮件 | 特征)。

另一个例子是情感分析。你需要判断一段文本是表达快乐还是悲伤。在这种情况下，你需要找到在给定文本包含的词语时，该文本表达快乐的概率，即 P(快乐 | 词语)。

让我们再看一个图像识别的例子。在这里，你试图判断一张图像是否包含特定物体。假设你想识别图像中是否有猫，那么你需要根据图像中的像素计算图像中有猫的概率，即 P(猫 | 像素)。这些都是条件概率。

然而，纯粹的概率也大量出现在机器学习中。机器学习还有一个重要领域叫做生成式机器学习，它是无监督学习的一部分，其目标是最大化概率。

例如，在图像生成中（你可能见过计算机生成的逼真人脸图像），目标是最大化一组像素构成一张人脸的概率。在文本生成中，目标是最大化一组词语构成有意义的、谈论特定主题的文本的概率。

这些都是大量使用概率的机器学习实例。

贝叶斯定理与机器学习分类器

在之前的视频中，你已经看到了贝叶斯定理的实际应用。首先，你找到先验概率，即一封邮件是垃圾邮件的初始概率（垃圾邮件数量除以邮件总数）。然后，发生了一个事件，例如邮件包含“彩票”这个词。接着，后验概率通过构建可能性树来细化这个概率。

这为我们提供了四种可能性：邮件是垃圾邮件且包含“彩票”、是垃圾邮件但不包含“彩票”、是正常邮件但包含“彩票”、是正常邮件且不包含“彩票”。然后，你通过忽略所有不包含“彩票”一词的邮件，并在剩余邮件中计算，进一步得出“垃圾邮件且包含彩票”的概率。

那么，在给定“彩票”一词的情况下，邮件是垃圾邮件的概率（后验概率）就等于：
P(垃圾邮件 | 彩票) = P(垃圾邮件 ∩ 彩票) / [P(垃圾邮件 ∩ 彩票) + P(正常邮件 ∩ 彩票)]

从高层次看，你所做的是通过计算在给定另一件事的情况下某件事的概率，创建了一个机器学习分类器。而这正是许多机器学习案例的本质。

想象一下图像识别。一个图像识别分类器告诉你一张图像是否包含猫。它真正做的是基于一些事件（即图像中的像素）告诉你图像中有猫的概率。因此，一个分类器会告诉你 P(猫 | 像素1, 像素2, ..., 像素n)。这就是一个图像分类器。

另一个例子是在医疗领域。假设你有一批患者的人口统计数据和症状指标，你想知道患者是否健康。你需要做的是根据他们的症状和历史记录，计算患者健康的概率。因此，你构建了一个模型来计算这个条件概率 P(健康 | 症状, 历史)。

在情感分析中，你训练一个模型来判断一个给定的句子是快乐的还是悲伤的。你在这里所做的就是计算条件概率 P(快乐 | 句子中的词语)。

通过图像识别理解条件概率

让我们考虑图像识别问题，看看这是如何工作的。你需要训练一个模型。这个模型接收一张图像（即一组像素），并告诉你在给定这些像素的情况下，图像中有猫的概率。

例如，对于一张猫的图片，模型可能会输出概率 0.9。如果你给它一张不同的图片，比如一辆汽车，那么模型会说，在给定这些像素的情况下，这里有猫的概率非常小，比如 0.1。因此，你判定这不是一只猫。

由此可见，机器学习的核心就是寻找条件概率。具体来说，这属于监督式机器学习，因为你是在回答关于数据的问题，例如“图像是否包含猫？”、“句子是否快乐？”、“这封邮件是否是垃圾邮件？”等等。

生成式模型：另一个条件概率的范例

条件概率另一个非常有趣的例子是生成式模型，例如人脸生成模型。其思想是训练一个模型，能够生成一组像素，从而得到一张看起来像人脸的图像。这是通过尝试实现 在给定生成像素的情况下，图像是人脸的高概率 来完成的。

例如，右边的图像（指代原文中提到的图片）并不是一个真实的人，它是由一个名为 StyleGAN 的模型生成的。这张脸看起来非常逼真。

总结

本节课中，我们一起学习了概率在机器学习中的核心作用。我们了解到：

许多机器学习任务，如分类（垃圾邮件检测、图像识别、情感分析），本质上是计算条件概率 P(结果 | 特征)。
贝叶斯定理为这类计算提供了理论基础，并通过先验概率和后验概率的更新来构建分类器。
生成式机器学习（如图像生成）的目标是最大化生成数据符合特定分布的概率。
无论是监督学习中的判别模型，还是无监督学习中的生成模型，概率论都是其不可或缺的数学语言和实现工具。

理解这些概率概念，将为你深入学习更复杂的机器学习算法和模型打下坚实的基础。

018：随机变量

概述

在本节课中，我们将要学习概率论与统计学中最重要的概念之一：随机变量。我们将了解什么是随机变量，它与普通变量的区别，以及离散型与连续型随机变量的不同。

随机变量的定义

上一节我们介绍了概率的基本概念，本节中我们来看看随机变量。随机变量与我们之前学过的变量不同。例如，在代数中，变量 x = 3 总是具有相同的值。而随机变量则可以取许多不同的值。

以下是随机变量的两个例子：

温度是一个随机变量，它可以取许多值。
抛硬币10次得到正面的次数是另一个随机变量。

让我们回到抛硬币的实验。抛一枚硬币，可能得到正面（H）或反面（T），假设两者概率均为 0.5。现在，我们定义一个变量 X，称之为正面出现的次数。

那么，抛一次硬币时，X 可以取哪些值呢？

如果我们得到正面，则得到1次正面，X = 1。
如果我们得到反面，则得到0次正面，X = 0。

其对应的概率为：

P(X = 1) = P(H) = 0.5
P(X = 0) = P(T) = 0.5

X 就被称为一个随机变量。你可以把它看作一个不总是具有相同值的变量：大约一半的时间取值为 1，另一半的时间取值为 0。

更复杂的随机变量示例

现在让我们看一个更复杂的随机变量：抛硬币10次得到正面的次数。

假设我们抛硬币10次，可能出现以下情况：

全部是正面，则 X = 10。
有9次正面和1次反面，则 X = 9。并且 X = 9 可以通过多种不同的具体序列（例如，第1次是反面，其余是正面）来实现。

如果我们假设每次抛掷是独立的，且正面概率 p = 0.5，那么：

得到 X = 10（即序列HHHHHHHHHH）的概率是 (0.5)^10。
得到某个特定的 X = 9 序列（例如HHHHHHHHHT）的概率也是 (0.5)^10，可以写成 (0.5)^9 * (0.5)^1。

然而，一个更难的问题是计算诸如 P(X = 0)、P(X = 1) 直到 P(X = 10) 这样的概率。因为 P(X = 9) 需要将所有能导致9次正面的不同序列的概率相加。

为了直观理解这些概率，我们可以进行模拟实验。例如，将这个抛10次硬币的实验重复500次，并记录每次实验中正面出现的次数 X，然后绘制成直方图。

模拟结果可能显示：

P(X = 0) 和 P(X = 10) 的概率最小，因为全部是反面或全部是正面不太可能发生。
P(X = 5) 的概率最高，因为得到大约一半正面的情况最为常见。
我们也能看到其他结果的概率，例如 P(X = 8)（即8次正面和2次反面）。

为什么随机变量很重要？

我们为什么关心随机变量？因为它们允许我们一次性对整个实验进行建模。概率论中的大多数问题都可以用随机变量来表达。

例如：

抛一堆硬币，X 为正面的次数。
掷一堆骰子，X 为出现1点的次数。
观察一群患者，X 为康复的患者人数。

我们甚至可以定义任意的随机变量，只要其所有可能取值的概率之和为1即可。例如，我可以定义一个随机变量 Y：

P(Y = 1) = 0.5
P(Y = -7) = 0.2
P(Y = 3.14159) = 0.3

随机变量的类型：离散型与连续型

你可能已经注意到，随机变量的行为方式有所不同。这主要因为存在两大类型：离散型随机变量和连续型随机变量。

以下是每种类型的例子：

离散型随机变量：

掷骰子得到1点的次数。
抛硬币得到正面的次数。
特定人群中具有某身高的儿童数量。

连续型随机变量：

等待下一班公交车的时间。
体操运动员的跳跃高度。
某个月的降雨量（毫米）。

它们的主要区别是什么？一个常见的误解是离散型只能取有限个值，而连续型可以取无限个值。但事实并非完全如此。

考虑这个例子：不断抛一枚硬币，直到第一次出现正面所需的次数。这个次数可能是1次、2次、3次……理论上可以是任意大的正整数，因此它也有无限多个可能值，但它仍然是离散型的。

真正的区别在于：

离散型随机变量的可能取值是可数的。即使有无限多个，这些值也可以被列成一个清单（如1, 2, 3, …）。
连续型随机变量的可能取值充满整个区间。例如，时间可以是1分钟、1.01分钟、1.00123分钟……这些值无法被一一列出，因为它们构成了一个连续的区间。

随机变量与确定性变量的区别

你可能会想，随机变量和我们在代数、微积分中遇到的变量有什么区别？

核心区别在于：

代数/微积分中的变量是确定性的。例如 x = 2，或者函数 f(x) = x^2 中的输入 x。一旦被定义，它们就具有固定不变的值。
概率论中的随机变量是随机的。它关联着一个不确定的结果，可以以一定的概率取多个不同的值。

简而言之，确定性变量关联着固定的结果，而随机变量关联着不确定的结果。

总结

本节课中，我们一起学习了概率论的核心概念——随机变量。

我们定义了随机变量，它是一个将随机实验的结果映射为数值的函数。
我们通过抛硬币的例子，说明了随机变量如何描述实验的整体结果。
我们区分了两种主要类型：离散型随机变量（取值可数）和连续型随机变量（取值充满区间）。
最后，我们明确了随机变量与数学中确定性变量的根本区别在于其取值的不确定性。

理解随机变量是学习更复杂概率模型和统计推断的基础。在接下来的课程中，我们将深入探讨如何描述和分析随机变量的行为。

019：概率分布与离散型随机变量

在本节课中，我们将学习概率分布的概念，特别是针对离散型随机变量的概率分布。我们将通过掷硬币的例子，直观地理解随机变量如何取值，以及这些值对应的概率是如何分布的。最后，我们将引出概率质量函数（PMF）的定义和性质。

概率分布的概念

在第一课中，我们学习了如何计算单个事件的概率以及如何进行概率运算。

现在，想象将某个实验所有可能发生的结果放在一条水平轴上，并为每一个结果标注其发生的概率。这就形成了一个概率分布，这正是本节课的主题。

掷硬币的例子

假设我们投掷三枚硬币，并关心出现正面的次数。这个“正面次数”就是我们的随机变量。

那么，每次实验的结果如何影响这个随机变量呢？

以下是所有可能的情况：

第一种可能：得到0个正面（即全是反面）。
第二种可能：得到1个正面。但这里可以看到，实际上有三种不同的投掷结果能得到1个正面（正面出现在第一枚、第二枚或第三枚硬币上）。
第三种可能：得到2个正面。同样，也有三种不同的结果能得到2个正面（反面出现在第一枚、第二枚或第三枚硬币上）。
第四种可能：得到3个正面。只有一种情况。

现在让我们重新整理一下：

得到3个反面或3个正面，都只有1种方式。
得到1个正面（和2个反面）或得到2个正面（和1个反面），各有3种方式。

接下来，将这个数字除以所有可能结果的总数（即8种），我们就得到了每个结果对应的概率。

从下图可以清楚地看出，为什么得到1个或2个正面比得到0个或3个正面可能性大得多。这是因为有多少种不同的实验结果能导致这些随机变量取值。

现在，我们可以将其视为一个普通的直方图。

扩展到更多次投掷

上一节我们看了投掷三枚硬币的情况，本节中我们来看看投掷四枚硬币的例子。

此时，你的随机变量是四次投掷中正面的数量。你会发现发生了类似的情况。

全是正面或全是反面，只有1种可能。
得到1个正面（或1个反面），有4种可能。
得到2个正面和2个反面，情况稍复杂，有6种可能。

这总共给出了16种可能的硬币落地结果。因此，你可以为得到0或4个正面分配概率 1/16，为得到1或3个正面分配概率 4/16，为得到2个正面分配概率 6/16。这就是四次投掷的概率分布直方图。

现在，让我们看另一个变量：五次投掷中正面的数量。

全是正面或全是反面：有1种可能（总共有32种可能结果）。
得到1个正面或1个反面：有5种可能。
得到2个或3个正面：实际上有10种可能。

很容易理解，对于全是正面，只有一种可能性；对于只有一个正面，可能性数量等于投掷次数，因为正面可以出现在五次投掷中的任何一次。但是，如何计算出有10种可能得到两个正面呢？

幸运的是，有一个系统的方法来计算。请继续学习下一个视频来了解其工作原理。

概率质量函数

每个条形图都代表了随机变量 X（例如五次投掷中的正面数）取每一个可能值（0, 1, 2, 3, 4, 5）的概率。

对于每个 x（从0到5），你都有一个概率 P(X = x)。这被称为随机变量 X 的概率质量函数，我们通常用小写字母 p 来表示。

公式： p(x) = P(X = x)

所有这些随机变量都可以用它们的概率质量函数来建模，也简称为 PMF。因为它包含了理解概率如何在变量的所有可能值之间分布的所有必要信息。

那么，PMF 有哪些要求呢？

以下是PMF必须满足的条件：

非负性：由于PMF定义为随机变量取某个特定值的概率，因此它必须始终是非负的。即对于所有可能的 x，p(x) >= 0。
归一性：当把PMF在所有可能值上求和时，总和必须等于1。这很合理，因为你考虑的是实验所有可能结果的概率。即 ∑ p(x) = 1（对所有可能的 x 求和）。

通向二项分布

顺便说一下，我们例子中的 X1（三次投掷）、X2（四次投掷）、X3（五次投掷）都非常相似——它们都是在固定次数的硬币投掷中统计正面数量。

并且，概率在所有可能值上的分布遵循相似的模式。那么，是否存在一个单一的模型来代表所有这些随机变量呢？

事实证明，是存在的，它被称为二项分布。你将在下一个视频中学习它。

总结

本节课中，我们一起学习了概率分布的核心概念。我们通过掷硬币的实验，从具体例子出发，理解了离散型随机变量及其取值的概率。我们定义了概率质量函数，它完整描述了一个离散随机变量的概率分布，并必须满足非负性和总和为1两个条件。最后，我们观察到一类特殊的随机变量（固定次数试验中成功的次数）具有相似的分布模式，为下一课学习二项分布这一重要模型做好了准备。

020：二项分布

在本节课中，我们将学习概率论中最基础的分布之一：二项分布。我们将从简单的抛硬币例子入手，理解其核心概念、公式和应用场景。

概述

二项分布描述的是在固定次数的独立试验中，某个事件（如“正面朝上”）发生次数的概率分布。它是理解离散随机变量的重要起点。

从抛硬币开始

上一节我们介绍了离散分布的基本概念，本节中我们来看看一个具体的例子：二项分布。

想象一下抛一枚硬币。假设我抛一枚硬币10次，我能得到多少次正面朝上？可能是0次、1次、2次，一直到10次。每种结果都有其对应的概率。如果我们画出这些概率的直方图，就得到了二项分布。

二项分布是离散分布的一个例子，也是我们将要学习的最简单的分布之一。在本课程后续部分，我们也会学习连续分布。

计算特定结果的概率

现在，让我们具体分析二项分布。当你抛5枚硬币时，得到恰好2次正面的概率是多少？

对于每一次抛掷，得到正面或反面的概率都是1/2。如果你将五次抛掷的概率相乘，会得到1/32。这是一个特定序列（例如“正正反反反”）出现的概率。

但是，在5次抛掷中得到2次正面的方式不止一种。例如，“正反正反反”这个序列出现的概率与上一个序列完全相同，都是1/32。

实际上，从5次抛掷中得到2次正面的可能性总共有10种。如果你观察排列2次正面和3次反面的所有方式，你会发现确实有10种不同的序列。每个这样的序列都有相同的概率：1/32。

计算组合数：二项式系数

那么，有没有一个通用的方法来计算可能的组合数量呢？这其实就是对包含2次正面和3次反面的序列进行排序。

5的阶乘（5!）是排列5个不同物品的方式总数。但这里我们高估了，因为这5次抛掷中有重复（2次正面相同，3次反面相同），所以需要修正。

以下是计算步骤：

首先计算 5!。
除以 2!，以消除仅仅交换两个正面位置所产生的重复排列。
再除以 3!，以消除仅仅交换三个反面位置所产生的重复排列。

这个计算结果被称为二项式系数，它计算了排列2次正面和3次反面的所有不同方式。其公式为：

公式：
组合数 = n! / (k! * (n-k)!)

通常，系数“n选k”计算了在n次抛掷中，出现k次正面的所有组合数。

它的一个性质是：“n选k”等于“n选(n-k)”。原因在于，得到k次正面，等同于得到n-k次反面。这也解释了为什么一枚公平硬币的概率质量函数图形是对称的。

二项分布的概率质量函数

现在，你能找到一种通用的方法来写出抛5枚硬币时正面次数的概率质量函数吗？

为了更具一般性，假设得到正面的概率是p。考虑事件X = x，其中X是一个随机变量，x是5次抛掷中正面的次数，可以是0、1、2、3、4或5。

这个事件的概率是多少？

你需要得到x次正面，其概率为 p^x。这是一个特定顺序的概率。
剩下的 5-x 次是反面，其概率为 (1-p)^(5-x)。
然而，这只是一个特定顺序的概率。你需要考虑所有可能的顺序，即“5选x”种。

因此，概率质量函数为：

公式：
P(X = x) = C(5, x) * p^x * (1-p)^(5-x)

当然，这个表达式仅对 x = 0, 1, 2, 3, 4, 5 有效，因为你不可能在5次抛掷中得到超过5次正面。这就是X的PMF，我们说X服从二项分布。

我们将其记作 X ~ Binomial(5, p)，其中5是抛掷次数，p是正面概率。符号~表示变量X服从其右侧表达式所描述的分布。

如果 p = 0.5 且 n = 5，你会得到如下PMF。记住，这里你抛掷了5枚硬币，正面概率是1/2。图形如下所示。注意，由于p=0.5，PMF是对称的。

在p不同的情况下，例如我们有一枚有偏的硬币，p = 0.3，那么你看到较少正面的机会更大，这反映在了PMF图形中。

推广到一般情况

在上面的例子中，你抛掷了5枚硬币。但如果你抛掷任意次数，模型应该是相同的，你只是改变了一个参数。

当我们抛掷n枚硬币时，概率质量函数如下：

公式：
P(X = x) = C(n, x) * p^x * (1-p)^(n-x)

我们称之为 Binomial(n, p)，其中n和p是二项分布的参数。n是试验（抛掷）次数，p是每次试验中得到“成功”（如正面）的概率。

应用示例：掷骰子

现在尝试回答这个问题：掷一个骰子5次，恰好得到一次点数为1的概率是多少？（顺序无关紧要）

当你掷骰子时，你可以得到1点，或者不是1点。这与抛硬币并无太大不同。在抛硬币中，你可以得到正面或反面。你可以把骰子想象成一枚有偏的硬币：掷出1点视为“正面”，掷出其他点数视为“反面”。所以它是一枚有偏的硬币。

对于一枚公平的骰子，每个点数出现的概率是1/6。所以现在这枚“硬币”得到“正面”（即1点）的概率p = 1/6，得到“反面”的概率是5/6。你可以为不同的p（但相同的n）绘制类似的直方图。这次我们有 n = 5，p = 1/6。换句话说，对于这个实验，我们可以将骰子视为一枚有偏的硬币。

让我们看另一个案例：掷骰子10次，和之前一样，我们记录出现1点的次数。这同样是一个二项概率分布。你能告诉我这个分布的参数是什么吗？

上述问题可以用二项分布表示，其中：

n = 10，代表掷骰子的次数。
p 代表得到1点的概率，即 1/6。

因此，参数是 10 和 0.1666...。

总结

本节课中我们一起学习了二项分布。我们了解到：

二项分布描述了在固定次数n的独立伯努利试验中，“成功”次数k的概率分布。
其核心概率由 二项式系数 C(n, k) 与成功概率p和失败概率(1-p)的幂次相乘得到，公式为 P(X=k) = C(n, k) * p^k * (1-p)^(n-k)。
二项分布有两个参数：试验次数 n 和每次试验的成功概率 p，记作 X ~ Binomial(n, p)。
当 p=0.5 时，分布是对称的；当 p 偏离0.5时，分布会偏向一侧。
许多现实场景（如多次抛硬币、掷骰子看特定点数、质量抽检等）都可以用二项分布来建模。

021：二项式系数与二项分布 🎲

在本节课中，我们将学习如何从一组元素中无序地选取特定数量的元素，并理解当事件（如抛硬币）概率不相等时，如何计算特定结果出现的概率。我们将重点介绍二项式系数和二项分布这两个核心概念。

从有序选取到无序组合

上一节我们讨论了有序选取的情况。本节中，我们来看看当顺序不重要时，如何计算组合的数量。

假设我们需要从 n 个不同的数字中，无序地选取 k 个数字。我们首先考虑有序选取的情况。

以下是计算有序选取数量的步骤：

选取第一个数字：有 n 种选择。
选取第二个数字：由于已经选走一个，剩下 n-1 种选择。
选取第三个数字：剩下 n-2 种选择。
以此类推，直到选取第 k 个数字：剩下 n - (k-1) 种选择。

因此，有序选取的总方式数为：
n × (n-1) × (n-2) × … × (n - k + 1)

然而，这计算了所有可能的排列。对于同一个由 k 个数字组成的集合，不同的排列顺序被重复计算了多次。

计算重复次数：阶乘

为了得到无序组合的数量，我们需要知道每个集合被重复计算了多少次。这取决于我们能用多少种方式重新排列（排序）一个包含 k 个元素的集合。

以下是排列一个包含 k 个不同元素的集合的方式数：

选择第一个位置：有 k 种选择。
选择第二个位置：剩下 k-1 种选择。
以此类推，直到最后一个位置：只有 1 种选择。

因此，排列方式的总数为：
k × (k-1) × (k-2) × … × 1

这个连乘积在数学中被称为 k 的阶乘，记作 k!。
k! = k × (k-1) × … × 2 × 1

推导二项式系数公式

由于每个无序的 k 元素集合在有序计数中被重复计算了 k! 次，为了得到真正的无序组合数，我们需要将有序选取的总数除以 k!。

因此，从 n 个元素中无序选取 k 个元素的方式数，即二项式系数（也读作“n 选 k”），公式为：
(n × (n-1) × … × (n - k + 1)) / k!

这个公式可以更简洁地写成：
C(n, k) = n! / (k! × (n - k)!)

其中 n! 是 n 的阶乘。这个公式之所以成立，是因为 n! / (n-k)! 恰好等于分子 n × (n-1) × … × (n - k + 1)。

二项式系数 C(n, k) 表示从一个大小为 n 的集合中，无序选取 k 个元素的不同方式的数量。

回到抛硬币的例子

让我们用新学的公式重新审视抛5次公平硬币的例子。获得 k 次正面的结果数量，实际上就是从5次抛掷中，选择 k 次作为正面的方式数。

因此，概率可以重新计算为：
P(k次正面) = C(5, k) / 2^5

例如：

C(5, 0) = 1（不选任何一次为正面，只有1种方式）。
C(5, 1) = 5（从5次中选1次为正面，有5种方式）。
以此类推。

特别地，C(n, 0) 总是等于 1，因为“不选取任何元素”只有一种方式。

引入偏差：二项分布

前面的计算基于硬币是公平的（正反面概率各为50%）。如果硬币有偏差呢？

假设一枚硬币抛出正面的概率是 p = 0.3，抛出反面的概率是 q = 1 - p = 0.7。

现在，一个特定的结果序列（例如“正正反反反”）的概率不再都是 1/32。它的概率取决于序列中正面和反面的具体数量。

对于一个有 k 次正面和 (n-k) 次反面的特定序列，其概率为：
p^k × q^(n-k)

例如，对于“正正反反反”，概率是 0.3^2 × 0.7^3。

然而，我们通常关心的是“总共出现 k 次正面”的概率，而不关心具体是哪 k 次。因此，我们需要将所有能产生 k 次正面的不同序列的概率相加。

有多少个这样的序列？正是我们刚学的 C(n, k) 个。

于是，我们得到了二项分布的概率公式：
P(在n次试验中恰好有k次成功) = C(n, k) × p^k × (1-p)^(n-k)

其中：

n 是总试验次数（如抛硬币次数）。
k 是成功的次数（如正面朝上的次数）。
p 是单次试验成功的概率。
C(n, k) 是二项式系数，计算成功发生位置的所有可能组合。

对于我们的偏差硬币例子（p=0.3， n=5），获得k次正面的概率就是：
P(k) = C(5, k) × (0.3)^k × (0.7)^(5-k)

我们可以用这个公式计算出k从0到5的所有概率，并绘制成一个新的概率分布直方图，这就是二项分布的直观展示。

本节课中我们一起学习了：

二项式系数 C(n, k)：计算从n个元素中无序选取k个元素组合数量的核心公式 n! / (k! × (n-k)!)。
阶乘 k!：表示排列k个不同对象的方式数。
二项分布：描述了在n次独立试验中，成功次数为k的概率分布，其公式为 P(k) = C(n, k) × p^k × (1-p)^(n-k)。当p=0.5时，它退化为公平硬币的简单情况。

理解二项式系数和二项分布是学习更复杂概率模型和进行许多统计测试的重要基础。

022：伯努利分布

在本节课中，我们将要学习概率论与统计学中一个非常基础且重要的分布——伯努利分布。我们将通过抛硬币、掷骰子等简单实验来理解其核心概念，并学习如何用数学公式来描述它。

回顾随机变量实验

上一节我们介绍了随机变量的概念。现在让我们回到抛硬币的实验。在这个实验中，你使用一个变量 x 来表示正面朝上的次数，这是一个随机变量。当你抛一枚硬币时，结果可能是正面或反面。正面朝上的次数可能是1（概率为0.5）或0（概率也为0.5）。

我们将这个实验定义为：如果硬币正面朝上，则视为一次“成功”；如果反面朝上，则视为一次“失败”。

伯努利分布的不同示例

伯努利分布不仅适用于抛硬币实验。我们可以设计不同的实验，同样定义“成功”与“失败”。

例如，如果我们掷一个骰子，并定义掷出点数为1时为“成功”，掷出其他点数时为“失败”。这意味着我们的变量是掷出1的次数。那么，成功的概率是 1/6，失败的概率是 5/6。

我们还可以有其他实验。例如，在医学统计中，考虑病人是否生病。如果我们用变量 x 表示生病的病人数量，那么一个病人被诊断为生病（即 x = 1）就被视为一次“成功”。虽然“生病”听起来是负面事件，但在这个统计框架下，它只是我们计数的事件。假设一个病人生病的概率是 p，那么健康的概率就是 1 - p。

伯努利分布的定义

以上所有例子都是伯努利分布的实例。伯努利分布在概率论和统计学中非常重要，它只有一个参数，即成功概率 p。

一个伯努利随机变量 X 的取值只有两种可能：

1，代表“成功”，其概率为 p。
0，代表“失败”，其概率为 1 - p。

我们可以用以下公式来定义伯努利分布的概率质量函数：

P(X = x) = p^x * (1-p)^(1-x)，其中 x ∈ {0, 1}

或者，更直观地写成：

P(X = 1) = p
P(X = 0) = 1 - p

在代码中，我们可以用一个简单的函数来描述一次伯努利试验：

import random

![](https://github.com/OpenDocCN/dsai-notes-pt1-zh/raw/master/docs/dlai-prob-stat/img/36796e9436623a74c96fb17757a6e772_12.png)

![](https://github.com/OpenDocCN/dsai-notes-pt1-zh/raw/master/docs/dlai-prob-stat/img/36796e9436623a74c96fb17757a6e772_13.png)

def bernoulli_trial(p):
    """
    执行一次伯努利试验。
    p: 成功概率
    返回: 1 (成功) 或 0 (失败)
    """
    return 1 if random.random() < p else 0

总结

本节课中，我们一起学习了伯努利分布。我们了解到，伯努利分布是描述单次、有两种可能结果（成功/失败）的随机实验的基本模型。它的核心是成功概率 p 这个参数。我们通过抛硬币、掷骰子和病人健康状况等多个例子，看到了伯努利分布在各种场景下的应用，并学会了用数学公式和代码来精确地描述它。理解伯努利分布是学习更复杂分布（如二项分布）的重要基础。

023：连续型概率分布

在本节课中，我们将要学习连续型概率分布。我们将了解它与离散型分布的区别，并学习如何通过曲线下的面积来描述连续随机变量的概率。

从离散到连续

上一节我们介绍了离散型概率分布，其特点是随机变量的所有可能取值可以列成一个列表。本节中我们来看看连续型概率分布，它与离散型分布有本质的不同。

在离散型分布中，事件总是可以列成一个列表。例如，抛三次硬币，正面朝上的次数可以是0、1、2或3次。一个城镇的人口数量可以是0、1、2、3，甚至一百万，但总能列出一个清单。

那么，什么情况无法列出清单呢？答案是区间。例如，我的随机变量是打电话等待的时间或等公交车的时间。这些时间无法被一一列出，因为我可能等待1分钟，也可能是1.01分钟、1.2237分钟，甚至是π分钟。这些数字无法被穷尽地列出。

因此，当你的随机事件可以列成一个清单时，你拥有的是离散型分布。当你的随机事件是一个区间时，你拥有的是连续型分布。

连续型概率的挑战

让我们通过一个例子来深入理解。假设你正在拨打技术支持电话，你想知道等待时间不会太长的概率。如果通话时间只能是1、2或3分钟，我们可以像下图一样绘制概率分布，其中条形的高度代表通话持续1、2或3分钟的概率。

但实际上，通话时间可以是1.01分钟或2.43分钟。你很快会发现，通话时间有无限多个可能的值，这些值遍布在你已有的值之间，甚至在其左右。根据上一节的知识，所有概率（即所有条形的高度）之和必须等于1。但当你加入越来越多、越来越细的条形时，每个条形的概率必须变得非常小，最终趋近于零。那么，我们哪里做错了呢？

我们并没有做错什么。答案是，这种分布本质上是不同的，它不是离散的，而是连续的。因此，用离散列表的方法来理解它行不通。

为了理解这一点，请思考以下问题：通话时间恰好是1.000...分钟的概率是多少？ 答案是 0。因为通话时间有太多可能的值，实际上有不可数无穷多个，它们构成了一个完整的区间。我们不得不承认，通话时间恰好等于某个精确值的概率是0。

用区间窗口描述概率

既然无法计算精确值的概率，我们需要用不同的方式来描述这个问题。我们不再询问通话持续某个固定时间的概率，而是考虑它在某个时间窗口内的概率。

例如，我们可以问：通话时间在0到1分钟之间的概率是多少？我们可以将这个概率表示为下图蓝色条形的高度。

同样，我们可以计算通话时间在1到2分钟、2到3分钟等区间内的概率。假设通话时间不会超过5分钟，我们就得到了一个离散的概率分布，其中所有蓝色条形的面积（即高度之和）加起来等于1。从图中可以看出，大部分通话时间在1到2分钟或2到3分钟之间，很少有通话持续到5分钟。

从离散逼近到连续曲线

如果我们想要更精确的信息，可以将时间区间划分得更细。例如，将区间从1分钟缩短到30秒。这样我们就得到了一个更精细的离散分布，显示了通话时间在0到0.5分钟、0.5到1分钟等区间内的概率。

如果我们想进一步细化，可以将区间缩短到15秒（即0.25分钟）。这样我们就得到了更多、更窄的条形，提供了更详细的信息。

我们可以持续不断地分割这些区间，得到越来越精细的离散分布。如果我们无限次地进行这种分割，会发生什么呢？结果就是一条平滑的曲线。这就是连续型概率分布的样子。

在离散分布中，所有条形的高度之和（即蓝色区域的总面积）必须等于1。在连续分布中，我们有一个相同的条件：曲线下的总面积必须等于1。这就是连续型概率分布。

核心概念总结

本节课中我们一起学习了连续型概率分布。我们了解到：

当随机变量的可能取值是一个区间而非可列清单时，我们处理的是连续型分布。
对于连续型随机变量，取某个精确值的概率为 0。
我们通过计算随机变量落在某个区间内的概率来描述它，这个概率等于概率密度函数在该区间上曲线下的面积。
整个概率密度函数曲线下的总面积必须等于 1。

理解连续型分布是学习许多重要分布（如正态分布）的基础，我们将在后续课程中继续探讨。

024：概率密度函数 📊

在本节课中，我们将学习连续随机变量的核心概念——概率密度函数。我们将了解它与离散随机变量的概率质量函数有何不同，以及如何用它来计算概率。

从离散到连续：概率的演变

上一节我们介绍了离散随机变量及其概率质量函数。本节中，我们来看看当变量是连续时，描述概率的方式有何根本性变化。

在离散分布中，每个具体事件都有一个概率。例如，抛硬币10次恰好出现3次正面的概率是一个确定的数字。

然而，对于连续分布，我们无法以同样的方式谈论“恰好等于某个值”的概率。例如，一个电话通话恰好持续2分钟整的概率是零。但我们仍然可以讨论区间的概率，比如通话时长在2分钟到3分钟之间，或在2分钟到2分30秒之间的概率。

这些概率被编码在一种称为概率密度函数的工具中。

一个简单的例子：均匀分布

在深入之前，让我们看一个简单的连续分布案例。假设一个呼叫中心接听电话，通话时长在0到5分钟之间均匀等可能地出现。

如下图所示，如果我们将0到5分钟的区域平分为5个部分，那么通话时长落在任何一个矩形区域内的概率是完全相同的。

基于此信息，通话时长在2到3分钟之间的概率是多少？

答案是0.2或20%。因为总概率为1，且被均分为5等份，所以每个矩形的面积（即概率）是 1/5。

现在，如果我们把区间分得更细，分成10个30秒的小区间。那么，通话时长在2到2.5分钟之间的概率是多少？

答案是0.1或10%。因为区间宽度减半了，所以对应的概率也减半了。

这里的关键点是：矩形的高度没有改变，但宽度改变了，因此概率（即面积）也随之改变。这告诉我们，对于连续变量，我们不能只看“高度”，而必须关注“面积”。

回到更一般的分布

现在，让我们回到之前视频中更一般的呼叫中心例子，那里的通话时长并非均匀分布。通话更可能持续1到2分钟或2到3分钟，而不太可能持续4到5分钟。

那么，通话在1到2分钟之间的概率，就是概率密度函数曲线下，从1到2区间所围成的面积。

如果我们想计算通话在1到1分30秒之间的概率，那就是更小区间下的面积。

如果我们把区间分得极其细密，如下图所示，那么通话在2到3分钟之间的概率，就是2到3之间所有微小阴影面积的总和。

这就引出了连续分布的核心：我们只能计算变量落在某个区间内的概率，无法计算它等于某个特定值的概率。因为“恰好等于2分钟”对应的是曲线下一条线的面积，而线的面积为零。

概率密度函数的定义与性质

综上所述，描述连续随机变量概率分布的函数称为概率密度函数，简称 PDF。它通常用小写字母 f 表示，是离散分布中概率质量函数（PMF）的连续对应物。为了清晰，可以加上下标表示变量，如 f_X(x)。

PDF 是仅为连续变量定义的函数，它表示在每个点附近累积概率的“速率”。

你可以使用 PDF 来计算概率，方法就是计算 PDF 曲线下，介于点 a 和点 b 之间的面积。

一个函数需要满足以下条件才能被视为有效的 PDF：

以下是成为有效概率密度函数必须满足的条件：

定义域：它必须在整个实数轴上有定义（尽管在许多区间上其值可以为零）。
非负性：对于所有 x，有 f(x) ≥ 0。这确保了概率不会为负。
归一性：曲线下的总面积必须等于 1。即：∫_{-∞}^{∞} f(x) dx = 1。这代表了所有可能结果的概率之和为 1。

离散与连续的对比总结

本节课中我们一起学习了连续随机变量的概率描述方式。让我们最后总结一下离散与连续随机变量的关键区别：

离散随机变量：结果只能取有限个或可数无限个值。
- 使用概率质量函数描述，定义为：P(X = x)，即变量取某个特定值的概率。
连续随机变量：结果可以取某个区间内的任意值。
- 使用概率密度函数描述。
- 变量取某个特定值的概率恒为零：P(X = x) = 0。
- 概率通过计算 PDF 曲线下的面积来获得：P(a ≤ X ≤ b) = ∫_{a}^{b} f(x) dx。

正是因为离散与连续随机变量的这种根本差异，它们各自需要不同的工具来描述其行为并计算概率。理解概率密度函数是掌握连续数据概率建模的基础。

026：均匀分布

概述

在本节课中，我们将要学习最简单的连续概率分布——均匀分布。我们将通过一个等公交车的例子来理解它的概念，并学习如何用概率密度函数和累积分布函数来描述它。

均匀分布简介

上一节我们介绍了连续随机变量的概念，本节中我们来看看一个非常基础的连续分布：均匀分布。

想象一下，一辆公交车每10分钟经过一次，但你不知道它的时刻表，所以你随机走到车站等车。你等待的时间可能是1分钟、5分钟、9.74分钟等等。当你收集了足够多的等待时间数据后，你会发现这些时间值在0到10分钟这个区间内是“均匀”出现的，没有哪个特定的等待时间比其他时间更可能出现。这就是均匀分布的一个直观例子。

均匀分布的定义

一个连续随机变量X服从均匀分布，意味着它在某个区间[A, B]内取任何值的可能性都完全相同。区间外的概率则为0。

以下是均匀分布概率密度函数的公式：

f(x) = 1 / (B - A)，当 A ≤ x ≤ B
f(x) = 0，其他情况

其中，A和B是分布的两个参数，分别代表区间的起点和终点。概率密度函数在区间内是一条水平的直线，高度为1除以区间长度(B-A)，这确保了曲线下的总面积（即总概率）等于1。

均匀分布的参数变化

均匀分布的形状完全由参数A和B决定，即区间的起点和终点。

以下是参数变化对概率密度函数的影响：

当区间[A, B]的长度(B-A)增大时，PDF的高度(1/(B-A))会降低，因为概率被“摊薄”到了一个更宽的区间上。
当区间[A, B]的长度(B-A)减小时，PDF的高度会增加，因为概率被“压缩”到了一个更窄的区间上。

均匀分布的累积分布函数

累积分布函数描述的是随机变量X小于或等于某个特定值x的概率，即P(X ≤ x)。

对于在区间[0, 1]上的均匀分布，其CDF的计算非常直观。

以下是CDF在不同区间的表达式：

当 x < 0 时：F(x) = 0。因为X不可能小于0。
当 0 ≤ x ≤ 1 时：F(x) = x。因为从0到x的矩形面积是 x * 1 = x。
当 x > 1 时：F(x) = 1。因为X总是小于或等于1。

将其推广到一般区间[A, B]上的均匀分布，其CDF公式为：

F(x) = 0，当 x < A
F(x) = (x - A) / (B - A)，当 A ≤ x ≤ B
F(x) = 1，当 x > B

这个函数图像从0开始，在区间[A, B]内是一条斜率为1/(B-A)的直线，到达B点后变为1。

总结

本节课中我们一起学习了均匀分布。我们了解到，均匀分布描述了一个随机变量在特定区间内所有取值可能性均等的情况。我们掌握了它的概率密度函数和累积分布函数的公式与图像，并理解了参数A和B如何决定分布的形状。均匀分布是理解更复杂连续分布的重要基础。

027：正态分布

在本节课中，我们将要学习概率论与统计学中最重要的分布之一：正态分布（也称为高斯分布）。正态分布在统计学、科学、现实生活和机器学习中无处不在。我们将了解它的定义、公式、参数以及如何将其标准化。

正态分布简介

上一节我们介绍了二项分布等离散分布，本节中我们来看看一个极其重要的连续分布：正态分布。正态分布以其钟形曲线而闻名，由著名数学家卡尔·弗里德里希·高斯命名，因此也被称为高斯分布。

从二项分布到正态分布

为了建立直观理解，让我们回顾一下二项分布。二项分布的概率质量函数描述了在 n 次独立伯努利试验中成功次数的概率。例如，下图展示了抛掷两次硬币时，正面朝上次数的概率分布。

现在，让我们观察当试验次数 n 变得越来越大时会发生什么。下图展示了从 n=2 到 n=100 的二项分布形状变化。

可以注意到，随着 n 增大，分布的形状越来越接近一条连续的钟形曲线。这条橙色的钟形曲线就是我们所说的正态分布或高斯分布。这意味着当 n 非常大时，二项分布可以很好地用正态分布来近似。

正态分布的公式与参数

正态分布的概率密度函数（PDF）是一个关于其中心对称的钟形曲线。其标准形式（均值为0，标准差为1）的公式如下：

公式：标准正态分布 PDF

f(x) = (1 / sqrt(2π)) * e^(-x²/2)

然而，数据通常不会恰好以0为中心，其分散程度（宽度）也可能不同。因此，我们需要一个更通用的公式，它包含两个关键参数：

均值 (μ)：数据的中心点，决定了钟形曲线在x轴上的位置。
标准差 (σ)：数据的离散程度，决定了钟形曲线的“胖瘦”或宽度。σ越大，曲线越宽越平；σ越小，曲线越窄越高。

以下是包含这两个参数的通用正态分布概率密度函数公式：

公式：通用正态分布 PDF

f(x) = (1 / (σ * sqrt(2π))) * e^(-(x - μ)² / (2σ²))

其中：

(1 / (σ * sqrt(2π))) 是归一化常数，确保曲线下的总面积为1（这是所有概率密度函数的要求）。
e^(-(x - μ)² / (2σ²)) 是指数部分，它创造了钟形形状。(x - μ) 将中心点移至 μ，除以 σ² 则调整了曲线的宽度。

如果一个随机变量 X 服从均值为 μ、方差为 σ² 的正态分布，我们通常写作：

公式：正态分布表示法

X ~ N(μ, σ²)

请注意，这里的第二个参数是方差 σ²（标准差的平方），而不是标准差 σ 本身。这是一种约定俗成的表示法，两者包含的信息是等价的。

标准正态分布

在所有正态分布中，有一个特例至关重要，即标准正态分布。它的参数是均值 μ = 0，标准差 σ = 1。

公式：标准正态分布

如果 Z ~ N(0, 1)，则其 PDF 为：f(z) = (1 / sqrt(2π)) * e^(-z²/2)

标准正态分布的曲线以0为中心，完全对称。它的重要性在于，任何正态分布都可以通过一个简单的线性变换转化为标准正态分布。这个过程称为标准化。

标准化：将任何正态分布转化为标准形式

假设我们有一个随机变量 X ~ N(μ, σ²)。我们可以通过以下操作创建一个新的随机变量 Z：

公式：标准化

Z = (X - μ) / σ

这个新变量 Z 将服从标准正态分布，即 Z ~ N(0, 1)。这个过程直观上是：

(X - μ)：将数据平移，使其中心移动到0。
除以 σ：缩放数据，使其离散程度（标准差）变为1。

标准化在统计学中至关重要，因为它允许我们将不同量纲和范围的变量放在同一个尺度（标准尺度）上进行比较和计算。

正态分布的性质与应用

正态分布的累积分布函数（CDF）是一个从0单调递增到1的S形曲线。计算正态分布曲线下特定区间的面积（即概率）在历史上需要查表，现在则可以通过统计软件轻松完成。

正态分布之所以无处不在，是因为以下原因：

中心极限定理：许多独立随机过程之和的分布会趋近于正态分布。这解释了为什么许多自然现象服从正态分布。
常见应用：以下是一些通常可以用正态分布很好建模的变量示例：
- 人群的身高
- 人群的体重
- 智商（IQ）分数
- 通信信道中的噪声
机器学习：许多机器学习模型（如线性回归、高斯朴素贝叶斯）都假设其误差或某些特征服从正态分布。在选择和评估模型时，这是一个重要的考量因素。

总结

本节课中我们一起学习了正态分布（高斯分布）。我们了解到它是从二项分布在大样本下的近似演变而来，其概率密度函数是一个由均值 μ（决定中心）和标准差 σ（决定宽度）参数化的钟形曲线。我们学习了其标准形式 N(0,1) 以及如何通过标准化公式 Z = (X - μ)/σ 将任何正态分布转化为标准形式。最后，我们探讨了正态分布因其数学特性和中心极限定理而在自然界和机器学习领域被广泛应用的原理。理解正态分布是深入学习统计学和机器学习的基础。

028：卡方分布 🧮

在本节课中，我们将要学习一个在通信和信号处理中非常重要的概率分布——卡方分布。我们将从一个简单的通信场景出发，理解噪声功率的统计特性，并推导出卡方分布的定义和性质。

通信中的噪声问题

想象一下，你正在两台设备之间传输比特信息。你发送了一条消息“10010”。这条消息需要通过空气（即通信信道）进行传输。信道中存在噪声，这些噪声会影响你发送的消息。噪声可能来自不同的源头，例如其他设备的干扰（比如Wi-Fi路由器）、障碍物（如墙壁、树木、建筑物）以及天气条件（如降雨或高湿度）也可能影响你的信号。此外，电气干扰（例如来自输电线路）和许多其他因素也会影响实际接收到的信号。

实际上，假设你接收到的消息是“10010”加上一些影响信号的噪声。我们称这个噪声为 Z，它具有随机性。在通信领域，一个常见的假设是噪声 Z 服从均值为0的高斯分布（正态分布）。

噪声功率与方差

通信中一个非常有用的度量是噪声功率，它大致由噪声的平方来建模。这个度量很重要，因为它与噪声的方差或离散程度相关，并将决定正确解读接收信号的难度。

现在，核心问题是：W = Z² 的分布是什么？为了简化，我们假设 Z 服从标准正态分布，即均值为0，方差为1。

让我们尝试从图形上理解。W 的每个值都可以通过 Z 的两个不同值来实现，即 -√W 和 √W。更进一步，W 小于等于某个值 w 的概率，就是高斯分布概率密度函数曲线下介于 -√w 和 √w 之间的面积。

因此，你可以通过为每个可能的 w 值找到这个面积来获得 W 的累积分布函数。注意，对于较小的 w 值，概率面积的累积速度要快得多。这是因为高斯分布的概率集中在0附近。这种分布被称为具有1个自由度的卡方分布。

从CDF推导PDF

由于累积分布函数是概率密度函数的积分，那么通过对CDF求导，就可以轻松找到PDF。这本质上就是CDF在每个点处的斜率。

现在，你可以清楚地看到，概率累积的速度对于小的 w 值很大，并且随着 w 的增加而变得越来越小。原因是，对于小的 w 值，CDF是一条非常陡峭、增长迅速的曲线；但对于越来越大的值，它增长得越来越慢。

扩展到多次传输

那么，如果你想要两次传输中累积的噪声功率呢？这意味着现在的功率是 Z₁² + Z₂²，其中两者都服从正态分布。这就是具有2个自由度的卡方分布。

五次传输中累积的功率呢？那将是 Z₁² + ... + Z₅²，这是一个具有5个自由度的卡方分布。

那么，k 次传输的功率呢？请注意，这同样是许多独立标准正态变量平方的和，它被设定为服从具有 k 个自由度的卡方分布。并且注意到，随着 k 的增加，概率密度函数会更加分散，并且变得越来越对称。

总结

本节课中，我们一起学习了卡方分布。我们从通信中的噪声建模出发，定义了噪声功率 W = Z²，并推导出当 Z 服从标准正态分布时，W 服从自由度为1的卡方分布。接着，我们将其推广到多个独立正态变量平方和的情况，即自由度为 k 的卡方分布，并观察到其概率密度函数形状随自由度增加而变化的特点。卡方分布在假设检验、方差分析等统计领域有广泛应用。

029：从分布中抽样 🎲

在本节课中，我们将要学习一个在概率论和机器学习中都非常重要的概念：从分布中抽样。我们将探讨如何从一个已知的概率分布中生成新的、符合该分布规律的随机数据点。这对于数据增强、模拟实验和理解统计模型至关重要。

想象你有一个数据集，例如人们的身高数据，但你需要一个更大的数据集。然而，收集更多真实数据的成本太高。那么，你能做什么呢？你可以创建一些看起来与原始数据非常相似的合成数据。

实现这一点的一种方法是，根据原始数据构建一个概率分布，然后从这个分布中进行抽样。所谓抽样，就是指按照原始分布给出的概率来选取数据点。

离散分布的抽样 🎨

让我们从一个简单的离散分布开始理解这个过程。假设我们有一个关于颜色的分布，包含三个可能的结果：绿色、蓝色和橙色。其概率分别为：绿色0.3，蓝色0.5，橙色0.2。

现在，你想设计一个实验，生成一个遵循此分布的随机数据样本。如何从该分布中抽样数据呢？

由于所有结果的概率之和为1，我们可以将它们堆叠在一起，形成一个从0到1的连续条带。计算机可以均匀地从给定区间中选择一个随机数。为了模拟这个分布，你需要遵循以下三个步骤：

以下是具体的操作步骤：

在0到1之间生成一个随机数。
判断这个随机数属于三个区间中的哪一个。
根据该区间，分配对应的颜色。

这个过程能帮助你按照图中给定的概率，随机选取绿色、蓝色或橙色。

现在，假设我们不分配颜色，而是为这些结果分配数字，例如0、1和2。整个过程将完全一样。

利用累积分布函数抽样 📈

上一节我们介绍了通过划分概率区间进行抽样的方法。本节中，我们来看看另一种更通用的解决思路：利用累积分布函数。

让我们创建另一个图表。我们只需将之前的概率条旋转并向右推，绘制出的那条红色曲线，实际上就是累积分布函数。

现在，你要做的就是从垂直区间（0到1）上均匀地抽样。例如，图中这四个点就是均匀抽取的。然后，你只需在累积分布函数的水平轴上读出对应的值，这样你就能按照左侧的分布规律选取数字了。

连续分布的抽样 🔄

我们不仅可以将CDF方法用于离散分布，它同样适用于连续分布，而且过程非常精妙。

假设左侧是一个高斯分布。直接从这个分布中随机选取点并不容易，因为计算曲线下的面积很困难。

但是，如果你观察右侧的CDF图，然后从那个灰色的垂直区间（0到1）上均匀地选取一些随机数。

接下来，我们只需观察这些随机数在CDF曲线上对应的位置，并找出它们在水平轴上的投影点。如图所示，这些投影点实际上就是根据左侧的正态分布抽取的。当你观察它们在左侧分布图上的位置时，会发现它们恰好符合该分布。

因此，无论是离散还是连续情况，累积分布函数都是从一个特定分布中进行抽样的非常有用的方法，它能为你打下坚实的应用统计学基础。

本周实践内容 💻

为了巩固所学知识，本课程包含了五个探索性数据分析实验。你将有机会亲手处理一些数据，并观察概率和统计的概念如何帮助发现模式和做出决策。这些实验不计分，但每个实验都为你提供了许多建议活动。

本周你将完成该系列中的两个实验。

以下是两个实验的介绍：

实验一：Pandas入门。这是一个广泛使用的Python数据分析库。本实验重点介绍你将在后续四个实验中使用的Pandas工具，同时你将首次接触一个关于“世界幸福指数”的数据集，该数据集会在课程后期再次出现。如果你已经熟悉Pandas，可以快速浏览本实验。
实验二：数据分析与可视化。本实验将引导你应用第一周学到的一些概念，来分析和可视化数据，并描述其关键特征。实验引入了一个关于芝加哥共享单车的数据集，该数据集同样会在课程后期再次使用。

希望你享受这两个实验。

本周计分任务 ✅

完成实验后，你将面临本周的计分部分。

首先，你会遇到一个涵盖本周所有主题的计分测验。

最后，你将完成一个计分的编程作业，在该作业中，你需要应用贝叶斯定理来预测一封电子邮件是否为垃圾邮件。这项作业将帮助你巩固关于贝叶斯定理和条件概率的许多知识。同时，它也是一个绝佳的机会，让你看到所学的概念在经过巧妙应用后，能够多么强大地解决现实世界的问题。

你的任务很明确，但我知道你能完成。祝你好运，顺利完成本周的学习。

本节课中，我们一起学习了从概率分布中抽样的核心方法。我们首先通过划分概率区间理解了离散分布的抽样过程，然后引入了更强大的工具——累积分布函数，并演示了如何利用CDF对离散和连续分布进行抽样。最后，我们预览了通过实践和作业来巩固这些概念的具体途径。掌握这些技能，是进行数据模拟和深入理解统计模型的基础。

030：第一周总结 🎯

在本节课中，我们将对第一周所学的核心概率论知识进行总结，并简要展望下一周的学习内容。

上一节我们介绍了概率分布的概念，本节中我们来回顾本周的学习成果。

本周内容回顾

以下是我们在第一周学习的主要内容：

概率：学习了事件发生可能性的量化方法。
随机变量：理解了用于表示随机现象结果的变量，通常用大写字母如 X 表示。
概率分布：掌握了描述随机变量所有可能取值及其对应概率的规律。

下周内容预告

在接下来的一周，我们将深入学习概率分布的更多性质。

以下是下周将涵盖的主题：

概率分布的一些性质。
扩展到多变量的概率分布等推广概念。

本节课中我们一起学习了概率、随机变量和概率分布的基础概念，为后续更深入的概率论与统计学知识打下了坚实的基础。我们下周再见。

031：期望值

在本节课中，我们将学习一个描述概率分布中心位置的核心概念：期望值。我们将通过直观的例子和公式来理解它，并了解它在离散和连续随机变量中的应用。

概述：什么是期望值？

上一节我们介绍了概率分布的基本概念。本节中，我们来看看如何描述分布的中心。期望值，也称为均值，是概率分布的一个关键特征。它可以被直观地理解为分布的“平衡点”，或者从长远来看，随机变量取值的“平均值”。

期望值的直观理解

让我们通过一个例子来建立直观感受。假设我们观察了一组不同年龄的小猫：

有3只0岁的小猫。
有2只1岁的小猫。
有4只2岁的小猫。
有1只3岁的小猫。

如果我们把每只小猫想象成一个等重的小球，并将它们放在一个天平上，通过反复试验，我们可以找到一个让天平平衡的点。这个点就是分布的期望值。

期望值的计算

以下是计算上述小猫平均年龄的步骤：

首先，我们计算所有小猫年龄的总和，然后除以小猫的总数。这是计算平均值的常用方法。
(3*0 + 2*1 + 4*2 + 1*3) / 10 = 13 / 10 = 1.3
我们可以将上述公式重写，以揭示其与概率的联系：
(3/10)*0 + (2/10)*1 + (4/10)*2 + (1/10)*3 = 1.3

这样写更容易看出，期望值实际上是随机变量所有可能取值的加权平均，而权重就是每个值出现的概率。在这个例子中，年龄为0的概率是3/10，年龄为1的概率是2/10，依此类推。

如果随机变量 X 代表小猫的年龄，那么它的期望值写作 E[X]。因此，E[X] = 1.3。

期望值在决策中的应用

期望值可以帮助我们做出理性的决策。考虑一个游戏：抛一枚均匀的硬币，正面朝上赢得10美元，反面朝上赢得0美元。你的朋友要求你每次游戏支付6美元。你应该玩吗？

我们可以计算这个游戏的期望收益：

一半的时间收益为 $10。
一半的时间收益为 $0。
因此，长期的平均收益（期望值）是：E[收益] = 0.5 * $10 + 0.5 * $0 = $5。

由于期望收益是5美元，这意味着从长期看，你平均每局能赢5美元。因此，5美元是你愿意为玩一局游戏支付的最高价格。支付6美元会导致长期亏损，而支付4美元则长期来看有利可图。

离散随机变量的期望值公式

对于一般的离散随机变量 X，其期望值的计算公式如下：

E[X] = Σ [x * P(X=x)]

其中：

x 代表 X 所有可能的取值。
P(X=x) 是概率质量函数，给出了 X 取值为 x 的概率。
Σ 表示对所有可能的 x 求和。

这个公式正是我们之前使用的加权平均。

连续随机变量的期望值

上一节我们介绍了从离散分布过渡到连续分布。对于连续随机变量，计算期望值的思路类似，但求和变成了积分。

连续随机变量 X 的期望值公式为：

E[X] = ∫ x * f(x) dx

其中：

f(x) 是概率密度函数。
∫ 表示积分，可以理解为对无限多个极其狭窄的区间进行加权求和。

虽然本课程不要求掌握积分计算，但重要的是理解其核心思想：无论是离散还是连续情况，期望值都是所有可能取值的加权平均。

常见分布的期望值示例

让我们看两个连续分布的例子：

均匀分布：如果你在任意时间到达公交站，而公交车每小时一班，那么你的等待时间在0到60分钟之间是均匀分布的。这个分布的平衡点（期望值）正好在中间，即30分钟。对于区间 [a, b] 上的均匀分布，其期望值为 (a+b)/2。
指数分布：考虑客服电话的等待时间。其概率密度函数在0附近较高，然后随着时间延长而下降。这个分布的期望值（平均等待时间）会落在概率密度“较重”区域稍偏右的位置，而不是正中间。

期望值与中位数的区别

这里有一个常见的误解：人们可能认为均值（期望值）是将数据分成两半的点。实际上，那个点被称为中位数，我们将在下一节详细讨论。

均值是平衡点。在一个不对称的分布中，均值可能会被少数极端值“拉”向一侧。想象一下：一只大象非常靠近平衡点，而一只老鼠在几公里外。即使老鼠很轻，但由于距离极远，它也能平衡大象的重量。类似地，在概率分布中，即使某个区域的概率质量不大，但如果其取值非常大，也会显著影响期望值的位置。

总结

本节课中我们一起学习了期望值的概念：

期望值 E[X] 是随机变量 X 概率分布的均值，代表其长期平均值。
它可以被直观地理解为分布的平衡点。
对于离散随机变量，其计算公式为加权和：E[X] = Σ [x * P(X=x)]。
对于连续随机变量，其计算公式为积分：E[X] = ∫ x * f(x) dx，核心思想仍是加权平均。
期望值在理性决策（如游戏定价）中非常有用。
需要注意的是，期望值（均值）与将数据平分为两半的中位数是不同的概念。

在下一节，我们将继续探讨描述分布中心的其他方法——中位数和众数。

032：其他集中趋势度量——中位数与众数 📊

概述

在本节课中，我们将要学习除了均值（期望值）之外，另外两种描述数据分布“中心”或“典型值”的重要方法：中位数与众数。理解这些概念对于全面解读数据至关重要。

均值可能具有误导性

上一节我们介绍了随机变量的期望值或均值。然而，均值并非衡量分布中心的唯一方法。在某些情况下，均值可能无法准确反映数据的典型情况。

例如，在20世纪80年代，北卡罗来纳大学地理专业毕业生的起薪高达25万美元。这听起来非常高，尤其是考虑到当时美国其他地区地理专业毕业生的起薪仅为2.2万美元。原因在于，迈克尔·乔丹作为该校地理专业的毕业生，其极高的收入极大地拉高了整体平均值。这使得平均值看起来很高，但并不能代表“普通”毕业生的真实收入水平。

中位数：排序后的中间值

当平均值具有误导性时，我们可以考虑使用中位数。中位数的计算方法是：将所有数据按大小顺序排列，然后选取正中间的那个数值。

公式：对于有序数据集 [x₁, x₂, ..., xₙ]，中位数 Median 的计算方式为：

如果 n 是奇数：Median = x₍ₙ₊₁₎/₂
如果 n 是偶数：Median = (xₙ/₂ + xₙ/₂₊₁) / 2

在上述薪资例子中，将所有毕业生的薪资排序后，位于中间位置的薪资值（中位数）就不会被迈克尔·乔丹的极端高薪过度影响，从而更真实地反映了普通毕业生的收入水平。

众数：出现频率最高的值

除了均值和中位数，描述分布中心的第三种方法是众数。众数是指在数据集中出现频率最高的那个值。在概率分布中，众数对应着概率最高的那个结果。

以下是众数在不同分布中的体现：

在离散分布中，众数是概率质量函数（PMF）图中“塔”最高的那个点。
在连续分布中，众数是概率密度函数（PDF）图中峰值（最高点）所对应的横坐标值。
众数可能不唯一。如果一个分布有多个峰值（即多个值具有相同的最高频率），则称之为多峰分布。
在均匀分布中，所有值的出现概率相同，因此所有值都可以被视为众数。

实例分析

现在，让我们通过几个具体分布的例子，来观察均值、中位数和众数的关系。

二项分布示例

首先看一个对称的二项分布：进行5次试验，每次成功的概率为0.5（例如抛5次公平的硬币）。

均值：通过“平衡”分布找到，位于2.5。
中位数：由于数据点数量为偶数，取中间两个值的平均值，同样是2.5。
众数：分布中概率最高的点有两个，分别是2和3。因此众数为2和3。

接下来看一个不对称的二项分布：进行5次试验，但每次成功的概率为0.3。

均值：平衡点位于1.5（如图中蓝线所示）。
中位数：将数据分为左右两半的点，位于1。
众数：概率最高的结果，是1。

正态分布示例

对于连续的正态分布：

均值：由于分布完全对称，平衡点位于中心。
中位数：将面积平分为两半的点，也位于中心。
众数：概率密度最高的点，同样位于中心。
因此，在完美的正态分布中，均值、中位数和众数三者重合。

总结

本节课中我们一起学习了三种衡量数据分布集中趋势的度量方法：

均值（期望值）：所有数据的平均值，但对极端值敏感。
中位数：将数据排序后位于中间的值，对极端值不敏感。
众数：数据中出现频率最高的值，可能不唯一。

为了真正理解数据的中心位置，同时观察这三种度量通常是有益的。它们各自提供了不同的视角，帮助我们更全面、更准确地解读数据。

033：函数的期望值

概述

在本节课中，我们将要学习如何计算随机变量函数的期望值。我们将从回顾随机变量本身的期望值计算开始，逐步扩展到计算其平方、立方或其他任何函数的期望值，并最终揭示期望值运算的一个重要性质——线性性。

随机变量期望值的回顾

上一节我们介绍了如何计算随机变量本身的期望值。对于一个具有特定概率分布的随机变量，其期望值的计算方法是：将每个可能的结果乘以其发生的概率，然后将所有乘积相加。

函数期望值的计算方法

本节中我们来看看，如果关注的不是随机变量本身，而是它的某个函数（例如 x² 或 x³），其期望值应如何计算。

假设一个随机变量 X 有四个可能的结果：x₁, x₂, x₃, x₄，对应的概率分别为 P(x₁), P(x₂), P(x₃), P(x₄)。我们想要求函数 g(X) 的期望值，记作 E[g(X)]。

以下是计算 E[g(X)] 的步骤：

对每一个可能的结果 xᵢ，计算函数值 g(xᵢ)。
将每个函数值 g(xᵢ) 乘以其对应的概率 P(xᵢ)。
将所有乘积相加。

用公式表示如下：
E[g(X)] = Σᵢ [ g(xᵢ) * P(xᵢ) ]

这个过程与计算 E[X] 非常相似，只是将原来的 xᵢ 替换成了 g(xᵢ)，而概率部分保持不变。

应用示例：骰子游戏

为了理解这个概念，让我们通过一个骰子游戏的例子来实践。

示例一：支付平方值的游戏

想象一个游戏：你掷一个公平的六面骰子，朋友将支付给你（骰子点数）² 的金额。为了公平地参与这个游戏，你应该支付多少入场费？

要回答这个问题，我们需要计算你从游戏中获得的平均收益，即 E[X²]，其中 X 是骰子的点数。

以下是计算 E[X²] 的过程：

当 X=1 时，g(X)=1²=1，概率为 1/6。
当 X=2 时，g(X)=2²=4，概率为 1/6。
当 X=3 时，g(X)=3²=9，概率为 1/6。
当 X=4 时，g(X)=4²=16，概率为 1/6。
当 X=5 时，g(X)=5²=25，概率为 1/6。
当 X=6 时，g(X)=6²=36，概率为 1/6。

根据公式计算期望值：
E[X²] = (1 * 1/6) + (4 * 1/6) + (9 * 1/6) + (16 * 1/6) + (25 * 1/6) + (36 * 1/6) = 91/6 ≈ 15.17

因此，这个游戏的公平入场费约为 15.17 元。这个计算本质上就是求 X² 的期望值。

示例二：线性变换的游戏

现在，假设游戏规则改变：朋友支付你 2 * X 元，但你需要预先支付 5 元入场费。你的净收益 Y 是 Y = 2X - 5。这个游戏的平均收益（即 E[Y]）是多少？

我们可以直接计算 E[Y] = E[2X - 5]。Y 的可能取值为：当 X 从 1 到 6 时，Y 分别为 -3, -1, 1, 3, 5, 7。每个值出现的概率均为 1/6。

计算其平均值：
E[Y] = [(-3) + (-1) + 1 + 3 + 5 + 7] / 6 = 12 / 6 = 2

然而，我们也可以从 E[X] 推导出这个结果。我们知道一个骰子点数的期望值 E[X] = 3.5。观察计算过程：
E[2X - 5] = E[2X] + E[-5] = 2 * E[X] + (-5) = 2 * 3.5 - 5 = 2

这揭示了一个重要规律。

期望值的线性性质

从第二个示例中，我们发现 E[2X - 5] = 2 * E[X] - 5。这并非巧合，而是一个普遍性质。

对于任意随机变量 X 和常数 a, b，期望值算子满足线性性质：
E[aX + b] = a * E[X] + b

这个性质被称为期望的线性性。它意味着：

常数因子可以提到期望算子外面：E[aX] = a * E[X]。
常数的期望就是它本身：E[b] = b。

这个性质极大地简化了涉及线性函数期望值的计算。

总结

本节课中我们一起学习了：

如何计算随机变量函数 g(X) 的期望值：E[g(X)] = Σ [g(xᵢ) * P(xᵢ)]。
通过骰子游戏的例子实践了 E[X²] 的计算。
发现了期望值运算的一个关键性质——线性性：E[aX + b] = aE[X] + b。掌握这个性质能帮助我们更高效地解决许多概率与统计问题。

034：期望值之和 🎲

在本节课中，我们将要学习期望值的一个核心性质：和的期望等于期望的和。这个性质看似简单，但能帮助我们解决一些看似复杂的问题。我们将通过一个有趣的“名字匹配”游戏来深入理解这个概念。

一个简单的游戏示例

想象一个包含两个步骤的游戏：

首先，你抛一枚硬币。如果正面朝上，你赢得1美元；否则，你赢得0美元。
然后，你掷一个六面骰子，并赢得骰子朝上点数对应的美元数。

问题是：你在这个游戏中赢得的期望金额是多少？

对于抛硬币的部分，我们定义随机变量 X_coin。其期望值 E[X_coin] 为：

E[X_coin] = (1/2) * $1 + (1/2) * $0 = $0.5

每次游戏，你平均能赢得0.5美元。

对于掷骰子的部分，我们定义随机变量 X_die。其期望值 E[X_die] 为：

E[X_die] = (1/6)*(1+2+3+4+5+6) = $3.5

这是所有可能点数的平均值。

现在，整个游戏的总收益是 X = X_coin + X_die。总收益的期望值 E[X] 是：

E[X] = E[X_coin + X_die] = E[X_coin] + E[X_die] = $0.5 + $3.5 = $4

结论是：和的期望等于期望的和。用公式表示，对于任意两个随机变量 X 和 Y，有：

E[X + Y] = E[X] + E[Y]

一个反直觉的匹配问题

上一节我们介绍了期望值相加的基本性质，本节中我们来看看如何用它解决一个有趣的问题。

假设世界上有80亿人，每个人的名字（包含足够多的标识信息）都写在一张小纸条上，放入一个大袋子中。现在，我周游世界，从袋子里随机抽取一张纸条交给遇到的每一个人。

问题是：预期会有多少人拿到写有自己名字的纸条？

答案可能令人惊讶：预期只有1个人会拿到自己的名字。无论总人数是3个还是80亿，这个期望值都是1。下面我们来解释原因。

从简单情况开始分析

为了理解原理，我们先从只有3个人（Aisha, Beto, Cameron）的情况开始。

以下是所有6种可能的纸条分配方式（每种概率相同），以及每种方式下匹配正确的人数：

分配顺序	匹配正确人数
(A, B, C)	3
(A, C, B)	1
(B, A, C)	1
(B, C, A)	0
(C, A, B)	0
(C, B, A)	1

计算匹配人数的期望值 E[Matches]：

E[Matches] = (3 + 1 + 1 + 0 + 0 + 1) / 6 = 6 / 6 = 1

对于3个人，期望匹配数确实是1。

利用期望值之和的性质

对于80亿人，列出所有分配方式来计算平均值显然不现实。这时，期望值相加的性质就显示出威力了。

我们定义随机变量 M 为总匹配人数。我们的目标是证明 E[M] = 1。

关键思路是：将总匹配数 M 分解为每个人是否匹配自己名字的简单事件之和。

定义指示变量 I_i：

I_i = 1，如果第 i 个人拿到了自己的名字。
I_i = 0，如果第 i 个人没有拿到自己的名字。

那么，总匹配数 M 就是所有这些指示变量的和：

M = I_1 + I_2 + I_3 + ... + I_n

其中 n 是总人数（例如3或80亿）。

根据期望的线性性质（和的期望等于期望的和）：

E[M] = E[I_1 + I_2 + ... + I_n] = E[I_1] + E[I_2] + ... + E[I_n]

现在，计算任意一个人（比如Aisha）的 E[I_i]。由于纸条是随机分配的，Aisha拿到自己名字的概率是 1/n。指示变量的期望值就是其取值为1的概率：

E[I_i] = 1 * P(拿到自己名字) + 0 * P(没拿到自己名字) = 1 * (1/n) = 1/n

这个结论对每个人都成立。

因此，总匹配人数的期望值为：

E[M] = (1/n) + (1/n) + ... + (1/n) = n * (1/n) = 1

n 个 1/n 相加，结果总是 1。

核心性质总结

本节课中我们一起学习了期望值的一个强大性质。无论随机变量之间是否独立，无论它们的分布如何，以下公式恒成立：

E[X_1 + X_2 + ... + X_n] = E[X_1] + E[X_2] + ... + E[X_n]

这个性质被称为期望的线性性。它看似简单，却为我们提供了一种将复杂问题（如全球名字匹配）分解为许多简单问题（单个人是否匹配）并轻松求解的强大工具。通过“名字匹配”游戏，我们直观地看到，即使面对80亿种可能性，利用这个性质也能迅速得出精确的期望值。

036：标准差

概述

在本节课中，我们将要学习方差的一个局限性，并引入一个更实用的度量分布离散程度的概念——标准差。我们将了解标准差如何解决方差的单位问题，并探讨它在正态分布中的具体应用和意义。

从方差到标准差

上一节我们介绍了方差是衡量数据分布离散程度的有用指标。然而，方差存在一个小的缺点。

这个缺点与单位有关。假设你的分布测量的是人的身高，这些身高值以米或英尺为单位，其期望值（均值）也以相同的单位（米或英尺）表示。但是，方差的计算公式导致其单位变成了米²或英尺²，这在直观解释上并不方便。

为了解决这个问题，我们对方差取平方根，得到的结果称为标准差。

标准差的定义

标准差是一种使用与原始数据相同单位来衡量分布离散程度的实用方法。

正如我们所见，方差是 (X - μ)² 的期望值，也可以写作 E[X²] - (E[X])²。

这里有一个小问题。假设 X 以米为单位（例如身高或长度），那么 X 的期望值 E[X] 也以米为单位，它告诉我们所测量人群的平均身高。然而，观察方差：E[X²] 的单位是米²，(E[X])² 的单位也是米²。因此，X 的方差 Var(X) 的单位是米²。

这不太直观。想象一下，我们在测量人的身高，方差却告诉你一个以平方米为单位的数值，这衡量的是面积，所以不太实用。

我们能做什么？一个简单的解决方案是取 X 的方差的平方根，现在它的单位就变回了米。我们称之为 X 的标准差。标准差是 X 的方差的平方根。

用公式表示：
标准差 σ = √(Var(X))

正态分布中的标准差

在正态分布中，标准差非常有用。让我们回顾一下钟形曲线。

当我们定义正态分布时，它有两个参数：μ（钟形曲线的中心，即均值或期望值）和 σ（钟形的宽度，即标准差）。其公式是我们上周看到的那一个。

一个判断 σ 值的直观技巧是观察钟形曲线凹凸性发生变化的点。在那个点上，你处于 μ + σ 或 μ - σ 的位置，具体取决于你所处的一侧。

那么，在 μ + σ 和 μ - σ 之间有多少面积呢？实际上，有 68% 的面积位于这两者之间。

当你观察 μ ± 2σ（即均值两侧两个标准差的范围）时，实际上有 95% 的曲线面积位于此区间内。

如果观察 μ ± 3σ，则有 99.7% 的曲线面积。

为了更精确：

68.2% 的面积位于一个标准差范围内（即 μ ± σ）。
在一个标准差到两个标准差之间（即 μ ± σ 到 μ ± 2σ 的两个小条带），有 13.5% 的面积。
在两个标准差到三个标准差之间（即 μ ± 2σ 到 μ ± 3σ），有 2.35% 的面积。
在尾部（延伸到无穷远但面积非常非常小），有 0.15% 的面积。

在统计学中，当讨论正态分布时，非常常见的是谈论处于均值的一、二或三个标准差范围内。

总结

本节课中我们一起学习了标准差的概念。我们了解到，虽然方差能衡量离散程度，但其单位是原始单位的平方，解释起来不够直观。通过对方差取平方根，我们得到了标准差，它保持了与原始数据相同的单位。特别是在正态分布中，标准差 σ 具有明确的意义，它决定了曲线宽度，并且有固定的比例数据落在均值加减若干倍标准差的区间内（如68-95-99.7法则），这使得标准差成为描述数据分布的一个极其强大和常用的工具。

037：高斯分布之和 🧮

在本节课中，我们将学习一个关于均值、期望、方差和标准差的有趣应用：两个高斯分布相加。我们将通过一个计算机系统总响应时间的例子，来理解如何计算两个独立高斯随机变量之和的分布参数。

概述

想象你正在研究一个计算机系统的总响应时间。这个时间由两个部分组成：

处理时间：系统处理给定任务所需的时间。
网络延迟：计算机系统与数据库服务器或外部API等网络设备通信时的延迟。

我们分别用变量 T 和 L 表示处理时间和网络延迟。那么，总响应时间 R 就是这两者之和，即：
R = T + L

问题建模

假设我们可以用高斯分布（正态分布）来分别建模这两个部分：

处理时间 T（单位：毫秒）服从均值为 10、标准差为 2 的高斯分布。
网络延迟 L（单位：毫秒）服从均值为 5、标准差为 1 的高斯分布。
并且，T 和 L 是相互独立的。

以下是这两个变量的概率密度函数曲线图：

通过抽样验证

为了直观理解，我们可以对每个变量进行抽样。例如，各抽取10，000个样本，并绘制直方图。可以看到，它们的直方图与理论曲线拟合得很好。

现在，利用这些样本，我们可以生成10，000个总响应时间 R 的样本。具体做法是将每一对 T 和 L 的样本值相加。

生成样本后，我们得到 R 的直方图如下。注意，R 的分布形状仍然近似于高斯分布。

推导新分布的参数

现在的问题是：这个新的高斯分布 R 的均值（μ）和标准差（σ）是多少？

计算均值 μ_R

均值计算相对简单，因为它是 R 的期望值。
μ_R = E[R] = E[T + L]
由于期望的线性性质，和的期望等于期望的和：
μ_R = E[T] + E[L] = μ_T + μ_L
代入已知数值：
μ_R = 10 + 5 = 15

计算标准差 σ_R

标准差是方差的平方根。首先计算方差 Var(R)：
σ_R = sqrt(Var(R)) = sqrt(Var(T + L))
这里需要一个关键性质：对于两个独立的随机变量，它们和的方差等于各自方差的和。
因此：
Var(T + L) = Var(T) + Var(L)
我们知道方差是标准差的平方，所以：
σ_R = sqrt(σ_T^2 + σ_L^2)
代入已知数值：
σ_R = sqrt(2^2 + 1^2) = sqrt(4 + 1) = sqrt(5) ≈ 2.2361

结论

最终，总响应时间 R 服从一个新的高斯分布，其参数为：

均值 μ_R = 15（两个原始均值的和）
标准差 σ_R = √5 ≈ 2.236（两个原始标准差的平方和的平方根）

其概率密度函数曲线如下：

一般化公式

上一节我们通过具体例子推导了两个独立高斯变量相加的结果。现在，我们将其推广到更一般的线性组合情况。

假设有两个独立的高斯随机变量：

X ~ N(μ_X， σ_X^2)
Y ~ N(μ_Y， σ_Y^2)

那么，它们的线性组合 Z = aX + bY（其中 a 和 b 是常数）也服从高斯分布，其参数为：

均值：μ_Z = a * μ_X + b * μ_Y
方差：σ_Z^2 = a^2 * σ_X^2 + b^2 * σ_Y^2

用公式表示为：
Z ~ N(aμ_X + bμ_Y， a^2σ_X^2 + b^2σ_Y^2)

当 a = 1， b = 1 时，就退化为我们之前讨论的“和”的情况。

总结

本节课中，我们一起学习了如何计算两个独立高斯分布之和的分布。核心要点如下：

和的均值等于均值的和：μ_(X+Y) = μ_X + μ_Y。
和的方差（在变量独立时）等于方差的和：σ_(X+Y)^2 = σ_X^2 + σ_Y^2。
两个独立高斯随机变量的和（或线性组合）仍然是一个高斯随机变量。
这一性质在系统性能分析、误差建模、信号处理等许多领域都有广泛应用，因为它允许我们将复杂系统的总不确定性分解为各个独立部件的不确定性之和。

038：分布的标准化 📊

在本节课中，我们将学习一个在数据科学和机器学习中至关重要的概念：分布的标准化。我们将了解如何通过数学变换，将任何具有特定均值和标准差的分布，转换为一个均值为0、标准差为1的标准形式。这个过程是许多高级统计分析和机器学习算法的基础。

中心化：将均值变为零

上一节我们介绍了分布的均值和标准差。本节中我们来看看如何通过变换来“标准化”一个分布。首先，假设我们有一个随机变量 X，其均值为 μ。为了使分布更易于处理，我们通常希望其均值为零。

以下是实现中心化的方法：

定义一个新的随机变量：Y = X - μ。
由于期望的线性性质，E[Y] = E[X - μ] = E[X] - E[μ] = μ - μ = 0。

因此，通过减去均值 μ，我们得到了一个均值为零的新分布。这个过程被称为中心化。中心化后，分布的均值变为0，但其标准差 σ 保持不变。

缩放：将标准差变为一

现在，我们有了一个均值为零的分布。接下来，我们希望其标准差为1，这样数据的“尺度”就统一了。

以下是实现缩放的方法：

假设随机变量 Z 的方差为 Var(Z)。对于一个常数 c，有公式：Var(cZ) = c² Var(Z)。
因此，如果我们对中心化后的变量 Y 除以标准差 σ，即定义 Z = Y / σ = (X - μ) / σ。
那么，Var(Z) = Var(Y / σ) = (1/σ)² Var(Y) = (1/σ²) * σ² = 1。
由于标准差是方差的平方根，所以 Z 的标准差为 √1 = 1。

通过除以标准差 σ，我们得到了一个标准差为1的新变量。这个过程被称为缩放。

标准化：完整的流程

结合上述两个步骤，我们就得到了标准化的完整过程。

以下是标准化的步骤：

中心化：从原始变量 X 中减去其均值 μ，得到 X - μ。
缩放：将中心化后的结果除以其标准差 σ，得到 (X - μ) / σ。

最终得到的标准化变量 Z 具有以下性质：

均值 E[Z] = 0
标准差 Std(Z) = 1

任何分布经过标准化后，都会转化为均值为0、标准差为1的形式。这在比较不同尺度的数据、以及为许多机器学习模型（如支持向量机、逻辑回归）准备数据时非常有用。

动手实践 🛠️

接下来，你将找到一个交互式工具，可以从几种不同的分布中进行抽样并可视化结果。你将能够看到所收集数据的均值、中位数和标准差，并将这些结果与你期望的理论值进行比较。

请尝试几种不同的分布。完成后，请继续学习下一个视频。

本节课中我们一起学习了分布的标准化。我们首先通过中心化（减去均值）将分布的均值调整为零，然后通过缩放（除以标准差）将分布的标准差调整为一。这个 Z = (X - μ) / σ 的标准化过程，是数据预处理中的一个关键步骤，它能帮助我们将不同来源和尺度的数据放在同一个标准尺度上进行比较和分析。

039：偏度与峰度——分布的矩

在本节课中，我们将学习如何更全面地描述一个概率分布。除了期望值和方差，我们还将引入“矩”的概念，并了解“偏度”和“峰度”这两个重要的分布特征。

期望值与方差的局限性

上一节我们介绍了期望值和方差（或标准差），它们是描述分布中心位置和离散程度的核心指标。然而，期望值和方差并不能捕捉到分布的所有细节。

例如，它们无法告诉我们分布的形状是否对称，或者分布的“尾巴”有多厚。为了描述这些更细微的特征，我们需要引入新的度量方法，即“偏度”和“峰度”。在深入探讨这两个概念之前，我们先来学习一个更基础的工具——“矩”。

理解分布的“矩”

“矩”是一个数学概念，它提供了一种系统化地描述分布形状的方法。你可能已经接触过其中的一些，现在我们来正式定义它。

假设有一个随机变量X，其取值和概率如下：

取值为 -2，概率为 1/3。
取值为 0，概率为 1/6。
取值为 1，概率为 1/2。

那么，它的期望值（一阶矩）计算如下：
E[X] = (1/3)*(-2) + (1/6)*0 + (1/2)*1

接下来，我们计算变量平方的期望值（二阶矩）：
E[X^2] = (1/3)*(-2)^2 + (1/6)*0^2 + (1/2)*1^2

期望值 E[X] 被称为一阶矩。E[X^2] 被称为二阶矩，它与方差有关（方差是 E[(X - E[X])^2]，即中心化的二阶矩）。

我们可以将这个思路继续推广：

三阶矩：E[X^3]
四阶矩：E[X^4]
k阶矩：E[X^k]

这些矩在后续分析中将非常有用。

矩的一般化公式

更一般地，如果一个随机变量可以取值 x1, x2, ..., xn，对应的概率为 p1, p2, ..., pn，那么各阶矩的计算公式如下：

以下是各阶矩的计算公式：

一阶矩（期望值）：∑ p_i * x_i
二阶矩：∑ p_i * (x_i)^2
三阶矩：∑ p_i * (x_i)^3
四阶矩：∑ p_i * (x_i)^4
k阶矩：∑ p_i * (x_i)^k

正如之前所说，我们将很快用到这些矩。

总结

本节课中，我们一起学习了“矩”这一核心概念。我们了解到，期望值和方差（分别对应一阶矩和中心化的二阶矩）虽然重要，但不足以完全描述一个分布。通过引入更高阶的矩（如三阶矩、四阶矩），我们可以量化分布的“偏度”（不对称性）和“峰度”（尾部厚度与峰值尖锐度），从而更全面地刻画分布的形状特征。在接下来的课程中，我们将具体探讨如何利用这些矩来计算偏度和峰度。

040：偏度与峰度

在本节课中，我们将学习如何描述概率分布的形状特征，特别是当分布的期望值和方差相同时，如何区分它们。我们将通过一个彩票与汽车保险的对比案例，引入偏度这一核心概念。

概述

之前我们学习了描述数据集中趋势（期望值）和离散程度（方差）的指标。然而，有时两个分布即使拥有相同的均值和方差，其形状也可能截然不同。本节将介绍偏度，它描述了分布的不对称性，帮助我们捕捉到这种差异。

案例对比：彩票与汽车保险

为了理解偏度的作用，我们首先来看两个看似不同但统计量相似的场景。

场景一：购买彩票

你花费1美元购买一张彩票。
有1%的概率赢得100美元大奖。
有99%的概率不中奖，损失1美元。

场景二：经营汽车保险

你是一家汽车保险公司，一位客户支付1美元保费。
有1%的概率客户发生事故，你需要赔付100美元。
有99%的概率客户安全无事，你赚取1美元保费。

以下是两个场景的收益分布图：

如图所示，彩票的收益分布（X1）和保险的收益分布（X2）恰好关于水平轴对称。接下来，我们计算它们的期望值和方差。

期望值与方差的局限性

首先，我们计算两个分布的期望值。

彩票（X1）的期望值：
E(X1) = (-1) * 0.99 + 99 * 0.01 = 0

保险（X2）的期望值：
E(X2) = (-99) * 0.01 + 1 * 0.99 = 0

两个分布的期望值均为0。这意味着，从长期平均来看，玩无数次彩票或卖出无数份保险，平均收益都是0。

接着，我们计算方差。

彩票（X1）的方差：
Var(X1) = E(X1²) = (-1)² * 0.99 + (99)² * 0.01 = 99

保险（X2）的方差：
Var(X2) = E(X2²) = (-99)² * 0.01 + (1)² * 0.99 = 99

两个分布的方差也相同，都是99。这表明它们的离散程度一致。

然而，这两个游戏的风险和体验感天差地别。彩票是“小概率赢大钱，大概率亏小钱”，而保险是“大概率赚小钱，小概率亏大钱”。期望值和方差无法捕捉这种本质区别，因为它们只用到了一阶矩（期望）和二阶矩（方差）。

引入三阶矩：偏度

既然一阶矩和二阶矩相同，我们尝试计算三阶矩 E(X³)。

彩票（X1）的三阶矩：
E(X1³) = (-1)³ * 0.99 + (99)³ * 0.01 = 9702

保险（X2）的三阶矩：
E(X2³) = (-99)³ * 0.01 + (1)³ * 0.99 = -9702

计算结果出现了巨大差异！彩票分布的三阶矩是很大的正数，而保险分布的三阶矩是绝对值很大的负数。这是因为 X³ 会放大远离中心的值的影响，并保留其符号。

正的三阶矩（如9702）意味着分布右侧存在极端的正值，图形有一个向右的“长尾”。我们称之为正偏或右偏。
负的三阶矩（如-9702）意味着分布左侧存在极端的负值，图形有一个向左的“长尾”。我们称之为负偏或左偏。

为了消除量纲影响，我们通常使用标准化的三阶矩来定义偏度。

偏度的定义

偏度是随机变量标准化后的三阶矩，其公式如下：

偏度 = E[((X - μ) / σ)³]

其中：

μ 是随机变量 X 的期望值。
σ 是随机变量 X 的标准差。

根据偏度的值，我们可以对分布形状做出判断：

偏度 > 0：分布为正偏（右偏）。均值通常大于中位数，长尾在右侧。
偏度 = 0：分布大致对称（如正态分布）。
偏度 < 0：分布为负偏（左偏）。均值通常小于中位数，长尾在左侧。

在我们的案例中：

彩票收益分布是正偏的，因为有小概率获得巨大收益。
保险收益分布是负偏的，因为有小概率遭受巨大损失。

总结

本节课我们一起学习了偏度的概念。当两个分布的期望值（一阶矩）和方差（二阶矩）无法区分时，偏度（三阶矩）提供了关键信息。它描述了概率分布的不对称性，帮助我们识别分布是偏向左侧（负偏）、对称还是偏向右侧（正偏）。理解偏度对于风险评估、投资决策和深入理解数据分布形状至关重要。

041：偏度与峰度 📊

在本节课中，我们将要学习两个新的统计概念：偏度与峰度。我们将通过比较两个不同的游戏来理解这些概念如何帮助我们描述概率分布的形状，特别是当期望值和方差都无法区分它们时。

上一节我们介绍了期望值和方差，本节中我们来看看偏度和峰度如何提供更多信息。

概述：两个游戏

以下是两个不同的游戏，我们将分析它们的分布。

游戏一：抛一枚公平的硬币。

有二分之一的概率赢得1美元。
有二分之一概率输掉1美元。

游戏二：一个更复杂的游戏。

有 100/202 的概率赢得0.1美元。
有 100/202 的概率输掉0.1美元。
有 1/202 的概率赢得10美元。
有 1/202 的概率输掉10美元。

游戏二看起来更保守（通常只赢或输10美分），但存在极小的概率会赢或输一大笔钱（10美元）。一个关键的问题是：哪个游戏风险更高？

期望值与方差分析

首先，让我们计算两个游戏的期望值（均值）。对于对称且中心在0的分布，期望值为0。

公式：E[X] = Σ (x_i * P(x_i))

计算证实，两个游戏的期望值均为0。因此，期望值无法区分这两个游戏。

接下来，我们计算方差，它衡量数据的离散程度。

公式：Var(X) = E[(X - μ)²] = E[X²] - (E[X])²

对于游戏一：
E[X₁²] = (1/2)*(-1)² + (1/2)*(1)² = 1
因此，Var(X₁) = 1。

对于游戏二：
E[X₂²] = (100/202)*(-0.1)² + (100/202)*(0.1)² + (1/202)*(-10)² + (1/202)*(10)² = 1
因此，Var(X₂) = 1。

令人惊讶的是，两个游戏的方差也完全相同。这意味着标准差也相同。因此，方差也无法告诉我们哪个游戏风险更高。

偏度分析

既然前两阶矩（期望值、方差）都失效了，我们来看看第三阶矩——偏度。偏度衡量分布的不对称性。

公式：Skewness = E[((X - μ)/σ)³]

对于围绕中心对称的分布，其偏度为0。我们这两个游戏的分布都是对称的，因此它们的偏度均为0。偏度同样无法区分它们。

总结一下，到目前为止：

两个游戏的期望值（均值）均为 0。
两个游戏的方差均为 1。
两个游戏的偏度均为 0。

然而，这两个分布显然不同。游戏二的分布有更厚的“尾巴”（即出现极端值的概率虽小但存在）。我们需要一个新的度量来捕捉这种特征。

引入峰度

为了捕捉分布尾部的厚度，我们引入第四阶矩——峰度。峰度衡量分布尾部相对于正态分布的厚重程度。

公式：Kurtosis = E[((X - μ)/σ)⁴]

让我们计算两个游戏的第四阶矩（未标准化的版本）E[X⁴]。

对于游戏一：
E[X₁⁴] = (1/2)*(-1)⁴ + (1/2)*(1)⁴ = 1

对于游戏二：
E[X₂⁴] = (100/202)*(-0.1)⁴ + (100/202)*(0.1)⁴ + (1/202)*(-10)⁴ + (1/202)*(10)⁴ ≈ 99.01

游戏二的第四阶矩远大于游戏一。这是因为 10⁴ = 10000 这个极大值，即使其概率很小，也对期望值产生了巨大影响。

标准化后的峰度公式能更准确地比较不同分布。高峰度值意味着分布有更厚重的尾部（更多极端值），而低峰度值意味着尾部更薄。

薄尾分布（如游戏一）：峰度值小。
厚尾分布（如游戏二）：峰度值大。

因此，峰度是一个对分布尾部厚度非常敏感的度量，即使在方差相同的情况下也能有效区分分布。

总结

本节课中我们一起学习了如何用不同的统计矩来描述概率分布：

期望值（一阶矩）：描述分布的中心位置。
方差/标准差（二阶矩）：描述数据的离散程度。
偏度（三阶矩）：描述分布的不对称性。
峰度（四阶矩）：描述分布尾部的厚度。

通过两个游戏的例子，我们看到当期望值、方差和偏度都无法区分两个分布时，峰度能够有效地揭示其尾部风险的差异。掌握这四个工具，你将能更全面深入地描述和分析任何概率分布的特性。

042：分位数与箱线图 📊

在本节课中，我们将学习如何通过分位数来量化数据分布，并介绍一种强大的数据可视化工具——箱线图。我们将从一个小型数据集入手，逐步理解这些核心概念。

概述

你已经学习了多种用数字描述数据的方法。对于数据科学家而言，能够正确地可视化数据至关重要。本节视频将展示几种数据可视化方法。让我们从一个数据集开始。

我们考虑一个广告销售数据集，特别是报纸广告预算部分。如果你学习过本专项课程的第二门课，应该对它很熟悉。这个数据集展示了报纸、电视和广播的预算以及产生的销售收入。

为了简化，我们只从报纸广告预算中选取12个样本。

计算分位数

从这个小型样本中，你可能想推断其中位数。记住，中位数是将数据分成两半的点。

以下是计算步骤：

首先，需要将观测值按升序排序。由于你有12个数据点，可以将其均匀地分成两半，每半有6个样本。中位数就是中间两个值的平均值，即27.8。

我们称之为50%分位数或第二四分位数。这些名称稍后会更有意义。

那么，将数据左边留下四分之一、右边留下四分之三的点是什么呢？换句话说，这两个值的平均值是多少？答案是18.35，这就是25%分位数或第一四分位数，我们称之为Q1。

它有点像中位数，但不是将数据分成两半，而是分成四分之一和四分之三。我们可以将其记作 q(0.25) 或 Q1。

一般来说，你可以为任何百分比进行此操作。K%分位数是这样一个值：它使得K%的数据在其左侧，(100-K)%的数据在其右侧。它被记作 q(k/100)。

一些常见的分位数是25%、50%和75%分位数。正如所见，25%分位数是第一四分位数Q1。50%分位数是中位数，即Q2。75%分位数是第三四分位数，即Q3。

分位数的概率解释

假设你的数据集有n个点，n_k对应前K%的数据。例如，这里的n_20是前20%的数据，n_100 - n_20是后80%的数据。

那么我们有：20/100 = n_20 / n。这就是你所测量的变量X低于K%分位数（本例中是q(0.2)，因为那是20%）的概率。

我们所做的是：假设你的数据遵循某种分布，它有一个概率密度函数，看起来像蓝色曲线。那么，对于K%分位数（本例中是20%分位数），该曲线下的面积应该是k/100。

因此，如果你从分布中计算分位数，可以说K%分位数就是这样一个值：变量低于Q的概率恰好等于k/100。用公式表示为：

P(X ≤ Q) = k/100

总结

本节课中，我们一起学习了分位数的概念及其计算方法。我们了解到，中位数（Q2）是50%分位数，它将数据平分为两半。第一四分位数（Q1）是25%分位数，第三四分位数（Q3）是75%分位数。分位数不仅可以从数据样本中计算，还可以从概率分布的角度理解，即分位数点使得变量取值低于该点的概率等于指定的百分比。理解分位数是构建箱线图和分析数据分布的基础。

043：数据可视化之箱线图 📊

在本节课中，我们将要学习一种名为箱线图（或称盒须图）的强大数据可视化工具。它是一种基于五个关键统计量来标准化展示数据分布的图形方法。

箱线图的构成要素

上一节我们介绍了数据分布的基本概念，本节中我们来看看如何用箱线图来直观地表示它。箱线图基于以下五个统计量构建：

最小值：数据集中的最小数值。
最大值：数据集中的最大数值。
中位数：将数据集按大小排序后，位于正中间的值。
第一四分位数：数据集中所有数值按升序排列后，处于前25%位置的值。
第三四分位数：数据集中所有数值按升序排列后，处于前75%位置的值。

构建箱线图：一个实例

让我们通过一个报纸广告数据的例子，一步步学习如何构建箱线图。

首先，需要计算三个四分位数，即25%分位数、50%分位数（即中位数）和75%分位数。这意味着我们需要将数据分成四个大小相等的部分。

以下是计算步骤：

第一四分位数：位于数据排序后前25%位置的两个数值的中点，例如18.3和18.4的中点，即 18.35。
第二四分位数：即中位数，位于数据排序后中间的两个数值的中点，例如25.9和29.7的中点，即 27.8。
第三四分位数：位于数据排序后前75%位置的两个数值的中点，例如51.2和54.7的中点，即 52.95。

接下来，我们计算四分位距，其公式为：
IQR = Q3 - Q1
在我们的例子中，IQR = 52.95 - 18.35 = 34.6。这个区间包含了数据集中50%的数据。

同时，我们记录数据集的最小值（8.7）和最大值（75）。

绘制箱线图的步骤

现在，我们将所有统计量整合到一个图中。

绘制箱体：画一个矩形，其底部位于第一四分位数（Q1 = 18.35），顶部位于第三四分位数（Q3 = 52.95）。
标记中位数：在箱体内部画一条横线，位置对应中位数（Q2 = 27.8）。

绘制须线：这是关键步骤。须线从箱体的两端向外延伸。
- 下须线从Q1向下延伸，但通常只延伸到 Q1 - 1.5 * IQR 这个位置。
- 上须线从Q3向上延伸，但通常只延伸到 Q3 + 1.5 * IQR 这个位置。
- 重要规则：须线不能超过数据集的实际最小值和最大值。如果计算出的须线端点超出了数据范围，则须线应在实际的最小值或最大值处截断。

在我们的例子中，由于计算出的须线端点（Q1 - 1.5IQR 和 Q3 + 1.5IQR）超出了实际的数据范围（8.7 到 75），所以须线直接绘制到最小值和最大值为止。

如何解读箱线图

箱线图之所以有用，是因为一眼就能获取大量关于数据分布的信息。

观察数据偏度：在我们的例子中，可以轻易看出数据是右偏的。因为箱体上半部分（Q3到Q2的距离）远大于下半部分（Q2到Q1的距离）。
识别异常值：对于这个小数据集，由于两条须线都结束于最大值和最小值，因此没有异常值。通常，任何落在须线范围（Q1 - 1.5IQR 到 Q3 + 1.5IQR）之外的数据点，都被视为异常值。
分析数据离散程度：箱体和须线的长度反映了数据的分散情况。箱体越长，中间50%的数据越分散；须线越长，两端的数据范围越广。

包含异常值的完整数据集示例

现在，让我们看看使用完整数据集绘制的箱线图。我们需要所有值：Q1， Q2， Q3， IQR，最小值和最大值。

最小值：0.3
最大值：114

根据这些值，我们得到以下箱线图：

图中标出了Q1， Q3和Q2（中位数）。注意，下须线从Q1延伸到数据集的最小值0.3。而上须线则结束于 Q3 + 1.5 * IQR 计算出的位置（93.6），这个值小于最大值114。

这使得有两个数据点（大于93.6）落在了上须线之外，它们被视为异常值。

总结

本节课中我们一起学习了箱线图。我们了解到，箱线图通过最小值、最大值、中位数和两个四分位数这五个统计量，以一种标准化的方式清晰展示了数据的分布、中心趋势、离散程度和潜在的异常值。它是一种非常高效的数据探索和比较工具。

044：数据可视化与核密度估计

在本节课中，我们将学习如何从数据中估计连续随机变量的概率密度函数。我们将回顾直方图的局限性，并介绍一种更平滑、更准确的估计方法——核密度估计。

从直方图到概率密度函数

上一节我们介绍了连续随机变量的概率密度函数。本节中我们来看看如何从实际数据中估计这个函数。

让我们回到广告点击率的例子。所有样本数据都来自一个连续随机变量。我们知道，描述连续变量数据分布的工具是概率密度函数。问题是，我们能从数据中看出PDF的大致形状吗？

以下是估计PDF的传统方法：直方图。

从技术上讲，直方图满足密度函数的所有条件：它是非负的，并且曲线下的面积总和为1。然而，它并不是一个理想的PDF近似。原因有以下两点：

PDF通常是平滑的函数。
直方图条形的不连续性源于其计算方法，而非数据本身的特性。

换句话说，数据来源的真实分布可能具有非常平滑的密度函数，但由于我们绘制了直方图，它看起来有很多峰值。

那么，有没有办法能从直方图中更好地近似我们数据的PDF呢？答案是肯定的，这种方法被称为核密度估计。

核密度估计的原理

上一节我们指出了直方图的不足。本节中我们来看看核密度估计如何提供更平滑的估计。

核密度估计的方法如下：

首先，将观测数据点绘制在图上。
我们希望数据集中的每个点都能产生一个围绕观测点扩散的“影响”，因为点密集的地方密度应该高，没有点的地方密度应该低。
在每个数据点上放置一个“小山丘”，即在每个数据点顶部放置一个小的高斯曲线。这个“小山丘”被称为核。你也可以选择高斯函数以外的其他函数作为核，但这里我们不做深入讨论。
为高斯密度函数选择的σ值将决定每个点的影响范围。σ值小，核就“瘦高”；σ值大，核就“矮胖”。
最后，将所有蓝色曲线乘以 1/n（n是数据点总数），然后求和。

由于每条曲线下的面积为1，这些曲线的平均值给出的曲线下面积也必然是1。清理一下绘图后，估计结果如下所示：

这个估计看起来可能还不完美，但这只是因为我们试图用仅仅12个数据点来近似一个密度函数。如果使用更多的数据点，你实际上会得到一个非常平滑的函数，它能很好地近似真实的PDF。

总结

本节课中我们一起学习了如何从数据估计概率密度函数。我们首先回顾了直方图作为PDF估计工具的局限性，如其不连续性。接着，我们详细介绍了核密度估计方法，它通过在每个数据点上放置一个核函数（如高斯核），并将所有核函数加权平均，从而生成一个平滑、连续的PDF估计。这种方法能更有效地揭示数据背后的真实分布形状。

045：数据小提琴图 🎻

在本节课中，我们将要学习一种在数据科学中广泛使用的可视化工具——小提琴图。我们将了解它的构成、优势以及如何解读它。

上一节我们介绍了核密度估计和箱线图，本节中我们来看看如何将两者的优势结合起来。

什么是小提琴图？

小提琴图是一种强大的数据可视化工具，它同时包含了核密度估计和箱线图的信息。

具体来说，小提琴图的结构如下所示：

以下是构成小提琴图的核心元素：

核密度估计曲线：图形主体部分，展示了数据的概率密度分布，形状类似小提琴。
均值标记：通常以一个小点或一条短线表示数据集的平均值。
四分位数箱体：图形中间的一个矩形箱体，显示了数据的第一四分位数、中位数和第三四分位数。
须线：从箱体延伸出去的线条，表示数据的分布范围（通常基于1.5倍四分位距或最小/最大值）。

小提琴图的优势

正如你所见，小提琴图非常有用。它将数据的整体分布形态（通过KDE）与关键统计量（通过箱线图）融合在一个图形中。

与单独的箱线图相比，小提琴图能揭示数据是单峰、双峰还是多峰分布。与单独的密度图相比，它又能提供精确的中位数、四分位数等统计信息。

本节课中我们一起学习了小提琴图。它是一种集成了核密度估计与箱线图信息的综合可视化工具，能够同时展示数据的分布形状和关键统计量，是数据探索性分析中的利器。

047：联合分布（离散）第一部分

概述

在本节课中，我们将要学习联合分布的概念。之前我们学习了单个变量的概率分布，例如人口的身高。本节我们将探讨如何同时分析两个变量，例如人口的年龄和身高，并理解它们如何共同作用。

从单变量到双变量

上一节我们介绍了单个变量的概率分布。本节中我们来看看当我们需要同时考虑两个变量时的情况。例如，我们有一个包含10名7至10岁儿童的数据集。以下是按年龄统计的儿童数量：

7岁：3名
8岁：2名
9岁：4名
10岁：1名

将计数除以总数10，我们可以得到每个年龄的概率。例如，一个儿童年龄为9岁的概率是 P(年龄=9) = 4/10 = 0.4。

对于同一批儿童，我们也有他们的身高数据（单位：英寸）。以下是按身高（四舍五入到最近的英寸）统计的儿童数量：

45英寸：1名
46英寸：2名
47英寸：2名
48英寸：0名
49英寸：3名
50英寸：2名

同样，除以总数10后，我们得到每个身高的概率。例如，一个儿童身高为47英寸的概率是 P(身高=47) = 2/10 = 0.2。

引入联合概率

现在我们有了按年龄和身高分别统计的数据。这里有一个问题：在这组数据中，一个儿童年龄为9岁且身高为49英寸的概率是多少？

从年龄分布看，有4名9岁的儿童。从身高分布看，在这4名儿童中，只有3人身高是49英寸。因此，概率是3除以总数10，即 3/10 = 0.3。

我们用 X 表示年龄变量，用 Y 表示身高变量。那么，“年龄为9岁且身高为49英寸”的概率可以写作：
P(X=9, Y=49) = 3/10

更一般地，两个离散变量的联合概率表示为 P(X=x, Y=y)。这表示变量 X 取特定值 x，同时变量 Y 取特定值 y 的概率。

构建联合分布表

我们可以通过构建一个表格来更清晰地组织和计算联合概率。以下是基于我们数据集的联合计数表：

年龄 (X) \ 身高 (Y)	45	46	47	49	50
7	1	2	0	0	0
8	0	0	2	0	0
9	0	0	0	3	1
10	0	0	0	0	1

将表中的每个计数除以总数10，我们就得到了联合概率质量函数表：

年龄 (X) \ 身高 (Y)	45	46	47	49	50
7	0.1	0.2	0.0	0.0	0.0
8	0.0	0.0	0.2	0.0	0.0
9	0.0	0.0	0.0	0.3	0.1
10	0.0	0.0	0.0	0.0	0.1

这个表格包含了 X 和 Y 所有可能取值组合的概率，它完整地描述了这两个变量的联合分布。由于年龄和身高在此处都是离散变量，因此这是一个离散联合分布。

使用联合分布解决问题

有了联合分布表，我们可以轻松回答关于两个变量组合的问题。以下是几个例子：

问题1：一个儿童年龄为8岁且身高为48英寸的概率是多少？
- 解答：查看表格中 X=8，Y=48 对应的单元格，概率为 0.0。因此，P(X=8, Y=48) = 0。
问题2：一个儿童年龄为7岁且身高为46英寸的概率是多少？
- 解答：查看表格中 X=7，Y=46 对应的单元格，概率为 0.2。因此，P(X=7, Y=46) = 0.2。

总结

本节课中我们一起学习了联合分布的核心概念。我们了解到：

联合分布 P(X, Y) 用于描述两个随机变量同时取特定值的概率。
对于离散变量，可以通过构建联合概率质量函数表来清晰地表示所有可能的组合及其概率。
该表格是分析和计算涉及多个变量概率问题的强大工具。

在下一节中，我们将继续探讨联合分布的其他性质和应用。

048：联合分布（离散第二部分）🎲

在本节课中，我们将学习两个离散随机变量的联合概率分布。我们将通过掷骰子的例子，来理解当两个变量独立或不独立时，联合概率质量函数（PMF）如何计算和表示。

上一节我们介绍了联合分布的基本概念，本节中我们来看看两个具体的例子，以加深理解。

独立随机变量的联合分布

首先，我们考虑一个简单的例子：同时投掷两个公平的六面骰子。

令 X 为表示第一个骰子点数的离散随机变量。
令 Y 为表示第二个骰子点数的离散随机变量。

X 和 Y 的可能结果都是 {1, 2, 3, 4, 5, 6}，且每个结果的概率都是 1/6。

以下是 X 和 Y 各自的概率质量函数。请注意，X 和 Y 是独立的随机变量。

由于独立性，任何一对结果 (x, y) 的联合概率，例如 P(X=2, Y=5)，都等于各自概率的乘积：(1/6) * (1/6) = 1/36。这对所有可能的组合都成立。

因此，联合概率质量函数是一个 6x6 的表格，其中每个单元格的值都是 1/36。

用公式表示，对于独立的离散随机变量，其联合概率质量函数可以分解为各自概率质量函数的乘积：

P(X=x, Y=y) = P(X=x) * P(Y=y)

非独立随机变量的联合分布

现在，我们来看一个更复杂的例子，其中两个变量不独立。

我们再次投掷一个公平的六面骰子。

令 X 为表示第一个骰子点数的离散随机变量（例如，X=4）。
令 Y 为表示两个骰子点数之和的离散随机变量（例如，如果第一个是4，第二个是5，则 Y=9）。

X 的概率质量函数和之前一样，每个点数概率为 1/6。

Y（两个骰子之和）的概率分布则不同。以下是所有可能组合的表格：

我们可以将 Y 的分布绘制成直方图。横轴是骰子之和（2到12），纵轴是出现次数。可以看到，和为7的情况出现最多，而和为2或12的情况出现最少。

现在，让我们构建 X 和 Y 的联合概率分布表。横轴是 X（第一个骰子的值，1到6），纵轴是 Y（两个骰子之和，2到12）。

以下是所有可能结果在坐标 (X, Y) 上的分布图，每个蓝色方块代表一种组合。

由于总共有36种等可能的结果，每个蓝色方块（即每种有效组合）的概率都是 1/36。表格中其他不可能的组合（如第一个骰子是1但和是1）概率为0。

因此，我们得到了 X 和 Y 的联合概率分布表，其中每个单元格的值是 1/36 或 0。

利用这个联合分布表，我们可以轻松查询任何事件的概率。

例如：

P(X=3, Y=7)：找到 X=3 的列和 Y=7 的行，其对应的概率是 1/36。
P(X=1, Y=1)：这是一个不可能事件，因为第一个骰子为1时，两个骰子之和至少为2。在表中对应单元格的概率为 0。

本节课中我们一起学习了离散随机变量的联合概率分布。我们通过两个掷骰子的例子，对比了当变量独立时联合概率可以简单分解为边缘概率的乘积（P(X,Y) = P(X)*P(Y)），而当变量不独立时，则需要通过枚举所有可能结果或构建联合分布表来完整描述其概率关系。理解联合分布是分析多个随机变量之间关系的基础。

049：连续型联合分布

概述

在本节课中，我们将要学习连续型随机变量的联合分布。我们将通过一个客户服务等待时间与满意度的例子，理解如何描述和分析两个连续变量之间的关系，并计算其均值与方差。

上一节我们介绍了离散型随机变量的联合分布，本节中我们来看看当变量是连续型时，情况会如何。其核心概念非常相似，被称为连续型变量的联合分布。

连续型联合分布简介

回想之前的课程，我们曾以电话呼叫为例，生成了类似于下图的呼叫等待时间的概率分布。我们学习了如何计算连续变量在某个区间内的概率，即曲线下的面积。

现在，让我们处理一些新数据。假设我们有两个变量 X 和 Y。

X 是客户服务接通前的等待时间，我们假设其取值范围在 0 到 10 分钟 之间。
Y 是客户满意度评分，同样是一个在 0 到 10 分 之间的连续值。

因此，两个变量都是连续的。例如，X 可以是 2.4 分钟、1.5 分钟，Y 可以是 0.0 分、5.7 分等。

数据可视化分析

我们收集了 8000 名客户的数据，并绘制了散点图与热力图。观察数据分布，我们可以发现数据更多地集中在两个角落。

以下是原因分析：

许多客户等待时间很短，并且非常满意（高评分）。这些数据点位于左下角（低等待时间，高满意度）。
许多客户等待时间很长（甚至达到10分钟上限），并且非常不满意（低评分）。这些数据点位于右上角（高等待时间，低满意度）。

从三维视角看，这个热力图就像一座山的俯视图，深色区域代表“山峰”（高概率密度区），浅色区域代表“山谷”（低概率密度区）。上述两个角落就是最可能找到客户数据点的“山峰”区域。

计算均值与方差

回到散点图，让我们计算变量 X 和 Y 的均值与方差。均值点 (E[X], E[Y]) 可以视为整个数据集的“平衡点”。

计算均值

X（等待时间）的期望值：E[X] = 4.903 分钟。
Y（满意度）的期望值：E[Y] = 5.280 分。

计算方差

为了计算方差，我们需要分别对行（等待时间）和列（满意度）进行聚合，得到各自的分布。

以下是方差计算步骤：

1. 计算 X 的方差

首先计算 E[X] 和 E[X²]。
- E[X] = 4.903
- E[X²] = 32.561
方差公式为：Var(X) = E[X²] - (E[X])²
代入计算：Var(X) = 32.561 - (4.903)² = 8.526

2. 计算 Y 的方差

首先计算 E[Y] 和 E[Y²]。
- E[Y] = 5.280
- E[Y²] = 38.037
方差公式为：Var(Y) = E[Y²] - (E[Y])²
代入计算：Var(Y) = 38.037 - (5.280)² = 10.163

因此，我们得到：

X（等待时间）的方差：Var(X) = 8.526
Y（满意度）的方差：Var(Y) = 10.163

总结

本节课中我们一起学习了连续型随机变量的联合分布。我们通过一个具体的客户服务案例，看到了如何用散点图和热力图可视化两个连续变量之间的关系，并计算出描述数据集中趋势（均值）和离散程度（方差）的关键统计量。理解联合分布是分析变量间相关性和构建复杂模型的重要基础。

050：边缘分布与条件分布

在本节课中，我们将要学习概率论中两个非常重要的概念：边缘分布与条件分布。我们将通过具体的例子，理解如何从联合分布中提取出单个变量的信息。

概述

上一节我们介绍了联合分布，它描述了多个随机变量同时发生的概率。本节中，我们来看看如何从联合分布中，聚焦于单个变量的行为，这就是边缘分布；以及如何在已知一个变量取特定值的条件下，研究另一个变量的分布，这就是条件分布。

边缘分布

想象我们有一个关于人口年龄和身高的联合分布。如果我们突然不再关心年龄，只想知道身高的分布情况，我们需要做的就是将所有年龄的可能性“聚合”起来。这样得到的分布，就称为身高的边缘分布。

以下是计算边缘分布的步骤：

确定目标变量：首先，明确你希望得到哪个变量的边缘分布（例如，身高 Y）。
对另一个变量求和：在联合概率表中，对你不关心的那个变量（例如，年龄 X）的所有可能取值进行求和。
得到边缘概率：求和的结果就是目标变量每个取值的边缘概率。

让我们通过一个简单的数据集来演示。假设我们有一个关于儿童年龄（X）和身高（Y）的联合概率分布表：

P(X, Y)	Y=45英寸	Y=46英寸	Y=47英寸	Y=49英寸	Y=50英寸
X=7岁	0.1	0.1	0.1	0	0
X=8岁	0	0.1	0.1	0.1	0.1
X=9岁	0	0	0	0.1	0.1

现在，我们想忽略年龄，只得到身高的边缘分布 P(Y)。我们需要对每一列（即每个身高值）的所有概率求和。

P(Y=45) = 0.1 + 0 + 0 = 0.1
P(Y=46) = 0.1 + 0.1 + 0 = 0.2
P(Y=47) = 0.1 + 0.1 + 0 = 0.2
P(Y=48) = 0 + 0 + 0 = 0
P(Y=49) = 0 + 0.1 + 0.1 = 0.2
P(Y=50) = 0 + 0.1 + 0.1 = 0.2

公式：身高 Y 取特定值 yj 的边缘概率公式为：
P(Y = yj) = Σ_i P(X = xi, Y = yj)
其中，Σ_i 表示对变量 X 的所有可能取值 xi 求和。

同理，如果我们想得到年龄的边缘分布 P(X)，就对每一行求和：

P(X=7) = 0.1 + 0.1 + 0.1 + 0 + 0 + 0 = 0.3
P(X=8) = 0 + 0.1 + 0.1 + 0 + 0.1 + 0.1 = 0.4
P(X=9) = 0 + 0 + 0 + 0 + 0.1 + 0.1 = 0.2

公式：年龄 X 取特定值 xi 的边缘概率公式为：
P(X = xi) = Σ_j P(X = xi, Y = yj)
其中，Σ_j 表示对变量 Y 的所有可能取值 yj 求和。

从图像理解边缘分布

我们可以通过可视化来更直观地理解边缘分布。考虑一个更大的数据集（50名儿童）的年龄-身高散点图，其中颜色深浅代表数据点的密集程度。

要得到年龄的边缘分布，我们想象将这张图沿着垂直方向（身高轴）“挤压”或投影到水平轴（年龄轴）上。这相当于对图中每个年龄值，累加该垂直线上所有身高对应的数据点数量。结果会形成一个显示年龄分布的直方图。
要得到身高的边缘分布，我们则沿着水平方向（年龄轴）“挤压”或投影到垂直轴（身高轴）上。这相当于对每个身高值，累加该水平线上所有年龄对应的数据点数量。

更多例子：骰子

让我们回顾之前掷两个骰子的例子。

例子1：设 X 为第一个骰子的点数，Y 为第二个骰子的点数。它们的联合分布是一个6x6的表格，每个格子的概率都是 1/36。

X 的边缘分布：对每一行求和，每行有6个 1/36，所以 P(X=任意值) = 6/36 = 1/6。这正是单个骰子的均匀分布。
Y 的边缘分布同理，也是 1/6。

例子2：设 X 为第一个骰子的点数，Y 为两个骰子的点数之和。它们的联合分布表更为复杂。

如果我们想求 Y（点数之和）的边缘分布，就需要对联合分布表的每一行（对应一个 Y 值）求和。例如，P(Y=7) 的概率最高，因为有多组 (X, Y) 组合能得到和为7。最终得到的 P(Y) 直方图会呈中间高、两边低的形状。

条件分布

现在，让我们转向另一个核心概念。如果我们不是忽略另一个变量，而是已知某个变量取了一个特定值，然后在这个条件下看另一个变量的分布，这就是条件分布。

回到年龄和身高的例子。假设我们已知一个儿童的年龄是8岁，那么在这个条件下，他的身高分布是怎样的？我们不再看整个表格，而是只看 X=8 的那一行。这一行本身可能不是一个概率分布（因为概率和可能不为1），我们需要将其“归一化”。

计算方法：

切片：在联合分布表中，找到条件变量（这里是年龄 X）等于特定值（X=8）的那一行。
归一化：将该行每个概率值除以该行的边缘概率 P(X=8)，使得新的概率之和为1。

使用之前的表格：

已知 X=8 时，对应的联合概率行是：[0, 0.1, 0.1, 0, 0.1, 0.1]，总和为 0.4（即 P(X=8)）。
条件分布 P(Y | X=8) 为：
- P(Y=45 | X=8) = 0 / 0.4 = 0
- P(Y=46 | X=8) = 0.1 / 0.4 = 0.25
- P(Y=47 | X=8) = 0.1 / 0.4 = 0.25
- P(Y=48 | X=8) = 0 / 0.4 = 0
- P(Y=49 | X=8) = 0.1 / 0.4 = 0.25
- P(Y=50 | X=8) = 0.1 / 0.4 = 0.25

公式：在 X = xi 的条件下，Y = yj 的条件概率为：
P(Y = yj | X = xi) = P(X = xi, Y = yj) / P(X = xi)
其中，P(X = xi) 是 X 的边缘概率，且必须大于0。

总结

本节课中我们一起学习了：

边缘分布：从联合分布中，通过对不关心的变量求和，得到单个变量的概率分布。它用于总结单一变量的行为。
- 公式：P(X) = Σ_Y P(X, Y)， P(Y) = Σ_X P(X, Y)
条件分布：在已知一个变量取某个值的条件下，另一个变量的概率分布。它描述了变量之间的依赖关系。
- 公式：P(Y | X) = P(X, Y) / P(X)

理解这两个概念是分析多变量数据、进行统计推断和构建机器学习模型（如朴素贝叶斯分类器）的重要基础。边缘分布让我们聚焦于单个特征，而条件分布则揭示了特征之间的内在联系。

051：条件分布 📊

在本节课中，我们将要学习条件分布的概念。条件分布描述了在已知一个随机变量取特定值时，另一个随机变量的概率分布情况。理解条件分布是掌握联合概率、贝叶斯定理等核心概念的基础。

从联合分布到条件分布

上一节我们介绍了联合分布和边缘分布。现在，我们来看看条件分布。

回忆一下那个关于儿童年龄和身高的简单数据集。我们生成了关于年龄变量 X 和身高变量 Y 的联合分布。边缘分布只总结一个变量（例如身高）的行为，因为我们忽略了年龄变量，并对同一身高下的所有年龄值进行了求和。

现在，如果我们想观察在已知另一个变量值的情况下，某个变量的分布，例如，我们只关心年龄为9岁（X=9）的儿童，并想找出身高变量 Y 的分布，这就是条件分布。

离散变量的条件分布计算

计算条件分布更简单。你只需要“切”出一片数据。如果我们固定 X=9，就意味着我们只关注年龄为9岁的这一行数据。这一行数据就是年龄为9岁的儿童的身高概率分布。

例如，我们想求 P(Y=49 | X=9)，也就是在年龄为9岁的条件下，身高为49的概率。这个值就是上图中对应单元格的值。然而，这里有一个小问题：概率分布中所有概率之和必须为1。但这一行数据的和是 4/10（三个1/10加上一个1/10）。因此，我们需要进行归一化处理，即用每个值除以这一行的总和。

归一化后，我们得到 3/4 和 1/4。所以，P(Y=49 | X=9) = 3/4。

这个归一化的过程，实际上就是在应用条件概率公式。回忆一下条件概率公式：
P(A|B) = P(A∩B) / P(B)

如果我们把 A 看作 Y=49，B 看作 X=9，那么：
P(Y=49 | X=9) = P(X=9, Y=49) / P(X=9)

其中，P(X=9) 就是那一行的总和（边缘概率）。所以，除以行总和就是应用了条件概率规则。

因此，P(Y=49 | X=9) = (3/10) / (4/10) = 3/4，与我们之前计算的结果一致。

以下是离散条件分布的一般公式：

P(Y=y | X=x) = P(X=x, Y=y) / P(X=x)

或者用概率质量函数（PMF）表示为：
p_{Y|X}(y|x) = p_{XY}(x, y) / p_X(x)

其中：

p_{XY}(x, y) 是联合概率质量函数。
p_{Y|X}(y|x) 是条件概率质量函数。
p_X(x) 是 X 的边缘概率质量函数。

条件分布示例：掷骰子

让我们看另一个简单的例子。假设 X 是第一个骰子的点数，Y 是第二个骰子的点数。

如果我们想知道，在第一个骰子点数为4的条件下，第二个骰子点数为1的概率，即 P(Y=1 | X=4)。

根据公式，这意味着我们取 X=4 的这一行数据，忽略表格的其余部分，然后通过除以 1/6（这一行的边缘概率）进行归一化，将每个 1/36 的概率值变为 1/6。最终我们得到 P(Y=1 | X=4) = 1/6，这完全符合我们的预期（两个骰子独立）。

连续变量的条件分布

现在，让我们回到客服电话等待时间和客户评分的例子。如果我们想找出，在等待时间为特定值（例如4分钟）的条件下，客户评分的分布，我们该怎么做？

首先，回忆一下它们的联合概率密度函数图像。

为了找到给定等待时间 X=4 时评分 Y 的条件分布，我们需要在 X=4 处“切”一个截面。

这个截面上的曲线，描绘了在 X=4 这个固定点上，不同 Y 值的“可能性”高低。然而，这条曲线本身还不是一个合格的概率密度函数，因为它下方的面积（积分）不一定等于1。所以，和离散情况一样，我们需要对它进行归一化。

归一化后得到的曲线，就是 Y 在给定 X=4 条件下的条件概率密度函数。

以下是连续条件分布的一般公式，它与离散形式非常相似，只是将概率质量函数 p 替换为概率密度函数 f：

f_{Y|X}(y|x) = f_{XY}(x, y) / f_X(x)

其中：

f_{XY}(x, y) 是联合概率密度函数。
f_{Y|X}(y|x) 是条件概率密度函数。
f_X(x) 是 X 的边缘概率密度函数。

总结

本节课中我们一起学习了条件分布。我们了解到：

条件分布描述了在已知一个随机变量取某个值的条件下，另一个随机变量的概率分布。
对于离散变量，计算方法是：从联合分布表中取出对应行（或列），然后除以该行（或列）的边缘概率总和进行归一化。核心公式是：p_{Y|X}(y|x) = p_{XY}(x, y) / p_X(x)。
对于连续变量，计算方法是：在联合概率密度函数的图像上，在给定条件下“切”一个截面，然后对该截面曲线进行归一化，使其积分为1。核心公式是：f_{Y|X}(y|x) = f_{XY}(x, y) / f_X(x)。
条件分布是连接联合分布与边缘分布的桥梁，也是理解贝叶斯推理和许多机器学习算法（如朴素贝叶斯分类器）的关键。

052：协方差

概述

在本节课中，我们将要学习一个非常重要的概念——协方差。协方差用于衡量两个随机变量之间的关系，帮助我们理解一个变量如何影响另一个变量。这对于构建准确的模型和做出更好的决策至关重要。

变量间的关系

上一节我们介绍了单个随机变量的期望值和方差。本节中我们来看看如何描述两个随机变量之间的关系。

考虑两个变量：年龄和身高。每个变量都有自己的期望值和方差。然而，这两个变量之间可能存在某种关系。例如，年龄和身高通常是相关的，因为年龄越大，身高可能越高。我们如何量化这种关系呢？这就要用到协方差和相关系数。

理解协方差

为了理解协方差，我们来看一个具体的例子。假设有一个离散随机变量 X，代表孩子的年龄。我们还有三个离散随机变量：

Y1：孩子的身高（英寸）
Y2：孩子在某个测试中的成绩
Y3：孩子每天的午睡次数

我们获得了一些数据。问题是：X 与这三个 Y 变量中的每一个相比如何？我们如何比较这些关系？

为了更好地可视化每个数据集中的情况，我们为每个关系生成散点图，其中横轴是 X，纵轴分别是 Y1、Y2 或 Y3。

以下是三个散点图的模式：

年龄 vs 身高：数据点大致呈一条向右上方倾斜的对角线。
年龄 vs 成绩：数据点看起来分布得比较散乱，没有明显的趋势。
年龄 vs 午睡次数：数据点大致呈一条向右下方倾斜的对角线。

从数据到洞察

我们可以先看一些基本指标。对于年龄和身高，我们可以计算两者的均值。年龄的均值是10.5，身高的均值是60。点 (10.5, 60) 是这些数据点的平衡中心点。对于年龄和成绩，中心点是 (10.5, 5)。对于年龄和午睡次数，中心点是 (10.5, 3.7)。

我们也可以查看方差。年龄的方差是9.17。只看Y坐标，三个Y变量的方差分别是39.56、9.78和7.57。

我们掌握了每个变量的均值和方差信息。然而，从散点图中我们还能看到更多：年龄和身高正相关，年龄和午睡次数负相关，而年龄和成绩似乎没有明显关联。这种关系可以通过协方差来捕捉。

协方差的直观解释

第一个图（年龄 vs 身高）的协方差大于0。
第二个图（年龄 vs 成绩）的协方差接近0。
第三个图（年龄 vs 午睡次数）的协方差小于0。

协方差描述了两个变量之间的关系。正如你所想，孩子年龄越大，身高越高，这解释了第一个图。年龄和成绩似乎没有很强的关联，年龄大小与成绩高低没有固定规律。年龄和午睡次数则相反，孩子年龄越大，每天的午睡次数越少。协方差正是对这些关系的总结。

计算协方差

那么，我们如何计算协方差呢？第一步通常是中心化数据。我们从每个X坐标中减去X的均值，从每个Y坐标中减去Y的均值。这样，中心点就移动到了坐标原点 (0, 0)。然后，我们还可以分别除以X和Y的标准差，这样处理后的数据，其X方差和Y方差都变为1，图形会更规整。

现在，让我们尝试构建一个公式来捕捉左边图的趋势、右边图的趋势以及中间图缺乏趋势的情况。

观察左边的图（正相关），当你向右移动（X增加）时，点倾向于向上移动（Y增加）。当你向左移动（X减少）时，点倾向于向下移动（Y减少）。因此，X的变化量和Y的变化量往往具有相同的符号（同为正或同为负）。换句话说，对于大多数点，其中心化后的X坐标和Y坐标符号相同。

观察右边的图（负相关），情况相反。当你有一个负的X坐标时，往往有一个正的Y坐标；当你有一个正的X坐标时，往往有一个负的Y坐标。因此，它们的坐标符号往往不同。

对于中间的图（不相关），似乎没有规律。有时X坐标为正，Y坐标也为正；有时X坐标为负，Y坐标为正。任何事情都可能发生。

现在，让我们看看坐标的乘积。在左边，坐标通常符号相同，因此乘积通常是正数。在右边，坐标通常符号不同，因此乘积通常是负数。在中间，乘积既可能是正数也可能是负数，因为它们会相互抵消。

如果我们把所有点的坐标乘积加起来会怎样？在左边，我们会得到一个正数；在右边，我们会得到一个负数；在中间，我们可能得到一个接近零的数（可能是正或负，但很可能接近零），因为正负项会相互抵消。这个和就与协方差有关。

协方差公式

我们得出重要的公式：协方差将告诉我们一个变量是否使另一个变量增长、减少，或者对另一个变量没有影响。但它不仅仅是乘积 X * Y 的和。准确地说，你需要先中心化数据，然后取所有这些乘积的平均值。

协方差的公式如下：
Cov(X, Y) = E[(X - μ_X) * (Y - μ_Y)]
其中，E 表示期望值（对于样本数据，就是平均值），μ_X 和 μ_Y 分别是X和Y的均值。

计算示例

现在，我们准备进行一些计算。

1. 年龄与身高（正相关）
以下是年龄和身高的数据表，我们预期其协方差大于0。
首先，我们计算年龄的均值 (μ_X) 和身高的均值 (μ_Y)。
然后，中心化数据：从所有年龄值中减去 μ_X，从所有身高值中减去 μ_Y。
接着，将中心化后的两列数值相乘。
最后，将这些乘积相加并取平均值（除以数据点数量，本例中为10）。
计算得到协方差为 17。因为数据是正相关的（年龄增长，身高增长）。

2. 年龄与午睡次数（负相关）
这个数据集的协方差应为负数。
同样，计算均值，中心化数据，计算乘积列。
可以看到，所有乘积都是负数。其和为 -74.5。
取平均值（除以10），得到协方差为 -7.45。这个值是负的，因为正如你所知，年龄越高，每天的午睡次数越少。

3. 年龄与成绩（不相关）
最后，我们计算年龄与成绩分布的协方差。
列出所有数字：年龄、成绩、中心化后的年龄、中心化后的成绩、中心化坐标的乘积。
其和为1。除以10，得到协方差为 1/10 或 0.1，非常接近0。这表明其中一个变量对另一个变量几乎没有影响，或者说影响非常小，因为协方差非常小。

总结

本节课中我们一起学习了协方差。我们有三对变量：

一起增长的变量（年龄 vs 身高）具有正的协方差 17。
看起来彼此独立的变量（年龄 vs 成绩）具有非常小的协方差 0.1。
似乎呈负相关的变量（年龄 vs 午睡次数）具有负的协方差 -7.45。

协方差是一个强大的工具，它量化了两个变量之间的线性关系方向和强度，是理解数据和构建模型的基础。

053：协方差详解

在本节课中，我们将学习概率分布中一个核心概念——协方差。协方差用于衡量两个随机变量之间的线性关系。我们将通过几个具体的游戏例子，直观地理解协方差如何描述变量间的关联性，并学习其计算方法。

游戏场景设定

考虑以下场景：玩家X和玩家Y进行三局游戏，每局游戏他们可能赢或输1美元。

游戏一：同赢同输

在游戏一中，有两种可能的结果：两位玩家都赢1美元，或者两位玩家都输1美元。每种情况的概率均为 1/2。

游戏二：零和博弈

在游戏二中，有两种可能的结果：玩家X赢1美元且玩家Y输1美元，或者玩家X输1美元且玩家Y赢1美元。每种情况的概率均为 1/2。

游戏三：随机结果

在游戏三中，有四种可能的结果：两位玩家都赢1美元、两位玩家都输1美元、玩家X赢1美元且玩家Y输1美元、玩家X输1美元且玩家Y赢1美元。每种情况的概率均为 1/4。

独立分析：期望与方差

首先，我们独立地分析每位玩家的收益情况。设随机变量X表示玩家X的收益（美元），Y表示玩家Y的收益（美元）。

期望值分析

对于所有三个游戏，单独看每位玩家的期望收益：

游戏一：玩家X的期望收益 E[X] = (1/2)*1 + (1/2)*(-1) = 0。玩家Y同理，E[Y] = 0。
游戏二：玩家X的期望收益 E[X] = (1/2)*1 + (1/2)*(-1) = 0。玩家Y同理，E[Y] = 0。
游戏三：玩家X的期望收益 E[X] = (1/4)*1 + (1/4)*1 + (1/4)*(-1) + (1/4)*(-1) = 0。玩家Y同理，E[Y] = 0。

结论：仅从期望值来看，三个游戏对每位玩家是相同的，长期平均收益均为0。

方差分析

接下来，我们计算每位玩家收益的方差，公式为 Var(X) = E[(X - E[X])^2] = E[X^2]（因为 E[X]=0）。

游戏一：Var(X) = E[X^2] = (1/2)*1^2 + (1/2)*(-1)^2 = 1。Var(Y) 同样为1。
游戏二：Var(X) = E[X^2] = (1/2)*1^2 + (1/2)*(-1)^2 = 1。Var(Y) 同样为1。
游戏三：Var(X) = E[X^2] = (1/4)*1^2 + (1/4)*1^2 + (1/4)*(-1)^2 + (1/4)*(-1)^2 = 1。Var(Y) 同样为1。

结论：仅从单个玩家的方差来看，三个游戏也是相同的，收益的波动程度一致。

既然期望和方差都无法区分这三个游戏，那么它们的本质区别在哪里呢？区别在于两位玩家收益之间的关联模式。这正是协方差要衡量的内容。

核心概念：协方差

协方差（Covariance）用于衡量两个随机变量变化的协同程度。其计算公式为：
Cov(X, Y) = E[(X - E[X]) * (Y - E[Y])]

一个常用的等价计算公式是：
Cov(X, Y) = E[XY] - E[X]E[Y]

计算三个游戏的协方差

现在，我们使用第一个公式来计算三个游戏的协方差。由于 E[X] = E[Y] = 0，公式简化为 Cov(X, Y) = E[XY]。

以下是计算过程：

游戏一：同赢同输

情况1：X=1, Y=1，乘积为1。
情况2：X=-1, Y=-1，乘积为1。
期望：Cov(X, Y) = (1/2)*1 + (1/2)*1 = 1。

游戏二：零和博弈

情况1：X=1, Y=-1，乘积为-1。
情况2：X=-1, Y=1，乘积为-1。
期望：Cov(X, Y) = (1/2)*(-1) + (1/2)*(-1) = -1。

游戏三：随机结果

情况1：X=1, Y=1，乘积为1。
情况2：X=-1, Y=-1，乘积为1。
情况3：X=1, Y=-1，乘积为-1。
情况4：X=-1, Y=1，乘积为-1。
期望：Cov(X, Y) = (1/4)*1 + (1/4)*1 + (1/4)*(-1) + (1/4)*(-1) = 0。

解读：

协方差为1（正）：表示X和Y倾向于同向变化。游戏一中，他们总是同赢或同输。
协方差为-1（负）：表示X和Y倾向于反向变化。游戏二中，一人之得即为另一人之失。
协方差为0：表示X和Y之间没有线性关联。游戏三中，知道一方的结果无法推断另一方的结果。

扩展案例：不等概率游戏（游戏四）

现在引入一个更复杂的游戏四，它有三种结果，且概率不等：

双方都赢1美元，概率 P = 1/2。
双方都输1美元，概率 P = 1/3。
双方不输不赢，概率 P = 1/6。

计算期望与方差

首先计算每位玩家的期望收益：
E[X] = (1/2)*1 + (1/6)*0 + (1/3)*(-1) = 1/6
E[Y] = 1/6 （与X对称）

接着计算方差，公式为 Var(X) = E[(X - μ_X)^2]：
Var(X) = (1/2)*(1 - 1/6)^2 + (1/6)*(0 - 1/6)^2 + (1/3)*(-1 - 1/6)^2 ≈ 0.806
Var(Y) ≈ 0.806

计算协方差

对于概率不等的情况，协方差公式为所有可能结果的概率加权平均：
Cov(X, Y) = Σ P_i * (x_i - μ_X) * (y_i - μ_Y)

也可以使用等价公式 Cov(X, Y) = E[XY] - E[X]E[Y] 计算。这里 E[XY] 是XY乘积的期望：
E[XY] = (1/2)*1*1 + (1/6)*0*0 + (1/3)*(-1)*(-1) = 1/2 + 0 + 1/3 = 5/6

因此：
Cov(X, Y) = E[XY] - E[X]E[Y] = 5/6 - (1/6)*(1/6) = 5/6 - 1/36 = 29/36 ≈ 0.806

解读：协方差约为0.806，为正值。这表明在游戏四中，两位玩家的收益仍然倾向于同向变化（一起赢或一起输），尽管存在“平局”的可能性。

实际应用示例：客服电话

回顾之前客服电话的例子，我们有两个随机变量：

X：客户等待时间。
Y：客户评分（1-5分）。

从数据的散点图趋势来看，等待时间越长，评分倾向于越低，呈现一种负相关的对角线模式。因此，我们预测协方差为负值。

计算验证

假设我们已计算出以下值（具体计算过程略）：

E[X] ≈ 2.1
E[Y] ≈ 3.5
E[XY] ≈ 18.014

使用公式 Cov(X, Y) = E[XY] - E[X]E[Y] 进行计算：
Cov(X, Y) ≈ 18.014 - (2.1 * 3.5) ≈ 18.014 - 7.35 ≈ -7.878

结论：计算得到的协方差约为-7.878，证实了我们的预测。这表明等待时间与客户评分之间存在负的线性关联，即等待时间增加，客户评分倾向于下降。

总结

本节课中，我们一起学习了协方差这一核心概念：

协方差的定义：它衡量两个随机变量变化的协同方向与程度。
计算公式：我们掌握了两个关键公式 Cov(X,Y) = E[(X-μ_X)(Y-μ_Y)] 和其等价形式 Cov(X,Y) = E[XY] - E[X]E[Y]。
符号的意义：
- 协方差 > 0：变量间存在正相关，倾向于同增同减。
- 协方差 < 0：变量间存在负相关，倾向于一增一减。
- 协方差 = 0：变量间没有线性相关关系（但可能有其他非线性关系）。
应用：我们通过几个游戏例子直观理解了不同协方差值对应的数据关系模式，并将此概念应用于一个实际的客服数据场景，验证了等待时间与客户评分之间的负相关性。

理解协方差是理解变量间关系、以及后续学习相关系数、多元统计分析等更高级概念的重要基础。

054：协方差矩阵 📊

在本节课中，我们将要学习如何将多个随机变量的方差和协方差信息整合到一个矩阵中，这个矩阵被称为协方差矩阵。协方差矩阵是统计学和机器学习中一个非常核心的工具，它能简洁地描述数据集中各个变量之间的关系。

上一节我们介绍了如何计算联合分布的方差和协方差。我们看过了几个例子，包括计算儿童年龄与身高、成绩与午睡时间的离散联合分布，得到了相应的方差和协方差。我们还分析了三个不同的游戏，它们具有相同的方差和期望值，但协方差分别为1、-1和0。最后，我们观察了一个关于等待时间与顾客评分的数据集，并注意到它具有负协方差，因为等待时间越长，评分越低。

现在，我们想把这些内容整合起来。想象一下，如果我们有一个包含很多变量（比如五个变量）的大型数据集，协方差将如何工作？我们会有每个变量单独的方差，以及每对变量之间的协方差。对于五个变量，我们将有10对组合。

为了系统地组织这些信息，我们引入协方差矩阵的概念。

什么是协方差矩阵？ 🤔

协方差矩阵是一个方阵，它以一种结构化的方式包含了数据集中所有变量的方差和协方差信息。

以下是协方差矩阵的核心构成规则：

主对角线：矩阵的主对角线（从左上到右下）上的元素是各个变量自身的方差。
非对角线：矩阵的非对角线上的元素是不同变量之间的协方差。具体来说，位于第 i 行、第 j 列的元素是第 i 个变量与第 j 个变量的协方差。

用公式表示，对于一个包含 n 个随机变量 X₁, X₂, ..., Xₙ 的数据集，其协方差矩阵 Σ 的第 (i, j) 个元素定义为：
Σᵢⱼ = Cov(Xᵢ, Xⱼ)
特别地，当 i = j 时，Σᵢᵢ = Var(Xᵢ)。

协方差矩阵示例 📝

让我们通过之前学过的例子来具体理解协方差矩阵。

示例一：年龄与身高数据

对于儿童年龄（X）与身高（Y）的联合分布，我们之前计算得到：

Var(X) = 2
Var(Y) = 8
Cov(X, Y) = 3.5

因此，其协方差矩阵是一个2x2的矩阵：

Σ = [ Var(X)    Cov(X, Y) ]
    [ Cov(Y, X)  Var(Y)    ]
  = [ 2     3.5 ]
    [ 3.5   8   ]

注意，由于 Cov(X, Y) = Cov(Y, X)，所以协方差矩阵总是对称矩阵。

示例二：游戏收益数据

对于那三个具有相同方差和期望但不同协方差的游戏，它们的协方差矩阵分别是：

游戏1（协方差为1）：Σ = [1 1; 1 1]
游戏2（协方差为-1）：Σ = [1 -1; -1 1]
游戏3（协方差为0）：Σ = [1 0; 0 1]

示例三：多变量数据集

对于一个包含三个变量 X, Y, Z 的数据集，其协方差矩阵是一个3x3的矩阵：

Σ = [ Var(X)    Cov(X, Y)  Cov(X, Z) ]
    [ Cov(Y, X)  Var(Y)    Cov(Y, Z) ]
    [ Cov(Z, X)  Cov(Z, Y)  Var(Z)    ]

类似地，对于五个变量的数据集，我们将得到一个5x5的协方差矩阵，主对角线上是五个方差，其余位置是相应的10个协方差。

本节课中我们一起学习了协方差矩阵。我们了解到，协方差矩阵是一个强大的工具，它将多个随机变量的方差以及它们两两之间的协方差系统地组织在一个矩阵中。主对角线存放方差，非对角线存放协方差。掌握协方差矩阵是理解多元数据关系、进行主成分分析（PCA）等高级机器学习技术的重要基础。

055：相关系数 📊

在本节课中，我们将要学习一个非常重要的统计概念——相关系数。上一节我们介绍了协方差，它描述了变量间的变化关系。本节中我们来看看如何量化这种关系的强度，并理解其局限性。

概述：从协方差到相关系数

我们之前已经见过这两个数据集，并计算了它们的方差和协方差。我们知道，协方差告诉我们两个变量的变化是如何关联的：正值表示两者倾向于一同增加，负值表示一个增加时另一个减少。

然而，协方差的大小没有限制范围。例如，一个数据集的协方差是17，另一个是7.45（不考虑符号）。这是否意味着协方差为17的数据集相关性更强？我们无法直接判断，因为协方差的值可以很大，但这可能仅仅是因为原始数据的数值本身就很大。

那么，我们如何才能真正衡量两个变量之间的相关性强度呢？答案就是相关系数。

什么是相关系数？🔢

相关系数是一个介于 -1 和 1 之间的数字。

-1 表示两个变量完全负相关。
1 表示两个变量完全正相关。
0 表示两个变量完全独立（不相关）。

相关系数本质上是标准化后的协方差。其公式如下：

公式：
ρ = Cov(X, Y) / (σ_X * σ_Y)

其中：

Cov(X, Y) 是变量X和Y的协方差。
σ_X 是变量X的标准差（即方差的平方根）。
σ_Y 是变量Y的标准差。

我们也可以将其写作：
ρ = Cov(X, Y) / sqrt(Var(X) * Var(Y))

计算相关系数示例 📈

现在，让我们用这个公式来计算之前提到的数据集。

1. 年龄 vs. 午睡次数
对于年龄与午睡次数的数据集，其协方差为负。计算相关系数：
ρ = -7.45 / (sqrt(9.17) * sqrt(39.56)) ≈ -0.894

这个值接近 -1，表明这两个变量高度负相关（年龄越大，午睡越少）。从散点图上看，数据点非常接近一条向下的对角线。

2. 年龄 vs. 身高
对于年龄与身高的数据集，其协方差为正。计算相关系数：
ρ = 17 / (sqrt(9.17) * sqrt(39.56)) ≈ 0.893

这个值接近 1，表明这两个变量高度正相关（年龄增长，身高也增长）。从散点图上看，数据点非常接近一条向上的对角线。

关键发现：
尽管两个数据集的协方差（17 和 7.45）在数值上差异很大，但它们的相关系数（0.893 和 -0.894）的绝对值却非常接近。这证实了相关系数消除了量纲影响，能更准确地反映相关性的强度。两个数据集的线性关系强度相似，唯一的区别是方向（正相关或负相关），这由相关系数的符号体现。

3. 其他示例

作业成绩 vs. 考试成绩：计算出的相关系数约为 0.01，非常接近0，表明两者基本不相关。
等待时间 vs. 客户评分：计算出的相关系数约为 -0.845，表明存在较强的负相关关系（等待时间越长，评分倾向于越低）。

056：多元高斯分布

在本节课中，我们将要学习高斯分布从单变量到多变量的扩展，即多元高斯分布。我们将探讨其公式、几何意义以及在数据中的直观表现，特别是协方差如何影响分布的形状。

从单变量到多变量 📈

上一节我们介绍了单变量的正态或高斯分布。当变量多于一个时，该分布被称为多元高斯分布。在二维变量下观察，其形状像一个钟形曲面，这种分布在机器学习中频繁出现。

回忆单变量高斯分布的概率密度函数公式，它由均值 μ（钟形中心）和标准差 σ（钟形展宽）两个参数定义。

f(x) = (1 / (σ * √(2π))) * exp(-(x - μ)² / (2σ²))

二元高斯分布示例 🧍♂️⚖️

现在，我们考虑一个包含两个变量的例子。假设 H 代表成年人的身高（英寸），W 代表成年人的体重（磅）。如果你有一个包含1000个人身高和体重的数据集，分别观察每个变量的边缘分布，会发现它们都近似服从具有特定均值和标准差的高斯分布。

那么，这两个变量的联合分布是什么样子呢？

以下是两种情况的对比：

变量独立时：如果两个变量相互独立，那么联合概率密度函数就是两个边缘概率密度函数的乘积。经过整理，可以得到如下表达式。此时，从顶部观察分布的等高线，会呈现为圆形。
变量相关时：在实际数据集中，身高和体重通常是正相关的（个子高的人往往更重）。这导致联合分布不再是完美的对称钟形，而是沿着一条具有正斜率的直线被拉长。从顶部看，其等高线变为椭圆形。

造成联合分布形状变形的，正是两个变量之间的协方差。

公式推导与推广 🧮

让我们通过代数操作，将独立二元高斯分布的公式重写为更紧凑的形式。

由于 H 和 W 各自服从高斯分布，其密度函数的乘积指数部分是各自高斯指数的和。这个平方和可以看作是一个向量的平方范数。

向量 [H - μ_H, W - μ_W] 可以写成 [H, W] - [μ_H, μ_W]。为了给向量中的每个元素乘以不同的常数（即各自的方差倒数），我们需要在中间插入一个对角矩阵。

最终，整个表达式可以写成向量转置、乘以一个矩阵、再乘以该向量的形式。这个矩阵就是协方差矩阵的逆。在变量独立的情况下，协方差矩阵是一个对角矩阵，对角线上的元素是各自的方差。

将均值向量记作粗体 μ，协方差矩阵记作 Σ，我们可以将联合分布的概率密度函数统一写成如下形式：

f(x) = (1 / ((2π)^{n/2} * |Σ|^{1/2})) * exp(-1/2 * (x - μ)^T * Σ^{-1} * (x - μ))

这个表达式不仅适用于变量独立的情况，也普遍适用于变量相关的情况。唯一的区别在于，当变量相关时，协方差矩阵 Σ 不再是对角矩阵，其非对角线上的元素代表了变量之间的协方差。

与单变量公式对比 🔄

既然你已经熟悉单变量高斯公式，让我们通过对比来理解多元高斯公式的各个部分。

概率密度函数 f(x)：从单变量 x 变为多变量随机向量 x。
归一化常数：从除以 σ√(2π) 变为除以 (2π)^{n/2} * |Σ|^{1/2}，其中 n 是变量个数，|Σ| 是协方差矩阵的行列式，它捕捉了分布的总体“体积”或离散程度。
指数项：
- (x - μ) 变为 (x - μ)，其中 μ 是每个变量的均值向量。
- 1/σ² 变为协方差矩阵的逆 Σ^{-1}，它负责对数据进行标准化和缩放，并处理变量间的相关性。
- 平方运算 (x - μ)² 变为二次型 (x - μ)^T Σ^{-1} (x - μ)。

总而言之，从单变量到多变量，所有的标量值（x, μ, σ²）都被替换为对应的向量或矩阵（x, μ, Σ）。

本周学习任务安排 📋

接下来是你本周的学习任务：

探索性数据分析实验：你将再次分析上周见过的“RightSha”数据集。运用本周在第二周学到的技能，你现在可以更深入地查看能为此数据集生成的某些汇总统计量，并以一些有趣的新方式将它们可视化。
本周计分测验：完成实验后，你将进行本周的计分测验，内容涵盖本周所有主题。
本周计分作业：本周的作业将挑战你结合对NumPy的知识以及你学到的概率分布知识，来回答一组关于灌铅骰子的问题。你可以选择解析求解问题，或者在Python中模拟场景。你可以选择自己喜欢的方法。

完成所有这些周末任务后，我们将在本周的总结中再见。😊

总结 ✨

本节课中我们一起学习了多元高斯分布。我们从熟悉的单变量高斯分布出发，通过一个身高体重的例子，直观理解了二元高斯分布的形状如何受变量间独立性或相关性的影响。我们推导并对比了多元高斯分布的一般概率密度函数公式，认识到协方差矩阵 Σ 在其中扮演了定义分布形状的关键角色。最后，我们了解了本周后续的实验、测验和作业安排。

057：第二周总结 📊

在本节课中，我们将对第二周所学的核心概率概念进行总结。我们介绍了描述数据分布的各种方法，并探讨了双变量之间的关系度量。

总结本周内容

上一节我们介绍了概率论的基础知识，本节中我们来回顾第二周的核心要点。

以下是本周学习的主要概念：

描述数据分布的方法：包括均值、方差、峰度和偏度等。
双变量分布的分析：我们学习了如何衡量两个变量之间的关系。
关系度量指标：具体包括协方差、相关系数等工具。

核心概念回顾

本周，你学习了多种描述数据分布的方法，例如均值、方差、峰度和偏度等。这些指标帮助我们理解单个数据集的集中趋势、离散程度和形状特征。

随后，课程转向了对两个变量联合分布的分析。你掌握了如何量化两个变量之间的关联性，主要工具是协方差和相关系数。

课程展望

概率部分的学习到此结束。下周，你将开始学习统计学的相关内容。

本节课中我们一起学习了描述数据分布的关键指标（如均值、方差）以及分析变量间关系的核心工具（如协方差、相关系数）。这些是理解数据底层模式的重要基础，为后续的统计学学习做好了准备。

058：总体与样本 📊

在本节课中，我们将要学习统计学中的两个核心概念：总体与样本。理解这两个概念对于后续学习如何从数据中得出结论至关重要。

总体与样本的定义

上一节我们介绍了本课程的目标，本节中我们来看看总体与样本的具体含义。

总体是指我们想要研究的全部个体或项目的集合。
样本则是我们从总体中实际观测或测量的一个较小的子集。

例如，如果我们想测量全人类的身高，那么“全人类”就是总体。但显然我们无法测量每一个人，因此我们会抽取一个包含100人的子集进行测量，这个子集就是样本。

在机器学习和数据科学中，我们经常使用样本来训练模型和进行预测，因为我们无法获取整个数据宇宙。因此，理解两者的区别及其相关性非常重要。

一个生动的例子：斯塔托皮亚岛 🏝️

为了更好地理解，让我们来到美丽的斯塔托皮亚岛。假设你被聘为数据科学家，第一个任务是找出岛上居民的平均身高。

你最初的想法是询问岛上每一个人，然后计算平均值。但当你得知岛上有10,000名居民时，这个方法变得不切实际。

因此，你必须改变策略：只询问一小部分居民，以此来估计总体的平均身高。

总体：研究的所有对象，即斯塔托皮亚岛的所有居民。
样本：从总体中随机选取的一个子集，例如选取100人。

在这个例子中：

总体大小记为 N，这里是10,000。
样本大小记为 n，可以是1到9,999之间的任何数。我们的目标是选择一个既易于管理又具有统计意义的数字。

如何选取一个好的样本？🎯

为了简化说明，假设岛上只有10个人（N=10），而你想选取4个人（n=4）进行研究。

以下是两种选取方法：

随机挑选4个人。
将所有人按从矮到高排成一队，然后挑选前4个人。

你认为哪种方法好，哪种方法不好？

如果你认为第一种方法更好，那是正确的。因为你总是希望抽取随机样本。第二种方法可能会得到一个偏低的平均身高估计值，因为你只选取了队伍中较矮的人。

样本的独立性

让我们看另一个例子。假设你第一次随机选取了4个人。现在你想再做一次实验，于是你又选取了另外4个人。

这并不好。为什么？因为虽然第一次抽样是随机的，但第二次抽样却依赖于第一次——你不能重复选取同一个人。这会导致第二个样本集不是一个好的样本，因为它依赖于第一个样本集。

每次抽样都必须从头开始，允许同一个人被重复选中，这一点非常重要。否则，后续样本会依赖于之前的样本，从而破坏实验的随机性。

样本的同分布性

此外，你需要确保样本是同分布的。这意味着你选取第一个样本的规则，必须与选取第二个、第三个样本的规则完全相同。

例如，如果你总是去城镇中某个特定区域（那里的人可能普遍更高或更矮）选取样本，那么你将无法得到一个有代表性的好样本。

因此，我们必须确保样本是独立且同分布的。

知识测验：牛油果吐司趋势 🥑

让我们通过一个例子来检验你对总体和样本的理解。

牛油果吐司是一种流行趋势，它显著影响了商品的经济价值。在此趋势之后，你决定研究美国牛油果的价格。你显然无法检查美国每一笔牛油果交易。

于是，你随机挑选了四家商店，并记录每家店每次牛油果销售的价格。

问题：你认为这个例子中的总体是什么？
答案：总体是美国销售的所有牛油果。
问题：样本是什么？
答案：样本是你所选四家商店销售的牛油果。

在机器学习中的意义 🤖

现在，让我们看看总体与样本概念在机器学习中的含义。

在机器学习中，你处理的每一个数据集，无论它有多大，实际上都是一个样本，而非总体。

例如，在进行猫图像分类时，世界上存在无限多种可能的猫和非猫图像，你的数据集仅仅是其中的一个样本。

然而，拥有一个有代表性的数据集至关重要，正如我们在斯塔托皮亚岛身高例子中看到的那样。有代表性意味着你的数据集的分布与总体的分布相同。

例如，如果你的猫分类模型训练所用的所有猫照片都是“草地上的猫”，那么模型可能会学会将“草地”与“猫”关联起来。后果是：

当看到一头站在草地上的牛时，模型可能会错误地将其分类为猫。
当看到一只躺在沙发上的猫时，模型可能无法识别，因为它没有看到“草地”这个特征。

因此，拥有多种多样的猫图像和非猫图像是至关重要的。

核心概念总结 📝

本节课中我们一起学习了总体与样本的基本概念。以下是关键术语的正式定义：

总体：你想要研究的、具有共同特征的全体个体或元素的集合。
样本：从总体中选取的、用于推断总体特征的子集。
总体大小：用大写字母 N 表示。
样本大小：用小写字母 n 表示。

理解这些概念是进行有效统计分析和构建可靠机器学习模型的基础。

059：样本均值

概述

在本节课中，我们将要学习如何使用样本均值来估计总体均值。我们将通过一个简单的例子，理解为什么样本均值可以作为总体均值的估计，以及样本大小如何影响估计的准确性。

从总体到样本

上一节我们介绍了总体和样本的基本概念。本节中我们来看看如何通过样本数据来推断总体信息。

假设你拥有全世界人口的数据，你想知道所有人的平均身高。要精确计算这个总体均值非常困难，因为你无法测量每一个人。一个可行的方法是，从总体中随机抽取一小部分人，计算这部分人的平均身高，并用这个结果来估计总体的平均身高。

这种方法同样适用于估计其他指标，例如比例。然而，当我们试图用样本来估计总体的方差时，直接计算会遇到问题。如果我们取数据集的一个小样本并计算其方差，得到的结果通常不等于原始数据集的方差，但会非常接近。我们将在后续课程中详细探讨这一点。

一个具体的例子：斯塔托皮亚岛

为了更好地理解，让我们再次回顾斯塔托皮亚岛的例子。为了简化，我们假设岛上总共有10个人，他们的身高数据如下所示：

[150, 155, 160, 165, 170, 175, 180, 185, 190, 195] 厘米

斯塔托皮亚岛的总体平均身高是多少？我们可以轻松计算出来：

公式：
μ = (150 + 155 + 160 + 165 + 170 + 175 + 180 + 185 + 190 + 195) / 10 = 172.5 厘米

这个值 μ = 172.5 就是总体均值。

现在，假设由于某些原因，你无法记录全部10个人的身高，只能随机测量其中6个人。这意味着你的样本大小 n = 6。

计算样本均值

以下是计算第一个样本均值的步骤：

假设我们随机抽取了以下6个人的身高：[155, 165, 170, 180, 185, 190]。
计算这6个人的平均身高。

公式：
x̄₁ = (155 + 165 + 170 + 180 + 185 + 190) / 6 = 174.17 厘米

我们称这个结果为第一个样本均值 x̄₁。这是我们对总体均值 μ 的第一个估计。

样本均值的波动性

现在，让我们抽取第二个大小为6的样本。假设这次我们抽到的是：[150, 155, 160, 165, 170, 175]。

计算第二个样本均值：

公式：
x̄₂ = (150 + 155 + 160 + 165 + 170 + 175) / 6 = 162.5 厘米

我们得到了第二个估计值 x̄₂ = 162.5 厘米。

比较 x̄₁ 和 x̄₂，哪个是对总体均值 μ (172.5) 更好的估计？显然 x̄₁ (174.17) 更接近。这可以归因于随机抽样的偶然性。第二个样本恰好由总体中身高较低的六个人组成，因此不是一个有代表性的样本。

样本大小的影响

那么，如果我们把样本大小减小到 n = 2 呢？让我们随机抽取两个人，假设身高为 [160, 185]。

计算第三个样本均值：

公式：
x̄₃ = (160 + 185) / 2 = 172.5 厘米

我们得到了 x̄₃ = 172.5 厘米。

虽然 x̄₃ 这次恰好等于总体均值，但我们可以想象，通常情况下，基于 n=6 的样本均值 x̄₁ 会比基于 n=2 的样本均值 x̄₃ 更可靠。因为 x̄₁ 使用了更多数据，受个别极端值的影响更小。

核心结论

通过以上例子，我们可以得出一个重要的初步结论：样本越大，你从样本中获得的总体均值估计通常就越准确、越稳定。 我们将在后续课程中更深入地探讨这一现象背后的数学原理。

总结

本节课中我们一起学习了样本均值的概念及其应用。我们了解到，样本均值 x̄ 是总体均值 μ 的一个有用估计。通过斯塔托皮亚岛的例子，我们看到了样本均值会因随机抽样而波动，并且更大的样本容量通常能带来更可靠的估计。在接下来的课程中，我们将继续探索如何量化这种估计的不确定性。

060：样本比例 📊

在本节课中，我们将要学习统计学中的一个核心概念：样本比例。我们将通过一个简单的例子，理解总体比例与样本比例的区别与联系，并学习如何用公式来描述它们。

为了便于说明，假设在“斯塔洛托皮亚”这个虚构的地方只居住着10个人。这意味着总体规模为10。现在，每个人都拥有某种交通工具，如图所示，要么是汽车，要么是自行车。那么，拥有自行车的人口比例是多少？

要回答这个问题，我们需要识别所有拥有自行车的人，图中已高亮显示，然后除以总人数。计算结果是 4 / 10 = 40%。这40%就是拥有自行车的总体比例。

当然，这里假设每个人恰好只拥有一种交通工具。这个指标被称为总体比例，记作 P。

总体比例的计算公式是：具有特定特征的个体数量 x 除以总体大小 N。

P = x / N

上一节我们介绍了总体比例的概念。但在现实中，我们通常无法获取整个总体的数据。本节中我们来看看，当只能使用随机抽样数据时，情况会如何变化。

假设我们无法接触到这10个人的总体，而只能进行随机抽样。我们随机抽取了6个人作为样本。

现在，让我们计算这个样本中的比例：样本中拥有自行车的人的比例是多少？计算结果是 2 / 6 ≈ 33.3%。

这个指标被称为样本比例，记作 P̂（读作“P hat”）。需要注意的是，样本比例是总体比例 P 的一个估计值。

样本比例的计算公式与总体比例类似，但基于样本数据：

P̂ = x_sample / n

其中，x_sample 是样本中具有特定特征的个体数量，n 是样本大小。

本节课中我们一起学习了总体比例与样本比例。我们了解到，总体比例 P 是基于整个总体的真实值，而样本比例 P̂ 是基于一个随机样本对总体比例的估计。理解这两者的区别是进行统计推断的基础。

061：样本方差 📊

在本节课中，我们将学习方差的概念，以及如何仅通过样本数据来估计总体的方差。我们将从理解方差的定义开始，逐步推导出样本方差的常用计算公式，并解释公式中一个关键调整（n-1）的原因。

什么是方差？

在第二周的学习中，我们了解到方差是衡量数据离散程度的一个指标。它与数据点偏离其均值的距离有关。

例如，考虑一个包含五个人身高（厘米）的数据集，每个数据点用下图中的一个点表示。该数据集的均值为160，数据点离该均值相对较远。而另一个数据集，其均值同样为160，但数据点更接近均值。

让我们并排观察这两个数据集。上方数据集的方差相对较小，因为所有样本彼此接近。下方数据集的方差相对较大，因为数据点更加分散。

总体方差公式

现在，让我们回顾第二周学到的方差实际公式。方差写作 Var(X) 或 σ²，其定义为总体中每个值 X 与总体均值 μ 之差的平方的平均值，其中总体大小为 N。

公式：
σ² = (1/N) * Σ (Xᵢ - μ)²

这也可以称为“与均值的平均平方偏差”。

然而，在统计学中，你通常无法获取整个总体，而只能获得一个样本。换句话说，你不会有总体均值 μ，也不会有总体大小 N。

那么问题来了：当你只有样本时，如何估计总体方差？

从样本估计方差

让我们尝试仅使用目前学到的知识来推导方差的某种估计方法。记住，方差仍然是一种期望值，因此我们至少可以运用一些从样本均值中学到的技术。

创建一个新变量 Y，令其等于 (X - μ)²。这看起来有点随意，但可以将其视为由原始变量 X 构成的另一个随机变量。

现在，你可以复制 X 的方差表达式，并将其重写如下：

σ² = (1/N) * Σ Yᵢ

注意，这其实就是新变量 Y 的期望值或均值，也就是 Y 的总体均值。

既然你已经将这个表达式写成了总体均值的形式，就可以运用之前学到的方法来得到样本均值的表达式。具体来说，如果你有 n 个样本，只需对这些 n 个值取平均即可得到样本均值。

请注意，我同时使用了 Y 和 y。记住，Y 指代随机变量或总体，而 y 代表观测值或总体的个体元素。

现在，你可以将 (X - μ)² 代回，得到一个仅用 X 表示的样本方差表达式。

σ̂² = (1/n) * Σ (xᵢ - μ)²

我在 σ 上加了一个帽子 ̂ 来表示这是一个估计值。

这个表达式基本上只是将总体方差公式中的大 N（总体大小）替换成了小 n（样本大小）。但问题在于，这个表达式中仍然出现了总体均值 μ。可以合理推断，如果你不知道总体方差，很可能也不知道总体均值。所以目前，我将“作弊”——直接用样本均值 x̄ 替换它。这个表达式只使用了样本中你能获取的值，并且直观上感觉它应该可行。

你认为这个“作弊”方法能行得通吗？让我们在刚才看到的例子上试试看。

应用示例

回想一下，两个数据集的样本均值都是160。

首先计算上方数据集的样本方差。你有5个点，所以先除以5。然后需要将每个点与样本均值（160）之差的平方相加，得到估计方差为1.7。

现在计算下一个数据集。在计算之前，请思考：如果上一个数据集的样本方差是1.7，那么这个数据集的样本方差会是多少？如果你猜大约50，那么你是正确的。你可以使用相同的公式直接计算，也可以通过观察数据点平均距离样本均值大约7个单位来估算，因此与样本均值的平均平方距离大约是49，非常接近真实值50.8。

通常你不需要这样手工计算方差，但对于小数据集进行计算有助于强化这些术语所代表的操作。

偏差与修正

还记得我之前说你可以直接在方程中使用样本均值吗？实际上，事实证明这会引入一些误差，并使这个方程变得有点“有偏”。在统计学中，这意味着这个公式会高估或低估其目标值。在本例中，这个方程会略微低估总体方差的真实值。

这并不意味着我们的第一个估计是错误的，但也许我们可以改进这个对方差的低估。

我想通过一个例子来展示如何对公式进行一个小小的修改以纠正这个误差。

一个游戏示例

考虑一个游戏：你有三张纸，上面分别写着数字1、2、3。你把它们放进一顶帽子，然后随机抽出一张，你获得的分数就是纸上写的数字。

如果你将这个游戏的结果视为一个随机变量，那么这里的总体均值 μ = (1+2+3)/3 = 6/3 = 2。

使用总体方差公式，让我们看看这个游戏的总体方差是多少。

首先，列出 X 的三个值：1, 2, 3。
接着，计算所有三个值的 (X - μ)，即 X - 2（因为总体均值是2）。得到值：-1, 0, 1。
最后，将这些值平方得到 (X - μ)²：1, 0, 1。
求和得到2。除以 N（3）得到 2/3。这就是你计算出的总体方差值。

现在假设你决定玩两次游戏，每次抽签后将纸片放回。结果是样本量 n=2 的样本。你将使用这些样本来估计方差。

以下是玩两次游戏所有可能的结果列表。以及你可以用来计算每个样本方差的方程。

然后你可以平均这些方差，看看它是否是总体方差（2/3）的一个良好估计。

首先，计算每个样本的均值，得到以下值。
现在我添加一列，使用提议的估计（除以 n）来计算方差。注意，在每个计算中，我使用的样本量 n 是2。
最后，平均所有这些样本方差，看看平均估计方差是多少。结果是0.333或 1/3。但你知道总体方差应该是 2/3，所以显然这里存在误差。

让我们退回到计算每个样本方差的步骤。现在，我不使用这个方差公式，而是调整分母，减去1，看看效果。

所以现在在方差计算中，我们不是除以 n，而是除以 n-1。让我们称这种估计方差的新方法为 s²，因为这是你在其他资料中最常见到的写法，并且它类似于 σ。

以下是使用这个新公式计算出的样本方差。现在取这些样本方差的平均值，你得到0.667或 2/3。当然，你知道这正是你目标中的总体方差值。

样本方差的标准公式

因此，以下是你最常看到的样本方差表达式，最大的挑战在于分母中的 n-1。

公式：
s² = (1/(n-1)) * Σ (xᵢ - x̄)²

我不会严格证明为什么使用 n-1 能修正之前展示的样本方差方程中的偏差，但只需知道这种方法通常是有效的。如果你希望你的样本方差是无偏的，你将除以 n-1。

也就是说，随着 n 变大，差异的影响会变小。如果你的样本量是3，除以3和除以2的差异很大。如果你的样本量是1000，那么除以1000和除以999的差异就不是很大。

事实上，从实践者的角度来看，如果使用 n 或 n-1 对你的估计方差有显著影响，那么要小心——你可能面临比决定除以 n 还是 n-1 更大的问题，因为这可能意味着你的样本量很小，应该谨慎做出强有力的结论。

最后，我想澄清一点，一些公认的统计技术使用分母为 n 的公式来估计方差，例如最大似然估计（你将在后续课程中看到）在技术上就是除以 n。

然而，除以 n-1 的 s² 估计是方差最常见的估计，也是你在本课程剩余部分以及实践中需要从样本估计总体方差时最常遇到的一个。

回顾示例

带着这个新的无偏方程的背景，让我们回到之前的例子，看看情况有多大变化。

现在，将 1/n 替换为 1/(n-1) 以得到 s² 估计。

看第一个数据集，现在你的估计从1.7变成了2.125。对于第二个数据，你的样本方差估计从50.8上升到了63.5。在这两种情况下，估计值都略有增加，因为你现在除以的是 n-1 而不是 n。

总结 📝

本节课中我们一起学习了方差的概念及其估计方法。

总体方差：如果你能获取整个总体，那么方差可以通过计算每个值与总体均值之差的平方的平均值来求得。公式为：σ² = (1/N) * Σ (Xᵢ - μ)²。
样本方差：如果你只能获取部分数据点或一个样本，那么你最常使用的是 s² 方差估计。在这个估计中，你计算样本中每个值与样本均值之差的平方的平均值，但不是除以样本大小 n，而是除以 n-1。公式为：s² = (1/(n-1)) * Σ (xᵢ - x̄)²。
修正偏差：除以 n-1 是为了修正因使用样本均值代替总体均值而引入的偏差。随着样本量增大，这种修正的影响变小。
其他估计：在某些特定上下文中，你可能会看到分母使用 n 的估计（记为 σ̂²）。虽然这个估计量存在小的偏差，但它仍然是方差的一个相当好的估计，并且是一些常见统计技术的一部分。

总而言之，s² 估计器将是本课程以及实践中当你需要从样本估计总体方差时最常见的方法。

深度学习：概率与统计：3.1：大数定律

在本节课中，我们将学习统计学中的一个核心概念——大数定律。我们将通过一个简单的例子来理解它的含义，并了解其成立的条件。

概述：什么是大数定律？

假设我们想了解全球人口的平均身高。最直接的方法是测量所有人，但这不现实。一个更实际的方法是：先测量一个人，得到一个估计值；然后测量两个人，取平均身高，得到一个稍好的估计；接着测量十个人、一百个人……随着测量人数（样本量）的增加，我们对总体平均身高的估计会越来越准确。这种现象不仅适用于平均值，也适用于其他统计量，其背后的原理就是大数定律。

从掷骰子实验理解大数定律

让我们用一个更具体的例子来阐明这个概念。考虑一个公平的四面色子，其可能的结果是1、2、3、4，其总体均值（期望值）为2.5。

现在，我们进行一个实验：掷两次骰子，并记录两次结果的平均值。所有可能的骰子对及其平均值如下表所示：

第一次	第二次	平均值
1	1	1
1	2	1.5
1	3	2
1	4	2.5
2	1	1.5
2	2	2
2	3	2.5
2	4	3
3	1	2
3	2	2.5
3	3	3
3	4	3.5
4	1	2.5
4	2	3
4	3	3.5
4	4	4

所有这些可能平均值的均值，就是总体均值 2.5。

接下来，我们从这个“所有可能结果”的总体中，逐步抽取样本并计算样本均值。

抽取第一个样本（例如，4和3），其样本均值 x̄₁ = 3.5。我们将其标记在图上，它距离总体均值2.5较远。
抽取前两个样本（例如，再增加3和4），计算这两个样本的均值 x̄₂。
抽取前三个样本，计算均值 x̄₃ 并标记。
继续此过程，抽取四个、五个……样本，并依次计算累计样本均值。

观察下图可以发现，随着抽取的样本数量 n 增加，样本均值 x̄ₙ 越来越接近总体均值 2.5。例如，当抽取了九个样本时，样本均值已达到 2.56，已经非常接近 2.5。

这个实验直观地演示了大数定律：随着样本容量增大，样本的平均值会趋向于接近总体的平均值。

大数定律的数学表述与核心条件

上一节我们通过实验观察到了现象，现在我们来正式定义它。

设 n 为样本数量，每个 Xᵢ 都是一个随机变量，代表从总体中抽取的一个样本。这些样本必须满足以下条件：

独立同分布：所有 Xᵢ 必须相互独立，并且服从与总体随机变量 X 相同的分布。

那么，大数定律指出，当 n 趋向于无穷大时，样本均值将收敛于总体均值（期望值）。

用公式表示如下：

当 n → ∞ 时， (1/n) Σᵢ₌₁ⁿ Xᵢ → E[X] = μ

其中，E[X] 或 μ 代表总体均值。

为了使大数定律成立，需要满足以下几个核心条件：

以下是必须满足的关键条件：

随机抽样：样本必须从总体中随机抽取。
足够大的样本量：样本容量需要足够大。样本量越大，样本均值接近总体均值的可能性就越高，估计也越精确。
观测值独立：样本中的每个观测值必须相互独立，即一个观测结果不影响另一个。

总结

本节课中，我们一起学习了大数定律。我们通过估计平均身高和掷骰子的例子，理解了其核心思想：当从总体中随机、独立地抽取足够多的样本时，样本的平均值将非常接近总体的真实平均值。这是统计学和机器学习中许多推断方法的基石，它保证了当我们拥有大量数据时，能够对总体做出可靠的估计。

063：中心极限定理与离散随机变量 📊

在本节课中，我们将要学习一个统计学中极为重要的概念——中心极限定理。我们将通过一个具体的离散随机变量例子（抛硬币）来直观地理解这一定理，并观察当试验次数增加时，其概率分布如何神奇地趋近于正态分布。

无处不在的正态分布

上一节我们介绍了正态分布的基本形态。正态分布之所以重要，是因为它出现在许多意想不到的场景中。这里有一个你可能未曾预料到的现象：无论你从何种分布开始，即使它非常偏斜，只要你重复抽取固定数量的样本并计算其平均值，然后将这些平均值绘制出来，你最终得到的分布形状都会是正态分布。

这个引人入胜的结论是统计学的巅峰成果之一，被称为中心极限定理。

一个离散随机变量的例子

为了理解中心极限定理，让我们从一个熟悉的离散随机变量例子开始：抛硬币。

假设一枚硬币正面和反面出现的概率相同。我们定义随机变量 X 为抛掷 n 次硬币后，出现正面的次数。

当只抛一次硬币时（n=1），X 的可能取值为 1（正面）或 0（反面）。这是一个离散随机变量，其概率分布为：P(X=1) = 0.5，P(X=0) = 0.5。我们可以用横轴表示正面次数，纵轴表示概率来绘制这个分布。

那么，当抛硬币的次数 n 增加时，这个概率分布会如何变化呢？

以下是随着抛掷次数增加，正面次数 X 的概率分布变化：

两次抛掷 (n=2)：分布开始呈现形状。
三次抛掷 (n=3)：分布形状更加明显。
四次抛掷 (n=4)：分布进一步平滑。
十次抛掷 (n=10)：此时，分布已经非常接近高斯分布（即正态分布）的钟形曲线。

观察这个过程，我们可以发现：统计 n 次抛硬币中的正面次数，等价于将 n 个独立的伯努利随机变量相加，其中每个变量在出现正面时取值为1，出现反面时取值为0。

这正是中心极限定理的一个例证。该定理指出，随着你求和的随机变量数量增加，这个和的分布会越来越像高斯分布（正态分布）。

分布的均值与方差

现在，让我们回顾一下这个抛硬币模型的参数。当我们抛掷 n 次硬币，每次正面的概率为 p 时：

均值 μ 的计算公式为：μ = n * p
方差 σ² 的计算公式为：σ² = n * p * (1 - p)

对于我们的公平硬币例子，p = 0.5。我们可以计算之前各个例子中的均值和方差：

以下是不同抛掷次数下的均值和方差：

n=1：均值 = 0.5，方差 = 0.25
n=2：均值 = 1.0，方差 = 0.5
n=3：均值 = 1.5，方差 = 0.75
n=4：均值 = 2.0，方差 = 1.0
n=10：均值 = 5.0，方差 = 2.5

中心极限定理的核心结论

当 n 足够大时，我们最终会得到一个正态分布。这个正态分布的均值就是 n * p，方差就是 n * p * (1 - p)。这与我们计算出的结果完全一致。

总结

本节课中，我们一起学习了中心极限定理。我们通过“抛硬币计数正面”这个具体的离散随机变量实验，直观地观察到：即使初始分布是简单的二项分布，随着独立试验次数 n 的增加，其和的分布（即正面次数的分布） 会越来越逼近一个正态分布。这个正态分布的参数（均值和方差）可以由原始分布的参数直接推导得出（μ = np, σ² = np(1-p)）。中心极限定理揭示了正态分布在统计学中的普遍性，是许多统计推断方法的基石。

064：中心极限定理与连续随机变量 📊

在本节课中，我们将学习中心极限定理在连续随机变量场景下的应用。我们将通过一个具体的例子——技术支持热线的等待时间——来观察样本均值的分布如何随着样本量的增加而变化，并最终趋近于正态分布。

上一节我们介绍了中心极限定理的基本概念，本节中我们来看看它在连续随机变量上的具体表现。

实验设定：技术支持热线等待时间

让我们回到第一周第2课中的技术支持热线例子。当你拨打电话后，客服人员可能在0到15分钟内的任意时间接听，超过15分钟则通话自动断开。

我们可以定义一个随机变量 X，它代表等待接听的时间。在第一周的示例中，该变量服从参数为0和15的均匀分布。均匀分布模拟的是任何相同长度的区间发生概率相同的情况，这导致其概率密度函数是一个常数。

其概率密度函数为：

f(x) = 1/(15-0) = 1/15, 当 0 ≤ x ≤ 15

现在，我们关心的是平均等待时间。为了估算它，我们将对不同数量的通话等待时间取平均值。

观察样本均值的分布

以下是实验的核心步骤：我们记录n通电话的等待时间，并定义变量 Yn 为这n次等待时间的平均值。我们将观察 Yn 的分布如何随n变化。

n = 1：此时我们只对一次等待时间取平均（即该次等待时间本身）。将这个实验重复很多次，得到直方图。其分布看起来像一个均匀分布，因为每个Y1的样本都来自均匀分布。
n = 2：对两次等待时间取平均，重复实验多次。此时的分布密度看起来像一个三角形，并且几乎围绕总体均值7.5对称。
n = 3：对三次等待时间取平均。分布开始变得更像钟形，仍然围绕7.5对称。
n = 4 和 n = 5：随着n增大，分布越来越接近钟形（正态分布），并且离散程度（方差）越来越低。

我们可以绘制核密度估计曲线（绿色）来拟合直方图。随着n增加，这些曲线看起来越来越像高斯概率密度函数。

计算 Yn 的均值与方差

我们也可以从理论上计算 Yn 的均值和方差。

均值：根据期望的线性性质，Yn 的均值等于 X 的总体均值。对于参数为0和15的均匀分布，这个值是 7.5。
```
E[Yn] = E[X] = 7.5
```
方差：由于样本独立，Yn 的方差等于 X 的总体方差除以样本量 n。对于参数为0和15的均匀分布，方差是18.75。
```
Var(Yn) = Var(X) / n = 18.75 / n
```

这个结果非常有趣：均值保持不变，但方差随着n增大而减小。这很合理，因为取的变量越多，平均值就越可能接近总体均值，因此离散程度和方差就越小。这个结果与原始总体的分布无关。

中心极限定理的正式表述

现在，让我们给出中心极限定理的正式定义。

中心极限定理指出，当 n 趋近于无穷大时，标准化后的样本均值将服从标准正态分布。

(Yn - μ) / (σ/√n)  ~ N(0, 1)  当 n → ∞

其中，μ 是总体均值，σ 是总体标准差。

在实践中，当 n 大约为30或更大时，这通常就成立。有时即使样本量更小（如本例所示）也能观察到。中心极限定理也可以用和的形式来表述，通过提取公因子并重新排列项，可以得到等价的表达式。

标准化与实用要点

可视化这一现象最常见的方式是进行标准化。因为均值始终是总体均值，但方差依赖于n。标准化后，更容易比较不同n值时 Yn 的分布。标准化也带来了一个好处：即使我们不知道总体均值和方差的确切值，我们也知道随着n增大，样本均值将近似服从正态分布（尽管参数未知）。

需要强调的是，虽然在本例中，平均三四个样本就开始呈现正态分布，但这并非普遍情况。一个安全的经验法则是通常需要大约30个变量，钟形分布才会显现。这完全取决于数据的原始分布。如果原始总体非常偏斜，通常比处理对称分布时需要更多的样本。

总结与后续

本节课中我们一起学习了中心极限定理在连续随机变量中的应用。我们通过一个均匀分布的例子，观察到无论原始总体分布如何，随着样本量n的增加，样本均值的分布会趋近于正态分布。我们推导了样本均值的期望和方差公式，并给出了中心极限定理的正式表述。

接下来，你将在未评分的实验课中通过Python实践这些概念，从多种不同的分布中抽样，亲眼见证中心极限定理的作用。对于大多数表现良好的分布，即使是大小为30的样本也能得到相当正态分布的样本均值。如果你的数据表现不佳，则可能需要更大的样本量才能使样本均值近似正态分布，但中心极限定理依然适用，只是生效需要更长的时间。

065：点估计 🎯

在本节课中，我们将开始学习统计学中的一个核心概念——估计。估计是统计学的基础，它有不同的形式。我们将从点估计入手，并介绍最常用的点估计方法：最大似然估计。这种方法在机器学习中非常流行。此外，我们还将探讨如何利用贝叶斯定理将MLE推广到另一种点估计方法——最大后验估计。你会发现一个非常优雅的结论：最大后验估计可以被看作是带有正则化的最大似然估计，而正则化是机器学习中防止过拟合的常用技术。

点估计简介

上一节我们介绍了估计的基本概念。本节中，我们来看看点估计的具体方法。

估计是统计学中根据样本数据推断总体参数的过程。点估计旨在为未知参数提供一个单一的“最佳猜测”值。

最大似然估计

最大似然估计是一种非常流行且强大的点估计方法。它的核心思想是：在给定观测数据的情况下，选择能使该数据出现“可能性”最大的参数值。

以下是MLE的基本步骤：

建立似然函数：假设我们有一个参数为 θ 的概率模型，以及一组独立同分布的观测数据 X = {x₁, x₂, ..., xₙ}。似然函数 L(θ) 定义为给定参数 θ 时，观测到当前数据的联合概率。
- 公式：L(θ) = P(X | θ) = ∏ P(xᵢ | θ) （对于独立同分布数据）
取对数（通常）：由于连乘计算可能下溢且不便于求导，我们通常对似然函数取自然对数，得到对数似然函数 ℓ(θ)。
- 公式：ℓ(θ) = log L(θ) = Σ log P(xᵢ | θ)
最大化：通过求解导数等于零的方程，找到使 ℓ(θ)（或 L(θ)）最大化的参数值 θ_MLE。
- 公式：θ_MLE = argmax_θ ℓ(θ)

从MLE到MAP：贝叶斯视角

上一节我们介绍了频率学派框架下的最大似然估计。本节中，我们来看看如何从贝叶斯学派的视角进行点估计，即最大后验估计。

贝叶斯定理将先验知识与观测数据结合起来。MAP估计的核心思想是：在给定观测数据的情况下，选择后验概率最大的参数值。

以下是MAP估计的推导：

应用贝叶斯定理：后验概率 P(θ | X) 正比于似然函数 P(X | θ) 与先验概率 P(θ) 的乘积。
- 公式：P(θ | X) ∝ P(X | θ) * P(θ)
最大化后验概率：MAP估计就是寻找使后验概率最大的 θ。
- 公式：θ_MAP = argmax_θ P(θ | X) = argmax_θ [P(X | θ) * P(θ)]
取对数形式：同样，为了计算方便，我们取对数。
- 公式：θ_MAP = argmax_θ [log P(X | θ) + log P(θ)]

MAP与正则化的联系

现在，让我们来揭示MLE与MAP之间那个优雅的联系。比较两者的对数形式目标函数：

MLE：θ_MLE = argmax_θ log P(X | θ)
MAP：θ_MAP = argmax_θ [log P(X | θ) + log P(θ)]

可以看出，MAP估计的目标函数比MLE多出了一项 log P(θ)。这一项就起到了正则化的作用。

在机器学习中，正则化项（如L1/L2范数）被添加到损失函数中，以防止模型过拟合，即惩罚过大的参数值。
在MAP中，log P(θ) 这项扮演了同样的角色。例如，如果我们假设参数 θ 服从均值为0的高斯先验分布（P(θ) ~ N(0, σ²)），那么 log P(θ) 就正比于 -||θ||²，这恰好是L2正则化（权重衰减）项。

因此，我们可以得到一个重要结论：最大后验估计等价于在最大似然估计的基础上，增加了一个由先验分布定义的正则化项。

本节课中我们一起学习了点估计的两种主要方法：最大似然估计和最大后验估计。我们了解了MLE通过最大化似然函数来寻找参数，而MAP则在贝叶斯框架下，通过最大化后验概率（即似然与先验的乘积）来估计参数。最关键的是，我们发现了MAP可以自然地解释为带有正则化项的MLE，这为理解机器学习中的模型正则化提供了一个深刻的统计学视角。

066：最大似然估计动机

在本节课中，我们将学习最大似然估计（MLE）。MLE在机器学习中广泛用于训练模型，但其背后的概念其实非常简单。

想象一下，你观察到了一些证据，并希望找出最可能导致该证据发生的情景。你的做法是，在所有可能的情景中，选择那个使证据出现概率最高的情景。

一个直观的例子

让我们通过一个例子来理解这个概念。

假设你走进一个客厅，看到沙发旁边的地板上散落着一堆爆米花。

现在的问题是：以下哪个事件更可能发生过？

人们在看电影。
人们在玩桌游。
有人在打盹。

你认为哪个最可能发生呢？

我们需要分析哪个情景最可能导致地板上出现爆米花。

看电影时，地板上出现爆米花的概率很高。
玩桌游时，地板上出现爆米花的概率中等。
打盹时，地板上出现爆米花的概率很低，因为打盹通常不会产生爆米花。

因此，我们会选择那个使“地板上出现爆米花”这一证据概率最高的情景，即“人们在看电影”。我们推断，最可能发生的事情就是人们在看电影。

最大似然估计的核心思想

我们刚才所做的，就是最大化条件概率。我们比较了：

给定“看电影”时出现爆米花的概率（高）。
给定“玩桌游”时出现爆米花的概率（中）。
给定“打盹”时出现爆米花的概率（低）。

我们找到了最高的条件概率。换句话说，我们找到了最可能导致地板上出现爆米花的情景。这就是最大似然估计：我们选择了使证据最可能发生的那个情景。

最大似然估计在机器学习中的应用

这正是机器学习中经常使用的方法。很多时候，你有一堆数据，以及多个可能生成这些数据的模型。

以下是典型的步骤：

你估计在给定模型1 的情况下，观察到当前数据的概率。
你估计在给定模型2 的情况下，观察到当前数据的概率。
你估计在给定模型3 的情况下，观察到当前数据的概率。

然后，你选择那个使当前数据出现概率最高的模型，即最可能产生当前数据的模型。

用公式表示，我们是在最大化：
P(数据 | 模型)

与线性回归的联系

上一节我们介绍了最大似然估计的基本思想，本节中我们来看看它如何与线性回归联系起来。我们将在后续课程中深入细节，但这里先给出一个概览。

想象你有一些数据点，以及三条可能的拟合直线（模型）。

假设我们有一种方法，可以根据一条直线来生成数据点，并且生成的点会聚集在这条直线附近。

那么，对于每条直线（模型），都存在一个概率，表示当前这些数据点是由该模型生成的。我们选择那个使当前数据点出现概率最高的模型。我们将在后续课程中更详细地探讨这一点。

总结

本节课中，我们一起学习了最大似然估计的动机和核心思想。最大似然估计是一种选择最可能产生观测数据的模型或情景的方法。其核心是计算并比较P(证据 | 情景) 或 P(数据 | 模型) 的条件概率，并选择概率值最大的那个。这种方法在机器学习模型训练中有着基础而重要的应用。

067：最大似然估计伯努利示例

在本节课中，我们将通过一个具体的抛硬币例子，学习最大似然估计的核心思想。我们将看到如何从观测到的数据出发，找到最有可能生成这些数据的模型参数。

回到抛硬币的例子

假设你抛一枚硬币10次，观察到8次正面和2次反面。

现在，你有三枚可能的硬币，它们可能被用来得到这个结果：

硬币1：正面概率为0.7。
硬币2：公平硬币，正反面概率均为0.5。
硬币3：正面概率为0.3。

那么，你认为哪一枚硬币最有可能被用来进行这10次抛掷？或者说，如果你想再次生成这10次抛掷结果，你会选择哪一枚硬币？

让我们计算一下每枚硬币产生“8正2反”这个结果的概率。

对于硬币1，概率是 0.7^8 * 0.3^2，计算结果约为 0.0051。这个概率值不大。

对于硬币2，概率是 0.5^10，计算结果为 0.0010。这个值更小。

对于硬币3，概率是 0.3^8 * 0.7^2，计算结果约为 0.00003。这个值非常小。

实际上，最大的概率值是硬币1对应的 0.0051。因此我们得出结论：如果必须从这三枚硬币中选一枚，我们最可能选择硬币1，因为它最有可能生成我们观测到的数据。

我们刚才所做的就是最大似然估计。我们想生成“8正2反”的结果，有三种可能的硬币（参数分别为0.7、0.5、0.3）可以生成数据。哪一枚硬币最有可能产生“8正2反”呢？就是那个使得条件概率 P(8正2反 | 硬币) 最大的硬币，也就是硬币1。

寻找更好的硬币

但是，我们能找到比这三枚硬币更好的选择吗？是否存在一枚更合适的硬币？

假设我们选择一枚正面概率为 p、反面概率为 1-p 的硬币。那么，这枚硬币生成“8正2反”的概率是多少呢？概率是 p^8 * (1-p)^2，这是一个关于 p 的函数。

我们想要找到那个能使我们看到“8正2反”这个数据可能性最大的 p 值。这个可能性就是似然。似然是基于模型（一枚概率为 p 的硬币）看到这些数据的概率。

注意，这是一个关于 p 的函数，我们需要最大化它。这是一个我们在微积分课上学过的优化问题。通常，我们不直接处理多个小数的乘积，而是采用一个标准技巧：取对数。对数可以将乘积转化为求和。

于是，乘积 p^8 * (1-p)^2 的对数（即对数似然）变为：
8 * log(p) + 2 * log(1-p)

我们通常不直接最大化似然，而是最大化对数似然。最大化其中一个等价于最大化另一个，而对数似然通常是一个更“友好”的函数。

当我们对对数似然函数关于 p 求导时，得到：
d/dp [log-likelihood] = 8/p - 2/(1-p)

令导数等于0以寻找最优值：
8/p - 2/(1-p) = 0

解这个方程，得到最优的 p 值（记为 p_hat）：
p_hat = 8/10 = 0.8

因此，实际上，最有可能生成这些抛掷结果的硬币，其正面概率应为 8/10 或 80%。这很合理，因为数据中正好有80%是正面。

推广到一般情况

现在，让我们进行一些数学推导，看看一般情况。

假设你抛了 n 次硬币，观察到 k 次正面。每次抛掷都是一个参数为 p 的伯努利变量，即正面概率为 p。

似然函数由以下公式给出：
L(p) = ∏ (p^{x_i} * (1-p)^{1-x_i})，其中 x_i 是第 i 次抛掷的结果（1代表正面，0代表反面）。

这个乘积可以分解为：
L(p) = p^k * (1-p)^{n-k}

对数似然函数是它的对数：
log L(p) = k * log(p) + (n-k) * log(1-p)

为了最大化这个表达式，我们对其关于 p 求导并令其等于0：
d/dp [log L(p)] = k/p - (n-k)/(1-p) = 0

解这个方程，得到最优的 p 值（p_hat）：
p_hat = k / n

结论是：最优的概率估计值 p_hat 恰好是观测数据中正面的比例，也就是样本均值。

换句话说，如果我们在一系列伯努利试验中观察到 k 次成功（正面），那么最大似然估计给出的成功概率就是 k/n。

总结

本节课中，我们一起学习了最大似然估计在伯努利分布中的应用。我们从一个具体的抛硬币例子出发，比较了不同参数硬币生成数据的可能性，并学会了通过最大化（对数）似然函数来找到最优的参数估计 p_hat。最终我们推导出，对于伯努利试验，成功概率的最大似然估计就是观测到的成功频率 k/n。这个方法直观地体现了“让模型最大程度地拟合观测数据”的核心思想。

068：最大似然估计高斯分布示例

在本节课中，我们将通过具体的例子，学习如何使用最大似然估计方法，从几个候选的高斯分布中，选出最可能生成给定观测数据的那个分布。

从两个候选分布中选择

上一节我们介绍了最大似然估计的基本思想，本节中我们来看看如何将其应用于具体的高斯分布选择问题。

假设我们有两个观测数据：1 和 -1。这些数据是从某个未知分布中采样得到的。现在，我们有两个候选的高斯分布：

均值为 10，标准差为 1 的正态分布。
均值为 2，标准差为 1 的正态分布。

问题是：哪一个分布更可能生成了这些观测数据？

以下是分析过程：

我们将数据点 1 和 -1 标注在分布图上。
每个数据点对应分布曲线上的“高度”，这个高度代表了该数据点在该分布下的似然值。
观察发现，底部曲线（均值为2）在两个数据点处的似然值都更高。
因此，在两个候选分布中，均值为2、标准差为1的高斯分布是胜出者，因为它生成给定数据的似然更高。

从三个候选分布中选择

现在，让我们增加候选分布的数量，看看如何选择。

我们考虑三个高斯分布，它们的标准差都是 1，但均值不同：

均值 mu = -1
均值 mu = 0
均值 mu = 1

以下是这三个分布的图像：

我们的任务依然是判断哪个分布最可能生成了数据 1 和 -1。

以下是分析步骤：

计算每个数据点在每个分布下的似然值（即曲线高度）。
由于数据点是独立生成的，整体数据的似然是每个数据点似然的乘积。
计算每个候选分布的似然乘积。

具体数值如下：

对于均值 -1 的分布：似然值为 0.399 和 0.054，乘积为 0.022。
对于均值 0 的分布：似然值均为 0.242，乘积为 0.059。
对于均值 1 的分布：似然值为 0.054 和 0.399，乘积为 0.022。

比较乘积大小，均值 mu = 0、标准差 sigma = 1 的分布的似然乘积最高 (0.059)，因此它是最可能的分布。

这里有一个重要的观察：胜出分布的均值 (0) 恰好等于样本数据的均值。样本均值的计算公式为：
样本均值 = (数据点之和) / (数据点数量)
对于数据 [1, -1]，其均值为 (1 + (-1)) / 2 = 0。

固定均值，比较不同标准差

基于上一节的发现，我们知道了最佳分布的均值应与样本均值一致。现在，我们固定均值为 0，来考察标准差的影响。

我们比较三个均值均为 0，但标准差不同的高斯分布：

标准差 sigma = 0.5
标准差 sigma = 1
标准差 sigma = 2

它们的分布形状如下：

问题依然是：哪一个最可能生成了数据 1 和 -1？

我们重复之前的分析：

计算每个数据点在每个分布下的似然值。
计算每个分布的似然乘积。

具体数值如下：

对于 sigma = 0.5 的分布：似然值为 0.044 和 0.044，乘积为 0.0019。
对于 sigma = 1 的分布：似然值均为 0.242，乘积为 0.059。
对于 sigma = 2 的分布：似然值为 0.176 和 0.176，乘积为 0.031。

比较乘积大小，标准差 sigma = 1 的分布的似然乘积最高 (0.059)，再次胜出。

这里另一个有趣的发现是：胜出分布的标准差的平方（即方差 sigma^2 = 1）恰好等于样本方差。样本方差的计算公式为：
样本方差 = (各数据点与均值之差的平方和) / (数据点数量)
对于数据 [1, -1]，其方差为 ((1-0)^2 + (-1-0)^2) / 2 = 1。

后续学习与工具

通过以上示例，我们直观地理解了最大似然估计如何工作。为了深化理解：

数学推导：后续阅读材料将深入讲解最大似然估计的数学推导过程。
交互工具：你将可以使用一个交互式工具，通过模拟从二项分布或正态分布中采样，并观察最大似然估计如何用于估计总体参数。

请尽情探索这个工具，之后我们将继续讨论如何应用这些思想。

总结

本节课中我们一起学习了最大似然估计在高斯分布选择中的应用。通过具体示例，我们了解到：

最大似然估计的核心是选择能使观测数据出现似然最大的模型参数。
对于高斯分布，最大似然估计给出的最优均值参数等于样本均值。
对于高斯分布，最大似然估计给出的最优方差参数等于样本方差。
比较不同分布时，通过计算并比较生成数据的整体似然（通常取乘积或对数求和）来进行选择。

069：最大似然估计在线性回归中的应用 📈

在本节课中，我们将要学习最大似然估计（MLE）如何应用于机器学习，特别是如何用它来理解线性回归。我们将看到，寻找一条最可能“生成”观测数据的直线，在数学上等价于寻找一条最小化平方误差的直线。

最大似然估计在机器学习中的应用

上一节我们介绍了最大似然估计的基本思想。本节中我们来看看它在机器学习中的一个具体应用场景。

在机器学习中，使用最大似然估计的一种方式如下：

你有一批数据。
有一些可能“生成”这些数据的模型。
对于每一个模型，你计算在该模型下观测到这批数据的概率。
给出最高概率的模型就是“获胜者”。

这意味着你找到了最可能产生这批数据的模型。获胜的模型就是那个最大化 P(数据 | 模型) 的模型。

线性回归的似然视角

现在，让我们通过一个线性回归的小例子来具体理解这个过程。

假设这些是你的数据点，你试图用一条直线去拟合它们。但我们不直接“拟合”，而是尝试用概率的视角来看待。

以下是候选模型：

模型1：这条直线。
模型2：这条直线。
模型3：这条直线。

首先，直观上哪条线看起来拟合得最好？拟合得最好的那条线，将给出观测到这些数据的最高概率。第一条线以某个概率生成数据，第二条线以更高的概率生成，第三条线以一个中等概率生成。获胜的将是第二条线。

然而，我还没有解释一条直线如何“生成”数据点。接下来我将说明这一点。

直线如何“生成”数据点

其核心思想是：这些直线在自身附近生成数据点。

想象这条直线是一条路。如果这条黄色的线是路（模型2），那么房子（数据点）很可能建在路附近，而不是远离它。如果路是模型3，那么房子很可能建在另一片区域。

让我们用数字来描述。假设这是你的模型（蓝色直线），这是一个点 x，直线在该 x 值处的对应点是 y_pred。

我们使用一个高斯分布（正态分布）来生成靠近直线的点。我们将这个高斯分布的中心设在直线与垂直线的交点处（即 y_pred），然后从这个分布中采样。采样得到的点（如 y_actual）就是“生成”的数据点。这就像在路附近建造房子，房子的位置是从那个垂直方向的高斯分布中采样得到的。

如果我们有一系列点 x1 到 x5，那么我们就有了五个高斯分布，每个都以其在蓝色直线上的对应点为中心。我们从每一个高斯分布中采样一个点，这五个点就是基于这条蓝色直线“生成”的数据。

现在，我们要做的就是找到那条最可能产生这些观测点的直线。巧合的是，这恰好与线性回归中寻找最佳拟合直线的目标一致。

从最大似然到最小二乘

为什么两者等价？让我们做一些数学推导。

假设直线方程为：
y = mx + b

这些是直线与各 x 值的交点（预测值 y_pred_i）。这些是观测到的数据点（实际值 y_actual_i）。它们之间的垂直距离我们称为 d1, d2, d3, d4, d5。

首先，计算生成第一个数据点的似然。由于我们使用高斯分布，假设其标准差为1，均值为0（即中心在预测点），那么生成这个实际点的似然由高斯分布的概率密度函数给出：
L1 = (1 / sqrt(2π)) * exp(-1/2 * d1²)

这就是生成第一个点的似然。我们需要考虑所有点，因此总的似然是五个点各自似然的乘积。我们需要最大化这条直线生成所有这些点的总似然。由于各点生成是独立的，我们考察乘积。

其中一些项是常数，例如 1/sqrt(2π)，我们可以忽略它们，专注于最大化指数部分。

我们可以将乘积写成：
L_total ∝ exp(-1/2 * Σ(d_i²))

注意，最大化某个函数等价于最大化它的对数。因此我们可以取对数，并去掉指数 exp 和常数 -1/2（乘以-2等价于最小化）。但请记住，指数项前面有一个负号。

这意味着，最大化总似然等价于最小化距离的平方和。

而最小化平方和正是最小二乘误差。这正是线性回归所做的：在线性回归中，你想要找到那条最小化数据点到直线垂直距离平方和的蓝色直线。

因此，这证明了使用最大似然估计寻找最可能生成数据点的直线，在数学上完全等同于使用线性回归最小化最小二乘误差。

示例对比

以下是三条不同直线及其在每个数据点处生成的高斯分布的示例。

正如你所见，当我们为实际的蓝色数据点计算似然时，获胜的是中间那条线。我们也可以直观地看出，它确实是数据集中拟合得最好的直线。

总结

本节课中我们一起学习了：

最大似然估计在机器学习中用于选择最可能生成观测数据的模型。
在线性回归问题中，可以将直线视为一个“生成模型”，它在自身附近（通过高斯分布）生成数据点。
通过数学推导，我们发现最大化该生成模型下数据的似然，等价于最小化预测值与实际值之间的平方误差和。
因此，线性回归的最小二乘法可以从概率论的最大似然估计框架中得到自然解释。这为线性回归提供了一个坚实的概率基础。

070：正则化

在本节课中，我们将学习机器学习中的一个重要概念——正则化。我们将了解它如何帮助我们在多个可能的模型中，选择出既拟合数据又不过于复杂的模型，从而提升模型的泛化能力。

概述

想象我们有一个数据集，并且有三个可能的模型可以拟合这些数据。第一个是线性模型，第二个是二次多项式模型，第三个是十次多项式模型。为了找出哪个模型最可能生成了这些数据，我们通常会看它们的损失，例如平方误差。然而，损失最小的模型（如十次多项式）可能过于复杂，导致“过拟合”。正则化通过给模型复杂度施加“惩罚”来解决这个问题，引导我们选择更简单、泛化能力更强的模型。

模型选择与损失

以下是三个候选模型及其假设的损失值：

模型1（线性）：损失为 10。
模型2（二次）：损失为 2。
模型3（十次多项式）：损失为 0.1。

仅从损失来看，模型3似乎是最佳选择，因为它对现有数据的拟合近乎完美。但直觉告诉我们，模型2可能更接近数据的真实规律，因为它更平滑，不易受到数据中噪声的过度影响。

引入正则化惩罚

为了解决这个问题，我们引入正则化。其核心思想是：对模型复杂度施加惩罚。模型越复杂，惩罚越大。这样，一个模型的总“成本”就变成了原始损失加上这个惩罚项。

我们使用一种称为 L2正则化 的方法。其惩罚项定义为模型方程中所有非常数项系数的平方和。

让我们为之前的模型计算L2惩罚项。假设它们的方程是：

模型1：y = 4x + 3。惩罚项为 4² = 16。
模型2：y = 2x² - 4x + 5。惩罚项为 2² + (-4)² = 4 + 16 = 20。
模型3：y = ...（十次多项式）。假设其非常数项系数的平方和为 26060。

计算正则化后的总损失

现在，我们计算每个模型的正则化总损失，即 原始损失 + L2惩罚项：

模型1：10 + 16 = 26
模型2：2 + 20 = 22
模型3：0.1 + 26060 = 26060.1

经过正则化处理后，模型2 的总损失（22）最小，成为了最佳选择。我们通过惩罚复杂的模型，成功地选择了更简单、更可能反映数据真实趋势的模型。

正则化的通用公式

上一节我们通过一个具体例子理解了正则化的作用，现在来看看它的通用数学表达。

对于一个模型，设其原始损失函数为 L（例如对数损失）。L2正则化误差 R 定义为：

R = Σ (w_i)²

其中，w_i 是模型中所有非常数项（即特征对应的权重）的系数。

最终，我们用于模型训练和选择的正则化误差 E_reg 为：

E_reg = L + λ * R

这里引入了一个新参数 λ（lambda），称为正则化参数。它控制着惩罚项的强度：

当 λ = 0 时，我们完全忽略正则化，退回到原始损失函数。
当 λ 很大时，我们强烈惩罚大系数，迫使模型变得非常简单。

通过调整 λ，我们可以在模型复杂度和拟合度之间取得平衡。

总结

本节课中，我们一起学习了正则化的核心思想。我们了解到，仅仅追求训练数据上的低损失可能导致“过拟合”。正则化通过向损失函数中添加一个与模型复杂度（系数大小）相关的惩罚项（如L2惩罚），来鼓励模型选择更简单的解。这通常能提高模型在未见数据上的表现，即泛化能力。正则化参数 λ 让我们可以灵活地控制这种惩罚的强度。

071：回归贝叶斯基础

在本节课中，我们将学习贝叶斯推断中的一个核心概念：如何结合证据的概率与事件本身的先验概率，以做出更合理的决策。我们将通过一个生动的例子来理解为什么仅考虑条件概率是不够的，并引入联合概率的概念。

回顾：基于证据的初步推断

上一节我们介绍了如何根据观察到的证据（如地上的爆米花）来推断最可能发生的情景。我们当时的方法是选择使条件概率 P(证据 | 情景) 最大的情景。

例如，我们曾有三个可能的情景：

看电影：产生爆米花的概率很高。
玩桌游：产生爆米花的概率中等。
打盹：产生爆米花的概率很低。

根据条件概率，我们选择了“看电影”，因为它产生地上爆米花的概率最高。

引入新情景：先验概率的重要性

然而，故事并未结束。现在，我们考虑两个不同的候选情景：

情景A：看电影
情景B：举办扔爆米花比赛

以下是两种情景的比较：

条件概率：看电影时地上出现爆米花的概率 P(爆米花 | 电影) 很高。但举办扔爆米花比赛时，地上出现爆米花的概率 P(爆米花 | 比赛) 几乎是100%，即“极高”。
直觉冲突：如果仅看条件概率，扔爆米花比赛“获胜”。但我们的直觉告诉我们，“看电影”才应该是更合理的解释。这是为什么？

原因在于，事件本身发生的可能性（即先验概率）不同。看电影是一个相对常见的事件，而举办扔爆米花比赛则是一个非常罕见的事件。

即使比赛产生证据的可能性更大，但它本身发生的可能性却小得多。这个因素必须被考虑进去。

数学建模：从条件概率到联合概率

为了综合考虑证据概率和先验概率，我们需要将两者结合起来。

之前的方法是最优化条件概率：
P(爆米花 | 情景)

现在，我们应该将先验概率 P(情景) 纳入考量。具体做法是将两者相乘：
P(爆米花 | 情景) * P(情景)

在我们的例子中：

对于看电影：P(爆米花 | 电影) * P(电影)
对于扔爆米花比赛：P(爆米花 | 比赛) * P(比赛)

虽然 P(爆米花 | 比赛) 可能大于 P(爆米花 | 电影)，但 P(电影) 很可能远大于 P(比赛)。当两者相乘后，乘积的大小关系可能逆转，使得“看电影”的联合概率更大。

核心概念：联合概率

请注意，这个乘积公式看起来非常熟悉：
P(爆米花 | 电影) * P(电影) 类似于 P(A|B) * P(B)。

根据概率论乘法公式，这正是事件A与B同时发生的联合概率：
P(A ∩ B) = P(A|B) * P(B)

因此，我们现在的最优化目标发生了变化：

旧目标：最大化条件概率 P(证据 | 情景)。
新目标：最大化联合概率 P(证据 ∩ 情景)，即证据和情景同时发生的概率。

这更有意义，因为这才真正反映了我们关心的：“某个特定情景并且产生了我们看到的证据”这件事的整体可能性。

以下是两种推断方法的对比：

最大似然法：只考虑证据的可能性。
- 选择标准：argmax P(证据 | 情景)
贝叶斯方法：综合考虑证据的可能性和情景本身的先验可能性。
- 选择标准：argmax P(证据 | 情景) * P(情景)
- 等价于：argmax P(证据 ∩ 情景)

总结

本节课中，我们一起学习了贝叶斯推断的关键一步。我们通过例子发现，仅根据证据产生的可能性（似然）做判断可能得到反直觉的结果，因为忽略了事件本身的常见程度（先验概率）。正确的做法是同时考虑两者，即最大化联合概率 P(证据 ∩ 情景)。这为后续正式学习贝叶斯公式奠定了直观基础——贝叶斯公式的本质就是在已知证据的情况下，通过联合概率来更新我们对不同情景发生可能性的判断。

073：贝叶斯统计与最大后验估计 🎲

在本节课中，我们将学习贝叶斯统计的核心思想，特别是先验信念如何影响我们对参数的估计。我们将通过一个抛硬币的例子，直观地理解不同先验分布如何导致不同的后验信念，并最终引出最大后验估计的概念。

先验信念的设定

假设有三位统计学家在街上捡到一枚硬币，他们都想估计这枚硬币正面朝上的概率 P。然而，他们对硬币的“公平性”持有不同的初始信念，这被称为先验分布。

以下是他们各自选择的先验分布：

第一位统计学家：他坚信硬币是公平的。因此，他选择的先验分布非常狭窄，且中心在 0.5。这个狭窄的曲线代表了他强烈的信念，认为正面概率就是 50%，并且概率值向 0 或 1 方向会迅速下降。
第二位统计学家：他也认为硬币应该是公平的，但他愿意相信硬币可能存在某种偏向。因此，他选择的先验分布同样在 0.5 处概率最大，但比第一位统计学家的分布更分散一些。
第三位统计学家：他不想做任何假设，因此他为每一个可能的 P 值分配了相同的权重。这被称为无信息先验，因为它没有添加任何额外的信息。

观察数据后的信念更新

现在，我们来看看如果三位统计学家都只抛了一次硬币，并且看到了正面，他们的信念会发生什么变化。

保守的第一位：他的信念几乎没有移动。肉眼几乎看不出变化。
中间的第二位：他的信念更新了，但幅度也非常小。毕竟，只有一个观测数据（正面）。
无先验的第三位：他的信念发生了剧烈变化，从一个对所有可能值赋予相同权重的分布，变成了一个随着 P 值增大而概率线性增加的分布。

上一节我们看到了单次观测的影响，现在让我们继续观察。假设他们继续抛硬币，总共得到了 8次正面和2次反面。让我们看看每位统计学家的信念如何进一步演变。

以下是更新后的信念分布：

第一位统计学家：他的信念仍然非常紧密地围绕在先验附近。曲线几乎没有移动。
第二位统计学家：立场相对温和的这位，其信念已经开始发生偏移。注意，曲线看起来更窄了，并且峰值不再在 0.5，而是在大约 0.65 附近。
第三位统计学家：他的信念变化最大。他从没有任何信息，变得相当确信正面朝上的概率应该在 0.8 左右。

注：目前你无需担心这些更新是如何计算的，我们将在下一个视频中详细学习。这里只是想让你感受一下先验信念对后续信念更新的影响。

尽管三位统计学家观察到了完全相同的数据，但由于他们始于不同的先验信念，他们最终的信念也各不相同。

从信念到点估计：最大后验估计

这些代表信念的曲线非常具有信息量，它们不仅展示了一个最可能的结果，还展示了统计学家认为每个可能结果是真实参数值的置信程度。

然而，很多时候我们仍然希望得到一个参数的代表值。如何从更新后的信念中得到这个值呢？实际上有很多标准可以选择这个值，但最有用的一种是选择概率最高的那个值。

这意味着取能最大化你信念的那个参数值。换句话说，就是取你更新后信念分布的众数。

更新后的信念被称为后验信念。
正如你最初的信念被称为先验（因为在观察数据之前），更新后的信念被称为后验（因为它代表了看到数据后的信念）。

由于这个估计是基于后验分布的最大值（众数）得出的，因此这种参数估计方法被称为最大后验估计，简称 MAP。

如果你想了解从后验分布中还能得到哪些其他估计，本节末尾有一篇阅读材料可供参考。

现在，让我们回到抛硬币的例子，看看每种情况下的 MAP 估计值是多少。

以下是基于8次正面、2次反面数据后，三位统计学家的 MAP 估计：

非常保守的第一位：正面概率的 MAP 估计是 0.501。可以看到，它几乎没有偏离“硬币是公平的”这一原始假设。
第二位统计学家：他会说看到正面的概率是 0.607。可以看到，这个值发生了显著变化，但即使面对8正2反的数据（从频率学派的角度可能暗示硬币偏差更大），这个估计仍然不算极端。
第三位统计学家：他会说正面概率是 0.8。这个结果听起来很熟悉，对吧？它应该很熟悉，因为这与频率学派方法得出的结论相同。

事实上，任何时候，当你使用对所有可能值赋予相等权重的无信息先验进行 MAP 估计时，得到的结果与频率学派方法的结果完全相同。这强化了先验的引入在贝叶斯统计中的重要性和独特性。如果你不携带任何有意义的先验信念，MAP 最终会变成一种本质上进行频率统计的繁琐方式。

总结

本节课中，我们一起学习了：

先验信念：在观察数据之前，对参数可能取值的初始假设分布。
后验信念：在观察到数据之后，结合先验信念和似然度更新得到的参数分布。
最大后验估计：一种参数点估计方法，通过取后验分布的众数（最大值）来获得参数的代表值。其公式可以表示为：
θ_MAP = argmax_θ P(θ | Data) = argmax_θ P(Data | θ) * P(θ)
其中 P(θ) 是先验，P(Data | θ) 是似然，P(θ | Data) 是后验。
先验的影响：不同的先验会导致相同的观测数据产生不同的后验分布和 MAP 估计。无信息先验下的 MAP 估计等价于频率学派的极大似然估计。

对贝叶斯统计基础概念的介绍就到这里。在下一个视频中，我将解释如何在数学上实际进行这些计算。

074：贝叶斯统计更新先验

在本节课中，我们将学习贝叶斯统计的核心思想：如何利用新证据来更新我们对某个事件的初始信念（先验概率）。我们将通过一个简单的例子，逐步推导贝叶斯定理的公式，并了解其在不同数据类型（离散与连续）下的应用形式。

贝叶斯定理回顾

上一节我们建立了贝叶斯统计的直觉。本节中，我们来看看如何实际执行信念更新。你会发现，其中涉及的数学你已经学习过了。

它始于贝叶斯定理。给定两个事件A和B，贝叶斯定理表述为：

P(A|B) = [P(B|A) * P(A)] / P(B)

这个公式如果没有例子可能有点难以理解。因此，让我们以贝叶斯统计中典型的方式来定义A和B。

A 通常是你试图预测的事件。在理想情况下，你无法确切知道其概率。例如，你申请的工作是否会给你录用通知。
B 是另一个事件，或者是你能够观察到的、有助于改进你预测A能力的证据。例如，你是否被要求参加后续的电话面试。

这个等式的左边，P(A|B)，是你要求解的部分，它被称为后验概率。它代表了在考虑了事件B提供的信息后，事件A更新或修正后的概率。在这个例子中，就是现在你知道自己被要求参加后续电话面试后，你获得这份工作的可能性。

等式的右边包含三项：

第一项是先验概率 P(A)。你可以将其视为事件B发生之前，事件A发生的概率。在这个例子中，你的先验概率就是在收到后续电话面试请求之前，你对自己获得这份工作的可能性的信念。
另外两项是用来更新你的先验并形成后验的。
- 分子项是似然度 P(B|A)，即在A发生（或将要发生）的条件下，证据B出现的可能性。在这个例子中，就是在你最终会获得这份工作的条件下，你被要求参加后续电话面试的可能性。
- 分母项是证据概率 P(B)，即证据B出现的总概率。在这个例子中，就是你被要求参加后续电话面试的可能性，无论你最终是否会获得这份工作。通常你需要使用以下表达式来计算P(B)：P(B) = P(B|A)*P(A) + P(B|¬A)*P(¬A)。你通常使用一般乘法规则计算P(B∩A)和P(B∩¬A)，然后将它们相加。

退一步看这个等式的所有四个部分如何协同工作，你所做的只是基于新证据，获取你对某个事件概率的先验信念，并更新它们以形成新的信念，即后验信念。

硬币示例：应用贝叶斯更新

现在让我们回到判断一枚硬币是公平的还是偏倚的例子，看看这个表达式是如何实际使用的。

在这个例子中，你知道有两种可能的硬币类型：

第一种是公平硬币，这意味着抛掷出现正面的概率是 0.5。
另一种类型是偏倚硬币。这种硬币出现正面的概率是 0.8。

你有一枚神秘的硬币。它可能是公平的，也可能是偏倚的，但你不知道是哪一种。弄清楚这一点的唯一方法就是抛掷它。

我将以贝叶斯的方式设置这个实验，第一步是将贝叶斯定理通用表达式中的A和B替换为一些新的随机变量X和Y的结果。

首先，A（你想要预测的事件）将被替换为新随机变量Y取某个值的事件。Y将代表你所持硬币出现正面的几率。Y可以输出两个可能的值：如果你的硬币是公平的，则为0.5；如果你的硬币是偏倚的，则为0.8。这两个结果的概率是未知的，所以你从一些先验开始。在这个例子中，假设你相信大多数硬币是公平的。因此，你分配0.75的概率认为硬币确实是公平的（即Y=0.5），分配0.25的概率认为硬币是偏倚的（即Y=0.8）。
现在你需要一些证据来帮助更新你的先验。在这个例子中，你将用新随机变量X的结果替换事件B。X将是你抛掷神秘硬币的结果，所以如果抛掷结果是反面则输出0，如果是正面则输出1。

现在你准备好根据抛掷硬币的结果来更新你的先验了。让我们抛掷它。这次抛掷的结果是正面，所以我记下 x = 1。现在让我们使用贝叶斯定理来更新那些先验信念。

首先，我将展示如何计算硬币是公平的后验信念。写下你的后验：P(Y=0.5 | X=1)。换句话说，就是在你抛掷出正面的条件下，你持有公平硬币的概率。

接下来，应用贝叶斯定理：
P(Y=0.5 | X=1) = [P(X=1 | Y=0.5) * P(Y=0.5)] / P(X=1)

现在代入实际数值：

P(X=1 | Y=0.5) 是给定硬币公平时抛出正面的概率，即 0.5。
P(Y=0.5) 来自你的先验，你相信75%的时间硬币是公平的，所以用 0.75 替换这个值。
P(X=1) 是抛出正面的总概率。这需要计算：P(X=1) = P(X=1|Y=0.5)*P(Y=0.5) + P(X=1|Y=0.8)*P(Y=0.8) = (0.5*0.75) + (0.8*0.25) = 0.375 + 0.2 = 0.575。

完成这个计算：[0.5 * 0.75] / 0.575 = 0.375 / 0.575 ≈ 0.652。这就是你的新后验概率。

将这个值与你先前的信念进行比较，你可以看到发生了什么：你曾经认为有75%的机会你的硬币是公平的，但在抛出一个正面后，你稍微改变了你的信念。现在你相信你的硬币是公平的概率只有65.2%。

虽然我不会在这里带你计算数学，但一个非常类似的方法将导致一个新的后验信念：硬币是偏倚的概率增加到 0.348。注意，这两个信念的总和仍然是1，这是合理的：你知道硬币要么公平要么偏倚，所以你对这两种结果的信念之和应该仍然是1。

通用公式：离散与连续变量

这个例子非常离散，Y只有两个可能值，X也只有两个可能值。但让我开始用一种更通用的方式来书写它，使用概率质量函数。

用概率质量函数重写上述方程：
P(Y=0.5 | X=1) = [P(X=1 | Y=0.5) * P(Y=0.5)] / P(X=1)
可以看作是：
f_{Y|X}(0.5 | 1) = [f_{X|Y}(1 | 0.5) * f_Y(0.5)] / f_X(1)
其中 f 代表概率质量函数。

现在我已经用X和Y的PMF写下了这个等式，我可以再进一步使其更通用。与其使用这里显示的X和Y的具体值，我不如重写它，以便你可以为任何可能的先验结果 y 和任何可能的事件 x 更新你的先验。

你得到的是当有两个离散随机变量时，贝叶斯定理的通用表达式：
f_{Y|X}(y | x) = [f_{X|Y}(x | y) * f_Y(y)] / f_X(x)
对于给定的事件 y 和给定的证据 x，这个表达式将允许你更新你的先验。

这是一个有用的通用公式，但请注意，它是为事件和证据都是离散的情况设计的。如果任一变量是连续的怎么办？这就是我接下来要展示的内容。

根据X和Y是离散还是连续，你需要考虑四种组合：

X离散，Y离散：你刚才看到的例子就是这种情况。公式使用概率质量函数。
P(Y=y | X=x) = [P(X=x | Y=y) * P(Y=y)] / P(X=x)
X连续，Y连续：在这种情况下，公式看起来几乎相同，只是将两个变量的概率质量函数替换为概率密度函数。
f_{Y|X}(y | x) = [f_{X|Y}(x | y) * f_Y(y)] / f_X(x)

X连续，Y离散：
P(Y=y | X=x) = [f_{X|Y}(x | y) * P(Y=y)] / f_X(x)
X离散，Y连续：
f_{Y|X}(y | X=x) = [P(X=x | Y=y) * f_Y(y)] / P(X=x)

尽管表达式不同，但这些项都是后验，因为它们代表了在考虑了观察到的数据之后更新的概率；而这些项都是先验，即在知道任何关于X的信息之前对Y的信念。

在许多机器学习上下文中，你求解的是模型中某个参数取某个特定值的概率。在这些情况下，更常见的是用看起来像 θ（theta）的大写或小写字母替换这些表达式中的Y。

同样，这里改变只是符号，字母Y被 θ 取代，但基本概念是相同的。根据你的上下文中离散和连续变量的组合，你将使用这四个方程中的一个来更新你的先验。

总结

本节课中，我们一起学习了贝叶斯统计的核心操作——更新先验信念。我们从回顾贝叶斯定理开始，明确了先验、似然度、证据和后验概率各自的意义。接着，通过一个判断硬币是否公平的具体例子，我们一步步演示了如何利用一次抛掷正面的证据，将“硬币有75%概率公平”的先验更新为“硬币有65.2%概率公平”的后验。最后，我们将具体的计算过程抽象成通用公式，并介绍了当随机变量为离散或连续时的四种不同表达式。理解这些公式是应用贝叶斯方法解决机器学习问题的基础。在接下来的课程中，你将看到更多这方面的实际应用。

075：贝叶斯统计完整示例 🎲

在本节课中，我们将学习一个更完整的贝叶斯统计示例。我们将通过收集更多数据并迭代更新先验信念，来展示贝叶斯推断的完整流程。

概述

在之前的课程中，我们介绍了贝叶斯定理的基本概念。本节我们将通过一个具体的抛硬币实验，演示如何利用新收集的数据，一步步更新我们对硬币正面朝上概率（记为 $\theta$）的信念。我们将从设定先验分布开始，计算似然函数，最终得到后验分布，并探讨其含义。

问题设定与建模

首先，我们需要对问题进行数学建模。我们有一枚硬币，其正面朝上的概率 $\theta$ 是未知的。因此，我们可以将 $\theta$ 视为一个随机变量。我们的目标是通过收集抛硬币的数据，来了解 $\theta$ 的概率密度函数。

我们进行了10次抛掷，观察到8次正面（记为1）和2次反面（记为0）。我们将这10次独立实验的结果记为随机变量 $\mathbf{X} = (X_1, X_2, ..., X_{10})$。如果已知 $\theta$ 的具体值，那么每次抛掷 $X_i$ 都可以看作是一个伯努利分布：$X_i \sim \text{Bernoulli}(\theta)$。

由于 $\theta$ 是连续的（概率密度函数），而 $\mathbf{X}$ 是离散的（概率质量函数），我们将使用以下形式的贝叶斯定理：

\[P(\theta | \mathbf{X}) = \frac{P(\mathbf{X} | \theta) P(\theta)}{P(\mathbf{X})} \]

其中：

$P(\theta | \mathbf{X})$ 是后验概率密度函数，即看到数据后我们对 $\theta$ 的信念。
$P(\mathbf{X} | \theta)$ 是似然函数，即在给定 $\theta$ 下观察到当前数据的概率。
$P(\theta)$ 是先验概率密度函数，即我们在看到数据前对 $\theta$ 的初始信念。
$P(\mathbf{X})$ 是证据或边缘似然，是一个归一化常数。

第一步：计算似然函数

我们的第一步是计算在给定某个 $\theta$ 值时，观察到“8正2反”这个特定序列的似然度。

\[P(\mathbf{X} | \theta) = P(\text{正，正，...，正，反，反} | \theta) \]

由于每次抛掷是独立的，其联合概率等于各次概率的乘积。对于正面，概率为 $\theta$；对于反面，概率为 $1 - \theta$。因此：

\[P(\mathbf{X} | \theta) = \theta \cdot \theta \cdot ... \cdot \theta \cdot (1-\theta) \cdot (1-\theta) = \theta^8 (1-\theta)^2 \]

第二步：选择先验分布

接下来，我们需要选择先验分布 $P(\theta)$。假设在实验前，我们对这枚硬币没有任何先入为主的看法，认为 $\theta$ 取0到1之间任何值的可能性都相同。这种情况下，我们选择均匀分布作为先验：

\[P(\theta) = 1, \quad \text{for } 0 < \theta < 1 \]

第三步：推导后验分布

现在，我们有了计算后验分布的所有要素。根据贝叶斯定理：

\[P(\theta | \mathbf{X}) = \frac{\theta^8 (1-\theta)^2 \times 1}{P(\mathbf{X})} \]

分母 $P(\mathbf{X})$ 是一个归一化常数，确保后验概率密度函数下方的总面积为1。在这个例子中，后验分布恰好是一个贝塔分布（Beta Distribution）。其归一化常数是 $\frac{8! \cdot 2!}{11!}$。但重要的是，这个常数不影响分布的形状，尤其是不影响其众数（最高点）的位置。因此，我们通常写作：

\[P(\theta | \mathbf{X}) \propto \theta^8 (1-\theta)^2 \]

符号 $\propto$ 表示“正比于”。下图展示了我们从均匀先验（平坦直线）更新后得到的后验分布。可以看到，后验分布的峰值在 $\theta \approx 0.8$ 附近，表明在看到8次正面后，我们相信硬币正面朝上的概率很可能在0.8左右。

第四步：计算MAP估计

我们常常希望用一个单一的数字来总结后验分布所代表的信念。一个常用的方法是计算最大后验概率估计。

MAP估计是后验概率密度函数取得最大值时所对应的 $\theta$ 值，即后验分布的众数。由于归一化常数和均匀先验（常数1）都不影响函数取最大值的位置，因此在这个例子中，最大化后验分布等价于最大化似然函数 $\theta^8 (1-\theta)^2$。

通过求导等数学方法，可以找到这个函数在 $\theta = 0.8$ 时取得最大值。这恰好等于我们观察到的正面频率（8/10）。当使用无信息先验（如均匀分布）时，MAP估计与频率学派的极大似然估计结果相同。

第五步：迭代更新信念

贝叶斯推断的强大之处在于可以持续更新。假设我们又抛了10次硬币，得到6次正面和4次反面。

现在，我们不再从均匀先验开始，而是将上一轮得到的后验分布作为本轮的新先验。即：
新先验 $P_{\text{new}}(\theta) \propto \theta^8 (1-\theta)^2$

新数据的似然函数为：$P(\mathbf{X}_{\text{new}} | \theta) = \theta^6 (1-\theta)^4$

再次应用贝叶斯定理，我们得到更新后的后验分布：

\[P(\theta | \mathbf{X}_{\text{all}}) \propto [\theta^6 (1-\theta)^4] \times [\theta^8 (1-\theta)^2] = \theta^{14} (1-\theta)^6 \]

这个过程如下图所示：

此时，MAP估计为 $\theta = 0.7$。这个结果有两个重要启示：

先验信息的影响：如果频率学派只看到第二组数据（6正4反），他们会估计 $\theta = 0.6$。但由于我们包含了第一组数据带来的先验信息（倾向于0.8），我们的估计是0.7。这说明当先验信息丰富时，它会显著影响结论。
数据整合的等价性：我们分两批（10+10次）处理数据，最终后验基于总共20次抛掷（14正6反）。如果我们一次性使用全部20次数据，从均匀先验开始，得到的后验将是 $\theta^{14} (1-\theta)^6$，MAP估计同样是0.7。在贝叶斯推断中，无论是一次性使用所有数据，还是分批次迭代更新，最终的后验信念是相同的。

总结与对比

本节课我们一起完成了一个完整的贝叶斯统计示例。让我们总结一下关键点：

核心思想：贝叶斯统计的核心是利用数据迭代更新信念。旧的后验成为新的先验，结合新数据产生更新的后验。
MAP与MLE：当使用无信息先验时，MAP估计在数值上等于频率学派的极大似然估计。此时，所有信息都来自数据。
大数定律：只要先验分布不是极端错误的，随着收集的数据越来越多，MAP估计和MLE估计会收敛到同一个值。新数据会逐渐“稀释”初始先验的影响。
学派选择：
- 贝叶斯方法在数据有限或拥有强先验知识的场景下特别有用。
- 如果预计会收集大量数据，频率学派的方法通常也足够。
- 贝叶斯方法的一个潜在缺点是：如果先验设置错误，尤其是在数据量小时，可能会导致错误的结论，因为先验的影响会很大。

理解这两种哲学思想的差异后，你可以根据具体问题选择更适合的框架。如果你难以决定，或许可以抛一枚硬币——当然，别忘了思考你对该硬币正面概率的先验信念是什么。

076：MLE、MAP与正则化之间的关系

在本节课中，我们将学习最大似然估计、最大后验估计以及机器学习中的正则化。本节视频将展示这三者是如何结合在一起的，并揭示正则化与最大似然估计之间的内在联系。

模型选择与概率

上一节我们介绍了最大似然估计，本节中我们来看看如何结合模型本身的先验概率进行选择。

假设我们有一些数据，以及三个可能拟合这些数据的模型。每个模型都以一定的概率生成这些数据。第一个模型生成数据的概率是 P(数据 | 模型1)，第二个模型的概率更高，而第三个模型由于拟合得最好，其生成数据的概率最高。因此，如果仅考虑数据拟合度，我们会选择第三个模型。

然而，就像之前抛爆米花和看电影的例子一样，我们还需要考虑模型本身被选中的先验概率。模型越简单，其被选中的可能性就越大。一个像模型1这样非常简单的模型出现的可能性很高，像模型2这样稍复杂的模型可能性较低，而像模型3这样非常复杂的模型则极不可能出现。

因此，我们需要将这两个概率相乘：P(数据 | 模型) * P(模型)。现在，胜出的可能不再是第三个模型，而或许是第二个模型。这就是我们最终选择的模型。

从概率到损失函数

现在，让我展示最大似然估计与带正则化的回归是如何协同工作的。

在回归中，我们有一个损失函数，例如平方损失。在最大似然估计中，我们最大化模型生成数据的概率。如果我们引入贝叶斯思想（即最大后验估计），就需要额外乘以模型的先验概率 P(模型)。

在回归中，如果加入正则化，我们会在损失函数中添加一个正则化项。那么，如何将左边的概率乘积形式转化为右边的损失函数加正则化项的形式呢？一个有效的方法是对乘积取对数。

通过取对数，我们可以将左边的概率论证转化为右边的损失函数与正则化项之和的论证。然而，这里有一个关键问题尚未说明：模型的概率 P(模型) 究竟是什么意思？接下来我将解释这一点。

模型概率的定义

所谓模型的概率（更准确说是似然），可以这样理解：

假设我们有模型1、模型2和模型3。模型1的概率很高，模型2较低，模型3则非常低。假设这些是模型的方程，我们将从标准正态分布中选取模型的系数。例如，系数 a1, a2, ..., a10 都从标准正态分布中选取。

那么，某个系数 a_i 的似然就是：

P(a_i) = (1 / sqrt(2π)) * e^(-1/2 * a_i^2)

因此，整个模型的似然就是所有这些概率的乘积。

结合数据拟合与模型复杂度

现在回到拟合最佳模型的问题。如果我们有一些数据点，并且有一个拟合模型，我们希望最大化 P(数据 | 模型) * P(模型)。

我们已经知道，如果数据点到模型的垂直距离是 d1 到 d5，那么 P(数据 | 模型) 就是这些点对应的高斯概率的乘积。而 P(模型)，如果模型方程是 y = a1*x + a2，那么就是：

P(模型) = [1/sqrt(2π) * e^(-1/2 * a1^2)] * [1/sqrt(2π) * e^(-1/2 * a2^2)]

我们希望最大化这两个的乘积。其中包含很多常数项，我们可以忽略它们，只最大化剩余部分。像之前一样，我们取对数。

对 P(数据 | 模型) 取对数，我们得到 -1/2 * Σ(d_i^2)。
对 P(模型) 取对数，我们得到 -1/2 * (a1^2 + a2^2)。
在对数下，乘积变成了求和。

因此，我们需要最大化：

[-1/2 * Σ(d_i^2)] + [-1/2 * (a1^2 + a2^2)]

我们可以乘以 -2，那么最大化问题就等价于最小化：

Σ(d_i^2) + (a1^2 + a2^2)

这正是平方损失加上正则化项（L2正则化）的形式。

核心关系总结

因此，当我们在模型1、2、3中进行选择时：

最大化模型的后验概率 P(模型 | 数据)，等价于最小化损失函数与正则化项之和。
最大化数据的条件概率 P(数据 | 模型)，等价于最小化平方损失。
最大化模型的先验概率 P(模型)，等价于最小化模型系数的平方和（即正则化项）。

新的损失函数就是这两部分之和。这就是基于贝叶斯方法、使用正则化来训练模型的方式。

本节课中我们一起学习了最大似然估计与最大后验估计的核心思想，并深入探讨了正则化项在贝叶斯框架下的统计意义——它对应于对模型复杂度的先验约束。理解这一关系有助于我们更深刻地认识机器学习中损失函数的设计原理。

本周的课程到此结束。之后你需要独立完成两项活动：
以下是需要完成的任务列表：

本周的探索性数据分析实验：在本周的实验中，你将更深入地研究第一周见过的“世界幸福度”数据集。你将使用线性回归来尝试找出哪些国家特征最能预测该国报告的幸福水平。这个实验有一些特别有趣的交互部分，你可以选择在模型中包含哪些特征，并观察哪些特征实际上最重要。
本周的计分测验：祝你顺利！完成后，我们将在本周总结部分再见。

077：第三周总结 📊

在本节课中，我们将一起回顾第三周所学习的核心概率与统计概念。这些知识是理解机器学习算法背后原理的重要基础。

概述

第三周的学习内容涵盖了统计学中的几个关键概念。我们从样本与总体的基本定义开始，进而探讨了重要的统计学定理，最后将这些理论与机器学习中的实际应用联系起来。

学习内容回顾

上一节我们介绍了概率分布的基础，本节中我们来总结第三周的核心知识点。

以下是第三周学习的主要概念列表：

样本与总体：你学习了样本（从总体中抽取的一部分观测值）和总体（研究对象的全部个体）的概念及其关系。
大数定律与中心极限定理：你学习了一些非常基础的统计学定理，例如大数定律（随着样本量增加，样本均值趋近于总体均值）和中心极限定理（无论总体分布如何，样本均值的抽样分布近似正态分布）。
点估计：你学习了点估计的方法，即用一个单一的数值来估计总体参数。
最大似然估计与最大后验估计：你学习了最大似然估计（MLE）和最大后验估计（MAP）这两种参数估计方法。
- MLE 公式可表示为：θ_MLE = argmaxθ P(Data | θ)
- MAP 公式可表示为：θ_MAP = argmaxθ P(θ | Data) = argmaxθ P(Data | θ) * P(θ)
与机器学习的联系：你也学习了这些概念如何通过正则化与机器学习联系起来。最大后验估计中引入的先验概率 P(θ) 等价于在机器学习损失函数中添加正则化项，以防止过拟合。

总结

本节课中我们一起学习了第三周的统计知识。你掌握了样本与总体的区别，理解了大数定律和中心极限定理的重要性，并学会了最大似然估计与最大后验估计这两种参数估计方法。最后，我们看到了这些统计原理如何直接应用于机器学习模型的正则化设计中，为后续的机器学习学习奠定了坚实的理论基础。

让我们继续第四周的学习。

078：置信区间概述

概述

在本节课中，我们将要学习置信区间这一核心概念。置信区间是统计学中用于估计未知总体参数（如总体均值）的一个区间范围，它能够以一定的概率（置信水平）包含真实的参数值。我们将通过一个生动的比喻来理解其原理，并学习如何构建和解释置信区间。

置信区间的基本思想

上一节我们介绍了如何通过抽样来估计总体参数。本节中我们来看看如何量化这种估计的不确定性。

假设Statopia国的人口平均身高为μ，我们通过抽样来估计它。即使采用了随机抽样、大样本量等最佳实践，任何一次抽样得到的样本均值都很难与真实的总体均值μ完全一致。因此，我们总是对样本均值的准确性存在一定程度的不确定性。一个自然的问题是：我们能否以某种程度的确定性来使用样本均值？统计学家通过置信区间来解决这个问题。

简而言之，置信区间是一个由下限和上限构成的数值区间，它以一定的确定性包含了总体参数（例如μ）。

一个直观的比喻：寻找钥匙

在展示概率分布中的置信区间之前，让我们通过一个现实世界的比喻来建立直观理解。

想象你在一条路上步行去朋友家。到达后，你发现钥匙掉在了路上的某个地方。你的朋友开车带你回去寻找。你们决定将车停在你们猜测钥匙最可能掉落的位置，然后两人分别向路的两侧行走相同的搜索距离来寻找钥匙。

停车的位置是你们对钥匙真实位置的最佳猜测。
搜索距离是你们为了弥补猜测可能错误而添加的缓冲范围。
整个搜索路段（从停车点减去搜索距离到停车点加上搜索距离）就构成了一个区间。

你需要根据找到钥匙所需的置信度来决定搜索距离的大小。例如，80%的置信度对应一个较小的搜索距离，而95%的置信度则需要一个更大的搜索距离。这里存在一个权衡：更高的置信水平需要更大的搜索距离（更宽的区间）。

这个比喻强调了几个关键点：

钥匙的真实位置是固定但未知的。
区间是随机生成的，因为它基于一个猜测的起点。
置信水平（如95%）描述的是生成区间的方法，而非钥匙本身。我们不能说“钥匙有95%的概率落在这个区间里”，因为钥匙的位置是固定的。正确的理解是：如果我们用同样的方法重复生成许多区间，那么其中大约95%的区间会包含钥匙的真实位置。

应用于统计问题：估计平均身高

现在，让我们将这些思想应用到Statopia国估计平均身高的问题上。

假设Statopia国民的身高服从正态分布，其总体均值μ未知，总体方差σ²暂时假设为已知。回想钥匙的比喻，μ就是那把“钥匙”，其值固定但未知。我们将随机生成一个置信区间来估计它的位置。

为了构建区间，我们从总体中抽取一个随机样本。为简化起见，我们从样本量为1开始，即只测量一个人的身高。这个人的身高值就是样本均值，我们记作 x̄。

我们创建一个随机变量 X̄ 来描述抽取不同样本均值的概率。由于总体服从正态分布，X̄ 也服从正态分布，其均值同样是μ，方差为σ²。这并不意味着我们知道了μ，但我们知道 X̄ 的分布以μ为中心。

确定边际误差与置信水平

我们想知道：大多数样本均值距离真实的总体均值μ有多远？这引出了两个相关概念：

边际误差：在μ两侧的一个距离范围。
置信水平：样本均值落在这个边际误差范围内的概率。

通常，我们先设定第三个值：

显著性水平（α）：样本均值落在边际误差范围之外的概率。这是一个希腊字母，常用值为0.05。

从α可以计算出置信水平：置信水平 = 1 - α。当α=0.05时，置信水平就是95%。

我们的目标是：增大边际误差的范围，直到正态分布曲线下95%的面积（即95%的样本均值）都落在这个范围内。由于正态分布是对称的，这意味着有2.5%的样本均值会因过大而落在右侧范围外，另有2.5%会因过小而落在左侧范围外，即每侧各占 α/2。

置信区间公式

最终，我们得到置信区间的公式：
置信区间 = 样本均值 ± 边际误差

这个公式的含义是：除非我们运气极差，抽到了一个非常极端（过大或过小）的样本均值（这种情况发生的概率只有5%），否则真实的总体均值μ应该与我们的样本均值比较接近。换句话说，置信区间是在表达：“我有95%的信心，这个区间包含了真实的μ。”

置信区间的模拟演示

为了更清晰地理解，让我们模拟构建几个置信区间。

假设我们已确定95%置信水平所需的边际误差。图中标出了真实的μ值（但在实际中我们并不知道）。现在我们进行多次抽样：

第一次抽样得到样本均值 x̄₁，并以其为中心构建区间。这个区间没有包含μ。
第二次抽样得到 x̄₂，构建的区间包含了μ。
第三次抽样得到 x̄₃，构建的区间也包含了μ。

如果我们重复这个过程很多次，并将包含μ的区间标为绿色，不包含的标为红色，我们会发现：大约有95%的区间是绿色的（包含μ），5%的区间是红色的（不包含μ）。

这就是95%置信区间的含义：你所使用的构建区间的方法，在重复使用时，有95%的概率会产生一个包含总体均值的区间。

然而，在实际研究中，我们通常只构建一个置信区间。我们无法确定这个特定的区间是否包含了μ，但我们可以知道，像这样构建出来的区间，有95%的可能性是包含μ的。

总结

本节课中我们一起学习了置信区间的核心概念。我们通过“寻找钥匙”的比喻理解了置信区间是围绕一个点估计（最佳猜测）构建的、具有一定宽度的区间，用以表达估计的不确定性。我们学习了置信水平（如95%）的真实含义：它描述的是区间构建方法的长期成功率，而非针对某个特定区间。最后，我们掌握了置信区间的基本公式 x̄ ± 边际误差，并了解了其背后的概率原理。记住，置信区间是量化估计不确定性的强大工具。

079：置信区间调整区间 📊

在本节课中，我们将学习置信区间如何受到样本量和置信水平的影响。我们将看到，通过增加样本量或调整置信水平，可以改变置信区间的宽度，从而影响估计的精确度和可靠性。

样本量对置信区间的影响 📈

上一节我们介绍了当样本量为1时如何构建95%的置信区间。本节中我们来看看，如果改变样本量，置信区间会发生什么变化。

样本均值 X̄ 的抽样分布是正态分布，其均值等于总体均值 μ，标准差等于总体标准差 σ 除以样本量 n 的平方根。

公式：
E(X̄) = μ
σ_X̄ = σ / √n

当样本量 n=1 时，样本均值的标准差与总体标准差相同。如果我们将样本量增加到 n=2，样本均值的均值 μ 保持不变，但其标准差会减小为 σ / √2。这使得抽样分布的曲线变得更高、更窄，样本均值更紧密地围绕在总体均值周围。

以下是样本量增加带来的影响：

随着样本量增加，抽样分布的标准差减小。
为了覆盖抽样分布中95%的样本均值，所需的误差范围会变小。
因此，置信区间整体变窄，对总体均值 μ 的估计更加精确。

让我们通过模拟来观察这一现象。当样本量 n=2 时，我们生成一些95%的置信区间。其中大约95%的区间会包含真实的总体均值 μ，大约5%的区间不会包含。当我们将样本量增加到 n=10 时，置信区间变得更窄，但同样有大约95%的区间会包含 μ。

虽然两种情况下置信水平都是95%，但样本量更大的置信区间明显更理想，因为它们更窄。这意味着在保持相同置信度的前提下，你能对 μ 的真实值做出更精确的估计。

置信水平对置信区间的影响 ⚖️

现在，让我们看看如果改变置信水平，而保持样本量不变，置信区间会发生什么变化。

我们将样本量固定为 n=1。当置信水平为95%时，误差范围较大，以确保随机生成的样本均值有95%的概率落在 μ 加减该误差范围的区间内。

假设你愿意接受一个更低的置信水平，例如70%。由于你只要求样本均值有70%的概率落在区间内，因此可以使用更小的误差范围。这将导致置信区间变窄。

以下是不同置信水平下的模拟结果：

对于95%的置信区间，大约95%的区间会包含 μ，大约5%不会。
对于70%的置信区间，大约70%的区间会包含 μ，大约30%不会。

右侧（70%置信水平）的区间更窄，并非因为其样本均值离 μ 更远，而是因为你选择了更小的误差范围，因此有更多的情况区间不包含 μ。

这体现了精确度与可靠性之间的权衡：如果你希望区间包含 μ 的概率更高（更可靠），就需要使用更大的误差范围（更不精确）。

核心要点总结 📝

本节课中我们一起学习了影响置信区间的两个关键因素。

样本量 n：增加样本量会减小样本均值抽样分布的标准差（σ_X̄ = σ / √n），从而允许我们在保持相同置信水平的情况下使用更小的误差范围，获得更窄、更精确的置信区间。
置信水平：降低置信水平（例如从95%降至70%）可以直接使用更小的误差范围，从而得到更窄的置信区间，但代价是区间包含总体均值 μ 的概率降低了。

最直接地缩小置信区间的方法是收集更多数据。虽然选择更低的置信水平也能使区间变窄，但在实践中，低于90%的置信水平很少使用，95%最为常见。归根结底，如果你想要更精确的估计，通常需要更多的数据。

到目前为止，我们是在较高层次上理解这些概念。在下一个视频中，你将学习误差范围以及置信区间具体是如何计算的。

080：置信区间与误差幅度

在本节课中，我们将学习如何构建置信区间，以量化样本统计量对总体参数的估计精度。我们将从理解误差幅度开始，逐步推导出置信区间的计算方法。

置信区间的基本构成

上一节我们介绍了样本均值的分布特性，本节中我们来看看如何利用它来构建置信区间。

置信区间由两个核心部分组成：样本均值和误差幅度。样本均值是我们从数据中计算出的中心点，而误差幅度则定义了围绕这个中心点的范围，用以捕捉总体参数。

以下是构建置信区间的基本步骤：

从总体中抽取一个样本，并计算样本均值 x̄。
根据所需的置信水平和样本信息，计算误差幅度。
将误差幅度与样本均值相加和相减，得到置信区间的下限和上限。

误差幅度的计算原理

既然我们已经知道如何计算样本均值，现在让我们更仔细地研究如何计算误差幅度。

我们从一个通用案例开始。假设你正在研究一个身高服从正态分布的群体，其总体均值 μ 未知，但总体方差 σ² 已知。这个随机变量称为 X。你的目标是找出总体平均身高 μ。

为此，你抽取一个大小为 n 的样本，并计算样本均值 x̄。你知道样本均值很可能不等于总体均值，但应该很接近。你的目标就是量化这个“接近”的程度。

样本均值 x̄ 本身也是一个随机变量。根据中心极限定理，如果样本量足够大，x̄ 的分布近似正态分布，其均值为 μ，方差为 σ²/n。这个分布以 μ 为中心，并且随着样本量增大，分布的离散程度（方差）会减小，使得样本均值更可能接近 μ。

关键点在于，你仍然不知道 μ，并且你只抽取了一个样本。你拥有的只是 x̄ 和已知的 σ。

Z分数与临界值

为了构建置信区间，我们需要回顾关于正态分布形状的一些有用事实。

对于任何正态分布，大约68%的曲线位于均值的一个标准差范围内，大约95%位于均值的两个标准差范围内。如果你知道正态分布的标准差，你就可以确定围绕均值 μ 的、包含任意百分比分布的范围。

这些距离均值特定标准差倍数的点有一个特殊的名称：Z分数或Z统计量。例如，比均值大2个标准差的点的Z分数是2，比均值低1个标准差的点的Z分数是-1。

Z分数的名称来源于标准正态分布（常称为Z分布）。你可以通过减去均值并除以标准差，轻松地将任何正态分布转换为标准正态分布。Z分布的均值为0，方差为1。

在使用Z分布时，Z分数就是该点的值本身。例如，在数值2处，你位于均值0以上2个标准差的位置。对于标准正态分布，你知道大约95%的分布位于-2和2之间。

为了使数学计算更简便，我们通常从标准正态分布的角度来讨论这个概念。如果你想要恰好95%的分布，那么精确到两位小数的Z分数是-1.96和+1.96。如果你从标准正态分布中随机抽样，95%的情况下，结果会落在这个范围内。5%的情况下，你的样本会落在这个范围之外。

-1.96和+1.96被称为临界值。它们是概率分布中包含特定精确百分比的截止点。要找到这些值，你需要查阅预先计算好的查找表或使用软件库，这不是手动计算的内容。

第一个临界值是 z_{0.025}。这个符号表示“找到那个在其左侧有2.5%分布曲线的Z分数”。从查找表或软件库中，你会得到结果-1.96。
第二个临界值是 z_{0.975}。它同样是“在其左侧有97.5%分布曲线的Z分数”的简写。

选择这两个值是因为正态曲线是对称的，并且你想要包含95%分布的均值周围区域。换句话说，你希望你的临界值排除5%的分布。这正好是上一节学到的显著性水平 α，在本例中 α = 0.05。

这意味着左侧临界值是 z_{α/2}，右侧临界值是 z_{1 - α/2}。如果 α = 0.1，那么你的临界值现在是 z_{0.05} 和 z_{0.95}，对应的Z分数大约是-1.65和+1.65，这两个值之间包含了90%的分布。

计算误差幅度

回到非标准化的正态分布，你仍然可以使用这些临界值。但由于分布没有标准化，你需要将它们乘以标准差。在本例中，95%的分布位于均值附近1.96个标准差范围内，所以你只需将该临界值乘以 σ。

现在你终于可以计算误差幅度了。你知道 x̄ 服从一个以 μ 为中心、方差为 σ²/n 的正态分布。这意味着其标准差是 σ / √n，这也被称为标准误。

因此，95%的样本均值将落在以下范围内：
μ - 1.96 * (σ / √n) < x̄ < μ + 1.96 * (σ / √n)

由此，你可以得到你的误差幅度，它等于 1.96 * 标准误，即 1.96 * (σ / √n)。

如果你选择了不同的 α 值，你将得到不同的误差幅度。你需要查找 z_{1 - α/2} 的值，并将其乘以你的标准误。

构建置信区间

你已经建立了误差幅度，现在让我们完成生成置信区间的最后几步。请记住，这个过程的最终目标是找到总体均值 μ 的下限和上限。

你刚刚发现，在概率0.95的情况下，你的样本均值会落在上面所示的范围内。但请注意，你实际上还没有找到 μ 的边界，你找到的是 x̄ 的边界。

因此，让我们变换这个不等式，以得到你真正想要的结果。从所有项中减去 μ：
-1.96 * (σ / √n) < x̄ - μ < 1.96 * (σ / √n)

现在，减去 x̄：
-x̄ - 1.96 * (σ / √n) < -μ < -x̄ + 1.96 * (σ / √n)

你几乎完成了，只需要将所有项乘以 -1 来清理中间的 -μ。请记住，如果你用一个负数乘以不等式，不等号的方向会改变。结果你得到：
x̄ + 1.96 * (σ / √n) > μ > x̄ - 1.96 * (σ / √n)

现在，你将不等式翻转到了另一个方向。这样就完成了，你成功地得到了一个界定 μ 的区间。

因此，你的置信区间最终是通过将误差幅度与样本均值相加和相减得到的区间：
[ x̄ - z_{1 - α/2} * (σ / √n), x̄ + z_{1 - α/2} * (σ / √n) ]

关于总体分布的说明

到目前为止，我们假设你处理的总体服从正态分布。在这种情况下，如果你有一个样本量为 n 的样本，那么样本均值也将服从正态分布，其均值与总体均值相同，但方差是总体方差的 1/n。

然而，数据并不总是正态分布的，甚至可能不知道总体的行为方式。那么刚才学到的内容还适用吗？

请记住，你实际上并不关心总体的分布。你需要的只是样本均值的分布，而这就是中心极限定理发挥作用的地方。如果 n 足够大，那么根据中心极限定理，你的样本均值仍然具有近似正态分布，并且其参数同样是 μ 和 σ²/n。因此，实际上没有任何变化。只要你选取足够大的样本，你刚刚学到的用于推导误差幅度的过程仍然成立。

总结

在本节课中，我们一起学习了如何构建置信区间来估计总体参数。我们从理解样本均值的分布出发，引入了Z分数和临界值的概念，并详细推导了误差幅度的计算公式 z_{1 - α/2} * (σ / √n)。最后，我们通过代数变换，得到了置信区间的最终形式：x̄ ± 误差幅度。重要的是，即使总体不服从正态分布，只要样本量足够大，中心极限定理也能保证这一方法的近似有效性。

接下来，你将找到一个交互式工具，可以在其中为伯努利分布和正态分布生成自己的置信区间。你将能够设置目标置信水平，并观察其对置信区间大小以及包含总体均值的置信区间比例的影响。这是亲手实践我所讨论概念的好机会。

081：置信区间计算步骤 📊

在本节课中，我们将学习如何计算置信区间。置信区间是一个范围，用于估计总体参数（如总体均值）可能落在其中的概率。我们将分步介绍其计算方法，并了解其背后的假设条件。

计算步骤详解

上一节我们介绍了置信区间的概念，本节中我们来看看其具体的计算步骤。以下是计算置信区间的六个核心步骤：

计算样本均值：首先，从你的样本数据中计算出样本均值（x̄）。
确定置信水平：定义一个期望的置信水平，例如 95% 或 99%。
查找临界值：根据你选择的置信水平（1 - α），找到对应的临界值（z* 或 t*）。例如，对于 95% 的置信水平，α = 0.05。
计算标准误差：这是样本均值分布的标准差。计算公式为：标准误差 = 样本标准差 / √样本容量。
计算误差范围：将临界值与标准误差相乘，得到误差范围。公式为：误差范围 = 临界值 × 标准误差。
构建置信区间：最后，将误差范围与样本均值相加和相减，得到置信区间的上下限。公式为：置信区间 = 样本均值 ± 误差范围。

通过以上步骤，你就完成了置信区间的计算。

关键假设条件

在应用上述方法计算置信区间时，需要满足以下两个关键假设，以确保结果的可靠性：

样本是随机抽取的：这保证了样本能够代表总体。
样本容量足够大或总体近似正态分布：通常要求样本容量 n > 30。如果样本容量较小，但总体分布近似正态，也可以使用。

请注意，尽管我们在示例中可能使用了小于30的样本容量进行说明，但在实际应用时，务必遵循这些假设条件。

总结

本节课中我们一起学习了置信区间的完整计算流程，从计算样本均值到最终确定区间范围。同时，我们也明确了计算有效的前提条件，即样本的随机性和足够的样本容量（或总体的正态性）。掌握这些步骤和假设，是正确进行统计推断的基础。

082：置信区间示例 📊

在本节课中，我们将通过一个具体的例子，学习如何计算和解释置信区间。我们将从一个估计全球人口平均身高的例子开始，然后逐步计算一个95%置信区间。

概述

置信区间为我们提供了一个范围，在这个范围内，我们有一定程度的信心（例如95%）认为真实的总体参数（如总体均值）会落在此区间内。它结合了点估计（如样本均值）和误差范围来计算。

从概念到计算

上一节我们介绍了置信区间的核心概念。本节中，我们来看看如何通过一个具体的例子进行计算。

假设我们想了解Statopia岛上成年人的平均身高。岛上共有6000名成年人，但我们无法测量所有人。因此，我们采取随机抽样的方法。

以下是我们的已知条件：

总体大小：6000人
样本大小：n = 49人
样本平均身高：x̄ = 170 厘米
已知的总体标准差：σ = 25 厘米
置信水平：95%

计算95%置信区间

我们的目标是找到一个区间，使得我们有95%的信心认为Statopia岛的真实平均身高位于该区间内。回想一下，95%置信水平对应的临界值 z* 是1.96。

计算过程分为两步：首先计算误差范围，然后构建置信区间。

1. 计算误差范围

误差范围的公式为：
误差范围 = z* × (σ / √n)

将我们的数值代入公式：
误差范围 = 1.96 × (25 / √49) = 1.96 × (25 / 7) ≈ 1.96 × 3.57 ≈ 7

因此，误差范围约为7厘米。

2. 构建置信区间

置信区间以样本均值为中心，向两侧扩展一个误差范围。公式为：
置信区间 = 样本均值 ± 误差范围

代入我们的数值：
置信区间 = 170 ± 7

所以，置信区间的下限是 170 - 7 = 163 厘米，上限是 170 + 7 = 177 厘米。

结果解释

我们计算出的95%置信区间是 [163厘米， 177厘米]。

这意味着：基于我们49人的样本数据，我们有95%的信心认为Statopia岛上所有6000名成年人的真实平均身高在163厘米到177厘米之间。需要注意的是，这并不意味着真实均值有95%的概率落在这个特定区间内（真实均值是一个固定值），而是指如果我们用同样的方法重复抽样多次，计算出的所有区间中，大约有95%会包含真实的总体均值。

总结

本节课中我们一起学习了置信区间的实际应用。我们从一个实际问题出发，使用样本均值、已知的总体标准差、样本大小以及Z临界值，逐步计算出了一个95%置信区间。关键步骤是计算误差范围 z* × (σ/√n)，然后构建区间 x̄ ± 误差范围。理解如何解释这个区间——“我们有95%的信心认为总体参数位于此区间内”——是掌握置信区间概念的核心。

083：计算样本大小 📊

在本节课中，我们将学习如何计算在给定置信水平和期望误差范围的情况下，所需的最小样本大小。我们将从一个具体例子出发，推导出通用的计算公式。

概述

上一节我们介绍了如何根据样本数据计算总体均值的置信区间。我们得到了一个误差范围，它告诉我们总体均值有95%的概率落在样本均值加减这个误差的区间内。然而，有时这个误差范围可能过大，无法满足我们对估计精度的要求。

本节中，我们来看看当误差范围过大时，如何通过增加样本量来缩小它。我们将学习如何计算达到特定误差范围所需的最小样本数量。

从具体问题出发

在之前的例子中，我们有一个6000名成年人的总体。我们抽取了49名成年人作为样本，其平均身高为170厘米，标准差为25厘米。我们计算出的95%置信区间误差范围约为7厘米，这意味着总体均值有95%的概率落在163厘米到177厘米之间。

假设我们认为7厘米的误差范围过大，希望得到一个更精确的估计，例如将误差范围控制在3厘米以内。那么，49的样本量显然不足。我们需要一个更大的样本来提供更高的精度。

核心问题是：为了达到期望的误差范围，所需的最小样本量是多少？

逆向推导样本量

我们将采用与计算置信区间相似但逆向的方法。回忆一下，误差范围的计算公式如下：

误差范围公式：

Me = Z_(α/2) * (σ / √n)

其中：

Me 是误差范围。
Z_(α/2) 是对应于置信水平的标准正态分布临界值（例如，95%置信水平下约为1.96）。
σ 是总体标准差（或样本标准差作为估计）。
n 是样本大小。

现在，我们知道除了 n 之外的所有值。我们的目标是让误差范围 Me 小于或等于3厘米。因此，我们可以建立不等式：

目标不等式：

3 ≥ Z_(α/2) * (σ / √n)

这里使用“大于等于”是因为误差范围小于3厘米（如2厘米或1厘米）结果更好，3厘米是我们能接受的最大值。

代入数值求解

将已知数值代入不等式。对于95%的置信水平，Z_(α/2) = 1.96；总体标准差 σ = 25厘米；目标误差 Me = 3厘米。

代入后得到：

3 ≥ 1.96 * (25 / √n)

现在，我们解这个不等式来求 n：

两边同时除以1.96： 3 / 1.96 ≥ 25 / √n
两边取倒数（注意不等式方向可能改变，但这里都是正数，方向不变）： 1.96 / 3 ≤ √n / 25
两边同时乘以25： 25 * (1.96 / 3) ≤ √n
最后，两边平方以解出 n： [25 * (1.96 / 3)]^2 ≤ n

计算这个值：

n ≥ [25 * (1.96 / 3)]^2 ≈ [25 * 0.6533]^2 ≈ [16.333]^2 ≈ 266.78

由于样本量 n 代表人数，必须是整数，所以我们向上取整。因此，我们需要至少267名成年人的样本，才能确保在95%的置信水平下，对总体平均身高估计的误差范围不超过3厘米。

通用公式

我们可以将上述求解过程推广为一个通用公式，用于计算在给定置信水平、总体标准差和期望误差范围下的最小样本量。

最小样本量计算公式：

n ≥ [ Z_(α/2) * (σ / Me) ]^2

以下是使用此公式的步骤：

确定置信水平：例如95%，并找到对应的 Z_(α/2) 值（如1.96）。
确定总体标准差 (σ)：可以使用历史数据、预实验或合理的估计值。
确定期望的误差范围 (Me)：即你允许的估计值与真实值之间的最大差距。
代入公式计算：将以上值代入公式 [ Z_(α/2) * (σ / Me) ]^2。
向上取整：因为样本量必须是整数，所以对计算结果向上取整。

你可以将任何期望的误差范围代入这个方程，计算出所需的最小样本量 n。

总结

本节课中，我们一起学习了如何计算为达到特定精度（误差范围）所需的最小样本大小。我们从回顾置信区间误差范围公式出发，通过逆向思维，建立了目标不等式并求解。最终，我们推导出了通用的最小样本量计算公式 n ≥ [ Z_(α/2) * (σ / Me) ]^2。掌握这个方法，可以帮助你在设计实验或调查时，科学地确定需要收集多少数据，从而在资源有限的情况下做出最有效的推断。

084：置信度与概率之间的区别

在本节课中，我们将要学习置信区间中“置信度”与“概率”这两个概念之间的关键区别。理解这一区别对于正确解释统计推断的结果至关重要。

概述

当我们基于样本数据计算出一个置信区间时，例如一个95%的置信区间，对其含义的解释需要格外小心。常见的两种说法看似相似，实则存在根本性的差异。本节将深入探讨这一差异，并阐明置信度的真正含义。

核心概念解析

首先，我们需要明确两个核心对象：总体参数和样本统计量。

考虑一个总体参数，例如总体均值，通常用符号 μ 表示。μ 的一个关键特性是，对于一个给定的总体，它是一个固定的、未知的常数。它不随我们的抽样而改变。因此，μ 本身没有概率分布，因为它不是随机变量，只是一个我们不知道的确定值。

由于 μ 是固定的，对于任何一个计算出的具体置信区间，μ 要么在这个区间内，要么不在。这是一个非此即彼的事实，不会以某个概率“落入”区间。

另一方面，样本均值（通常表示为 x̄）则不同。x̄ 是一个随机变量，因为它依赖于我们随机抽取的样本。如果我们重复抽样，每次得到的 x̄ 值都可能不同。x̄ 的分布被称为样本均值的抽样分布。

置信度的真正含义

上一节我们介绍了总体参数和样本统计量的根本区别，本节中我们来看看“95%置信度”究竟指的是什么。

置信区间的构建与样本均值 x̄ 及其抽样分布紧密相关。当我们说“我们95%确信总体均值在某个区间内”时，这里的“确信”或“置信度”并非指该特定区间包含 μ 的概率。

实际上，95%的置信度与重复抽样过程有关。其含义是：如果我们从同一总体中反复抽取无数个相同大小的样本，并为每个样本计算一个95%的置信区间，那么在所有计算出的区间中，大约有95%会包含真实的总体均值 μ。

以下是理解这一过程的步骤：

从一个总体中抽取一个随机样本。
计算该样本的均值 x̄。
基于 x̄ 和抽样分布的标准误，计算一个95%的置信区间。
重复步骤1-3很多次。

最终，大约95%的这样构造出来的区间会“捕获”到固定的总体均值 μ。因此，置信度描述的是区间构造方法的长期成功率，而不是针对某一个特定区间的概率陈述。

错误解释与正确解释

为了更清晰地展示区别，我们对比以下两种说法：

正确解释：“我有95%的置信度认为，这个置信区间包含了真实的总体参数。” 这反映了区间构造方法的可靠性。
错误解释：“总体参数有95%的概率落在这个置信区间内。” 这种说法错误地将概率赋予了固定的总体参数 μ。对于已经计算出的一个具体区间，μ 要么在内（概率为100%），要么在外（概率为0%），不存在95%的概率。

总结

本节课中我们一起学习了置信度与概率之间的微妙而重要的区别。核心要点在于：总体参数（如 μ）是固定的，而置信区间是随机的。95%的置信度并非指某个特定区间包含参数的概率，而是指在重复抽样中，使用该方法构建的区间能包含参数的比例。正确理解这一点，是避免统计误用、合理解读数据分析结果的基础。

085：未知标准差下的置信区间 📊

在本节课中，我们将学习当总体标准差未知时，如何构建置信区间。我们将引入一个新的分布——学生T分布，并了解它如何替代正态分布来处理样本标准差。

概述

在之前的课程中，我们进行了大量的点估计，但都假设已知总体标准差。然而，实际情况中我们常常不知道总体标准差。这并非问题，我们只需在计算中做一个小调整，引入学生T分布即可。

已知标准差的情况回顾

上一节我们介绍了已知总体标准差时，如何利用正态分布构建置信区间。其公式为：

置信区间 = x̄ ± Z_{α/2} * (σ / √n)

这个公式成立的前提是我们知道总体标准差σ。这使得抽样分布统计量围绕总体均值呈正态分布，因此我们可以使用临界值Z_{α/2}。

未知标准差的问题与解决方案

然而，更多时候我们并不知道总体标准差。这导致我们无法在公式中使用σ。为了解决这个问题，我们需要使用样本标准差S来替代σ。

当我们用S替代σ后，抽样分布统计量变为：

(x̄ - μ) / (S / √n)

这个统计量不再服从正态分布，而是服从一种新的分布，称为学生T分布。

与正态分布相比，学生T分布形状相似，但尾部更厚。这意味着从T分布中抽取的点，比从正态分布中抽取的点，更有可能远离中心。

调整临界值：从Z分数到T分数

为了适应分布的变化并得到准确的置信区间，我们需要调整用于缩放的临界值。

在已知σ（使用正态分布）的情况下，我们使用Z分数。
在未知σ（使用学生T分布）的情况下，我们使用T分数。

因此，修正后的置信区间公式为：

置信区间 = x̄ ± t_{α/2} * (S / √n)

以下是两种情况的公式对比：

情况	标准差来源	分布	临界值	置信区间公式
已知σ	总体标准差 (σ)	正态分布	Z分数 (Z_{α/2})	x̄ ± Z_{α/2} * (σ / √n)
未知σ	样本标准差 (S)	学生T分布	T分数 (t_{α/2})	x̄ ± t_{α/2} * (S / √n)

自由度对T分布的影响

T分数的大小取决于一个称为自由度的参数。对于T分布，自由度等于样本量减一：df = n - 1。

自由度定义了T分布的形状：

自由度越小，T分布的尾部越厚，与正态分布差异越大。
自由度越大，T分布的尾部越薄，形状越接近正态分布。

这符合直觉：使用的样本量n越大，样本标准差S就越接近总体标准差σ。当S无限接近σ时，使用T分布的结果就无限接近使用正态分布的结果。

总结

本节课中，我们一起学习了当总体标准差未知时构建置信区间的方法。核心在于用样本标准差S替代总体标准差σ，并相应地使用来自学生T分布的T分数替代来自正态分布的Z分数。我们还了解了自由度如何影响T分布的形状，以及随着样本量增加，T分布会趋近于正态分布。

086：比例的置信区间 📊

在本节课中，我们将要学习如何为比例构建置信区间。上一节我们介绍了如何为样本均值计算置信区间，本节中我们来看看当数据是比例（例如，拥有某物的人数比例）时，方法有何不同。

从均值到比例

上一节我们学习了在已知样本均值的情况下如何计算置信区间。那时我们处理的是像人口平均身高这样的连续数值。其置信区间公式为：

样本均值 ± 边际误差

其中，边际误差 = z值 × (标准差 / √样本量)。

现在，我们的问题变成了估计一个比例。例如，我们想了解Statopia地区成年人拥有汽车的比例。

比例问题的示例

假设我们进行了一项抽样调查。

以下是具体步骤：

我们抽取了30人作为样本（n = 30）。
调查发现，其中24人拥有汽车（x = 24）。
因此，样本比例 P̂ = 24 / 30 = 0.8 或 80%。

这个80%是我们的样本比例，但它很可能不是真实的总体比例。我们需要围绕这个点估计构建一个置信区间。

比例的置信区间公式

与均值的置信区间类似，比例的置信区间也由点估计加减一个边际误差构成。

其通用公式为：
置信区间 = P̂ ± 边际误差

关键的区别在于边际误差的计算方法。对于比例，边际误差的公式是：

边际误差 = 临界值 × √[ P̂ × (1 - P̂) / n ]

P̂：样本比例
n：样本量
临界值：取决于所选的置信水平（如95%对应1.96）

这个公式中的 √[ P̂ × (1 - P̂) / n ] 被称为比例的标准误差，它类似于均值分布中的 σ / √n，衡量的是样本比例估计的波动性。

计算示例：汽车拥有率的95%置信区间

让我们将公式应用到之前的例子中。我们已经知道：

样本比例 P̂ = 0.8
样本量 n = 30
对于95%的置信水平，临界值 = 1.96

现在，计算边际误差：

计算标准误差部分：P̂ × (1 - P̂) = 0.8 × 0.2 = 0.16
除以n：0.16 / 30 ≈ 0.00533
取平方根：√0.00533 ≈ 0.073
乘以临界值：边际误差 = 1.96 × 0.073 ≈ 0.143

因此，95%的置信区间为：
0.8 ± 0.143

这表示区间从 0.657 到 0.943。

结果解读

我们可以这样得出结论：我们有95%的信心认为，Statopia地区成年人拥有汽车的真实总体比例在65.7%到94.3%之间。

总结

本节课中我们一起学习了如何为样本比例构建置信区间。核心要点是，比例的置信区间公式为 P̂ ± z × √[P̂(1-P̂)/n]*，其中标准误差的计算与均值情况不同。通过计算，我们可以得到一个范围，并以特定的置信水平（如95%）断言总体比例落在这个范围内。

087：假设检验与A/B测试 🧪

在本节课中，我们将学习假设检验的基本概念。这是一种用于判断关于总体的某个信念（假设）是否可能为真的统计方法。随后，我们将探讨假设检验的一个重要应用——A/B测试。

假设检验简介

上一节我们介绍了概率分布，本节中我们来看看如何利用数据对假设进行检验。假设检验是一种方法，用于判断你对总体的某个信念（假设）是可能为真还是为假。

为了理解假设检验，让我们从一个简单的例子开始。

假设你有一个垃圾邮件检测器，它的功能是判断一封给定的电子邮件是正常邮件（Ham）还是垃圾邮件（Spam）。默认情况下，我们假设所有邮件都是正常邮件。这样做的原因是，误删一封好邮件比不小心让一封垃圾邮件进入收件箱的后果要严重得多。

我们的基础假设是“邮件是正常邮件”，这被称为原假设。原假设是我们安全地假设“没有特殊情况发生”时的基准。

原假设记作 H₀。

然后我们有一个备择假设，记作 H₁。这是我们试图去识别或证明的特殊情况。在原假设和备择假设中，一个重要的特性是它们必须互斥，因为一封邮件不可能同时是正常邮件和垃圾邮件。

此外，这些假设必须能得出“真”或“假”的答案。设计一组好的假设的关键在于，需要有大量证据表明邮件是垃圾邮件时，我们才能拒绝原假设，并接受备择假设（即邮件是垃圾邮件）为真。

但反过来则不成立：如果收集到的证据不足以证明邮件是垃圾邮件，那么你不能拒绝原假设。然而，这并不意味着邮件就是正常邮件，仅仅说明我们没有足够的证据证明它是垃圾邮件。

如何提出假设

通常，你需要提出你的假设。原假设是基准，备择假设则代表与之竞争的陈述。由于结论的不对称性，备择假设通常是你真正感兴趣并希望证明的那个。

假设检验的目标是基于数据和证据，在两个假设之间做出决定。在垃圾邮件的例子中，证据可能来自发件人、附件、邮件大小、特定关键词等任何可以用来证明邮件是垃圾邮件的信息。

直观地说，在进行假设检验时，如果你的样本提供了大量反对H₀的证据，那么你将拒绝原假设，从而接受备择假设。

一个具体例子

在这种情况下，你的证据将基于邮件中的不同词语或短语。假设你收到一封包含以下短语的邮件：“轻松赚外快”、“无风险”、“亲爱的朋友”、“立即行动”、“立即申请”、“赢家”。这些都是检测垃圾邮件的触发短语。

事实上，如果邮件是正常邮件（即原假设成立），这些短语出现的可能性非常低。在这种情况下，你会拒绝H₀，并将邮件标记为垃圾邮件。

本节课中我们一起学习了假设检验的基本框架：如何定义互斥的原假设（H₀）和备择假设（H₁），以及如何基于收集到的证据在两者之间做出决策。理解这种“拒绝H₀”而非“证明H₁”的逻辑不对称性至关重要。

088：第一类与第二类错误

概述

在本节课中，我们将要学习假设检验中的两种错误类型：第一类错误与第二类错误。我们将了解它们的定义、区别、影响，以及如何通过设定显著性水平来控制这些错误。

理想与现实

理想情况下，我们总是希望做出完美的决策。然而，由于世界的随机性以及我们只能从研究总体中获得部分信息，这无法得到保证。

可能出错的两种情况

那么，什么可能出错呢？在假设检验中，测试有两种可能的结果：要么你将邮件发送到垃圾箱，要么你将其发送到常规收件箱。这两种结果都可能出错。

以下是两种错误的定义：

第一类错误：也称为假阳性。当你将一个常规邮件（非垃圾邮件）发送到垃圾箱时，就发生了第一类错误。这发生在原假设 H0 实际上为真时，你却拒绝了它。
第二类错误：也称为假阴性。当你错误地将一个垃圾邮件判定为非垃圾邮件（常规邮件）时，就发生了第二类错误。这发生在原假设 H0 实际上为假时，你却没有拒绝它。

理解这一点很重要：你永远无法确切知道你的决策是否正确，因为你不知道真实情况。然而，你会尽力设计一个测试，将这些错误控制在可接受的阈值以下。

决策结果汇总表

上一节我们介绍了两种错误的定义，本节中我们来看看一个总结决策可能结果的表格。

如果真实情况是 H0 为真（即邮件实际上不是垃圾邮件），那么：

如果你拒绝了 H0，你将犯下第一类错误。这意味着你将一封完全正常的邮件发送到了垃圾箱。
如果你决定不拒绝 H0，那么你做出了正确的判断。这意味着你将一封好邮件发送到了收件箱，正如你应该做的那样。

如果真实情况是 H1 为真（即邮件是垃圾邮件），那么：

拒绝 H0 将是正确的决定。这意味着如果你收到一封垃圾邮件，你正确地将其发送到了垃圾箱。
不拒绝 H0 将导致第二类错误。这意味着你拿了一封垃圾邮件并将其发送到了收件箱。

错误的影响与权衡

请注意，第一类错误和第二类错误对问题的影响并不相同。

在电子邮件的例子中，假设邮件是非垃圾邮件，那么将垃圾邮件发送到收件箱比将非垃圾邮件发送到垃圾箱要好。这是事实：你宁愿收件箱里有一封偶然的垃圾邮件，也不愿丢失一封完全正常的邮件，并且因为分类器认为它是垃圾邮件而永远无法阅读它。

这意味着第一类错误比第二类错误更严重。那么问题在于，你愿意在这里做出多大的妥协？你愿意容忍的第一类错误的最大概率是多少？换句话说，为了拥有一个仍然能将大多数邮件发送到正确位置的良好垃圾邮件检测器，你平均愿意错误地将多少封非垃圾邮件发送到垃圾箱？

显著性水平

这个第一类错误的最大概率被称为显著性水平，通常用希腊字母 α 表示。当然，因为它是一个概率，所以它的值在 0 和 1 之间。

如果 α = 0，意味着无论你获得什么证据，邮件总是被认为是非垃圾邮件。在这种情况下，你永远不会犯第一类错误。
另一方面，如果显著性水平 α = 1，意味着每封邮件都被认为是垃圾邮件。在这种情况下，每次你收到非垃圾邮件时，你都会犯第一类错误。

当然，这两种极端情况都是糟糕的决策者。你想要的是一种能够定义邮件是否为垃圾邮件，并且尽可能减少第一类错误的方法。然而，正如你所见，这个错误永远不可能为 0，所以一个典型的考虑值是 α = 0.05 作为你的显著性水平。这意味着平均而言，你将有 5% 的时间判定一封非垃圾邮件为垃圾邮件。另一个常见的值是 α = 0.01。

两类错误之间的权衡

正如我们所说，你希望 α 尽可能小。但是，这里有一个小问题：对于一个固定的样本数量，如果你过多地降低第一类错误的概率，那么你就会增加第二类错误的概率。这就是我们想到 α = 0 的场景时会发生的情况。

为了给出显著性水平的正确定义：它是犯第一类错误的最大概率，这也等同于当 H0 实际上为真时，拒绝 H0 的最大概率。α 的值是你设计这个检验的标准。这意味着 α 将根据你的样本，决定一个阈值来判断是否应该拒绝 H0。

总结

本节课中，我们一起学习了假设检验中的核心概念：第一类错误（假阳性）和第二类错误（假阴性）。我们了解到第一类错误通常被认为更严重，并通过设定显著性水平 α 来控制它。同时，我们也认识到在固定样本量的情况下，减少第一类错误的概率会增加第二类错误的概率，因此需要在两者之间进行权衡。α 作为检验的设计标准，为我们提供了做出统计决策的阈值依据。

089：右侧、左侧与双尾检验

在本节课中，我们将学习如何进行关于总体均值的假设检验。我们将涵盖两种情况：已知总体标准差和未知总体标准差。在未知标准差的情况下，我们将再次遇到一个熟悉的概念——学生t分布。此外，我们还将学习一个非常重要的概念：P值。

为了清晰地理解假设检验以及显著性水平如何发挥作用，让我们分析另一个例子。

数据准备与假设

想象你对美国18岁青年的平均身高感兴趣，并测量了10个人的身高（单位：英寸）。如果你还记得，这正是我们在第二课中用于对平均身高进行最大似然估计的同一数据集。

这些样本值的平均身高是 68.442 英寸。

在深入假设检验之前，还有一点需要考虑：数据质量。既然你的目标是根据数据做出决策，那么数据必须是可靠的，否则你将得出错误的结论。

那么，可靠意味着什么？

每个样本必须能代表总体。
数据需要完全随机化，以避免在决策过程中引入偏差。

例如，如果你对美国18岁青年的身高感兴趣，但所有样本都来自各学校的篮球队，那么你就在样本中引入了偏差，因为一般来说，篮球运动员更高。

你还应考虑可用数据的数量。样本量是否足以做出好的决策？一个经验法则是考虑30个或更多的样本。

在接下来的例子中，我们将假设我们拥有的样本足以进行检验。

构建假设

历史数据显示，20世纪70年代美国18岁青年的平均身高是 66.7 英寸。

基于观察到的数据，你能确认美国18岁青年的平均身高增加了吗？你拥有的样本均值是68.442，大于66.7，但这足以确认假设吗？

让我们尝试构建零假设和备择假设。这里的基线是“没有变化”，因此零假设是18岁青年的总体均值仍然是66.7英寸。备择假设是总体均值大于66.7英寸。

请注意，假设总是根据总体参数（本例中是总体均值）来构建，绝不能涉及样本。

现在，假设是基于总体参数的，但决策将基于你的观察结果。在这个例子中，你将基于样本均值（随机样本X的平均值）做出决策。

如果你的决策是基于样本均值做出的，那么样本均值就是你的检验统计量。请注意，这是一个随机变量，尚未依赖于你拥有的特定观测值。另一方面，数值68.442被称为观测统计量，它基于你的测量结果。

一般来说，检验统计量是随机样本的一个函数，它提供关于你想要研究的总体参数的信息。例如：

如果你正在检验总体均值，一个好的统计量是样本均值。
同样，对于检验概率或发生率，样本比例是合适的。
如果你想检验总体的方差，那么一个好的候选者是S²统计量。

需要指出的是，检验统计量不是唯一的。例如，Xi与样本均值之间的平方和差异也可以用作方差的检验统计量。你将在后续视频中看到一个关于此的例子。

三种假设检验类型

回到我们的例子，我们想比较当前的总体均值与20世纪70年代的总体均值。在这种情况下，会产生三组问题，每组问题都对应一组假设。

以下是三种主要的假设检验类型：

1. 右侧检验
第一个问题是：过去50年，总体身高是否增加了？这里的基线是平均身高保持不变，而你想要证明的是总体均值实际上增加了。这意味着你的H0是 μ = 66.7，H1是 μ > 66.7。这被称为右侧检验，因为备择假设延伸到零假设的右侧。也就是说，因为大于66.7的数字在66.7的右边。

2. 左侧检验
第二个问题是：总体均值在过去50年是否下降了？这引出了零假设 μ = 66.7 和备择假设 μ < 66.7。这种假设被称为左侧检验，因为备择假设在零假设的左侧。也就是说，小于66.7的数字在66.7的左边。

3. 双尾检验
最后一个问题是：平均身高是否发生了任何变化（无论是变大还是变小）？在这种情况下，H0仍然是 μ = 66.7，而H1是 μ ≠ 66.7。这是一个双尾检验，因为它表示μ已经改变，并且要么移到了66.7的右边，要么移到了66.7的左边。

请注意，对于这些情况，零假设或基线总是相同的，但备择假设会根据你想要证明的内容而变化。

检验类型与决策错误

现在让我们考虑第一组假设（右侧检验）。由于你试图对总体均值做出结论，很自然地会考虑使用样本均值来接近总体均值。

如果你的样本均值远大于66.7（即H0），那么你就拒绝H0并接受H1。

这里可能犯哪两种错误呢？

第一类错误：当真实值实际上是66.7时，却判定μ大于66.7。
第二类错误：当你判定总体均值保持不变，但真实值实际上更大时发生。

接下来看第二组假设（左侧检验）。这里H0仍然是总体均值为66.7，你的备择假设是数值实际上在这些年里下降了。在这种情况下，如果你的样本均值远小于66.7，那么你将拒绝H0。

在这种情况下，当总体均值没有变化，但你接受了μ小于66.7的假设时，就会发生第一类错误。
而当实际上总体平均身高下降了，你却没有拒绝H0时，就会发生第二类错误。

最后考虑第三组假设（双尾检验）。在这种情况下，当样本与66.7的差异很大时，你将拒绝H0。由于差异可以是任何方向，一个简单的表示方法就是取样本均值与H0中值（66.7）之差的绝对值。

在这种情况下，当总体均值没有变化，但你接受了μ不同于66.7的假设时，就会发生第一类错误。
而当实际上总体平均身高发生了变化，你却没有拒绝H0时，就会发生第二类错误。

总结

本节课中，我们一起学习了假设检验的核心步骤。我们首先强调了数据质量的重要性，然后学习了如何根据研究问题构建零假设和备择假设。我们详细介绍了三种主要的假设检验类型：右侧检验、左侧检验和双尾检验，并理解了它们各自的应用场景。最后，我们分析了在每种检验类型中可能发生的第一类错误和第二类错误，为后续学习P值和显著性水平等概念奠定了基础。

090：P值与假设检验决策

概述

在本节课中，我们将要学习假设检验中的一个核心概念——P值。我们将了解P值的定义、计算方法，以及如何利用P值，结合预先设定的显著性水平，对原假设做出“拒绝”或“不拒绝”的统计决策。我们将通过单侧（右尾、左尾）和双侧检验的具体例子来阐明这一过程。

P值的定义与作用

上一节我们介绍了假设检验的基本思想：如果样本均值与原假设的预期值相差太远，就拒绝原假设。但“太远”具体意味着什么？这需要借助P值来量化。

P值是在原假设H0为真的前提下，检验统计量取得与观测值一样极端或更极端值的概率。P值衡量了在当前原假设下，观测到当前样本（或更极端情况）的“惊奇程度”。一个很小的P值意味着，如果原假设为真，那么当前样本结果将非常不可能发生，这构成了拒绝原假设的证据。

右尾检验中的P值

让我们回顾之前的例子。原假设H0：美国男性平均身高μ = 66.7英寸。备择假设H1：μ > 66.7英寸（身高增加）。我们已知总体标准差σ = 3英寸，样本量n = 10，观测到的样本均值 x̄ = 68.442英寸。

在原假设H0为真（μ = 66.7）的条件下，样本均值 x̄ 服从正态分布：
x̄ ~ N(μ0 = 66.7, σ²/n = 3²/10)

我们设定显著性水平α = 0.05。第一类错误（错误地拒绝真原假设）的概率不应超过α。

对于右尾检验，P值定义为观测到比当前样本均值更大或相等的极端值的概率：
P值 = P(x̄ ≥ 68.442 | H0为真)

计算这个概率（即下图中68.442右侧的阴影面积），我们得到P值 ≈ 0.0332。

由于计算出的P值 (0.0332) 小于我们设定的显著性水平α (0.05)，我们得出结论：有足够的证据拒绝原假设H0，接受备择假设H1，即认为平均身高增加了。

决策规则

基于P值的假设检验决策规则是通用的：

如果 P值 ≤ α，则拒绝原假设H0。
如果 P值 > α，则没有足够的证据拒绝原假设H0。

这个规则将统计证据的强度（P值）与我们愿意承担的风险（α）直接联系起来。

不同检验类型的P值计算

P值的具体计算方式取决于备择假设的方向。令T为检验统计量，T_obs为其观测值，μ0为原假设中的参数值。

以下是三种常见假设检验的P值定义：

右尾检验 (H1: μ > μ0)
P值是检验统计量大于或等于观测值的概率。
P值 = P(T ≥ T_obs | H0为真)
左尾检验 (H1: μ < μ0)
P值是检验统计量小于或等于观测值的概率。
P值 = P(T ≤ T_obs | H0为真)
双侧检验 (H1: μ ≠ μ0)
P值是检验统计量取值比观测值更极端（即距离μ0更远）的概率，需要考虑两侧尾部。
P值 = P(|T - μ0| ≥ |T_obs - μ0| | H0为真)

双侧检验示例

现在考虑双侧检验的情况。原假设H0：μ = 66.7。备择假设H1：μ ≠ 66.7。使用相同的样本数据（x̄ = 68.442）。

此时，P值需要计算样本均值与原假设值66.7的绝对差异大于等于观测差异（|68.442 - 66.7| = 1.742）的概率。这涉及到分布的两侧尾部。

计算得到的P值约为0.0663，这恰好是右尾检验P值(0.0332)的两倍。因为0.0663 > 0.05 (α)，所以我们不拒绝原假设H0。这表明，如果只关心身高是否有任何变化（增或减），当前证据尚不充分。

左尾检验示例

最后，我们看一个左尾检验的例子。假设我们怀疑平均身高降低了，备择假设为H1: μ < 66.7。现在想象我们观测到一个不同的样本均值 x̄ = 64.252。

P值计算为在原假设下，样本均值小于或等于64.252的概率：
P值 = P(x̄ ≤ 64.252 | H0为真)

计算这个概率（下图左侧阴影面积），得到P值 ≈ 0.0049。

这个P值远小于α = 0.05，甚至小于更严格的α = 0.01。因此，我们坚决拒绝原假设，接受备择假设，认为平均身高确实降低了。

使用Z统计量进行检验

之前的所有检验都直接基于样本均值 x̄ 的分布。另一种常见且等价的方法是使用标准化的Z统计量：
Z = (x̄ - μ0) / (σ/√n)

如果原假设H0为真，则Z统计量服从标准正态分布 N(0, 1)。

以右尾检验为例，观测到的Z值为：
Z_obs = (68.442 - 66.7) / (3/√10) ≈ 1.837

此时，事件“x̄ ≥ 68.442”等价于事件“Z ≥ 1.837”。因此，P值可以重新计算为：
P值 = P(Z ≥ 1.837 | H0为真)

从标准正态分布表中查得，该概率同样约为0.0332。使用Z统计量的优势在于，我们只需与一个标准分布（标准正态分布）打交道，简化了计算和查表过程。

总结

本节课中我们一起学习了假设检验的核心决策工具——P值。

我们首先明确了P值的定义：它是在原假设成立的前提下，得到当前观测结果或更极端结果的概率。P值越小，反对原假设的证据越强。

接着，我们掌握了基于P值的通用决策规则：将计算出的P值与预先选定的显著性水平α进行比较，若P值 ≤ α则拒绝H0，否则不拒绝。

我们通过右尾、左尾和双侧检验的具体算例，演示了P值在不同检验类型中的计算方法及其对决策的影响。最后，我们介绍了使用标准化Z统计量进行检验的等价方法，这通常能简化计算。

理解P值是理解现代统计推断的基石，它使我们能够基于数据和概率，对关于世界的假设做出量化的、可重复的决策。

091：临界值

概述

在本节课中，我们将要学习假设检验中的另一个重要概念——临界值。我们将了解临界值如何定义，它与显著性水平α的关系，以及如何利用临界值来制定决策规则，从而在收集数据之前就确定拒绝原假设的标准。

临界值的定义

上一节我们介绍了基于观测统计量的P值进行决策的方法。本节中我们来看看临界值。

临界值是指，在给定的显著性水平α下，能够使P值恰好等于α的最不极端的样本统计量值。任何比这个临界值更极端（即更有利于备择假设）的观测值，其P值都会小于α，从而拒绝原假设。临界值通常记作 k_α，以强调它对α的依赖。

关于临界值的一个关键特性是：任何比临界值更极端的观测统计量，其P值总是小于或等于α。因此，你可以基于临界值创建一个决策规则。

右尾检验示例

让我们再次回到关于18岁人群平均身高的右尾检验例子。

原假设 H₀：总体均值 μ = 66.7
备择假设 H₁：总体均值 μ > 66.7
样本量 n = 10
总体标准差 σ = 3
我们感兴趣的显著性水平 α = 0.05

我们需要找到临界值 k_0.05，它使得P值恰好等于0.05。这等价于在统计量分布中找到右侧尾部面积为0.05的那个点。

当原假设H₀（μ = 66.7）为真时，样本均值 X̄ 服从正态分布：
X̄ ~ N(μ=66.7, σ_X̄ = 3/√10)

对于这个分布，临界值 k_0.05 就是其 1 - 0.05 = 0.95 分位数。计算可得：
k_0.05 ≈ 68.26

现在，我们可以制定决策规则：如果观测到的样本均值大于68.26，则拒绝原假设H₀。

临界值的一个优点是，你可以在收集任何数据之前就定义好决策规则。一旦获得数据，只需计算观测统计量，即可根据此规则做出决策。

在我们的例子中，观测到的样本均值是68.442，它大于临界值68.26。因此，在α=0.05的显著性水平下，我们将拒绝原假设。这个结论与之前使用P值方法得出的结论完全一致。

改变显著性水平的影响

如果我们改变显著性水平α会怎样？例如，将α从0.05改为0.01。

由于0.01比0.05更小，这意味着我们要求更严格的证据来拒绝H₀。因此，临界值 k_0.01 必然会向右移动（变得更大）。计算可得新的临界值：
k_0.01 ≈ 68.91

此时的决策规则变为：如果观测到的样本均值大于68.91，则拒绝原假设H₀。

用我们的数据（样本均值68.442）来看，由于68.442 < 68.91，因此在α=0.01的显著性水平下，我们不能拒绝原假设。

不同类型检验的临界值

现在，让我们看看临界值在各类检验中是如何定义的。

以下是不同检验类型中临界值的确定方法：

右尾检验：临界值 k_α 是当H₀为真时，统计量分布中右侧尾部面积为α的那个值。它对应于 1 - α 分位数。
- 决策规则：如果观测统计量 T > k_α，则拒绝H₀。
左尾检验：临界值 k_α 是当H₀为真时，统计量分布中左侧尾部面积为α的那个值。它对应于 α 分位数。
- 决策规则：如果观测统计量 T < k_α，则拒绝H₀。
双尾检验：错误概率α需要平分在分布的两个尾部。因此需要找到两个临界值：
- k_α1：右侧尾部面积为 α/2，对应于 1 - α/2 分位数。
- k_α2：左侧尾部面积为 α/2，对应于 α/2 分位数。
- 决策规则：如果观测统计量 T > k_α1 或 T < k_α2，则拒绝H₀。

总结

本节课中我们一起学习了临界值的概念与应用。

临界值 k_α 可以根据检验设计（如样本量、总体分布信息）和选定的显著性水平α预先确定，无需样本数据。
P值方法和临界值方法必须始终导向相同的统计结论。
使用临界值法，可以在收集数据之前就制定明确的决策规则，这带来了一个重要的优势：由于决策规则不依赖于具体观测值，我们可以更容易地计算第二类错误的概率。我们将在接下来的视频中深入探讨这一点。

092：检验功效

在本节课中，我们将学习假设检验中的另一个核心概念——检验功效。我们将回顾第一类错误与第二类错误，并深入探讨如何量化做出正确决策的概率。

第一类与第二类错误回顾

上一节我们介绍了假设检验的基本框架，并定义了第一类错误（弃真）和第二类错误（存伪）。到目前为止，我们的讨论主要围绕第一类错误和显著性水平展开。

让我们再次考虑一个例子：你想检验美国18岁青年的平均身高是否比70年代的66.7英寸有所增加。第一类错误发生在：当总体均值实际上仍然是66.7英寸时，你却错误地拒绝了“总体均值等于66.7英寸”这个原假设。

现在，我们将关注第二类错误。这种错误发生在：当原假设不成立时，你却未能拒绝它。

需要注意的是，第一类错误只可能发生在原假设为真的那个特定总体均值上（本例中是66.7）。然而，第二类错误可以发生在任何大于66.7的总体均值上。

计算第二类错误的概率

对于这个例子，我们假设样本容量 n = 10，总体标准差 σ = 3。

在之前的课程中，我们得出在显著性水平 α = 0.05 下，临界值为 68.26。因此，决策规则是：如果观测到的样本均值大于68.26，则拒绝原假设。

现在，我们可以问自己一个问题：如果总体均值的真实值实际上是70，那么犯错误的概率是多少？这就是第二类错误的概率。

我们要求的是：在总体均值真实值为70的条件下，不拒绝原假设的概率。根据我们设定的决策规则，这等价于在总体均值为70的条件下，样本均值小于68.26的概率。

需要记住：

如果原假设 H0 为真（μ = 66.7），样本均值服从正态分布：X̄ ~ N(66.7, 3/√10)。
如果真实总体均值 μ = 70，那么样本均值将服从另一个正态分布：X̄ ~ N(70, 3/√10)。

不拒绝 H0 的概率（即第二类错误概率）就是下图蓝色区域的面积，对应于样本均值小于临界值68.26的概率。计算可得，这个概率值 β ≈ 0.0333。

第二类错误的概率通常用希腊字母 β 表示。一个非常有趣的点是：这个概率不依赖于观测到的具体样本，只取决于你为检验所选择的显著性水平 α。

这里我们只考虑了 μ = 70 的情况，但实际上，你可以计算出备择假设中任意μ值所对应的第二类错误概率 β。

引入检验功效的概念

现在，你应该对第一类和第二类错误有了更好的理解。但在很多时候，我们更想量化做出正确决策的机会。具体来说，关注下表中“拒绝原假设且原假设为假”这个象限尤为重要。

这个信息被汇总在检验功效中。检验功效是一个函数，它告诉你：对于备择假设中每一个可能的总体均值μ值，你能够拒绝原假设的概率。

记住，第二类错误概率 β 是当 H0 不成立时，不拒绝 H0 的概率。而检验功效则是当 H0 不成立时，做出正确决策并拒绝 H0 的概率。这两个概率是互补的。

因此，检验功效可以写作：
功效(μ) = 1 - β(μ)

总结来说，对于备择假设 H1 中的每一个 μ 值，检验功效等于1减去犯第二类错误的概率。

检验功效曲线的解读

下图展示了一个典型的右侧检验的功效曲线。

在图形的最左侧，μ = 66.7（即原假设成立的点），曲线的高度恰好等于 α，因为这是在 μ 取该特定值时拒绝 H0 的概率（即第一类错误率）。本图中 α = 0.05。

图形中所有其他 μ 值（大于66.7）都对应备择假设。考虑 μ = 68，此时曲线的高度就是在 μ = 68 处的检验功效，它精确地代表了如果总体均值真实值为68时，拒绝原假设的概率。

曲线高度与1之间的差值，则对应了如果 μ 确实是68时，犯第二类错误的概率 β。对于 μ = 70 的情况也是如此：曲线高度是检验功效，而1与曲线之间的差值就是第二类错误概率。

这个图形有一个有趣的模式：随着横轴 μ 值的增加，曲线也不断上升，越来越接近1。这很合理，因为请记住，μ 的值决定了样本均值分布的中心。所以当 μ 增大时，样本均值小于临界值的概率自然会下降。

显著性水平对功效的影响

让我们看看三种不同 α 值下的检验功效曲线是怎样的。

左边是 α = 0.01 的功效曲线。
中间是 α = 0.05 的曲线（即上一张幻灯片所用的）。
右边是 α = 0.1 的曲线。

从左到右，显著性水平 α（第一类错误率）递增。现在考虑曲线在 μ = 70 处的函数值。结果表明，随着 α 值增大，μ = 70 处的检验功效也随之增大。这对于曲线上的每一个点都是成立的。

与此相反，让我们看一下第二类错误概率 β。此时，行为恰好相反：如果你对控制第一类错误过于严格（即 α 很小），最终会导致你的第二类错误概率 β 增加。

对于一个固定的样本容量 n，第一类错误和第二类错误之间总是存在此消彼长的权衡关系。然而，如果你可以自由选择任意所需的样本量，你总是可以同时将 α 和 β 降低到任意小的水平。

本节课总结

在本节课中，我们一起学习了：

回顾了第一类错误（α）和第二类错误（β）。
学习了如何计算特定备择假设值下的第二类错误概率β。
引入了“检验功效”的核心概念，其定义为 1 - β，代表了当原假设为假时正确拒绝它的概率。
解读了检验功效曲线，理解了其随备择参数值变化的趋势。
分析了显著性水平α与检验功效的关系，认识到在固定样本量下，α与β存在权衡；但通过增加样本量，可以同时降低两者。

掌握检验功效的概念对于设计有效的实验和评估统计检验的可靠性至关重要。

093：假设检验的结果解释

在本节课中，我们将学习假设检验的完整步骤，并深入探讨如何正确解释检验结果，特别是P值的含义以及常见的理解误区。

上一节我们介绍了假设检验的基本思想，本节中我们来看看执行假设检验的具体流程。

假设检验的四个步骤

以下是执行假设检验通常需要遵循的四个步骤。

陈述假设：这包括定义原假设（H0），它是你检验的基准。例如，H0：总体身高的均值 μ = 66.7。同时，你还需要定义备择假设（H1），这通常是你希望证明的陈述。例如，H1：μ > 66.7。
设计检验：这意味着决定你将使用的检验统计量（例如样本均值），并定义检验的显著性水平（α）。最常见的值是 α = 0.05。请记住，显著性水平是犯第一类错误的最大概率，应始终保持较小。
计算观测统计量：根据你的样本数据计算检验统计量的实际观测值。在之前的例子中，我们使用的观测统计量是 68.442。
做出决策：这是根据你的数据得出结论的阶段。一种常见的决策方法是基于P值。如果P值小于你在步骤2中定义的显著性水平α，那么你可以拒绝原假设并接受备择假设。

然而，得出结论并不像看起来那么简单，人们常常会犯错误。

检验中的错误类型

在深入探讨结果解释之前，让我们先回顾一下检验中可能出现的错误定义。

第一类错误：当原假设H0实际上为真时，你却拒绝了它。其概率由显著性水平α控制。
第二类错误：当备择假设H1实际上为真时，你却未能拒绝原假设H0。

你的设计参数是显著性水平α，根据定义，它对应于犯第一类错误的最大概率。你希望这个值尽可能小。但是请注意，在固定样本量的情况下，第一类错误和第二类错误的概率是相互关联的。因此，在选择α时要谨慎，因为你可能会迫使第二类错误的概率变得过高。

现在，我们已经理清了相关概念，接下来看看如何正确解释结果，以及一些常见的误解。

P值的正确解释与常见误区

P值是依据数据做出决策的一个标准。如果P值小于显著性水平，我们就拒绝H0并接受H1。

P值代表什么？

P值代表H0为真的概率吗？并非如此。

虽然小的P值确实会导致拒绝原假设，但它并不代表原假设为真的概率。P值代表的是在原假设为真的前提下，观察到当前样本数据（或更极端数据）的概率。简单来说，一个小的P值告诉你，原假设不是解释你数据的好模型，因为观察到这样数据的可能性很小。

公式表示：P值 = P(观测到当前统计量或更极端值 | H0为真)

检验结论的正确理解

现在，让我们来看看检验结论。

如果你拒绝了原假设，你就接受备择假设为真。
那么，不拒绝H0是否意味着原假设为真呢？这也是错误的。

还记得垃圾邮件的例子吗？你并不会直接说这封邮件是“正常邮件”，你最多只能保证没有足够的证据表明这封邮件是垃圾邮件。

同样的原则适用于你考虑的任何假设检验。未能拒绝原假设，仅仅意味着在当前证据和显著性水平下，不足以推翻原假设，而不能证明原假设绝对正确。

本节课中我们一起学习了假设检验的完整四步流程，明确了第一类和第二类错误的定义，并重点澄清了关于P值含义和检验结论的常见误解。记住，P值是在原假设成立条件下观测到数据的概率，而非假设本身为真的概率；同时，“不拒绝”不等于“接受”，统计结论需要谨慎表述。

094：T分布在假设检验中的应用 🧮

在本节课中，我们将学习T分布，并了解它在假设检验中扮演的关键角色。我们将从回顾T分布的基本概念开始，然后探讨当总体标准差未知时，如何使用T统计量进行推断。

回顾：T分布与置信区间

在上一节关于置信区间的课程中，我们学习了T分布。现在，让我们回顾一下T分布如何在假设检验中发挥作用。

考虑一个例子：我们抽样测量10名18岁青少年的身高。正如前几周提到的，人的身高可以被建模为一个参数为μ（均值）和σ²（方差）的高斯分布（正态分布）。因此，样本均值x̄也将遵循一个高斯分布，其均值相同，但标准差更小。因为我们有10个样本，所以标准差是σ / √10。

如果已知总体分布的参数（μ和σ），那么(x̄ - μ) / (σ/√n)这个统计量就遵循标准正态分布。这个过程称为标准化，这个统计量被称为Z统计量。

当总体标准差未知时

然而，更常见的情况是我们不知道总体标准差σ的值。如果μ和σ未知，那么知道样本均值服从标准差为σ/√n的高斯分布就没有太大用处，因为我们不知道σ的具体数值。

在这种情况下，我们会在标准化公式中用其估计值s来替换未知的σ。请记住，s被定义为样本标准差，其计算公式几乎是样本方差，但分母是n-1而不是n。具体公式如下：

s = √[ Σ(x_i - x̄)² / (n-1) ]

由此得到的统计量被称为T统计量，其计算公式为：

t = (x̄ - μ) / (s/√n)

T统计量的分布

那么，这个T统计量是否遵循标准正态分布呢？答案是否定的。

事实证明，T统计量遵循我们之前已经学过的一种分布：学生T分布，简称T分布。让我们回顾一下它的样子。

T分布的PDF（概率密度函数）呈钟形，与高斯分布相似。然而，如果将T分布的PDF与正态分布的PDF进行比较，你会发现T分布的尾部更“厚”。这种更厚的尾部分布，解释了当我们用样本标准差s替代总体标准差σ时所引入的不确定性。

T分布的参数：自由度

T分布只有一个参数，称为自由度，通常用希腊字母ν表示。自由度控制着分布尾部的“厚度”。

X ~ t(ν) 这个符号表示随机变量X服从一个自由度为ν的T分布。

让我们看看随着自由度增加，分布形态如何变化。当ν增大并接近30时，T分布的PDF与高斯分布的PDF看起来几乎一模一样。这就是为什么我们通常希望样本量达到30个，因为此时T分布与高斯分布非常相似。

回到身高测量的例子

现在，让我们回到视频开头的例子。这里我们有n = 10个样本。现在我们知道，T统计量 (x̄ - μ) / (s/√10) 遵循一个自由度为ν的T分布。

那么自由度ν的值应该是多少呢？自由度ν简单地等于10 - 1，也就是样本数量减1，这给了我们9个自由度。

一般来说，如果你有一个样本量为n的样本，那么自由度就是n - 1。请注意，自由度与总体均值μ和方差σ²无关，只取决于你收集的样本数量。

样本量与分布形态的关系

样本量与自由度之间的关系意味着，随着n的增加，T统计量的分布看起来越来越像高斯分布。

总结

在本节课中，我们一起学习了T分布在假设检验中的应用。我们了解到：

当总体服从高斯分布但标准差σ未知时，我们使用T统计量。
T统计量 t = (x̄ - μ) / (s/√n) 服从学生T分布。
T分布的形状由其唯一参数自由度ν决定，ν = n - 1。
随着样本量n（即自由度ν）的增加，T分布会逐渐接近标准正态分布。当样本量达到30左右时，两者已非常相似。

掌握T分布是进行小样本统计推断的基础，它在机器学习模型评估和数据分析中有着广泛的应用。

095：t检验应用实例

在本节课中，我们将学习如何在实际场景中应用t检验。我们将通过一个具体的例子，演示当总体标准差未知时，如何使用t统计量进行单尾和双尾假设检验，并解释P值的计算与决策过程。

概述

在上一节中，我们介绍了t统计量的概念，它用于在总体标准差未知的情况下进行假设检验。本节中，我们将通过一个具体的例子，详细讲解如何使用t统计量进行右尾、左尾和双尾检验，并比较其与已知总体标准差时（使用z检验）结果的差异。

案例背景

再次考虑你的样本，它由10名18岁青少年的身高数据组成，样本均值为68.442。我们继续讨论之前视频中提到的三组假设。

在之前的例子中，你知道样本量为10，且总体标准差为3。这意味着如果零假设H0成立，那么样本均值服从均值为66.7、标准差为3/√10的正态分布。

现在的区别在于，你不知道总体标准差σ。这反过来影响了数据的分布，它不再是之前那个正态分布。那么你现在该怎么办？

如果你还记得上一课的内容，我们介绍了t统计量，它正是用于处理此类情况。一个小小的缺点是，所有的计算都必须基于t统计量，而不是直接使用样本均值。

因此，你将需要在0周围绘制分布图，而不是围绕66.7。在H0成立的条件下，这个t统计量服从自由度为9的t分布，上图是其对应的概率密度函数。现在的目标是使用t统计量重复进行之前的三种检验。

右尾检验

让我们从对高斯分布均值进行右尾检验开始，但此时总体标准差σ未知。

现有数据为：n=10，样本均值为68.442。我们需要补充样本方差，经计算为3.113。观测到的t统计量计算如下：

t = (样本均值 - 假设均值) / (样本标准差 / √n) = (68.442 - 66.7) / (√3.113 / √10) ≈ 1.77

要得到这个检验的P值，我们需要计算在H0成立的条件下，t统计量大于1.77的概率。这个概率对应上图中右侧的阴影区域，其值为0.0552。

由于这个P值大于0.05，你不应该拒绝H0。这与你在总体标准差已知时进行右尾检验得到的结果完全相反。这与因未知总体方差而增加的不确定性有关，你手头的证据突然变得不足以拒绝H0了。

双尾检验

现在让我们重复双尾检验的过程。

此时的P值是在H0成立的条件下，t统计量的绝对值大于你观测到的数据（1.77）的概率。因为观测到的统计量是正数，所以计算正确。在一般情况下，如果观测到的统计量为负数，你需要加上绝对值符号。

你现在需要包含左侧尾部，因为你在考察绝对值。这给出的概率为0.1103。请注意，这个值再次是右尾检验P值的两倍。这个P值大于0.05，所以结论同样是不拒绝H0。

左尾检验

最后，考虑左尾检验。

让我们再次假设你获得的样本平均值为64.252。同时想象样本标准差保持不变。

在左尾检验的情况下，P值是在H0成立的条件下，t统计量小于观测值-2.487的概率。这对应上图中左侧的阴影区域，其概率为0.0173。

对于这个样本，你得到的P值小于0.05。因此，正确的结论是你应该拒绝H0，并接受总体均值已经降低的备择假设。

总结

本节课中，我们一起学习了如何在实际问题中应用t检验。我们通过一个身高样本的例子，演示了当总体标准差未知时，如何计算t统计量，并据此进行右尾、双尾和左尾假设检验。关键点在于，与已知σ时使用z检验相比，t检验考虑了额外的估计不确定性，这可能导致不同的统计结论。我们看到了在右尾检验中，由于方差的估计，原本显著的证据变得不显著。掌握t检验的应用，是处理现实世界中小样本数据分析的重要技能。

096：双样本t检验

在本节课中，我们将要学习如何比较来自两个不同总体的样本，即双样本假设检验。我们将通过一个具体的例子——比较美国和阿根廷18岁青年的身高——来理解其原理和步骤。

到目前为止，我们所做的所有假设检验都只涉及一个总体中的一个样本。但是，如果我们想比较来自不同总体的不同样本，该怎么办呢？例如，假设我有两个国家，并且我认为这个国家的人比那个国家的人更高，但我只能获取样本。双样本假设检验将告诉我们如何比较不同总体的样本。

在接下来的内容中，你将学习如何比较两个总体。以这个例子为例，你感兴趣的是比较美国18岁青年的身高与阿根廷18岁青年的身高。

问题设定与数据

对于第一组（美国），你有10个样本 x1 到 x10，其观测到的样本均值为 68.442英寸，样本标准差为 3.113。

对于阿根廷组，你只有9个样本 y1 到 y9，其观测到的样本均值为 65.949英寸，样本标准差为 3.106。

你的目标是确定美国总体的均值是否与阿根廷总体的均值不同。

假设的三种类型

与单样本检验一样，你可以定义三种类型的假设。在所有三种情况下，你都将考虑原假设：两个总体均值相同。

你可以考虑备择假设：美国18岁青年的总体均值大于阿根廷的总体均值。
你也可以考虑备择假设：美国18岁青年的总体均值小于阿根廷的总体均值。
最后，还有一种备择假设：两个总体均值就是不同。

用差值 μ_US - μ_Argentina 来表示这些假设，你会得到一个右侧检验、一个左侧检验和一个双尾检验。

基本假设

现在，我们使用以下假设：

来自两组的样本中的所有个体都是不同的。这意味着没有一个人同时属于两个组。
每个人的身高测量值与其他人的测量值是独立的。
两国身高的总体都服从正态分布。这意味着所有来自美国的测量值 x 服从均值为 μ_US、标准差为 σ_US 的高斯分布。同样，来自阿根廷的样本服从均值为 μ_Argentina、标准差为 σ_Argentina 的高斯分布。

然后，你可以定义每组的样本均值：x̄ 是美国总体的样本均值，ȳ 是阿根廷总体的样本均值。

统计量的分布

核心问题是：两个样本均值之间的差值是如何分布的？

由于它是高斯变量的线性组合，因此它也将是一个高斯分布。但其参数是什么？均值将是总体均值之差，标准差将是每个样本均值方差之和的平方根。如果你不太记得这个结果，可以回顾第二周第一课的内容。

当然，你可以将 x̄ 和 ȳ 的差值标准化，得到一个服从标准正态分布的统计量。然而，由于我们不知道两个总体中任何一个的总体标准差，我们能做的最好方法是用每组的样本标准差 Sx 和 Sy 来分别替代 σ_US 和 σ_Argentina。

因此，你得到以下统计量：
T = (x̄ - ȳ - (μ_US - μ_Argentina)) / sqrt(Sx²/nx + Sy²/ny)

这个统计量也服从 t分布，因为它对应于一个总体标准差未知的高斯总体均值的统计量。不幸的是，计算其自由度的公式非常繁琐，但不必担心，许多软件包会为你完成这个计算。将 nx、ny、Sx、Sy 代入实际值，你可以得到自由度约为 16.8。

进行假设检验

在了解了所有数学原理之后，让我们简要回顾一下问题陈述。你有两组样本：一组是美国18岁青年的10个身高样本，另一组是阿根廷18岁青年的9个身高样本。美国样本的观测均值为68.442英寸，样本标准差为3.113。阿根廷样本的观测均值为65.949英寸，样本标准差为3.106。

右侧检验示例

让我们从右侧检验开始。原假设 H0: μ_US - μ_Argentina = 0，备择假设 H1: μ_US - μ_Argentina > 0。这意味着我们检验美国总体均值是否大于阿根廷总体均值。同时，我们设定显著性水平 α = 0.05。

从上一节可知，如果 H0 为真，那么统计量 T = (x̄ - ȳ) / sqrt(Sx²/10 + Sy²/9) 服从自由度为16.8的t分布。

将观测值代入统计量，你得到观测统计量 T_obs = 1.7459。

那么，这个样本的p值是多少？因为是右侧检验，p值是在原假设下，统计量 T 大于观测统计量的概率。这对应于t分布概率密度函数曲线下右侧的面积，计算得到 p值 = 0.0495。

由于p值（0.0495）小于显著性水平（0.05），因此决策是拒绝原假设，接受美国总体均值大于阿根廷总体均值的结论。

双尾检验示例

现在让我们看看双尾检验会得出什么结论。所有样本值、显著性水平和检验统计量都与之前相同。现在改变的是p值的计算方式。

在这种情况下，你需要的是在原假设 H0 下，统计量的绝对值大于观测统计量绝对值的概率。这对应于t分布曲线下左右两侧尾部的面积之和，计算得到 p值 = 0.0991。

在这种情况下，由于p值（0.0991）大于显著性水平（0.05），你没有足够的证据拒绝两个总体均值相同的原假设。

总结

本节课中，我们一起学习了双样本t检验。我们了解到，当需要比较两个独立总体的均值时，可以使用这种方法。关键在于构建一个基于两样本均值差、并考虑了各自样本方差的t统计量。我们通过一个身高比较的例子，具体演示了如何进行右侧检验和双尾检验，包括计算检验统计量、确定自由度、查找p值并做出统计决策。记住，检验类型（单尾或双尾）的选择取决于你的研究问题和备择假设，这会直接影响p值的计算和最终的结论。

097：配对t检验

在本节课中，我们将要学习一种新的假设检验方法——配对t检验。它适用于比较两组数据，但这两组数据并非相互独立，而是存在一一对应的配对关系。

配对样本与独立样本

上一节我们介绍了用于比较两个独立群体的双样本t检验。本节中我们来看看另一种情况：你同样有两组数据，但它们并非独立。

设想一个场景：你想测试一个减肥训练计划的效果。第一组数据是参与者在训练前的体重，经过四周训练后，你再次测量同一批参与者的体重，得到第二组数据。这样，第一个人的“训练前”和“训练后”数据是配对的，第二个人的数据也是配对的，依此类推。在这种情况下，我们称这些样本是配对的。

配对t检验的核心思想

配对t检验关注的是每对数据之间的差值，以此来评估训练计划是否有效。

以下是具体步骤：

计算每对观测值的差值：D_i = X_i - Y_i，其中 X_i 是训练前体重，Y_i 是训练后体重。
这些差值 D_i 构成了一个新的样本。
我们研究这个差值样本的均值 D_bar。

如果 X 和 Y 来自正态总体，那么差值 D 也服从正态分布。对 D_bar 进行标准化，可以得到一个统计量。由于总体标准差未知，我们使用样本标准差 s_D 进行估计，从而得到 t 统计量：

公式： t = (D_bar - μ_D) / (s_D / √n)

其中，μ_D 是差值总体的均值，n 是配对样本的数量。这个统计量服从自由度为 n-1 的 t 分布。

假设检验的步骤

在配对t检验中，无论进行右侧、左侧还是双侧检验，零假设通常设定为两组之间没有差异，即差值总体的均值为0：H0: μ_D = 0。

让我们通过一个例子来具体计算。假设我们有10位参与者的体重数据：

训练前体重 (X): [85, 90, 78, 92, 88, 79, 95, 82, 87, 91]
训练后体重 (Y): [83, 88, 77, 90, 86, 78, 92, 81, 85, 89]

以下是计算过程：

计算每对差值 D_i = X_i - Y_i：得到差值列表 [2, 2, 1, 2, 2, 1, 3, 1, 2, 2]。
计算差值样本的均值 D_bar：(2+2+1+2+2+1+3+1+2+2) / 10 = 1.8。
计算差值样本的标准差 s_D：约为 0.632。
计算观测到的 t 统计量：t = (1.8 - 0) / (0.632 / √10) ≈ 9.0。

做出统计决策

现在进行假设检验。我们采用右侧检验：

H0: μ_D = 0 （训练计划无效）
H1: μ_D > 0 （训练计划有效，平均体重下降）
设定显著性水平 α = 0.05。

计算 P 值：P 值是在零假设成立的前提下，得到当前观测统计量（t ≈ 9.0）或更极端情况的概率。对于自由度为9的 t 分布，这个 P 值极小（远小于 0.001）。

由于 P 值 < α (0.05)，我们拒绝零假设。有充分的统计证据表明，差值总体的均值大于0，即该训练计划对减肥有积极效果。

配对t检验的本质

如果你仔细观察，会发现一旦我们开始处理差值变量 D_i，整个问题就简化为了对单个样本（差值样本）进行 t 检验。这意味着，之前学到的所有关于单样本 t 检验的结论在这里都完全适用。

总结

本节课中我们一起学习了配对t检验。我们了解到，当比较的两组数据存在天然配对关系（如“前后”测量）时，应使用配对t检验。其核心是将配对数据转化为差值，然后对差值样本执行单样本t检验。这种方法能更有效地控制个体差异，提高检验的灵敏度。

098：A/B测试

概述

在本节课程中，我们将学习A/B测试，这是一种基于双样本假设检验的实用方法，广泛应用于网站优化、产品设计等领域，用于比较两种不同策略或设计的效果。

A/B测试简介

A/B测试是双样本假设检验的一个非常实用的应用场景。

假设你作为一名数据科学家正在研究一个网站，该网站有一个特定的转化率。现在，你对网站进行了改进，并希望了解转化率是上升还是下降了。这时，你可以使用A/B测试。

让我来展示具体如何操作。假设你的公司有一个网页，并希望测试“立即购买”按钮的两种不同布局。我们将这两种策略分别称为A和B。你的目标是验证切换到策略B是否能带来更高的购买量。

为了实现这个目标，你需要选择一组用户。当顾客访问网站时，他们会被随机分配到设计A或设计B。A/B测试的一个常见规则是，将较小比例的顾客分配到新设计，因为你尚不清楚其效果如何。因此，在这个例子中，你选择80名顾客使用策略A，20名顾客使用策略B。

当你查看每组顾客的购买数据时，发现策略A组的平均购买金额为50美元，样本标准差为10美元；而接触到策略B的组，平均购买金额为55美元，样本标准差为15美元。

现在，你已经设计好了实验并收集了数据，可以运用之前学过的检验方法来做出决策。

构建假设与检验

你的零假设是：选项A的平均购买金额与选项B的平均购买金额相同。备择假设是：策略B的平均购买金额大于策略A的平均购买金额。这个假设也可以用均值差的形式来表述。

你还需要设定一个显著性水平α的值，在本例中，我们设定α = 0.05。

现在，为了举例说明，我们假设购买金额服从高斯分布。在这种情况下，或者当样本量足够大时，你可以使用双样本T检验来做出决策。

请注意，如果H0为真，根据T检验，统计量将遵循一个T分布。根据独立双样本T检验的公式，计算出的自由度为23.38。

将观测值代入统计量公式，你得到的观测统计量为 -1.414。

那么，这个样本的P值是多少呢？在本例中，我们进行的是左尾检验，因此P值是标准正态分布小于 -1.414 的概率，其值为0.085。

由于P值大于α = 0.05，因此你不会拒绝H0。

A/B测试与T检验的区别

那么，A/B测试和T检验之间有什么区别呢？A/B测试的范围比单纯的T检验更广，它是一种比较两种变体的方法论，而T检验只是一种统计工具。

A/B测试包含更多步骤，这包括：提出要测试的变体、随机分配样本对象、向不同组展示不同变体、测量结果以及确定要使用的指标。这意味着你需要关注均值行为、比例、离散度等。

A/B测试的最后一步是使用统计工具，根据收集到的数据做出决策。这正是T检验发挥作用的地方。此外，在前面的例子中，我们使用T检验是因为我们在比较高斯总体的均值。如果不是这种情况，你将使用另一种统计检验来做决策。

比例数据的A/B测试案例

现在，假设你想为你的在线购物平台测试一个全新的网站设计。你有旧版本A和新版本B。你关心的是B版本是否具有更高的转化率，即实际完成购买的访客比例。

因此，你再次需要将样本随机分配到两个组：一组接触网站版本A，另一组接触网站版本B。

假设你为A组考虑了80名顾客，为B组考虑了20名顾客。A组中有20名顾客完成了购买，而B组中这个数字是8。

因此，假设将与上一个例子非常相似。零假设是两种策略的转化率相同。备择假设是策略B的转化率大于策略A的转化率。如果是这种情况，你将希望部署新的网页。同样，我们设定α = 0.05。

你关注的是转化率，因此你记录的是每组中完成购买的顾客数量。这些变量实际上服从二项分布：A组的参数为 NA 和 PA，B组的参数为 NB 和 PB。

那么，在这种情况下应该使用什么统计量呢？让我们来分析一下。

请记住，X 和 Y 可以看作是 NA 个和 NB 个伯努利变量的和，而伯努利变量的均值就是成功概率 P。这意味着，根据大数定律，当样本量变大时，X/NA 近似于 PA，Y/NB 近似于 PB。

正如你在前几周学到的，根据中心极限定理，这些比例值服从正态分布。因此，X/NA 的均值为 PA，标准差为 sqrt(PA*(1-PA)/NA)；Y/NB 的均值为 PB，标准差为 sqrt(PB*(1-PB)/NB)。这是因为这是二项分布的标准差。

这些是 PA 和 PB 的良好近似值，因此 X/NA - Y/NB 是 PA - PB 的良好近似。由于 X/NA 和 Y/NB 近似服从高斯分布，那么这两者的差值也应该服从高斯分布。在这种情况下，均值是 PA - PB，方差是各自方差的和。

一种非常常见的表达方式是对该分布进行标准化。

现在，如果H0为真，那么 PA = PB，我们可以直接称之为 P。因此，你可以在这些统计量中用 P 替换 PA 和 PB。

我们看看能否将这个表达式重写得更简洁。首先注意到两项中都有公共项 P*(1-P)，并且 1/NA + 1/NB 可以写成 (NA + NB) / (NA * NB)。

你可以将其代入统计量，该统计量在经过一些代数操作后仍然服从标准高斯分布。问题在于，虽然 PA 和 PB 相同，但你仍然不知道 P 的值，因此需要用估计值来替代。

由于 X 和 Y 来自相同的转化率 P，估计 P 的最佳方法是聚合所有观测值，即 (X + Y) / (NA + NB)。你在这里所做的是，假设你有一个参数为 P 的伯努利分布，共 NA + NB 个样本，因此样本比例现在必须考虑所有这些样本。

现在，用 P_hat*(1 - P_hat) 替换 P*(1-P)，你就得到了检验统计量。

回到问题本身

经过所有这些数学推导，让我们回到正在解决的问题。你有两个网页设计A和B。对于设计A组，你有80个观测值，其中20次转化；对于设计B组，你有20个观测值，其中8次转化。请记住，X 和 Y 各自服从具有自己参数集的二项分布。

你感兴趣的是确定新设计的转化率是否更好，因此这给出了一个左尾检验。你还考虑了显著性水平α = 0.05。

正如你刚刚从前面的幻灯片中看到的，如果H0为真，那么检验统计量服从高斯分布。根据你拥有的数据，这意味着观测到的统计量是 -1.336。

那么，样本的P值是多少呢？它将是该高斯概率密度函数下的面积，其值为0.091。由于这个值大于显著性水平α，因此你不能拒绝零假设，并接受设计B的转化率大于设计A的转化率这一备择假设。

本周总结与后续活动

好了，为了结束本周的学习，你还有几项最终活动。

首先，你将完成最终的数据探索性分析和分级实验。本周，你将回到“Right Share”数据，应用你学到的关于置信区间和假设检验的概念。

接下来，你将参加本周的分级总结性测验，该测验涵盖了本周的所有主题。

最后，你还有最终的分级编程作业，这是对你刚刚学习的A/B测试概念的应用。

祝你顺利完成本周，乃至整个专项课程的所有最终活动。当你完成后，我将与你一起为本周的学习画上句号。

099：课程总结 🎓

在本节课中，我们将对机器学习与数据科学概率与统计的第三门课程进行总结。这门课程是专业系列中的最后一门，涵盖了机器学习领域所需的核心数学概念。

课程完成与成就 🏆

恭喜你，你已经完成了机器学习与数据科学专业系列的第三门，也是最后一门课程。

你已经掌握了许多复杂的数学概念，这些概念对于在机器学习和数据科学领域取得优异成绩至关重要。

你应该为自己感到自豪。

致谢与祝愿 🙏

能够与我和我优秀的课程内容创作团队一起，陪伴你走过这段学习旅程，是一种荣幸。

我们祝愿你在未来一切顺利，希望你运用这些知识来提升你的职业生涯，并帮助建设一个更美好的世界。

本节课中我们一起学习了机器学习与数据科学概率与统计系列课程的总结。我们回顾了课程的核心目标与你的学习成就，并对你的未来表达了美好的祝愿。

posted @ 2026-03-26 08:14 绝不原创的飞龙阅读(57) 评论(0) 收藏举报

刷新页面返回顶部

年龄 (X) \ 身高 (Y)	45	46	47	49	50
7	0.1	0.2	0.0	0.0	0.0
8	0.0	0.0	0.2	0.0	0.0
9	0.0	0.0	0.0	0.3	0.1
10	0.0	0.0	0.0	0.0	0.1

第一次	第二次	平均值
1	1	1
1	2	1.5
1	3	2
1	4	2.5
2	1	1.5
2	2	2
2	3	2.5
2	4	3
3	1	2
3	2	2.5
3	3	3
3	4	3.5
4	1	2.5
4	2	3
4	3	3.5
4	4	4

年龄 (X) \ 身高 (Y)	45	46	47	49	50
7	0.1	0.2	0.0	0.0	0.0
8	0.0	0.0	0.2	0.0	0.0
9	0.0	0.0	0.0	0.3	0.1
10	0.0	0.0	0.0	0.0	0.1

第一次	第二次	平均值
1	1	1
1	2	1.5
1	3	2
1	4	2.5
2	1	1.5
2	2	2
2	3	2.5
2	4	3
3	1	2
3	2	2.5
3	3	3
3	4	3.5
4	1	2.5
4	2	3
4	3	3.5
4	4	4

龙哥盟

掠夺·扩张·投机·博弈

DLAI-概率统计笔记-全-

DLAI 概率统计笔记（全）

001：概率与统计课程介绍 🎯

002：关于编程经验的说明 🐍

编程语言与工具

所需技能水平

003：什么是概率

概述

概率的基本定义

使用文氏图理解概率

掷硬币实验

更复杂的概率问题

扩展到三枚硬币

总结

004：骰子示例 🎲

掷一个公平的六面骰子

掷两个骰子

交互实验：频率与概率

总结

005：概率的补集

概述

补集概率的概念

通过实例理解补集

补集规则

文氏图表示

应用补集规则：抛硬币实验

应用补集规则：掷骰子实验

总结

006：互斥事件的概率之和 🎲

核心概念：互斥事件的概率加法规则

学校运动示例 🏫

骰子示例 🎲

示例1：掷一个骰子

示例2：掷两个骰子（点数之和）

示例3：掷两个骰子（点数之差）

总结 📝

007：相容事件的概率之和

概述

相容事件的问题

学校运动示例

具体数字示例

概率表示

互斥与相容对比

骰子示例

总结

008：独立性

什么是独立性？🤔

独立性实例分析：学生分班问题

实例一：均匀分班

实例二：非均匀分班

独立事件的乘积法则 ✖️

乘积法则的扩展应用

应用一：连续抛硬币

应用二：连续掷骰子

总结 📝

009：生日问题 🎂

概述

问题定义

计算过程

结果分析

可视化与结论

总结

011：条件概率第二部分

应用条件概率规则

计算联合概率

考虑相反情况

使用概率树

案例回顾与总结

012：贝叶斯定理直观理解 🧠

场景设定

引入具体数字

人群分类分析

计算条件概率

结果分析与贝叶斯思想

总结

013：贝叶斯定理数学公式 🧮

概述

问题设定与基础概率

年龄 (X) \ 身高 (Y)	45	46	47	49	50
7	0.1	0.2	0.0	0.0	0.0
8	0.0	0.0	0.2	0.0	0.0
9	0.0	0.0	0.0	0.3	0.1
10	0.0	0.0	0.0	0.0	0.1

第一次	第二次	平均值
1	1	1
1	2	1.5
1	3	2
1	4	2.5
2	1	1.5
2	2	2
2	3	2.5
2	4	3
3	1	2
3	2	2.5
3	3	3
3	4	3.5
4	1	2.5
4	2	3
4	3	3.5
4	4	4