密西根大学理解数据笔记-全-
密西根大学理解数据笔记(全)
1:欢迎来到《理解数据:导航统计、科学与人工智能》👋

在本节课中,我们将对《理解数据》专项课程进行整体介绍。你将了解课程的目标、结构、讲师背景以及学习本课程的价值。
大家好,我是艾尔·奥布莱恩,密歇根大学的讲师和研究员。
欢迎来到《理解数据:导航统计、科学与人工智能》课程。
在这个专项课程中,我们将探索一些关于如何理解数据、从数据中学习以及利用数据进行预测的重要理念。非常高兴你能加入我们。
首先,让我简单介绍一下自己。我的背景是科学研究,具体而言,我专攻听觉神经科学。这意味着我研究大脑如何理解声音。我的训练涉及大量数学建模,即使用数学和计算机来解释和预测那些难以直接在人体中测量的现象。我将在课程中通过实例分享更多相关内容。
目前,我在密歇根大学信息学院任教,是教学团队的一员。我为来自不同背景的学生教授数据科学和统计学课程,这是我热爱这份工作的原因之一。同时,我也研究许多领域的科学家如何利用复杂的数据和软件开展工作。
教授数据知识的方式多种多样,因为正如我们即将看到的,数据无处不在,创建和使用数据的原因也很多。
请将这个专项课程视为一次简短的导览,它将带你领略现代思维中从数据中创造意义和价值的一些重要理念。请记住,这次导览远非详尽无遗,我选择强调哪些概念当然受到我个人科学背景的影响。这意味着你可能会注意到教学实例偏向于人类健康研究。
此外,本专项课程不包含代数或编程问题。我们的目标是培养对重要理念的直觉和熟悉度。也许随着学习的深入,你会对进一步学习产生兴趣,去上一些涉及方程或编码的课程,从而能够自己分析数据或构建预测模型。或者,如果你已经具备丰富的数据工作经验,本课程或许能帮助你跳出细节,在更广阔的背景下审视自己的工作。
课程结构概览 📚
上一节我们介绍了课程的整体目标,本节中我们来看看三门课程的具体内容安排。
以下是三门课程的简要介绍:
-
第一门课程:数据与统计
我们将学习什么是数据,以及如何使用统计学来理解数据中的模式。我们还将花时间培养我们思考和谈论数字的直觉,重点是发现并避免涉及统计数据的误导性陈述。 -
第二门课程:科学与数据
我们将探讨科学如何将数据与我们对于世界的理解联系起来,以帮助我们创造新知识。我努力将这门科学课程打造成我初次学习研究工作时希望听到的样子。我们还将探索科学如何传播给公众、哪些信息可能被遗漏,以及如何推理你在生活中可能遇到的听起来很科学的说法。 -
第三门课程:人工智能与机器学习
我们将尝试澄清关于这些术语含义的一些重大困惑,深入探讨这些系统通常如何工作以及它们可能如何出错,并为你提供重要的策略,以便在他人在谈论人工智能时提出关键问题。
虽然你可以单独学习这些课程,但我认为如果按顺序学习,你将能从本专项课程中获得最大收益。如果你这样做,我猜你会发现一些反复出现的主题,请留意这些贯穿始终的主线。
课程寄语与总结 🌟
无论你来自何方,或希望去向何处,我都希望这个专项课程能为你提供有价值的东西。最重要的是,我希望它能帮助你认识到,当我们谈论数据时,我们谈论的从来不仅仅是数字。我们谈论的是对我们至关重要的事物,而仅仅作为你自己,你也有权决定什么才是重要的。


本节课中,我们一起了解了《理解数据》专项课程的讲师背景、核心目标以及三门课程(数据与统计、科学与数据、人工智能与机器学习)的主要内容。本课程旨在构建直觉,不涉及复杂数学或编程,适合所有背景的学习者。希望这门课程能成为你探索数据世界的有益起点。
2:现象如何转化为统计数据 🐔➡️📊

在本节课中,我们将要学习现实世界中的现象是如何被转化为我们可以分析和学习的统计数据的。我们将探讨“数据”和“统计量”的基本定义,并通过一个具体的例子来理解数据收集过程中的关键选择和挑战。
什么是统计量?🧮
首先,我们需要明确什么是统计量。一个基本的定义是:统计量是从数据中计算得出的一个数值。
这个数值可以是任何数字,例如某个事物的数量,或者是你可能熟悉的平均值(我们稍后会详细讨论)。简而言之,统计量就是对数据进行计算的结果。
什么是数据?🌍
然而,“统计量是数据的计算”这个定义引出了另一个问题:什么是数据?
数据的一种定义是:数据是我们用来表示世界中事物的方式。我强调“一种定义”,是因为实际上并不存在一个普适且简单的数据定义。
但在这里,我们将采用的定义是:数据是我们表征世界的方式。以下是一些例子:
- 一本书、一本手写的日记,它们用文字表征了作者对世界的体验。
- 一个测量值,例如我们用尺子测量一个三明治的厚度。
- 一件艺术品,如图中的北欧民间艺术,它以新的方式表征了雪花。
- 一个充满数字的电子表格,其中的数字代表了现实世界中的某些事物(如利润或库存),而不仅仅是凭空编造的数字。
从现象到数据:以梅尔文鸡为例 🐓
在这个定义中,有一个非常有趣的点:当我们选择研究某事物时,它才会变成数据。这具体是什么意思呢?让我们通过一个例子来理解。
我想介绍我的鸡——梅尔文。梅尔文本身不是数据,它是一只鸡。但如果我们想研究它,情况就会改变。
假设我们想了解关于梅尔文的几个问题:
- 它有多重?
- 它有多少根羽毛?
- 它大部分时间在做什么?
- 它在鸡群社会等级中的地位如何?
- 它对生活有多满意?
当我们开始研究这些问题时,我们就在创造数据,并以新的方式看待梅尔文。
以下是针对每个问题,我们可能如何收集数据:
1. 梅尔文有多重?
我们可以把它放在秤上,得到一个数字,例如 1.76 公斤。

2. 梅尔文有多少根羽毛?
理论上我们可以数出来。也许我亲自数,并请另一位科学家复核,最终我们可能达成一致:它有 11,490 根羽毛。
3. 梅尔文大部分时间在做什么?
我们可以通过观察来回答。我可能会在院子里待一整天(甚至一周),记录下梅尔文做的每一件事,最终得到一份活动日志。

4. 梅尔文的社会地位如何?
这更棘手,因为很难直接测量。但我们可以基于对鸡行为的理解来创造一种测量方法。例如,记录一周内梅尔文参与了多少次争斗,以及它赢了多少次。
5. 梅尔文对生活有多满意?
这非常困难。一种方法是创建一份“快乐鸡行为”清单,然后观察梅尔文表现出其中多少种行为。另一种方法是直接“询问”梅尔文(假设我们能找到鸡语翻译),然后分析它的回答——例如,计算回答中的积极关键词,或请心理学家评估其满意程度。
通过以上探索,我们突然有了多种表征梅尔文的方式:它的体重、羽毛数量、打赢的架数、活动日志以及对生活满意度的回答。这就是数据收集的本质。
数据的核心:数值与语境 📝
现在,我想强调一个细微之处:以上哪些是数据?是数字“11,490”吗?
实际上,数据不仅仅是数字。数据是“数值”加上“语境”。
例如:
- 数值:11,490
- 语境:这个数字指的是羽毛;是在梅尔文这只鸡身上数的;由两位密歇根大学的鸡科学家于2022年7月7日验证。
所以,完整的数据表述应该是:“2022年7月7日,由两位密歇根大学的鸡科学家在梅尔文身上验证并数出的11,490根羽毛。”
数据收集中的选择与挑战 🤔
总结来说,每当我们想要了解自然时,都必须进行一次主动的“翻译”——将世界中的事物转化为我们可以学习的新表征(即数据)。
但每次进行这种翻译(数据收集)时,都迫使我们做出选择。回顾我们为研究梅尔文所做的所有决定:如何确保羽毛数量准确?如何衡量社会地位?如何收集代表幸福感的数 据?这些都是选择。
即使回答看似简单客观的问题,如“哪棵树最大?”,我们也会面临选择。例如,我们可以测量树从地面到最高点的高度,也可以测量树干的宽度,或者树冠最宽处的宽度,甚至树根的大小(树根当然也是树的一部分)。我们选择定义“最大”的方式,可能会导致不同的答案。
总结 📚
本节课中,我们一起学习了现象如何转化为统计数据。
- 我们明确了统计量是从数据中计算得出的数值。
- 我们探讨了数据是“数值+语境”,是我们表征世界事物的方式。
- 我们通过梅尔文鸡的例子,详细了解了将具体现象(一只鸡)转化为各种数据(体重、羽毛数等)的过程。
- 我们认识到,数据收集本质上是一个充满选择的过程,不同的选择会导致不同的数据表征,进而可能影响结论。



在初步理解了数据的定义和生成过程后,我们自然会问:接下来,我们如何开始从数据中学习呢? 这将是后续课程要探讨的核心问题。
3:从数据中学习 📊

在本节课中,我们将学习如何将现实世界的体验转化为数据,并通过可视化方法(如直方图)来识别数据中的模式和分布特征。我们将通过一个关于纸杯蛋糕评分的例子,理解统计思维的基本过程。
统计思维涉及将我们的体验重新构建为新的表现形式,以帮助识别世界中有意义的模式。
让我们看一个例子。假设镇上开了一家新的纸杯蛋糕店,我正在考虑是否应该花辛苦赚来的钱买一个纸杯蛋糕。它们到底好不好吃?
假设我在面包店外设立了一个摊位,询问每位出来的顾客,请他们按1到10的评分标准给纸杯蛋糕打分。每次询问后,我将他们的分数记录在一个数字方块上。

在拦截了许多从纸杯蛋糕店出来的顾客并收集了他们的评分后,我得到了许多方块。到目前为止发生了什么?
纸杯蛋糕顾客将他们品尝纸杯蛋糕的真实体验转化为1到10的评分。然后,我将他们脑海中的这个评分转化为可以拿在手中、存储和堆叠的数字方块。
📈 构建直方图
我们为什么要做这些?目前我们只有一堆方块,这很难理解。因此,我们将制作一种称为直方图的东西。这是一种将数据组织成整洁可视化的方法,以便更好地发现模式。
以下是构建直方图的步骤:
- 我将所有评分很低的方块堆叠在一起。首先寻找评分为1的方块,但没有找到。
- 接着,将所有评分为2的方块堆叠在一起。
- 然后,将所有评分为3的方块堆叠在一起。
- 继续这个过程,依次堆叠评分为4、5、6、7和8的方块。
现在,我们不再面对一堆杂乱的方块,而是看到了另一种形式。我们称之为分布。我们可以看到评分从低到高是如何分布的。
我们能看到中间围绕5分有一个凸起,但也存在一些变异性。让我们花点时间理解“变异性”这个词。如果每个人都给纸杯蛋糕完全相同的5分,就不会有变异性,我们只会有一堆评分为5的方块。但相反,我们得到了这个形状。这是因为并非每个人都给出了完全相同的评分。
变异性使我们的数据稍微复杂一些,但也更有趣。尽管存在变异性,并非每个人都给出相同的分数,但存在一个模式:在5分附近有一个凸起。这是因为给纸杯蛋糕打5分的人比打其他分数的人多,而且大多数人给出的评分在4到6分之间。只有少数人给出了3分或更低,也只有少数人给出了7分或更高。
🧠 从分布中学习
如果我认为自己与在纸杯蛋糕店前调查的那些人相似,我可能可以从这个分布中学到一些东西。
我预计自己可能会给这个纸杯蛋糕打5分左右,也许是4分或6分。它既不是不可思议的美味,也不是糟糕透顶。这是统计中一个非常基本过程的本质:
- 我们找到一种方法将世界中的某些事物表示为数据(在本例中是人们对新纸杯蛋糕店的体验)。
- 我们将这些数据放入可以计数和可视化的形式(即方块)。
- 我们组织数据(在本例中,我们将相同评分的方块堆叠起来,得到直方图)。
我们做这一切是为了理解数据如何分布,并开始看到模式。大多数时候,研究人员使用计算机而不是木块来表示、存储和操作数据。但我向你展示的是统计学家使用软件进行的过程的模拟版本。
💡 直方图的价值与总结
只有少数数据点(代表人们对纸杯蛋糕店评分的方块)时,即使不制作直方图,你也可能理解一些大的模式。也许我本可以只看袋子,注意到有很多5分。但你可以想象,如果我们有数百或数千个数据点,制作可视化图表(当然还要使用计算机)将变得更加重要。
关键在于,我们可以使用直方图作为一种便捷的方式来查看数据的分布。 从这个分布中,我们可以开始注意到一些特征,比如峰值。峰值非常重要,因为它告诉我们很多人给纸杯蛋糕的评分在10分制中大约是5分。所以这可能意味着我也很可能给出类似的评分,因为我认为自己与从纸杯蛋糕店出来的人很相似。
看,我正在从数据中学习。接下来,我们将正式介绍一些用来描述分布峰值的词汇:均值和中位数。我们将讨论这些统计量能告诉我们什么,以及它们可能误导我们的方式。同时,我会吃掉这个纸杯蛋糕,因为我知道它不太可能是我吃过的最好的,也不是最差的。这对我来说没问题。

本节课中,我们一起学习了如何将体验转化为数据,通过构建直方图来可视化数据的分布,并从分布中识别模式(如峰值和变异性)以进行推断。这是理解数据并进行统计思考的基础步骤。
4:均值与中位数的测量意义 📊

在本节课中,我们将学习两个最核心的统计概念:均值和中位数。我们将通过一个给纸杯蛋糕评分的例子,理解它们如何描述数据的中心趋势,以及在不同数据分布下如何选择使用哪一个。
🧱 理解数据分布
首先,我们有一组数据,代表不同顾客对一家新纸杯蛋糕店的评分。每个方块代表一个评分,评分从1到10,1代表最差,10代表最好。
数据分布的形状像一座山或一个山丘,其峰值出现在评分5附近。这意味着给出5分的人数比给出其他任何分数的人数都多。
了解峰值及其周围范围的意义在于,它能告诉我们大多数人如何评价这个产品。这有助于我们形成对产品的预期。
📏 中位数的定义与计算
上一节我们介绍了数据分布的形状,本节中我们来看看如何用中位数来描述数据的中心。
中位数的计算方式如下:我们将所有数据块按大小顺序排列成一条线,然后找到恰好位于正中间的那个数据块。
以下是计算步骤:
- 将数据从小到大排列。
- 找到位于最中间位置的数据值。
在我们的例子中,将所有评分方块按顺序排列后,正中间的方块评分是5。这意味着有一半的评分小于或等于5,另一半的评分大于或等于5。这个中间值就是中位数。
将数据恢复成分布图后,我们可以看到中位数5正好对应着分布的峰值。
⚖️ 均值的定义与计算
除了中位数,另一个描述数据中心的常用指标是均值,它也被称为平均值。
均值是一个计算结果:我们将所有数据值相加,然后除以数据的总个数。
计算公式为:
均值 = (所有数据值之和) / (数据总个数)
在我们的例子中,将所有评分相加后除以总块数(19块),得到均值约为5.05。这个值也非常接近分布的峰值。
理解均值的另一种更直观的方式是将其想象为分布的“平衡点”。如果你试图用手指托起整个分布形状,那么能让它保持平衡的那个支点位置就是均值。如果支点太靠左或太靠右,分布都会向一侧倾倒。在我们的对称分布中,平衡点大约在5分的位置。
目前,在这个对称分布中,均值(5.05)和中位数(5)非常接近。

🤔 为何需要两个统计量?
既然均值和中位数在对称分布中如此接近,为什么我们还需要两个统计量呢?让我们通过另一个例子来看。
假设纸杯蛋糕的评分分布变成了这样:大多数人给出了很高的评分(8、9、10分),但有少数几个人给出了非常低的评分(1、2分)。这个分布不再对称,我们称之为有一个“长尾”——数据主体集中在高分区域,但左侧有一条低分的“尾巴”。
以下是重新计算的结果:
- 中位数:将数据排序后,位于正中间的评分是9。
- 均值:计算所有评分的平均值,结果约为7.7。
此时,均值(7.7)明显低于中位数(9)。这是因为均值被那几个极端的低分“拉低”了。而中位数则不受这些极端值的影响,它依然稳定地反映了大多数人的评分(高分区域)。
🎯 如何选择:均值还是中位数?
面对不同的数据分布,哪个统计量对决策更有帮助呢?思考一下:如果你想根据评分决定是否去这家蛋糕店,你应该更关注均值还是中位数?
在这个不对称分布的例子中,中位数(9分)更能代表“大多数人的感受”。而均值(7.7分)由于被少数极端差评拉低,可能低于大多数人的实际体验。
因此,选择使用均值还是中位数,取决于我们的研究问题和数据的分布形态。我们需要综合考虑,以确定哪个统计量能提供最有用的信息摘要来辅助决策。
📝 本节总结


本节课中我们一起学习了:
- 中位数:将数据排序后位于正中间的值,它不受极端值影响,能稳定反映数据的中心位置。
- 均值:所有数据的算术平均值,代表数据的“平衡点”,但它对极端值敏感。
- 如何选择:在数据分布对称时,两者接近;当数据分布不对称、存在极端值时,中位数通常更能代表普通情况。应根据具体问题和数据特点选择合适的统计量进行解读。
5:直方图解读方法 📊

在本节课中,我们将学习如何解读直方图,这是一种用于可视化数据分布的重要工具。我们将从直方图的基本构成开始,然后通过一个真实数据集的例子,来理解均值和中位数在偏态分布中的不同含义。
从方块到坐标轴 📐
上一节我们介绍了用方块堆叠来可视化数据的方法。本节中我们来看看如何将这种表示法转化为更标准的图形。
大多数数据分析师在工作中不会携带一堆方块,而是使用计算机制作图表。以下是我们将方块堆叠显示在一对坐标轴上的图片。
- X轴(横轴):位于底部,代表评分(或任何我们测量的变量)。
- Y轴(纵轴):代表给出每个评分的人数。
- 我们的方块被一个接一个地堆叠起来,只不过在图中它们被描绘成小矩形(柱状)而非立方体。
我们可以移除方块上的数字标签,只保留柱条。每个柱条的高度代表了堆叠的方块数量。这种表示法在视觉上更高效、更简洁,并且传达了相同的信息。这通常就是我们看到直方图的呈现方式。
解读真实数据示例:航班延误 🛫
现在让我们看一个真实的例子。这里有一张2013年纽约市机场航班延误时间的直方图。
每个柱条的高度代表延误时间在相应分钟数附近的航班数量。Y轴再次表示计数。
从图中我们可以看到:
- 最高的柱条集中在0分钟附近(甚至更少),这意味着许多航班准点或提前。
- 但也有少数航班延误时间极长。
- 航班延误超过两小时(约120分钟)的情况很罕见,但确实会发生。
以下是图中标注的两个重要统计量:
- 中位数:
median,位置接近峰值,在0分钟附近。这意味着50%的航班延误时间小于或等于0分钟,另外50%的延误时间大于或等于0分钟。 - 均值:
mean,位置远在右侧,大约40分钟处。
为什么均值和中位数相差如此之大?因为右侧这些接近两小时等待时间的数据点,对均值产生了巨大的“拉力”,将其拖向了分布的长尾方向。
均值与中位数:哪个更有用?🤔
如果我要乘坐从纽约市起飞的航班,在规划行程时,了解哪个统计量对我更有帮助?是均值还是中位数?
将两者放在一起对比,可以再次清楚地看到它们之间的差异:
- 中位数更能代表典型的航班延误情况。
- 均值所代表的延误时间,比大多数航班实际经历的延误都要长。
本节课总结

本节课中,我们一起学习了:
- 直方图的标准表示方法,包括X轴、Y轴和柱条的含义。
- 如何解读真实数据集(纽约机场航班延误)的直方图,观察数据分布的形状。
- 理解了在数据分布不对称(存在极端值)时,均值和中位数会产生显著差异。
- 认识到在类似场景下,中位数通常是衡量“典型”情况的更佳指标,因为它对极端值不敏感。


课程资源提示:本教程内容源自密歇根大学《理解数据》课程P5章节,对应视频资源编码为 BV1pU4NzuEvt。
6:均值还是中位数:如何选择 📊


在本节课中,我们将要学习如何在实际场景中选择使用均值还是中位数来总结数据。我们将通过一个关于婚礼花费的例子,探讨这两个统计量在不同数据分布和不同问题背景下的适用性。
回顾与引入

上一节我们介绍了如何通过可视化数据分布来同时识别均值和中位数。但在很多情况下,我们无法看到完整的数据分布,而只能得到一个单一的统计量,例如均值或中位数,并被告知这是对数据的合理总结。本节中我们来看看为什么这可能会带来问题。
案例分析:婚礼花费数据
以下引用自一个在线婚礼博客,关于读者婚礼花费的研究:“平均而言,一对夫妇在仪式或招待会上花费28,000美元,婚礼总成本为34,000美元,与2019年的花费基本一致。” 这段引文来自2021年。

我们只得到了“平均”值,也就是均值。但这个统计量有用吗?让我们来思考一下。
为了便于理解,我们将使用一些积木来模拟可能的数据分布。我们不讨论具体的美元金额,而是将其转换为“月薪”的倍数,这样可能更容易思考。
场景一:对称分布
假设数据分布看起来对称且集中。以下是这种分布的可能情况:
- 大多数人的花费集中在中间范围,例如4-6个月的薪水。
- 花费很低(如2-3个月薪水)和很高(如9个月薪水)的人都很少。
在这种情况下,分布有一个清晰的峰值。均值和中位数都会大致对应于这个峰值。因此,无论使用均值还是中位数,都能公平地代表“典型”读者的花费水平。
场景二:偏态分布(长尾分布)
现在,假设数据分布看起来完全不同。以下是这种分布的特点:
- 大多数人花费不高,不超过2-4个月的薪水。
- 但仍然存在少数极其昂贵的婚礼,这些数据点会将分布向右“拉长”,形成一个长尾。
在这种情况下,中位数仍然会位于大多数数据聚集的区域(例如3个月薪水附近)。然而,均值或平均值会被那几个极高的数值拉高,从而变得比中位数大得多。
对于正在计划自己婚礼、想了解“典型”花费的读者来说,哪个统计量更有用?在这种情况下,均值并不接近大多数人的实际花费峰值。因此,读者可能会发现中位数更有参考价值。
我们无从得知真实的数据分布更像第一种(对称)还是第二种(偏态)。我个人认为它更可能像第二种,因为有些婚礼会办得极其奢华。但仅凭“平均婚礼成本”这一个数字,我们实际上无法判断这个统计量是否真的代表了典型新人的花费。
换个视角:不同的问题需要不同的统计量
让我们转换问题,从另一个角度考虑数据。如果我不再是计划婚礼的新人,而是一位考虑进入婚庆行业的创业者呢?例如,我可能想销售活动鲜花,并希望了解通过向新婚夫妇营销可能赚到多少钱。
在这种情况下,我关心的是哪个统计量?这里,均值可能实际上更有用。因为我不在乎我的收入是来自许多小型婚礼,还是来自一个极其昂贵的婚礼;我只想确保这个市场有赚钱的机会。虽然我不能保证一定能接到昂贵婚礼的订单,但我知道存在这种可能性。因为均值考虑到了那些非常奢侈的婚礼,它确实反映了我理论上的市场机会。
总结
本节课中我们一起学习了均值和中位数这两个必须掌握的基本统计量。在阅读新闻时你会经常听到它们,因为它们是总结复杂数据的快捷方式。
然而,根据你所提出的问题以及数据分布的方式,它们传达的信息可能并不相同。均值对极端值敏感,而中位数则对极端值稳健。选择哪个统计量更有帮助,完全取决于具体的上下文和分析目的。


7:理解健康的数据变异性 📊

在本节课中,我们将学习数据变异性(Variability)的概念。我们将探讨为什么仅使用均值或中位数来总结数据有时会丢失重要信息,以及如何通过理解数据的分布范围来更全面地描述数据。
从中心到分布:为什么需要关注变异性?
上一节我们介绍了如何使用均值和中位数来概括数据的典型值。本节中我们来看看,仅依赖这些中心度量可能会忽略什么。
我们一直讨论使用均值和中位数等统计量来总结数据。通常,我们使用均值或中位数来传达数据中具有代表性或典型的结果,例如典型的纸杯蛋糕评分或婚礼花费。但像任何简化的总结一样,当我们只考虑均值或中位数时,有时会丢失重要信息。
让我们考虑一个例子。回到纸杯蛋糕评分的分布,我们看到在5分附近有一个明显的峰值,但存在一些变异性。有些人评了4分或6分,还有些人评分甚至在这个范围之外。
我们也可以想象一个完全不同的场景:分布的峰值仍然在5分,但变异性小得多。现在,可能每个人都评了4分或6分。因此,即使5分是中位数,这种情况与我们之前的情况也有所不同。
这里几乎没有证据表明有人会给纸杯蛋糕极高或极低的评分。而在之前的情况下,尽管这些是较为罕见的结果,但仍然有可能发生。因此,如果我拥有的是变异性小的数据,我应该更有把握地认为我的评分会在4到6分之间;而如果我拥有的是变异性大的数据,我仍然认为我可能给纸杯蛋糕评4到6分,但我必须承认存在一些事件、观察结果或尝试蛋糕的人,他们认为蛋糕比这个范围更差或更好。
我在这里操作的是将数据块从分布中心进一步向外扩散,或者将它们移除以使分布变得非常狭窄。你可以称之为分布的范围,即我的数据在1到10的尺度上占据了多少空间。另一个描述数据离散程度的技术术语叫做标准差。
虽然不深入探讨这个数学短语的具体细节,但你可以注意到“偏差”(deviation)指的是与常态不同的事物。我们可以将分布的中心视为一种常态,它捕捉了具有代表性或典型性的东西。尽管“偏差”一词在英语中暗示着某种负面含义,但在统计学中它更加中性。变异性是生活的一部分,不是一个需要消除的问题。事实上,它通常是我们最关心、最想理解的部分。
🧒 实例分析:婴儿学步时间的变异性
现在,让我们看一个儿童发展的例子。这里有一个问题:父母应该何时期待他们的宝宝开始走路?
回答这个问题的一种方法来自世界卫生组织的研究。他们收集了加纳、印度、挪威、阿曼和美国健康儿童的数据,希望为医生创建一个标准,以便医生能够理解,例如,如果一个孩子没有按时走路,何时可能存在风险,以及哪些社区可能面临风险并需要公共卫生干预。
让我们看看他们数据中儿童开始走路年龄的分布。这实际上是所谓的模拟数据。这意味着他们没有向公众提供所有数据,但我查看了他们最终报告中的统计数据,并构建了可能产生这些最终统计数据的数据样子。
这里,X轴是年龄(月),所以有些孩子大约在7个月开始走路,另一些大约在18个月开始走路,但大多数人处于中间。Y轴再次是计数,即有多少人。
这个分布的均值大约是12.17个月,这是一个非常精确的数字,也是峰值。你能想象如果我们告诉父母,他们应该期待宝宝在12.17个月走路吗?几乎没有宝宝会在那个精确的时间走路,大多数会稍早或稍晚一点。我们会有父母因为宝宝在12个月早走或在14个月晚走而打电话给医生。
执着于12.17个月这个平均值是没有意义的,因为事实上,很多宝宝在11个月或14个月开始走路。看看分布的主体部分实际上跨越了相当大的月份范围。孩子在12个月之前或之后开始走路是很常见的。
因此,我们可以做的是创建一个健康儿童常见的走路时间范围。我们可能会说,让我们的范围从底部附近开始,也许从第9个月左右开始,因为即使有几个孩子比那更早开始走路,也相当罕见;也许我们最晚到16或17个月左右,因为在那之后,我们希望鼓励父母与医生保持联系。
所以,与其告诉父母期待宝宝在12.17个月走路,我们可以告诉他们期待在9到16个月之间走路,因为我们知道孩子们开始独立走路的时间存在很大变异性,而且这种变异性大多是正常和健康的。在9个月开始走路的孩子可以健康快乐地成长,在12或16个月左右开始走路的孩子也是如此。落在这个范围之外的孩子确实存在,他们也可以健康快乐,但也许我们想安排一次检查,以确保他们拥有茁壮成长所需的一切。
📝 总结与核心要点
本节课中我们一起学习了数据变异性的重要性。
以下是本课的核心要点:
- 变异性是数据的固有属性:它描述了数据点之间的差异程度,而不仅仅是它们的中心趋势。
- 仅关注中心可能产生误导:均值或中位数无法反映数据的全貌,特别是当数据分布范围很广时。
- 理解范围通常更有用:在许多实际场景(如儿童发育)中,了解一个可能的范围(例如,9-16个月)比知道一个单一的平均值(12.17个月)更具信息量和实用性。
- 标准差是衡量变异性的关键指标:它量化了数据点相对于均值的平均偏离程度,公式为
σ = √[ Σ(xi - μ)² / N ],其中σ是标准差,xi是每个数据点,μ是均值,N是数据点总数。


总而言之,观察儿童的发展,我们看到很多自然的变异性。这意味着我们应该对个别婴儿的期望保持灵活。在这种情况下,了解一个可能的结果范围比了解一个均值或中位数更有用。
8:基于数据的比较分析 📊


在本节课中,我们将学习如何比较来自两个不同来源的数据。我们将通过分析两种企鹅的体重数据,理解如何利用数据分布和平均值来识别群体间的差异,并探讨这种比较方法的意义与局限性。
🐧 两种企鹅的数据分布
到目前为止,我们讨论的数据都来自单一来源,例如从纸杯蛋糕店走出的顾客、纽约的航班延误数据,或某流行在线杂志读者的婚礼支出。但有时我们需要比较两个数据源。我们可能想知道一家纸杯蛋糕店的评分是否与另一家不同,或者不同机场的航班延误情况是否有差异。让我们利用已建立的数据分布直觉,来看看如何进行这种比较。
我将向您介绍两种企鹅:阿德利企鹅和巴布亚企鹅。这是生活在南极洲的两种物种。我们可能对了解它们体型大小感兴趣。
以下是一个分布图。请记住,分布图表示我们可能测量了一大群企鹅的体重。这里展示的都是阿德利企鹅的体重数据,我们将它们绘制在此图中。我们可以从中看出几点信息。
首先,我们关注的是它们的体重,X轴代表体重,数值从小到大排列。Y轴是数量,表示特定体重的企鹅有多少只。通过观察体重跨度,我们可以看到一个合理的范围:这些企鹅的体重大约在2500克到5000克之间。
我们可以尝试猜测一个合理的平均值。观察这个分布,它相当对称,因此我们可以用平均值来估计峰值的位置。看起来大约在3700克左右,我们可以在这里画一条线。
🔄 比较两个物种
现在让我们看看另一个物种——巴布亚企鹅的数据。
再次观察,我们看到这个范围(体重跨度)的宽度:巴布亚企鹅的体重似乎从大约4000克延伸到6000克。峰值大约在5000克。
最后,我们可以将它们放在一起观察。如果我们将这两个分布绘制在同一张图上,可以看到一种颜色代表阿德利企鹅,蓝色代表巴布亚企鹅。颜色较深的区域是它们重叠的部分。
那么,让我们提出一个问题:哪种企鹅体型更大?
思考一下这个问题。因为每个企鹅物种的体重都有一个范围,也许我们应该问:一只典型的阿德利企鹅的体重是比典型的巴布亚企鹅大还是小?
在这种情况下,快速总结“典型”值的一种方法是计算每个物种的平均体重。我们知道平均值在这种情况下是一个非常有用的总结,因为这些分布很好且大致对称,没有很长的尾部。因此,我们的计划是:通过估计两个企鹅物种各自的平均体重,然后比较哪个平均值更大,来回答这个问题。
让我们回到直方图并开始标注。
首先,在这里标出阿德利企鹅的平均体重。
然后为巴布亚企鹅做同样的标注。
观察这两者,我们可以说,巴布亚企鹅的体重平均而言比阿德利企鹅大。
🤔 “平均更大”意味着什么?
但是,一个物种“平均更大”究竟意味着什么?我想在这里为比较平均值这件事增添一些细微的差别。
请思考这个判断题:这是否意味着每一只巴布亚企鹅都比每一只阿德利企鹅大?
观察图表片刻,看看是否能得到一些直觉或提示。现在,最大的阿德利企鹅接近5000克。从阿德利企鹅的分布中我们可以看到,有些数据点就在5000克左右。
再看看最小的巴布亚企鹅。观察它们的数据分布,最小的企鹅大约在这里,略低于4000克。
因此,当我们在同一张图上看到它们时,我们可以确定,确实存在一些阿德利企鹅比一些巴布亚企鹅大的情况,尽管巴布亚企鹅平均体型更大。
另一种理解方式是,分布之间存在重叠。在这个我加深显示的体重范围内,观察到了两个物种的企鹅。
那么,“平均更大”到底意味着什么?我们已经判定,上述说法实际上是错误的。并非每一只巴布亚企鹅都比每一只阿德利企鹅大。
💡 比较平均值的意义
那么,我们发现巴布亚企鹅平均体重更大这件事,真的重要吗?
我认为是的,以下是两个思考角度。
一种说法是:一只典型的巴布亚企鹅比一只典型的阿德利企鹅拥有更多的体重。我们是在描述“典型”情况,说明这两种企鹅体重聚集的位置略有不同。
另一种说法是:如果我随机挑选一只阿德利企鹅和一只巴布亚企鹅,通常,在大多数情况下,巴布亚企鹅的体重会更高。
比较两个数据分布的平均值,是识别某些更大模式的有效方法,例如巴布亚企鹅往往比阿德利企鹅体重更大。使用平均值有助于我们建立预期,或提供简化数据以便思考的通用方法。

有时这些结论会是错误的,比如当我们发现一只特别小的巴布亚企鹅或一只特别大的阿德利企鹅时。但我们仍然学到了一些在多数情况下成立的东西。
⚖️ 统计思维的核心张力
这里体现了统计思维的一个核心张力:我们可以学会识别在某些情况下(甚至很多情况下)成立的模式。但我们很少会谈论绝对性。正确的统计思维意味着预期自己有时会出错。
📝 本节课总结

在本节课中,我们一起学习了如何通过比较两个数据分布的平均值来进行数据分析。我们以阿德利企鹅和巴布亚企鹅的体重数据为例,理解了“平均更大”的实际含义并非指所有个体都更大,而是描述了群体的典型趋势。我们认识到,使用平均值进行比较是一种强大的简化工具,能帮助我们识别整体模式,但同时必须接受其结论并非绝对,存在例外情况。这正是统计思维的精髓所在:在不确定性中寻找有意义的规律。
9:模块2导论:培养不确定性直觉 📊
在本节课中,我们将要学习如何理解数据中的不确定性,并培养在信息不完整的情况下进行推理的直觉。我们将探讨为什么统计摘要有时会误导人,以及不确定性如何成为我们理解世界的关键部分。
在第一周课程中,我们探讨了关于数据的基本概念,包括如何收集数据、如何思考数据以及如何汇总数据。我们每天都会遇到数据的摘要,例如一场婚礼的平均花费、房价中位数或一家餐厅的平均评分。我们常常使用这些简化的摘要来进行推理和决策,因为它们简化了对潜在复杂测量的思考。
然而,我们也发现并非所有统计量都同样有用。一个统计量可能捕捉到数据的错误方面,例如当某人报告均值,而中位数对其受众更为相关时。一个统计量也可能过于简化,以至于掩盖了最有意义的信息,例如当我们报告单一均值,而一系列可能的结果更为合适时。
在接下来的几讲中,我们将继续培养关于什么因素会增强或削弱我们对统计量价值的信任的直觉。我们将考虑不确定性如何进入我们对世界的测量中,以及我们如何在非完美条件下继续学习新事物。
适应不确定性可能是最重要的统计思维技能。它将真正挑战你以新的方式思考数字。
让我们从一些演示开始,然后将这些概念整合起来。
上一节我们介绍了不确定性在数据分析中的重要性,本节中我们来看看如何通过具体演示来理解它。
以下是理解统计摘要局限性的两个关键点:
- 统计量可能捕捉到数据的错误方面。例如,当数据分布存在极端值时,报告均值
(x̄ = Σx / n)可能不如报告中位数更能代表典型情况。 - 统计量可能过于简化。例如,仅报告一个单一的平均值
mean_value,可能掩盖了数据实际存在的波动范围,此时提供置信区间或范围更为合适。
在接下来的课程中,我们将深入探讨不确定性如何产生,以及我们如何量化和管理它。适应不确定性要求我们不仅仅接受一个数字,而是思考这个数字背后的可变性和可信度。


本节课中我们一起学习了数据摘要的局限性以及引入不确定性思维的必要性。我们认识到,一个单一的统计量(如均值)可能无法完整描述数据,有时甚至会误导判断。培养对不确定性的直觉,将帮助我们在面对真实世界的不完美数据时,做出更明智的推理和决策。
10:噪声与偏差的测量尺度 📏


在本节课中,我们将探讨现实世界中的测量问题。我们将学习测量设备可能存在的两种主要误差:偏差和噪声。通过一个称量谷物重量的具体例子,我们将理解如何评估测量工具的可靠性,并学会在存在不完美的情况下,如何得出有意义的结论。
一个测量难题 🧐
我和我的宠物梅尔文遇到了一个问题。梅尔文对食物非常挑剔,我需要确保为它准备本周恰好足够的谷物。因此,我试图测量出我拥有的所有谷物重量。谷物装在这个容器里。我知道这个玻璃碗本身的重量,所以我打算称量总重,最后再减去碗的重量。我们先忽略碗的部分,只考虑称量这个整体。
我拿出我的厨房秤进行称量。它显示重量是 631 克。看起来不错。但为了确保准确,我使用了另一个秤。这个秤显示 632 克。这两个数字很接近,但并不完全相同,这让梅尔文有点担心。
我想知道真正的重量是多少,所以我实际上找来了一大堆秤。这些秤都是我在网上找到的。我们可以在其中几个上称一下看看。这个显示 631 克。这个显示 630 克。这个是 626 克。这个是 629 克。
评估测量工具的质量 ⚖️
我们该怎么办?这些秤给出了几个不同的答案。我可以随便选一个数字告诉梅尔文,但我怎么知道这个数字比其他数字更准确呢?


有一个想法:并非所有这些秤都是质量相同的仪器,它们的质量参差不齐。有些制作粗糙,有些则工艺精良。也许我们可以选择一个我们认为质量非常高的秤。
那么,什么使一个秤质量高呢?一个秤至少可能以两种方式出错。
偏差:系统性误差 🔄
第一种方式是,秤可能持续地高估或低估重量。



这里有一个例子。我拿出我的一个秤。我这里有一个校准砝码,这个砝码被制造为精确的 两千克。我们可以把它放在秤上看看会发生什么,因为我们知道它确实是两千克。我把它放上去。好的,秤显示它是 2001 克。我再试一次,还是 2001 克。为了确保,再来一次,仍然是 2001 克。
在这种情况下,我们有一个秤持续地高估这个校准砝码的重量,大约高出 1 克。它每次都会犯这个错误,而且总是朝同一个方向,总是比真实重量多出大约相同的量。在统计学中,我们会说这个秤存在偏差。它持续地以相同的量得出错误的答案。

噪声:随机波动 📊
秤可能出错的另一种方式是,即使在称量同一物体时,它给出的测量结果也不一致。

现在我们来查看另一个秤。这个秤的评价相当可疑,有很多不满意的顾客。我再次把我们的砝码放上去。

它显示是 1995 克。我再试一次,拿下来再放上去。现在是 1992 克。现在是 1993 克。哦,刚刚又变成了 1994 克。关键是,每次我称量这个完全相同的物体时,我们得到的数字都略有不同。这表明这个秤不是特别可靠,它存在噪声。

从不完美的测量中学习 🧠
这是否意味着,既然我们知道这些秤在某种程度上都不完美,特别是其中一个有偏差,而另一个可能有噪声和偏差,我们就应该完全忽略它们呢?并非如此。即使它们不完美,我们仍然可以学到一些东西。
如果我能够使用一个已知重量的物体,比如这个校准砝码,那么我就可以识别出一个秤的偏差有多大。这意味着,既然我知道它总是在测量任何物体时,给真实重量加上或减去一个特定的量,我就可以利用这个知识来修正它未来的测量结果。我只需要取它报告的数字,然后减去偏差即可。这实际上是相当容易处理的。
对于这个有噪声的秤,我们仍然可以学到一些东西。用同一个物体反复多次测量,它给出的数字确实会变化,但它是在某个特定范围内变化。我们没有得到任何意外的结果,比如突然变成只有 10 克 或 10000 克。看起来它大约在 1991 到 1995 克 左右。所以大多数时候,我们可能会得到一个在这个范围内的答案。这个范围只有几克宽。我可以继续测量以确定这个范围有多大,但我们已经对它有了初步的感觉。
我可以告诉梅尔文,真实重量就在那个范围内。它并不完全一致,但我有一个我相当确定真实数字在其中的范围。这个答案仍然比什么都没有要好得多,尽管我们必须接受一些模糊性。
我也可以像刚才那样研究所有的秤,然后选择最好的一个——最一致、偏差最小的那个。结果证明是这一个,尽管它确实有一点偏差。但这是一个来自值得信赖公司的质量相当不错的设备。我可以告诉梅尔文,根据最好的秤,我们能得到的最佳估计是他的谷物重量是 631 克。
当然,这里仍然存在一些不完美之处。这个秤并非完全可靠或完全无偏差。在现实世界中,事实上没有任何秤会是完美的。它们只能足够准确以提供帮助。我们最好秤的制造商甚至报告说,它的准确度在 大约 1 克 以内。换句话说,它可能与物体的真实重量相差最多 1 克(多或少)。对于我们的目的来说,这就足够好了。

测量需求的相对性 ⚛️
当然,有些情况下,这样的准确度是完全不够的。例如,想想核物理学家需要精确分配铀的量。一个可能偏差高达 1 克 的秤是不够的,因为科学家可能需要测量比这小一百万倍的差异。他们甚至可能需要测量单个原子重量那么小的差异。他们无法容忍像我测量梅尔文早餐谷物时所能接受的相同程度的不确定性。


总结 📝
让我们回顾一下。在现实世界中,没有任何测量设备是绝对完美的。测量可能存在偏差,意味着它们持续地高估或低估目标值。如果设备倾向于出现随机波动,测量也可能存在噪声。

但是,如果我们仔细并有意识地理解我们的仪器,我们仍然可以在某些限制范围内得出可靠的结论。




在本节课中,我们一起学习了测量中的两个核心概念:偏差(系统性、方向固定的误差)和噪声(随机、无规律的波动)。我们通过称量谷物的例子,看到了如何利用已知标准(校准砝码)来识别偏差,以及如何通过重复测量来评估噪声的范围。最重要的是,我们明白了即使工具不完美,通过理解其局限性和进行校准,我们仍然可以获得有用且足够准确的信息。测量的“足够好”总是相对于具体需求而言的。
11:如何开展民意调查 📊
在本节课中,我们将通过一个生动的例子,学习如何开展一项调查或民意测验。我们将了解为什么通常只研究总体中的一部分样本,以及为什么不同的样本可能会给出略有不同的结果。
想象一下,有一群橡皮鸭,它们从事着各种职业:有小丑、厨师、建筑工人,甚至还有海盗。我们的目标是找出这群鸭子中,有多少比例选择了成为海盗。显然,逐一询问每一只鸭子非常耗时,因此我们需要采用一种更高效的方法。
随机抽样过程 🎯
上一节我们提出了问题,本节中我们来看看如何通过随机抽样来寻找答案。我们无法研究所有个体,因此需要从总体中随机选取一部分作为样本进行研究。
我使用一个大勺子,从鸭子桶中随机舀出大约10只鸭子。这个过程的关键是随机性,我通过摇晃桶来确保每只鸭子都有均等的机会被选中。
以下是第一次抽样检查的结果:
- 在选出的10只鸭子中,有2只是海盗。
- 这个比例可以表示为
2/10或 30%。
抽样结果的变异性 🔄
我们是否就此解决了问题?并不完全。为了验证,让我们看看如果重复这个抽样练习会发生什么。我再次摇晃桶以确保随机性,然后进行第二次抽样。
第二次抽样结果如下:
- 这次,10只鸭子中只有1只是海盗。
- 比例变为
1/10或 10%。
海盗鸭的比例下降了吗?当然不是。我们知道桶里的鸭子总数没有变化,海盗鸭的数量也和之前一样。发生变化的是我们抽样到的具体10只鸭子。
为了更全面地观察,我进行了第三次抽样。
第三次抽样结果如下:
- 这次,10只鸭子中有3只是海盗。
- 比例变为
3/10或 30%。
这个结果令人惊讶吗?3比我们之前看到的数字都大,但它并没有完全脱离前两次的结果范围(1和2)。如果出现像8只海盗鸭这样极端的情况,那才会真正令人惊讶。
核心概念与真实情况 📈
我所演示的是:每次我们随机抽取样本进行研究时,都可能得到一组略有不同的鸭子,这会导致我们测量到的海盗比例存在差异,尽管整个鸭子总体的情况并未改变。
现在你可能会好奇,海盗鸭的真实比例究竟是多少?事实上,我知道这个桶里的确切数量:总共有235只鸭子,其中37只是海盗。这大约是 15.7%。
可以看到,我们三次抽样得到的估计值(10%, 20%, 30%)虽然不完全精确,但都没有离真实比例(15.7%)太远。
从演示中学到的要点 🧠
通过这个橡皮鸭的例子,我们可以总结出关于开展调查的几个重要认识。
首先,测量我们想要研究的每一个个体通常是不切实际的。因此,统计学家通常会进行抽样调查。其核心思想是:
研究样本 (Sample) → 推断总体 (Population)
就像我只询问了10只鸭子的职业选择一样,一家民意调查公司可能会询问1000人他们支持哪位总统候选人。我们尽力使这种选择是随机的(例如摇晃桶),尽管在现实世界中做到完全随机可能非常困难。
其次,当我们使用样本时,答案可能取决于具体包含了哪些个体。因此,即使其他条件不变,两个不同的样本也可能会给出不同的测量结果。我们必须承认这种不确定性。这就像上一节课中测量Melvin食物重量的秤:即使谷物重量没变,秤有时也会给出不同的读数,它并非完全可靠。
事实上,我们可以将调查本身视为一种测量工具。就像秤是测量质量的工具一样,调查是测量“我的小镇里有多少海盗鸭”的工具。和秤一样,调查结果在每次测量时都可能有些许波动。
但这并不意味着我们的测量毫无用处,仅仅因为它们存在一些“噪音”。例如,即使只抽样了10只鸭子,我们的估计也没有离真实比例太远。但我们必须诚实面对:来自样本的测量是不精确的,它们会因样本而异,因此并非对总体的完美度量。当我们讨论它们时,应该强调其中存在的不确定性。
最后,我们需要习惯这种变异性。我们不会每次调查都得到完全相同的答案,这是正常现象。想象一下,如果我戴一顶红帽子时测量出3/10的海盗鸭,然后换上一顶绿帽子再次抽样,得到了2/10。难道是红帽子增加了海盗鸭,或者绿帽子减少了海盗鸭吗?当然不是,那样我就愚弄了自己。测量结果之间的这种变化实际上是典型的,与我帽子的颜色无关。
与现实调查的联系 🌍
我们这里用鸭子所做的,与你可能读到的其他类型的调查(例如了解公众对总统候选人的看法)非常相似。通常我们必须研究选民样本,因为询问所有人是不现实的。由于我们的样本可能包含无数种不同的人员组合,我们必须接受测量中存在的一些“噪音”和不精确性。这不是坏事,我们只需要知道我们的数字存在一定的“模糊性”即可。


本节课中,我们一起学习了开展民意调查的基本原理。我们通过橡皮鸭的生动例子,理解了随机抽样的必要性、抽样变异性的存在以及样本估计的不精确性。记住,调查是一种工具,它的结果会波动,但通过合理的设计和解读,它仍然是了解总体情况的有力手段。关键在于,我们要学会理解和表达这种测量中固有的不确定性。
12:充满噪声的现实世界 🌊


在本节课中,我们将探讨现实世界中普遍存在的“噪声”现象。我们将了解噪声如何影响测量和观察,并学习如何在充满不确定性的环境中提取有意义的信息。

在我们的演示中,我们看到了噪声如何使测量变得困难的例子。
首先,我们曾尝试测量一些谷物的质量,但使用的天平有些噪声。它每次测量给出的结果都不一致,这使得我们难以确定真实的质量。

在我们的鸭子演示中,我们试图了解橡皮鸭的“海盗率”,但发现答案可能取决于我们选择测量哪些鸭子。由于我们每次调查都尝试随机选取不同的鸭子,因此被研究的鸭子总是存在一定的随机性和噪声。
这些就是噪声的例子。我已经多次使用这个词,现在我想给它一个定义。遗憾的是,从不同的科学领域来看,噪声的含义略有不同,并没有一个可以普遍使用的精确定义。但我想给出一个非技术性的、直观的定义,以便我们在讨论噪声时能够记住:噪声是世界中的不一致性和随机性,它阻止我们精确地了解事物。
这就像我们的天平,因为它有时不一致,我们很难确定哪个测量值最接近真实值。在我们的鸭子调查中,因为每次捞取的鸭子都不同,这使得我们很难知道真正的“真相”是什么。
但关于噪声,我想提出一个更深刻的观点:噪声不仅关乎我们的测量工具(如天平或调查),它也是世界本身的一部分,我们可能永远无法完全消除。
让我们再以梅尔文为例。假设我想研究梅尔文的数学技能,于是我召集了世界上最伟大的科学家,让他们设计出一份完美的数学测试,用以精确测量梅尔文的数学知识。这份测试设计得非常精妙,能完美反映梅尔文掌握的数学概念以及他能答对多少题。
假设我让梅尔文参加测试,他答对了84%的题目。那么,如果我们连续一周每天都测试他,会发生什么?我们假设不必担心梅尔文会记住前一天的答案,因为他是一只鸡,记忆力很短。所以每天晚上他睡觉后,就像获得了一块干净的石板,可以重新参加测试。
如果我们连续一周每天测试他,第一天他答对了大约84%。星期二他表现得更好一点,星期三差一点,星期四得分很高,星期五则不太理想。这里发生了什么?你认为梅尔文的数学技能在一周内变好又变差,然后又变好,接着大幅变差了吗?
很可能不是。梅尔文的数学技能在一周内并没有改变,但他参加测试的状态却每天不同。
- 第一天,假设梅尔文进来后表现尚可,但附近有一只虫子分散了他的注意力,这让他很难回答所有问题。
- 第二天,梅尔文得到了表扬,他感到非常自信,这给了他一点额外的动力。
- 第三天,下雨了,梅尔文不喜欢下雨,这影响了他参加测试的兴趣。
- 星期四,他胆子大了,猜了几个答案,其中一些幸运地猜对了。
- 星期五,梅尔文就是心情不好。他不知道原因,但他肯定没心情参加测试。
这是一个例子,说明即使我们的工具是完美的,梅尔文本人每天的状态也不尽相同。我们看到这些波动,它们或多或少是随机的。这些是不可预测的事件,比如房间里有苍蝇、去测试的路上得到表扬、某天下雨,或者只是无缘无故地心情不好。这些事情时常发生,我们无法控制它们。
由于世界上许多事物相互影响(比如苍蝇影响梅尔文的注意力),我们自身也可能带有一些“噪声”。但这并不意味着我们的数据毫无用处,我们仍然可以学到一些东西。
那么,你认为梅尔文在这项测试中的真实数学能力可能是30%吗?你认为他可能只会回答30%的题目吗?很可能不是,我们的数据远未接近30%,我们看到他的分数远高于此。
那100%呢?你认为可能吗?我认为也不太可能,梅尔文的分数也没有特别接近100%。所以,如果有人声称他在这项测试中的真实能力实际上是100%,我会认为这相当不可信。
相反,我可以做的是在所有数据点中间画一条线。这条线代表他这些天分数的平均值,大约是86%。因此,我们可以说,他在那项特定测试中答题的真实能力大约是86%,他大约能答对86%的题目。当然,如果我说恰好是86%可能过于自信,所以我可以在它周围设定一个范围。这个范围包含了这里的大部分数据。也许我可以说,梅尔文的真实能力很可能在答对84%到87%题目的范围内。
噪声不仅是我们环境的一部分(不仅仅是苍蝇或下雨天),它也是许多生物过程的一部分。所谓生物过程,我指的是我们的大脑以及帮助我们思考、感知和行动的身体部分。
以下是神经科学中的一个例子。你体内的神经元是帮助我们感知世界的细胞。这里有一张你耳朵里神经元的图片,这些红色和黄色的纤维看起来像细绳,它们实际上就是你耳朵里的神经元。神经元通过“发放”或“放电”来响应世界。听觉神经元编码世界上发生的声音并将其转化为大脑可以使用的东西的方式是:当声音出现时,它会发放或放电。我们听到一个声音,然后神经元以这种模式响应。圆点表示神经元可能安静的秒数,而这些感叹号表示它突然放电,而且通常不止放电一次,而是多次。
现在,如果我播放完全相同的声音(比如这个喇叭声),并且用同一个神经元,用完美的记录设备进行记录,当我一遍又一遍地向同一个神经元播放相同的声音时,我们会看到什么?我们会看到每次都会得到略有不同的兴奋模式。
这实际上是一个相当深刻的概念。同一个神经元,同一个声音,想象我们的记录仪器没有噪声,神经元的反应仍然会变化,即使它是对相同刺激的反应。然而,尽管对这个神经元来说,它从未以相同的方式“听”过两次喇叭声,但我们的大脑却能够理解我们听到的是同一个东西。即使我每次对你说话,对你的神经元来说,每次都是不同的,相同的兴奋模式在你的体内从未发生过两次,但你仍然知道那始终是我。
因此,我们的身体已经在进行一种深刻而有趣的计算:它试图在一个总是充满噪声的世界中,识别出哪些信息是有意义的,并从中构建出模式。这实际上正是统计学的核心问题。我们在这里的课程中要明确学习的就是这个:我们试图为你建立一些直觉,让你思考如何在一个总是充满噪声的世界中,选择我们认为有意义的信息。


在接下来的幻灯片中,我们将更明确地继续探讨这个问题。
13:如何与噪声共存 📊


在本节课中,我们将要学习一个核心概念:现实世界中的数据总是伴随着“噪声”。我们将探讨噪声是什么,以及如何通过“误差范围”这一工具来理解和应对它,从而在充满不确定性的世界中做出更合理的判断。
我们已经了解到,现实中总是存在噪声。我们永远不会遇到一个完全不需要处理噪声的世界。
但这并不意味着我们必须假设整个世界都是随机的,没有任何事物可以被认知。我们仍然可以形成一些预期,并且我们一直在这样做。例如,天气:我们无法精确知道闪电是否会发生以及会在哪里发生,但我们仍然可以获得天气预报,告诉我们闪电发生的可能性足够大,我们应该采取预防措施并进入室内。
另一个例子是语言。如果我说“我要去______游泳”,接下来我可能会说的内容有很多种可能性。其中一些可能性比另一些更大。例如,说“游泳池”、“海滩”或“湖泊”的可能性,比说“图书馆”、“杂货店”或“胡萝卜”的可能性要大得多。
还记得之前我们探讨过如何处理一系列可能的结果吗?我们研究了儿童何时学会走路,并发现虽然可以使用平均值(例如,预期孩子会在12个月大时走路),但这实际上会让很多父母感到困惑,因为很多孩子会在12个月之前走路,也有很多会在12个月之后走路。因此,我们给出的建议是:你应该预期你的孩子在8到18个月之间学会走路。我们给出了一个范围。
事实证明,这也是处理带有噪声的测量结果的一个好方法。
🔬 理解测量中的误差范围
仪器本身就有内置的误差范围。误差范围帮助我们确定那个范围——即我们应该预期的可能结果的范围。
这通常在购买秤时出现,制造说明或说明书会给出误差范围。它可能听起来像这样:“此秤的精度在1克以内。”
另一种说法是:该秤的误差范围为 ±1 克。
这意味着,如果我用这个秤称出300克,那么我知道我所测物体的真实质量可能在299克到301克之间。
如果误差范围是10克(这个范围更大一些),那么一个称出300克的物体,其真实质量可能在290克到310克之间。可能性的范围变得更大了一些。
如果秤的误差范围是100克呢?那么我只能说,那个称出300克的物体,其真实质量可能在200克到400克之间。这个范围就更大了。
一般来说,误差范围越大,仪器的帮助就越小。我们当然更愿意使用误差范围为1克的秤,而不是10克或100克的秤。
📊 民意调查中的误差范围
另一个例子来自民意调查。如果你最近经历过城镇、州或国家的选举,你可能已经被这些例子淹没了。
请记住,民意调查也是一种工具,它是一种用于理解世界上人们的情绪、信念或活动的工具。
你可能已经知道,有些民意调查比其他的更好。你可能本能地知道,进行民意调查的某些方法优于其他方法,它们并非都一样好。
让我们至少看一种判断民意调查是否有用的方法。
以下是两种民意调查,假设这是针对“橡皮鸭海盗行为”的调查。在调查A中,我们只抽样调查了4只鸭子。在调查B中,我们抽样调查了更多鸭子。你更愿意相信哪一个?
你很可能认为你更愿意相信调查B。但让我们想想为什么。在调查A中,你只得到了很少的回应,因此调查很可能错过整个人群的趋势。调查B有更多的回应,因此更有可能代表整个人群。
所以,调查A(我们在这里调查了很少的人或鸭子)的误差范围相当大。而调查B的误差范围较小,我们更有信心它更接近真相。
实际上,每项民意调查都有误差范围,但有时很难找到。例如,我最近读到一篇关于总统支持率民意调查的新闻文章,在故事的底部有一个脚注,那里报告了该民意调查的误差范围,包括参与人数以及如何联系他们等细节。你真的必须在文章中仔细寻找才能看到这些信息,我认为很可能很多人不会通读全文来看到这个。
📈 误差范围的可视化理解
但这到底意味着什么呢?让我们用一个视觉化的方式来看。假设我们在一次民意调查中测得支持率为45%,并且我们使用3%的误差范围(上一张幻灯片是3.1%,我们简化为3%)。这意味着什么?
我们可以用图形来描述。我们可以考虑在我们45%的估计值周围画一些线,给它一个“邻域”。这看起来就像是在说:根据我们的测量结果以及我们进行的民意调查及其内置的误差范围,总统的真实支持率可能低至42%,或高达48%。
换句话说,我并不确定总统在全国的真实支持率是多少,但如果我们认为这项民意调查具有合理的代表性和良好的执行,我可以合理地确信,真实的支持率在42%到48%之间。
那么,如果我们进行了另一项民意调查(我在图中用蓝色标记)会发生什么?
这次我们在那项调查中测得支持率为46%,同样有3%的误差范围。假设蓝色调查使用了与之前完全相同的方法,但在一周后进行,并且由于是随机抽样,参与研究的是不同的人。
那么,如果你看到这些数据——蓝色调查是一周后对不同人群进行的——你认为总统的支持率上升了吗?它从45%上升到46%了吗?
你应该对此持一些怀疑态度。事实上,我们从45%上升到46%所看到的这1个百分点的差异,实际上在我们原始调查3%的误差范围之内。
这意味着,如果我们继续在第一周测量完全相同的事情,只是抽取了稍微不同的人参与研究,那么即使没有任何变化,我们的支持率也可能在那个范围内上下波动3个百分点。我们的新调查结果正好落在仅因调查对象不同而可能预期的波动范围内。因此,这并没有特别强有力的证据表明总统的全国支持率上升了。
如果我们说“哦,那个百分点的增长非常有意义”,那就像有一个新闻主播看着梅尔文(一个虚构的例子)说:“哦,梅尔文的数学突然变好了,现在又变差了,哦,他又变好了,哦,他的数学又变差了。”我们知道这并没有发生。这些本质上只是随机抽取的情况,导致梅尔文的表现略有波动,但都在一个非常相似的范围内,因为我们知道梅尔文回答这些问题的真实能力在这一周内并没有真正改变。
💎 核心总结
综上所述,当我们谈论统计数据时,判断一个统计数字是否有用的另一个要素是,我们必须考虑我们应该对报告的具体数字抱有多大的信心。
如果我们有一项民意调查,不仅仅是知道“调查的测量结果是45%的支持率”,我们还需要知道围绕这个数字的误差范围有多大。这告诉我们,我们应该有多大信心认为报告的值确实接近真实情况。
公式表示:
报告值 ± 误差范围 = 真实值的可能区间
在本节课中,我们一起学习了:
- 噪声是现实世界数据的固有部分。
- 误差范围是量化这种不确定性的关键工具。
- 无论是物理测量(如秤)还是社会测量(如民意调查),理解其误差范围对于正确解读数据至关重要。
- 当比较两个测量结果时,如果差异在误差范围之内,则不能轻易得出“发生了真实变化”的结论。



通过理解和应用误差范围,我们可以更明智地看待数据,避免被随机波动所误导,从而在充满噪声的世界中做出更稳健的决策。
14:效度:我们究竟在测量什么 📊

在本节课中,我们将要学习效度这一核心概念。效度关注的是我们的测量结果与想要理解的事物之间的匹配程度。理解效度对于评估任何研究、调查或数据结论的可靠性至关重要。
🔍 什么是效度?
上一节我们介绍了数据收集中的不确定性,本节中我们来看看测量本身的准确性问题——效度。
效度是一个关于测量质量的概念。其非技术性的直观定义是:效度反映了我们所测量的内容与我们真正想要理解的事物之间的吻合程度。
✅ 高效度示例
以下是两个高效度的测量示例:
- 测量鸡的重量:如果我们想了解一只鸡有多重,那么重量就是“重”的一个效度很高的测量指标。而秤是测量重量的效度很高的工具。当然,我们必须测量正确的动物(鸡)。
- 测量室外寒冷程度:如果我们想了解室外有多冷,那么温度就是“冷”的一个效度很高的测量指标。而温度计是测量温度的效度很高的工具。同样,测量必须在室外进行。
❌ 低效度示例
相反,以下示例展示了低效度的情况:
- 用卷尺测量鸡的重量。即使卷尺非常精确,它测量的是长度,而非重量。
- 用尺子测量室外温度。尺子测量的是长度,而非温度。
- 通过测量企鹅的重量来了解鸡的重量。即使对企鹅的测量非常精确,它也与鸡的重量无关。
低效度的根本原因在于:测量了错误的事物,或者使用了错误的工具去测量目标事物。
📈 重新审视总统民调
现在,让我们再次考虑之前的总统民调例子。我们当时试图理解的问题是:本国公民对现任总统的支持率。
有哪些因素可能影响这项民调的效度呢?以下是几种可能性:
- 问题表述模糊:如果问题令人困惑,受访者可能不清楚自己被问的是什么,或者只能猜测。
- 询问了相关但不同的问题:例如,民调可能问“你计划在下届选举中再次投票给这位总统吗?”这与支持率相关,但并非完全相同。有些人可能不支持总统,但仍会投票给他,因为他们认为总统比竞争对手更好。
- 样本代表性偏差:如果民调主要通过电话访问参与者,那么不接听陌生电话的人(如内向者)、没有手机或固定电话的人可能会被低估。而经常接电话的人可能无法代表整体人口。
关键点在于:如果民调不是一个有效的测量工具,那么无论你询问多少人,得到的数据量有多大,只要数据本身是“错误”的,就无法正确回答我们的研究问题。我们可以得到一个误差范围极小的、非常“精确”的估计,但这个估计可能完全偏离真相。
🤔 效度问题如何产生?
效度问题产生的方式多种多样,但可以归纳为几种常见模式。以下是几个需要思考的方面:
- 定义分类的挑战:我们经常希望对事物进行分类以便测量,但从现实数据中创建类别可能异常困难。例如,统计一个国家的死因。不同地区在死亡记录方式上可能存在巨大差异,比如由谁记录(法医、培训不足的技术人员还是医生),以及是否存在将死因归于特定因素的压力。
- 报告敏感信息的挑战:在涉及敏感话题时,很难获得准确的自我报告。例如,询问“你多久锻炼一次?”、“你每天吃多少水果?”或“你多久说一次谎?”。在这些例子中,受访者可能迫于压力夸大或贬低自己的答案,以使自己看起来更符合社会期望。
- 结果泛化的挑战:一个活跃的研究问题是:我们能否利用社交媒体来理解更广泛社会中的情感、信仰和价值观? 这里存在一个重要问题:我们是否应该将这些结果泛化?研究社交媒体用户,能否让我们了解线下人群?还是说我们仅仅在研究社交媒体用户这一特定群体?社交媒体用户可能在许多重要方面与线下人群不同。
⚖️ 专家观点与效度判断
关于效度,专家之间可能存在合理的分歧。例如,在上述社交媒体研究的例子中,关于在哪些方面我们可以合理地将社交媒体用户的特征推广到更广泛人群,以及在哪些方面他们的行为仅限于自身,仍然存在合理的争议和积极的探索。
然而,有些情况下则不存在合理的分歧。以情绪戒指为例:事实证明,情绪戒指测量的是体温,因此它是测量体温的一个相当有效的工具。但当人们将其解读为测量情绪时,就失去了效度。关于这一点,专家们没有太多分歧。
有时效度问题很容易发现(如情绪戒指),但有时则不然。通常,对某事物的直接测量越困难,我们就越需要仔细思考测量工具的效度。
📝 本节课总结



本节课中我们一起学习了效度的概念。我们了解到,效度衡量的是我们的测量与真正想理解的事物之间的匹配程度。我们探讨了高效度与低效度的例子,分析了影响民调效度的因素,并讨论了效度问题产生的常见模式(如分类定义、敏感信息报告和结果泛化)。最后,我们认识到评估效度有时明确,有时则需要谨慎判断,尤其是在测量复杂或抽象概念时。确保测量的高效度是得出可靠数据结论的基石。
15:模块3导论:数字叙事中的统计学 📊

在本节课中,我们将要学习如何理解并批判性地看待数据叙事中的统计学。我们将探讨统计学在沟通中的作用,以及如何识别常见的数据叙事陷阱。
上周,我们建立了关于不确定性的直觉。
我们认识到随机性和噪音是不可避免的。
这对于想要知晓一切的人来说可能令人沮丧。
然而,尽管我们永远无法完全确定,但我们也不必绝望地认为一切将永远无法理解。
统计思维为我们提供了一条中间道路,但这种思维模式可能并不常见。
尽管我们的大脑非常擅长在噪音中发现模式,但对大多数人来说,谈论统计和数字需要大量练习,这并非与生俱来。
接下来,我们将看一些真实案例,了解统计沟通如何可能成功或失败。请记住,我们研究统计学并非仅仅因为我们喜欢与数字打交道。统计学帮助我们创造知识,或者至少用更简单的术语描述复杂的事物。
因此,当我们在生活中遇到统计数据时,需要记住它们通常服务于某种修辞目的。它们是由人类叙事者呈现在你面前的。
叙事者可能试图向你阐明他们认为有趣或重要的事情。他们可能希望说服你接受他们的立场,或者他们可能邀请你共同参与意义构建的过程。
我们将从统计叙事中最常见的几组矛盾开始。在你培养对统计数据的批判性眼光时,牢记这些考量会很有帮助。
以下是这些核心矛盾:
- 精确性与可理解性:如何在提供准确数据的同时,确保信息易于被受众理解。
- 简化与完整性:如何在简化复杂现象以传达核心信息时,不丢失重要的细节和背景。
- 客观性与说服力:统计本身追求客观,但其呈现和使用往往带有说服意图,如何平衡这两者。
- 数据与故事:如何将冰冷的数字融入有温度、能引起共鸣的叙事中。


本节课中,我们一起学习了统计思维在数据叙事中的核心地位。我们了解到,统计数据不仅是数字,更是人类沟通和构建意义的工具。通过认识统计叙事中常见的矛盾,我们可以更明智地解读遇到的数据,理解其背后的意图,并做出更审慎的判断。
16:单位、量纲与估算 📊


在本节课中,我们将要学习统计数据中单位和量纲的重要性,以及如何理解估算值与直接测量值的区别。我们还会探讨数字的不同“风味”,例如比率和百分比,并学习如何准确解读它们。
1. 统计数据的含义与单位
上一节我们介绍了统计数据的基本概念。本节中我们来看看统计数据的具体构成。

一个统计数据是关于数据的计算,而数据是数值加上背景信息。回想第一周我们数梅尔文的羽毛,我们数出他有11,490根,这是一个数值。但其他所有信息都是背景:我们数的是羽毛,对象是梅尔文,验证者是密歇根大学的科学家,以及计数的日期。所有这些背景信息赋予了数字意义。
背景信息的一个重要方面是测量单位。当一个统计数据代表一个测量值时,我们必须知道其单位。我们知道梅尔文有11,490根羽毛,这里的“根”就是单位。
以下是常见的单位示例:
- 计数单位:例如“多伦多有三人做了某件有趣的事”,这里的“人”是单位。
- 比例单位:例如“四分之三的牙医推荐某牙膏”,“牙医”是单位。
- 货币单位:例如美元、人民币等。
- 温度单位:例如摄氏度或华氏度,明确使用的标尺尤为重要。例如,2°C。


2. 未知单位的警示
有时,单位可能非常陌生,导致我们无法理解数据。
这里有一个我在网上看到的广告例子。它是一个针对创伤后应激障碍治疗设备的定向广告。在Y轴上,有一些数字,我猜代表PTSD水平。由于我不是PTSD专家,我不知道这些数字是如何测量的,因此完全无法理解它们的含义。例如,在这个量表上变化5个单位意味着什么?需要变化多少单位,患者才会感觉症状有所改善?我无从得知。
因此,对我而言,这是一个巨大的警示信号。我立即意识到自己无法解读这张图表,因为我不知道那些单位是什么。
3. 直接测量与衍生估算
需要记住的另一点是,有些统计数据并非直接测量,而是从其他统计数据衍生而来的估算值。
一个例子是智能体重秤。许多家用智能体重秤声称可以测量体脂率。但深入研究后会发现,直接测量体脂率极其困难,家用体重秤并不具备直接测量的能力。实际上,它测量的是你站上去时能获取的其他数据(例如生物电阻抗,即电流通过你身体的方式),然后将这些数值代入内置在秤内计算机的公式中,从而估算出它认为你的体脂率应该是多少。
# 概念性伪代码,表示智能秤的估算过程
测量值 = 获取生物电阻抗()
估算体脂率 = 内置公式(测量值, 身高, 体重, 年龄, 性别)
像这样的衍生估算对于许多科学领域至关重要。例如,在神经影像学或脑成像中,我们无法直接测量一个行为中的人的大脑活动。我们没有简便的方法在人们活动时,将测量设备植入大脑内部来测量神经活动。因此,我们使用许多测量技术,例如通过血流或宏观层面的电活动,来估算在执行某些行为任务(如听东西或看电影)时大脑的哪些区域是活跃的。许多神经科学研究就是这样进行的,因为我们常常无法获得想要的直接测量数据,衍生估算是我们能得到的最佳结果。
所以,衍生估算是不完美的,这一点很重要。每当我们讨论它们时,我们讨论的不是直接测量,而是通过某些公式转换后对另一事物的估算。它们的质量可能参差不齐。事实上,就体重秤的例子而言,许多研究身体成分的专家认为,这些家用设备的估算结果并不特别有用,不足以让人从中获取有效信息。但在神经科学中,由于我们可以投入高质量的设备,并运用能恰当处理“我们并非直接测量大脑活动”这一不确定性的统计分析方法,我们有时能够设计出仍然能告诉我们一些信息的实验。

4. 数字的“风味”:比率与百分比
背景信息的另一个部分是数字可以有不同“风味”,就像冰淇淋一样。
有些数字是比率。例如:
- 四分之三的牙医
- 一半的澳大利亚人
- 访客数量是去年的四倍
所有这些本质上都是比率。比率是比较,它们告诉你两个数量之间的关系。它比较的是:我们询问的牙医中的四分之三,所有澳大利亚人中的一半,今年的访客数与去年的访客数。
数字也可以是百分比。有时你会在超市的商品包装上看到“果汁含量增加60%”。这本质上也是一个比率,60%等同于60比100。
百分比也可以表示概率。如果你听到有70%的降雨概率,这并非一个直接的测量值(我们无法精确测量),而是一个关于可能发生事件的陈述,表示我们估计降雨的概率约为70%。另一种理解方式是:如果我们能将今天模拟100次,其中大约70次会下雨。
5. 解读比率与百分比:以离婚率为例
百分比和比率可能比看起来更棘手。
例如,我经常听到一个说法:“50%的婚姻以离婚告终”。让我们试着解读这个百分比。根据我的调查,这个统计数据可能来源于一个粗略的计数:至少基于美国的一些数据,曾有一段时间,每年每发生100桩婚姻,就有50桩离婚。也就是说,发生的婚姻数量是离婚数量的两倍。
但“婚姻”到底指什么?这里有一个非常微妙的区别。
- 一种理解是:任何一桩婚姻以离婚告终。这里的单位是“婚姻”。
- 另一种理解是:一个人在其一生中经历离婚。这里的单位是“人”,而不是“婚姻”。这意味着,无论你结过多少次婚,你一生中要么经历过离婚,要么没有。
必然地,经历过离婚的人的百分比会低于以离婚告终的婚姻的百分比。花点时间想想为什么这一定是真的:因为一个人可以有多段婚姻。在这个例子中,我所找到的最接近“50%婚姻以离婚告终”这一说法的引用,更多是关于“婚姻”这个单位,而不是关于“我或任何其他人一生中经历离婚的几率”。那个统计数据谈论的是婚姻以离婚告终,而不是人们经历离婚。这是两种不同的单位。



6. 总结与关键问题
本节课中我们一起学习了单位、量纲和估算的核心概念。
总而言之,当你遇到统计数据时,请考虑问自己以下几个问题:
- 你是否确切知道单位的含义?
- 这个数字是直接测量值,还是由其他测量值计算得出的结果(衍生估算)?
- 它是一个比率(比较),还是一个概率?
- 如果统计数据包含一个比率,到底在比较什么?确保你确切知道被比较的是哪两个数字。



通过提出这些问题,你可以更清晰、更准确地理解和评估所遇到的任何统计数据。
17:理解大数与小数的意义 📊

在本节课中,我们将要学习如何理解新闻报道和日常信息中出现的极大或极小的数字。这些数字本身往往难以直观把握,我们需要借助背景和比较基准来解读它们的真实含义。
理解大数的挑战
当我们面对不熟悉的话题时,将数字置于具体情境中会变得格外困难,尤其是当这些数字非常庞大的时候。
以下是理解大数时可能遇到的困难:
- 缺乏直观感受:例如,不列颠哥伦比亚省没有家庭医生的人数从2003年的约34万增长到了2017年的90.8万,并且预计今年会更高。对于大多数人来说,很难想象90.8万人具体是什么规模。
- 缺乏比较基准:我们不知道这个数字与通常情况相比是否异常。它占全省总人口的比例是多少?没有这些背景信息,我们无法判断其重要性。
- 数字脱离情境:另一个例子是,“作为协议的一部分,周一离开乌克兰港口的船只运载了创纪录的35.45万吨农产品”。如果不了解农产品出口的正常水平,我们就无法判断35.45万吨是否真的“创纪录”或意义重大。
上一节我们介绍了理解大数时遇到的普遍困难,本节中我们来看看一个关键误区。
核心误区:大 ≠ 有新闻价值
仅仅因为一个数字听起来很大,并不意味着它具有新闻价值。有新闻价值通常意味着某事非同寻常,或者我们以新的视角看待寻常事物。
因此,我们必须使用比较基准来理解所报道的数字,尤其是在数字规模超出我们日常认知范围,或者涉及我们不熟悉的领域时。
理解小数的意义
与大数相对的是极小的数字或概率。在一个庞大的世界里,即使罕见的事件也可能频繁发生。
以下是理解小数意义的一个实例:
根据美国疾病控制与预防中心的年度报告,美国每年约有1/100的妊娠会导致严重的孕产妇健康并发症(实际数字在1/100到1/200之间,为简化取1/100)。这里的“严重并发症”指分娩者在医院记录中需要重大干预以避免损伤或死亡的事件。
请注意:此统计主要测量“孕产妇健康并发症”,可能未能充分涵盖美国跨性别父母的数据。
如果我们进一步分析这个小数:
- 起点是:美国每100次妊娠中,有1次对母亲构成严重健康风险。
- 已知2021年美国有超过360万新生儿出生。
- 通过计算可以得出,每年有超过 5万名 女性经历严重的妊娠并发症。
两种视角看问题:
- “1/100” 听起来概率较低,似乎很罕见。
- “5万人” 则是一个庞大的、实实在在的受影响人群数量。
这个例子表明,在一个事件总数巨大(大量人口、长时间跨度)的世界里,即使一件相对罕见的事情,也可能累积成大量的发生次数,影响到很多人。
课程总结
本节课中我们一起学习了如何辩证地看待数据中的大数和小数:
- 面对大数时,需保持警惕:数字大不一定代表重要。我们需要主动寻找背景信息和比较基准(例如占总数的比例、历史数据、行业常态)来评估其真正意义。
- 面对小数(或低概率)时,需考虑规模:即使单个事件发生的概率很小,如果基数(人口、时间、事件总数)足够大,其绝对影响人数可能非常可观。不能因为概率小就忽视其可能造成的总体影响。



理解数据的关键在于,永远不要孤立地看待一个数字,而应始终将其置于合适的上下文和规模中进行考量。
18:相对数与绝对数 📊


在本节课中,我们将要学习如何解读新闻报道中的统计数据,特别是理解“相对数”与“绝对数”的区别。我们将通过一个关于“喝热茶与癌症风险”的新闻案例,来探讨为什么相对数听起来往往比绝对数更吓人,以及如何更全面地评估风险信息。

一则令人担忧的新闻标题



这里有一则看起来相当吓人的新闻标题:“饮用滚烫的茶水几乎使患癌风险翻倍”。

如果我们暂时忽略它听起来有多可怕,开始仔细审视,可能会发现这个说法是基于相对比较。
它比较了喝滚烫茶水的人群与喝温凉茶水的人群的癌症发病率,并声称前者的发病率更高。
相对数与绝对数的对比

但需要注意的是,像这样的相对陈述,听起来往往比绝对数字更吓人。
如果我们查看研究中给出的绝对数字,结果是这样的:
- 在喝滚烫茶水的人群中,每大约10,000人中有80例癌症病例。
- 在喝温凉茶水的人群中,每10,000人中有57例。
喝滚烫茶水的人群中,数字确实更高。但这看起来远没有那么可怕,部分原因是这些数字——80和10,000——仍然不算特别高。从长远看,这可能意味着很多病例,但很可能大多数人仍然不会患癌。
事实上,一个事件在绝对意义上越罕见,任何相对比较听起来就会越惊人。
以下是一个假设情况:
- 如果在10,000名喝温凉茶水的人中只有1例癌症,而在喝滚烫茶水的人中有2例(这可能只是偶然波动),那么癌症发病率就翻倍了。
- 如果喝滚烫茶水的人中有3例,那么风险就增至三倍。
- 如果有4例,就增至四倍。
即使在这种情况下,从绝对角度来看,该群体中任何人患癌仍然相当不常见。
另一个例子:坐垫与癌症风险
以下是另一种表述方式,这个例子来自英国癌症研究中心的博客:
假想的标题“坐垫使癌症风险翻倍”听起来很吓人。这被称为相对风险。如果有人告诉你,坐垫使患癌几率从百万分之一增加到百万分之二,这仍然是一个非常小的绝对风险。
这里的绝对风险是百万分之二,这是使用坐垫人群的风险,但仍然非常小——百万人中的大多数人不会患癌。对许多人来说,为了如此微小的风险增加而放弃使用坐垫是不值得的。
因此,你会因为这样一个数字而放弃坐垫吗?很可能不会,尽管从技术上讲,使用坐垫的人群癌症发病率确实翻倍了。
我们应该完全避免使用相对数进行报道吗?
上一节我们看到了相对数可能带来的误导性,但我们是否应该完全避免使用相对数进行报道呢?
我认为不必如此极端。不同风格的报道适用于不同的情境,有时信息会在传播中被误译。
以这项饮茶研究为例,它发表在一本公共卫生期刊上,面向的是从事公共卫生工作的科学家。这些科学家考虑的是世界范围内的人群、整个国家甚至大洲,涉及成千上万乃至数十亿人。因此,即使癌症的绝对风险很小,但对于一个相当庞大的人口基数来说,风险翻倍仍可能导致全球范围内出现大量病例,这对公共卫生工作者来说仍然值得关注。
然而,对于个人而言——比如正在读报、试图决定是否该喝茶的我——这个数字并不能帮助我了解自己患癌的可能性有多大。也许我应该承担这个风险,因为喝茶还有其他益处。仅凭这类数字,我无法确定。
个人如何评估风险信息?
那么,我会因为这项研究而停止喝茶吗?不会,原因有几个。
首先,我掌握的信息仍然不足。即使已确定喝茶风险更高,也许喝茶还有其他益处,而我对此没有信息。总的来说,我个人很难解析风险,因为我每天都在承担风险,而且我通常不会从绝对角度去思考这些风险有多大。因此,我个人并不清楚,风险需要高到什么程度,才足以让我改变行为。实际上,我在这方面需要更多帮助。
其次,对于这类问题,我通常会咨询我的医生。我会问他们,其他医生是否看到了这类研究,并建议我改变行为。我会信任专家来帮助我理清头绪,因为独自应对相当具有挑战性。
当然,并非总是可行。我知道不是每个人都有机会看医生。因此,有时值得去寻找——在你的社区里,是否有你信任的公共卫生机构?寻找你信任的专家,他们能为你提供可靠的信息,告诉你何时风险已高到足以让他们广泛建议人们改变行为。
但如果没有这类更广泛的声明,我通常不会追随个别的新闻报道,因为它们可能过于嘈杂,信息混乱。
文章本身提供的线索
最后,文章本身提供了一个线索,我认为这本身就削弱了其结论的说服力。
即使我不觉得上述理由适用,我认为文章实际上也给出了一个很好的理由让我不必理会它。在文章靠后的部分,在谈论癌症风险增加有多高之后,它写道:
这项研究调查了伊朗东北部戈勒斯坦省的50,000多人。
我不住在那里,我住的地方离那里很远——我住在美国密歇根州。也许这才是关键部分:
在美国和欧洲,很少有人饮用温度超过65摄氏度的茶,但在俄罗斯、伊朗、土耳其和南美等地,饮用如此热甚至更热的茶很常见。
事实上,被研究的行为——饮用超过65摄氏度的茶——在我居住的地方实际上相当罕见。因此,我可能并不经常像研究中那样喝茶。基于这个原因,我会说:

这项研究实际上并没有考察与我的行为非常相似的情况。它有特定的背景,适用于特定地区、特定文化的人群。那个关于癌症风险翻倍的头条新闻,确实没有考虑到我可能与研究人群不够相似,以至于结果无法推广到我自身的情况。

因此,对我来说,这应该仍然是一个公共卫生领域的故事,供关注该地区卫生政策的人士参考。但我并不认为这足以让我停止饮用我通常喝的、温度非常温和的茶。


总结


在本节课中,我们一起学习了如何批判性地看待新闻报道中的统计数据。我们通过“热茶与癌症风险”的案例,重点理解了相对数(如“风险翻倍”)与绝对数(如“每万人中的病例数”)之间的关键区别。相对数容易夸大感知风险,而绝对数能提供更实际的背景。在评估此类信息时,我们需要考虑研究背景、自身与研究对象的相关性,并寻求专家意见来做出明智的个人决策。记住,解读数据时,上下文和具体数字同样重要。
19:僵尸统计数据解析 🧟



在本节课中,我们将要学习一种常见的数据现象——“僵尸统计数据”。这些数据看似权威,被广泛传播,但其原始背景和含义在多次转述中已丢失或扭曲,如同“僵尸”般在信息世界中游荡。我们将通过具体案例,分析其产生原因,并学习如何识别它们。
许多统计数据似乎只是存在于世界的“以太”之中,我们并不确定它们来自何处。但由于我们经常听到它们,它们听起来非常重要。一个例子是“每天应该走一万步”。这个说法究竟从何而来?它来自一项大型研究吗?还是公共卫生机构的指导?
实际上并非如此。这个说法源自20世纪60年代日本一个名为“万步计”的计步器的广告。日本步行俱乐部采纳了这家计步器制造商对其产品的昵称“Manpo-kei”,字面意思就是“一万步计”。这并非科学结论,似乎只是因为这是一个朗朗上口的设备名称,并从此流传下来。


这是一个典型的例子,说明经过多次转述,我们可能会丢失关于一个数字的关键背景信息。
上一节我们看到了一个因商业广告而流传的僵尸数据,本节中我们来看看另一个在新闻报道中传播变形的案例。
以下是我遇到的一个例子。我在阅读一篇关于母性的文章时,看到这样一句话:“皮尤研究中心的一项调查发现,44%的美国人表示他们不太可能或非常不可能要孩子。”这句话有一个链接,于是我点了进去。
链接指向了同一网站的另一篇新闻报道,文中写道:“查普曼夫妇并不孤单。皮尤研究中心的一项新调查发现,更多成年人报告他们永远不想要孩子。大约44%的18至49岁的人报告说,他们不太可能或非常不可能要孩子。”这个比例很高——该年龄段44%的人。我非常想核实这个数字,因为它与我个人对世界的观察和生活经验大相径庭。于是,我点击查看了皮尤研究中心的原始研究报告。
原始研究报告的实际表述是:“大约44%的18至49岁的无子女者表示,他们将来要孩子的可能性不大或完全没有可能。”因此,我们讨论的实际上是无子女者。原始研究说的是44%的尚无孩子的人。
然而,经过这些转述,它变成了“44%的美国人”。这两者非常不同,对吧?对于18至49岁尚无子女的人群,绝对不等于所有美国人。因此,你可能会对这个数字产生截然不同的解读。事实上,在这些相互链接的博客文章中,这个数字被用来制造了非常戏剧化的效果。
除了完全忘记统计数据的关键背景,另一种可能发生的情况是,人们有时会做出微妙的写作选择,从而改变统计数据的含义。
以下是我看到的一篇关于如何获得幸福感的文章。文章写道:“科学表明,我们的境况——我们有多富有、从事什么工作、拥有什么物质财产——这些对幸福感的影响比我们想象的要小。桑托斯说,研究确实表明,较富有的人比较贫穷的人更幸福,但程度并不大。”于是我去点击查看了那项研究,它到底说了什么?结果发现,该研究实际上并非关于财富,而是关于收入。研究指出:“大量研究记录了家庭收入与幸福感之间虽不强烈但可靠的关联。”
我认为这很微妙,但收入并不完全等同于财富。收入是关于你每月或每年赚多少钱,而财富是关于你的所有资产。至少在美国,我认识很多收入低但财富高的人,这可能是因为他们的财富让他们能够在低收入环境中工作。因此,根据我的经验,这两者之间并不总是有非常强的联系。我并不是说这挑战了该研究的有效性、实用性或其相关性,但我认为重要的是要记住,拥有大量资产(比如家族房产、父母富有或获得遗产)与收入是不同的。因此,收入可能不是衡量某人财富的最佳方式。
除了背景丢失和概念替换,统计数据还可能因为时代变迁而过时。
让我们回到关于离婚率的例子。我们已经讨论过为什么这个数字本身具有挑战性,因为其计量单位并非人们通常所想的那样。但即使这是一种衡量个人经历离婚几率的好方法,仍然存在一个问题:离婚率一直在变化。在美国,离婚率在1980年左右达到最高,此后几乎一直在下降。
例如,这里有一张关于每千人离婚率的图表,这是衡量离婚普遍程度的另一种方式。我们在1980年左右画了一条线,可以看到在美国,这个数字一直在下降。因此,当人们谈论离婚率有多高时,往往是因为这在过去比现在更真实,他们没有考虑到这一事实已经发生了很大变化。我知道,我妈妈在她结婚前(我出生前)就听过这个统计数据。尽管实际情况已经发生了很大变化,但同样的统计数据仍在被使用,这有点不可思议。
那么,这些“僵尸统计数据”从何而来?这些不断存活并拥有自己生命的数据,其实际效用早已过去。
一种情况是,当我们用统计数据复述故事时,我们常常以一种随意的方式使用它们。我认为当统计数据被用作修辞手段,而不是我们共同试图理解的东西时,这种情况经常发生。例如,在那篇关于人们选择不要孩子的文章中,文章并非真正关于“谁选择要孩子或不要孩子的趋势”的统计数据,而是一个关于一位母亲反思母性的个人故事。我怀疑的情况是,作者在写作时,也许编辑说:“让这个故事听起来更好的一个方法是添加一些统计数据。”因为我小时候写文章或非虚构作品时,几乎总是被建议添加统计数据。但问题是,当统计数据并非真正处于核心地位,而只是被用作一点装饰来帮助为故事铺垫时,我们有时就容易只是复制粘贴,或者想“哦,别人在这里用了,所以我也要用”。
我认为即使在科学写作中也会发生这种情况。在撰写报告科研成果的手稿时,科学家经常需要引用大量内容来展示相关的前人工作。但要仔细阅读所有内容可能很困难,因为我们时间有限。在压力下,我们只想添加统计数据来支持一个论点,有时很容易忘记追溯它们的来源。
另一个原因是时代在变化,统计数据可能失去相关性,就像那个婚姻统计数据一样。但通常,一旦某件事出现在世界上,并成为一种文化符号,我们都在谈论它,就很难去纠正它。四处纠正每个人往往非常令人沮丧,也不是一件可以一直做的事情。
对于这个问题,我没有简单的解决办法,但时代在变,统计数据也会漂移。而且,要追踪如此多的信息确实非常困难。研究很多,数字也很多,我们想要讨论它们。每次我们这样做,都会让它们离原始背景更远一点。要追踪每个数字的来源可能很棘手。因此,我认为我们应该预料到这些错误有时会发生,即使我们非常勤勉,在某种程度上也难以完全避免。但了解这一点仍然是值得的,因为这些“僵尸”真的会阻碍我们看到真正发生的事情。它们可能成为知识的替身,使我们无法以全新的眼光看待事物。而当我们以全新的眼光审视统计数据的来源时,有时我们会看到一些比仅仅使用“僵尸数据”更有趣、更引人注目、通常也更接近真相的东西。



本节课中,我们一起学习了“僵尸统计数据”的概念。我们了解到,这些数据在传播过程中可能因丢失关键背景、概念被微妙替换或随时间过时而变得不准确甚至误导。它们常因被用作修辞装饰、转述时的复制粘贴或难以追踪所有信息源而产生。虽然完全避免此类问题可能很困难,但认识到它们的存在,并养成追溯数据原始来源、审视其具体定义和时效性的习惯,将帮助我们更清晰地理解数据背后的真实世界,避免被“僵尸”引入歧途。
20:19_伪科学性的表象 🔍


在本节课中,我们将学习如何识别数据呈现中的“伪科学性”表象。这些表象通常通过过度精确的数字、忽略误差范围以及误导性的图表,让结论看起来比实际情况更科学、更确定。我们将通过几个具体例子,分析这些表象如何产生,并探讨如何更诚实、更清晰地呈现数据。
过度精确的数字
上一节我们介绍了伪科学性表象的概念,本节中我们来看看第一个常见现象:过度精确的数字。精确的数字常被用来赋予结论一种“科学性”的权威感,即使数据本身存在较大的不确定性。
最近,我看到一个标题写道:“新调查显示,91%的父母表示,一起吃饭时家庭压力更小。” 这个数字91%听起来非常精确,给人一种严谨、科学的感觉。然而,当我阅读新闻文章并查看研究时,发现这项研究的误差范围约为三个百分点。这意味着,如果调查设计良好,报告“与家人一起吃饭时压力更小”的父母真实比例在88%到94%之间。因此,是否就是91%?我并不确定。如果是我来写,我不会如此肯定地使用91%,我可能会说“约90%”或“十分之九”。我开始怀疑他们保留91%这个数字,是因为它听起来效果很好,像是一种凭证,仿佛在暗示:“如果我们没有进行非常严谨、有力的科学研究,怎么可能得到如此精确的数字?” 因此,当数字听起来很精确,但实际的误差范围可能大得多时,我往往会感到有些不妥。
以下是另一个我在网上找到的例子。这是一张信息图,标题是“科学认定的最容易上瘾的食物”。它展示了一项(巧合的是)在密歇根大学进行的研究数据。参与者被要求用1到7分来评价各种食物的成瘾性,然后计算了平均分。例如,披萨的平均分是4.01,巧克力是3.73,饼干是3.71。有人将这些研究结果制作成了信息图。
我不太喜欢这张图的一点是,它使用了两位小数来表示精度。披萨在成瘾性量表上不是4分,而是4.01分;薯片是3.73分,这比饼干的3.71分高出0.02分。这似乎以极高的精度暗示薯片确实比饼干更容易上瘾。但我个人很难相信这一点。我回头查阅了研究,虽然很难精确计算出误差范围,但可以肯定的是,误差范围绝不足以让我们在这个精度水平上检测出薯片和饼干之间的差异。请记住,每个数字周围都有误差范围,这些数字实际上是模糊的,远比两位小数所暗示的要模糊得多。

如何改进数据呈现
上一节我们看到了过度精确数字的问题,本节中我们来看看如何改进数据呈现,使其更诚实、更清晰。
如果我们想改进这张信息图,可以去掉一位小数。也许我们可以说披萨的平均分大约是4分,其他食物大约在3.7分左右。这样虽然看起来不那么“完美”和科学精确,但可能更诚实地反映了我们能够分辨的差异水平。根据研究固有的模糊性和我们只是取粗略平均值这一事实,我们实际上无法断定薯片比饼干更容易上瘾,我们认为它们非常相似。
我们甚至可以更进一步,直接去掉数字,只说这些都是位于成瘾性食物量表上端附近的食物。我个人认为,对于普通受众来说,这才是正确或理想的做法,因为它没有暗示超出我们实际拥有的精度。

误导性的图表
上一节我们讨论了数字呈现的改进,本节中我们来看看图表如何通过视觉元素制造伪科学性表象。
另一个例子是回顾这张图表。它来自一个关于可以在家治疗创伤后应激障碍(PTSD)的吸入器的广告。这张图展示了PTSD水平(一个我难以解析的单位)随时间的变化。原来,这个水平来自一份问卷,他们对29人实施了这份问卷。我仍然不知道这份问卷的典型分数是多少,也不知道需要多大的分数差异才能让人感觉从该设备获得了有意义的改变。但让我们暂时忽略这一点,继续这个例子。

这张图表实际上暗示了一种我认为并不完全合理的精度水平。我的意思是,看看这些点的位置。我们看到,在使用该工具之前,分数大约在50分;两周后,分数接近35到40分之间;之后,分数在35分左右。然而,我们在这里使用点来表示,这种选择暗示了一种我们对实际水平所不具备的确定性。
请记住,每次测量都有一个基于测量设备误差范围的合理值范围。同时请记住,这里的每个点都是29名参与者的平均分数。误差范围有时看起来像这样:我们会在点周围画一些小线,来表示合理的数值区间。根据该公司发布的数据,我们尽可能进行了重建,这些就是误差范围实际的样子。在使用设备前,分数范围大约在35到65分之间;两周后,范围仍然相当大;四周后,范围甚至可能更大一些。事实上,平均分数可能取值的合理范围存在很大的变异性。
个体差异与平均值的局限
上一节我们指出了图表忽略误差范围的问题,本节中我们将探讨一个更微妙但更重要的点:个体差异。
这个图表代表的是用户的平均结果,但当你实际使用该设备时,你得到的不是平均结果,而是你自己的结果。许多个体使用该设备可能会有不同的结果。我在这里画了一条橙色的虚线,表示一个个体用户的结果可能是什么样子。也许这个人获益甚微,或者模式相似但分数更低,有人可能获益非常少,有人可能在第一次测量时获益很大但随后又回升。我们并不真正知道真相。当我们只看平均值时,它掩盖了我们不知道个别退伍军人使用该产品会有什么体验这一事实。

那么,为什么还要展示这张图表呢?我认为它主要起到一种修辞功能,表明“看,使用这个产品后情况好转了”。它确实传达了“情况好转了”的信息。但我认为它没有很好地解释,如果你使用这个设备,你可以期待什么,你个人可能看到哪些可能的结果。在这方面存在相当大的变异性。我认为,如果这张图表真的想展示你会看到什么样的益处,那么它应该将量表转换成对设备的典型用户有意义的东西。可能使用该设备的人因为经常用这份问卷测量PTSD而非常熟悉它,但我怀疑这真的是常识。因此,我真正想在这里看到的信息是:人们报告了什么样的益处?从50分降到45分在感觉上到底意味着什么?这才是我真正需要看到的信息。
所以,我认为这张图表主要是为了修辞目的,表明“看,这个设备有效”。但我认为它并没有真正解释人们应该从中期待什么,因为你知道,结果会有很大的变异性,人与人之间非常不同,尤其是在治疗创伤后应激障碍这类问题时。因此,这里展示的结果变异性远低于实际情况。

总结
在本节课中,我们一起学习了如何识别数据呈现中的伪科学性表象。我们分析了过度精确的数字如何制造虚假的权威感,探讨了通过简化精度来更诚实地呈现数据的方法。我们还研究了图表如何通过忽略误差范围和个体差异来误导观众,使其对结果的确定性和普适性产生错误印象。


记住,真正的科学呈现会诚实地承认数据的局限性和不确定性。在解读数据或呈现自己的发现时,始终要问:误差范围是多少?个体差异有多大?这些数字或图表是否暗示了超出数据本身支持的确定性?保持批判性思维,才能更好地“理解数据”,在统计、科学和AI的世界中明智导航。
21:数据可视化的优势与局限 📊


在本节课中,我们将要学习数据可视化的核心优势与常见局限。我们将探讨可视化如何帮助我们理解数据,以及设计不当的可视化如何产生误导或混淆。理解这些概念,能帮助你更好地解读他人创建的可视化图表,并在自己创建图表时做出更明智的选择。
数据可视化的潜在陷阱
上一节我们介绍了数据可视化的基本概念,本节中我们来看看一些设计不当的可视化如何产生问题。你以前可能见过具有误导性的图表,请看下面这个例子。

这个图表哪里看起来有误导性?问题在于数字所暗示的信息与图片给人的印象之间存在差异。观察数字:29%的受访者支持加强疫情相关限制,仅比反对者(30%)低一个百分点。差异非常小。然而,从图片上看,这个差异显得相当大。我们从数字和图片中得到了不同的印象。
你可能会感觉,自己被可视化的制作者操纵了。这有可能是个意外,但至少对我来说,它让我怀疑:他们是否想通过这张图片引发我的某种情绪?
有些图表产生误导主要是出于意外。下面这个例子,我相当确定是个意外。首先介绍一下背景:这里有两个K-Pop组合,Weeekly和Red Velvet。一位粉丝在互联网上制作了不同K-Pop组合成员平均身高的图表。看起来Weeekly的平均身高最高。我猜他们计算了所有成员的身高平均值,结果大约是5英尺6英寸。Red Velvet的平均身高大约是5英尺3英寸。这是一个相当小的差异。但看这张图片,似乎Weeekly的成员会完全“碾压”Red Velvet的成员,看起来完全是不同的尺度。

我认为这里的问题是,视觉效果没有按设计者希望的那样工作。这些不同图标给人的感知,造成了比实际差异大得多的印象。我们可以画这些虚线来看:这是Weeekly和Red Velvet的身高,哇,看起来差异巨大!
事实上,如果我们试图更真实地绘制图表,身高的真实差异其实非常细微。她们的平均身高差异只有大约3英寸。Weeekly成员的平均身高约为5英尺6英寸,Red Velvet成员的平均身高约为5英尺3英寸。选择不同的图标,我们或许可以更准确地描绘出这种差异的大小。
以下是另一个例子。这似乎是爱尔兰某项投票的数据。图表的设计者认为引入三维元素会很酷,这些圆柱体的高度可以告诉我们有多少票投给了“是”或“否”。但不幸的是,在这种视觉呈现方式下,很难分辨这些圆柱体高度的差异。至少在我看来,这看起来几乎没有差别。而事实上,99.1%的人投了赞成票,不到1%的人投了反对票,这是一个相当巨大的差异,但这个差异真的很难察觉。

有些图表则纯粹令人困惑。这是我在浏览联合国儿童基金会(UNICEF)网站时发现的,网站上有关于世界各国的数据。看起来数据是关于他们的各种投资和某种供应,但对我来说,这简直让人不知所措。我不确定该看什么,也不知道如何解读,所以对我来说非常混乱。

为什么会发生这种情况?
在探讨了具体问题后,我们不妨退一步思考:为什么会发生这种情况?记住我们最初为什么要将数据可视化,可能会有所帮助。
一个快速的问题:如果你想了解纽约市航班延误的情况(你可能在之前的视频中记得这个例子),你更愿意要这张描绘各种航班延误频率的图表,还是更愿意要原始数据的表格,即超过30万行的航班延误数据?
很可能你更愿意要图片。这是因为数据可视化帮助我们高效地传达数据中的模式。
每个可视化都有几个要素,这些要素或多或少在我们的控制之中。这些要素包括:
- 数据:我们实际要可视化的内容。
- 创作者的选择:如果你是创作者,你对此有一定控制权。
- 观看者的感知:这可能更难以预测。
数据可视化的创作者可能有一些相互竞争的价值观。他们脑海中可能有一些不一定能同时实现的价值观念。一方面,如果我们把这看作一场拔河比赛,一方面他们可能希望暴露数据,让观看者可以自己探索。另一方面,他们希望高效地讲述一个故事,他们知道观看者的时间和注意力有限,因此传达数据中的核心思想很重要。
在“暴露数据让观看者自行探索”这一侧,这里有一个图表,我认为至少对我来说,这走到了一个极端。这是我在一份麦肯锡报告中发现的图表,内容是关于受COVID-19影响的行业,以及这些行业是女性比例过高还是男性比例过高。因为这个数据和研究领域我并不熟悉,而且这个图表暴露了数据的很多方面,我个人觉得这个图表有点让人不知所措,难以理解。但也许如果你是更熟悉这类数据的人,那么读起来会更容易。但对我来说,这里有太多需要探索的内容,让我感到有点压力。
另一方面,你可以走向另一个极端,即高效地讲述故事,但你真的隐藏了背后所有关于数据的信息。这是一段YouTube视频的截图,视频是关于“为什么现代艺术这么糟糕”。显然,它有一个非常强烈的观点要分享,因此它试图论证所谓的“标准”随着时间的推移已经下降。但不清楚“标准”是什么,或者它们是如何被测量的。不清楚这条蓝线来自哪里,我不知道它是否来自某人的实际测量,还是有人编造的。所以我完全不知道这些数据来自哪里。他们正在高效地讲述一个故事,但我无法自行探索这背后的任何信息。
因此,数据可视化的选择会对观看者能够辨别的内容产生影响,这意味着它们可能暴露或隐藏相关的模式。
这里还有一个例子。这来自皮尤研究中心一份关于美国家庭分娩的报告。这是关于在美国,有些人选择在医院分娩,也可能选择在家分娩的数据。在这个条形图中,我们可以看到,在2020年,家庭分娩的数量似乎更多(由更高的绿色条表示)。我们还有一个配套的图表,这个金色的折线图。在这个图中,我们可以看到家庭分娩的百分比似乎有所上升。快速思考一下,为什么这两个图表一起展示很重要?
我认为一个重要的原因是,如果我们只看到分娩的原始数量(即这个绿色条形图),有可能在2020年,我们只是了解到总体上分娩数量更多了,那么家庭分娩的数量也会更多,但不一定意味着家庭分娩在总分娩中的比例更高。如果总分娩数量有相应的增加,要辨别某件事作为分娩的百分比是否变得更受欢迎,我们需要将其表示为百分比,这就是折线图中的内容。因此,这两个图表是互补的,我认为它们对于理解趋势的规模都很重要。
从这些图表中,你得到了一个非常高层次的图景。但我们需要一个不同的图表来理解,并非所有家庭选择家庭分娩的可能性都相同。因此,在报告后面的一个图表中,我们可以看到按参与调查女性的种族、民族以及教育水平对这些数据的细分。从这些图表中,我们可以看到,选择家庭分娩的决定并非在所有种族和民族中同等发生。在白人女性中更常见,而且也不是在所有教育水平中都一样,似乎在高中以下学历的女性中更常见。
在这些不同的图表中,创作者强调了数据的不同方面。一方面,我们可以看到家庭分娩在美国越来越受欢迎,但我们需要另一个图表来理解,这种选择并非在所有种族和民族群体中同等受欢迎,并非在所有地方都以相同的方式发生。
视角决定解读
上一节我们看到,同一个数据可以有不同的呈现方式。而你能看到什么故事,也取决于你是谁。你会以不同的方式看待这个图表,并可能得出不同的信息。如果你是一个正在决定是否要在家分娩的人,如果你是你社区的卫生教育者,如果你是护士或医生,或者如果你是从事公共卫生和政策工作的人,当你看到这个图表时,你可能会想到不同的事情,这取决于你最初带入的视角。
数据可视化是一个庞大的主题,我们才刚刚开始触及表面。我希望你从这次非常简短的数据可视化速成课中带走的一点是:一个重要的主题是,可视化是其作者许多选择的产物,而每个选择都有权衡。数据的某些方面将被隐藏,而其他方面将被强调。这根本无法避免。所以,当你看一个图表时,请记住这一点,你可以思考:作者做了哪些选择?由于这些选择,他们强调了什么?又可能掩盖了什么?


总结


本节课中我们一起学习了数据可视化的优势与局限。我们了解到,优秀的可视化能高效传达数据模式,但设计不当则可能产生误导、混淆或隐藏重要信息。关键在于理解可视化是创作者一系列选择的产物,这些选择涉及暴露数据还是讲述故事,并最终决定了哪些信息被强调,哪些被弱化。作为观看者,保持批判性思维,思考图表背后的选择及其影响,是解读数据可视化的重要技能。
22:模块4导论:是否应该相信统计数据 📊

在本节课中,我们将从更宏观的视角探讨人们为何要讨论统计数据,并开始思考一个核心问题:我们应当相信哪些统计数据?我们将认识到,统计数据是理解世界规律的工具,而这个理解过程本身深受人类自身信念、经验和价值观的影响。
在上一模块中,我们探讨了围绕统计数据的一些常见困惑。现在,让我们把视野放宽,思考一个更根本的问题:人们究竟为何要讨论统计数据?
正如我们所知,统计数据是帮助我们理解世界规律的工具。而这种“理解”行为是一种人类活动,我们在执行这项任务时,会带入自己所有的信念、经历和价值观。
在本课程的最后一周,我们将探讨一些更微妙的问题:数字能告诉我们什么,又不能告诉我们什么。我们还将讨论如何决定应该信任哪些统计数据。
因此,让我们带着这个问题开始本模块的学习,并在整个模块中始终牢记:我们为何要讨论统计数据?

本节课中,我们一起学习了讨论统计数据的根本目的,并引入了本模块的核心探索方向——评估统计数据的可信度。我们认识到,理解数据不仅关乎工具本身,也关乎使用工具的人及其背景。在接下来的课程中,我们将深入探讨如何在这些复杂因素中做出明智的判断。
23:质疑背后的逻辑 🔍


在本节课中,我们将学习如何审慎地评估因果关系。我们经常希望了解事件的原因,但要证明因果关系非常困难。世界上的许多事物会同时发生,但这并不意味着它们之间存在因果联系。我们将探讨虚假相关、混杂变量以及如何避免在解读数据时陷入因果推断的陷阱。
相关不等于因果 🤔
上一节我们介绍了理解因果关系的普遍需求,本节中我们来看看为什么确立因果关系如此困难。这是因为世界上许多事物会同时发生,但并不具有因果关系。
一个专门分享虚假相关的网站提供了这样的例子:缅因州的离婚率与人造黄油的年人均消费量存在相关。两条趋势线高度同步,看起来人造黄油的消费量与缅因州的离婚率密切相关。
以下是另一个例子:马苏里拉奶酪的人均消费量与颁发的土木工程博士学位数量相关。
像这样的关系很多只是虚假的,这正是该网站名称“虚假相关”的含义。这可能只是因为世界上发生的事情很多,有些恰好会同时发生。

“相关”这个词具有非常特定的技术含义。有些人认为,只有在确定其技术含义正确时才应使用它。但这个词在日常使用中已经非常普遍,因此在日常语境中,它通常意味着两件事物看起来有关联或相关,它们朝着相同的方向变化。
关联背后的混杂因素 🔄
现在,一些变量是相互关联的,但并非出于我们以为的因果原因。让我们回到关于喝热茶的例子。一项研究报告称,喝非常热的茶会使患癌风险几乎翻倍。该研究报告了一种关联:在热茶饮用者组中观察到的死亡人数多于凉茶饮用者组。
然而,一位科学家对此论文发表了评论。他们向期刊提交了反驳,指出研究中的两组人除了喜欢的茶温不同外,在其他重要方面也可能存在差异。这些组在性别、吸烟史和饮酒习惯上也不同。为什么这很重要?
根据新闻报道,如果我们看到喝热茶与更高的癌症发病率相关,报道似乎暗示存在直接的因果关系,即喝热茶导致了更高的癌症发病率。但评论者指出,可能还有其他因素在起作用。

热茶饮用者往往也有吸烟史,而吸烟史才是导致更高癌症发病率的原因。因此,喝热茶与更高的癌症发病率没有直接的因果关系,它是相关的,在这里它与吸烟史同时发生,而吸烟史才是因果因素。
我们会说,吸烟史这个变量混淆了喝茶与癌症之间的关系,它增加了一点迂回。
不幸的是,这两种因果路径都可能导致研究中出现喝热茶与癌症之间的明显关系。因此,仅仅知道热茶组有更多人死于癌症,我们实际上无法厘清究竟是这两种路径中的哪一种。
确立因果关系的门槛 ⚖️
由于这类问题,以及像马苏里拉奶酪和博士学位数量那样的虚假相关问题,确立因果关系的门槛非常高。因此,我们常常会怀疑:这真的是因果关系吗?
因果关系是一个非常深奥的话题,我们现在无法全面探讨。非常直白地总结:大多数科学家会接受特定类型的实验作为因果关系的证据,但前提是满足某些条件。有时,他们也会接受相关性作为证据。😊 而有时,这两种选择都不可行,我们无法完全达到我们期望的条件。
但这个门槛相当高,我们将在第二部分(关于科学的部分)中进一步讨论。
故事叙述中的因果暗示 📰
即使没有任何科学依据得出结论,也很容易暗示因果关系。以下是《纽约时报》的一篇文章。
到2019年,汽车事故年死亡率接近自20世纪20年代汽车成为大众商品以来的最低水平。但随后COVID-19疫情来了。事故和死亡人数在2020年夏天开始激增,这让交通专家感到惊讶,他们原本希望相对空旷的道路会导致事故减少。相反,攻击性驾驶的增加完全抵消了驾驶量的下降,并且在疫情后期人们重返道路时,事故持续增加。
这个故事对我来说暗示了一种特定的因果路径:COVID-19疫情可能导致更高的压力,从而引发更多的攻击性驾驶,而这种攻击性驾驶导致了交通死亡人数的增加。
但是,研究交通死亡事故的科学家们是怎么想的呢?通过阅读那篇报道,我找到了一个链接,指向一份研究报告,该报告呈现了关于死亡人数增加的数据。这份报告来自美国交通部,由一个专门研究交通死亡事故和该数据集的科学家团队撰写。
在那份报告中,研究人员提出了几种可能的因果路径:
- 可能是COVID-19疫情导致更多人居家办公,这意味着道路上的汽车减少。随着汽车减少,人们觉得可以开得更快,这导致了更多的交通死亡事故。
- 他们提出的另一种路径是,医务人员忙于应对疫情,导致对事故的响应时间延长。响应时间延长意味着人们会死于以往可能不会致命的伤害,这导致了更多的交通死亡事故。
- 另一种路径是,COVID-19疫情导致毒品和酒精使用增加,可能是作为应对压力和孤立的一种机制,这进而导致更多受损驾驶,从而引发更多交通死亡事故。
- 他们还提出,这种增加可能并不直接归因于疫情,但可能存在其他因素导致安全带使用率降低。安全带使用率下降的趋势难以解释,这可能导致了更多的交通死亡事故。
- 此外,他们还注意到更多分心驾驶的证据,其起源不明,可能是交通死亡事故的原因。
有趣的是,该报告完全没有提及攻击性,实际上根本没有提出这个攻击性假设。
因此,疫情 → 攻击性驾驶增加 → 交通死亡事故增加这条因果路径可能是真实的,但其他许多路径也可能成立。事实上,这并非公路研究人员注意到或考虑的一条路径。
所以,尽管我认为这篇报道的作者可能会说,你无法从数据中得出非常非常强的因果主张,但在故事叙述中,似乎夸大了对因果关系的确定性。我特别注意到像“但随后COVID-19疫情来了”这样的句子,我认为在故事叙述中,这确实设定了疫情是改变游戏规则的关键因素。然后我们看到,事故和死亡人数大约在那个时候开始激增。特别是“攻击性驾驶的增加完全抵消了驾驶量的下降”这句话,这听起来像是对正在发生的事情提出了一个相当强的机制性主张。
我们为何容易轻信因果? 🧠
为什么会这样?为什么作者可以提出带有强烈因果暗示的主张,而实际的科学家却没有做出如此强烈的主张?
可能作者像我们许多人一样,希望他们认为不好的事情对世界产生坏的影响。也许他们个人深受隔离影响,觉得这让他们变得有攻击性,并且因为这是一种强烈的个人体验且显得如此负面,他们便将这种视角套用在这些数据上,而这些数据可能与攻击性有关,也可能无关。
同样,我们也希望好的事情产生好的效果。所以我认为,有时当我们想相信某件事在道德上是好的时,我们真的希望确信它正在世界上产生可衡量的好处。有时,因为我们带着这些欲望——希望我们不喜欢的事情产生坏的影响,认为好的事情产生好的影响——我们可能更容易倾向于想要解读事物对世界影响的强烈因果陈述。
审慎对待因果陈述 ⚠️
但我们必须对因果陈述非常小心。事物可能因为完全荒谬的原因而看起来相关,事物也可能相关,但原因并非我们最初假设的那样。
还有一个危险区让这件事变得格外困难,我们必须在这里格外小心。但人们犯错的另一种方式是,淡化已经确立的因果关系,比如吸烟与肺癌。现在已知,一种非常有效的虚假信息策略——烟草公司使用的策略——就是增加对吸烟与肺癌之间关系的怀疑,而这种关系在目前已经得到了相当充分的研究和确立。
因此,你需要警惕的是无根据的因果语言。作者常常会承认相关不等于因果,但同时,他们可能使用削弱这一信息的写作选择。
如果你相信应该存在一种因果关系,如果你认为某件事如此糟糕,以至于它必然对世界产生可衡量的坏影响,或者如此之好,以至于它必然对世界有益,那么请格外小心你接受哪些数据作为证据。



本节课中我们一起学习了区分相关与因果的重要性。我们看到了虚假相关的例子,理解了混杂变量如何扭曲我们对因果关系的看法,并认识到在故事叙述和数据解读中,无根据地暗示因果关系是多么常见。关键在于保持审慎,对因果主张提出质疑,并意识到我们自身的偏见可能会影响判断。确立因果关系需要严格的证据,而简单的关联远不足以证明因果。
24:统计摘要与信息压缩 📊

在本节课中,我们将要学习统计摘要如何帮助我们压缩信息,以及在使用这些摘要时可能遇到的思维陷阱。我们将通过一个关于阅读障碍的具体研究案例,来理解简化信息带来的好处与风险。
统计摘要:信息的“速记法” 📝
上一节我们介绍了数据分布的概念,本节中我们来看看如何用统计量来概括数据。
统计量常被用来总结数据。我们不必讨论整个数据分布,而是可以谈论均值或中位数。换句话说,我们使用统计量作为一种速记法。例如,我们可以告诉某人某个机场航班延误的中位数,而不是展示整个分布或提供完整的数据集。
然而,这种速记法可能导致思维问题。人们很容易忘记速记只是一种方便的摘要,而非全部事实。
案例研究:阅读障碍与语音意识 🧠
为了具体说明,我们来看一个来自博士研究的例子,该研究是关于阅读障碍的。
阅读障碍是一种人们难以学习阅读的状况,其原因不易解释。这与资源或努力程度无关,对许多人来说,学习阅读本身就存在挑战。研究发现,有一些文字游戏是许多阅读障碍者觉得困难的。例如,告诉你单词“cup”,然后让你将其分解为“c”和“up”。这被称为语音意识,即注意到口语单词如何被分解成更小的单位。出于某种原因,有阅读障碍的人往往比没有阅读障碍的人觉得这项任务更具挑战性。
因此,我们常听到关于阅读障碍的陈述,例如:“有阅读障碍的人比其他人的语音意识更低”(有时缩写为PA)。但数据实际看起来是怎样的呢?
以下是来自“健康大脑网络”数据的一些可视化结果,这是对纽约市儿童的一项大型研究。每组大约有100名年龄相仿的儿童,一组有阅读障碍,另一组没有(在科学术语中,无任何诊断的组通常称为对照组)。
以下是两组在语音意识任务上得分的分布情况:
- 对照组倾向于获得更高的分数。
- 这是一个相当稳健可靠的发现:两组之间的平均测试分数(我用这些线标出,代表了分布的峰值)存在差异。
- 蓝色实线是有阅读障碍儿童组的平均分。
- 红色虚线是没有阅读障碍儿童组的平均分。
- 在这种语音意识的标准化测量中,对照组的儿童倾向于获得更高的分数。
但请注意,这两个分布有巨大的重叠区域。我在这里指出这个紫色的中心区域,紫色表示重叠,既不是纯红色也不是纯蓝色。
这意味着,有一些有阅读障碍的孩子(用带圆圈D表示)在语音意识测量中得到了大约8分。同时,也有一些没有阅读障碍的人(用C表示)在语音意识测试中得分更低,尽管他们没有阅读障碍,并且可能以后也不会发展出阅读障碍。

因此,当人们声称“有阅读障碍的人比其他人的语音意识更低”时,这实际上是一个更复杂概念的速记。完整的说法是:“一组有阅读障碍的人通常在语音意识测试上的平均分低于一组没有阅读障碍的同龄人。”这句话很长,所以我们想缩短它。
信息压缩带来的思维简化 🤔
上一节我们看到了数据摘要的具体形式,本节中我们来探讨这种压缩如何影响我们的思维。

但这种缩短对我们的思维产生了影响。当我们听到“有阅读障碍的人比其他人的语音意识更低”时,听起来像是在说:如果我们面前有两个孩子(比如这张图中正在阅读的孩子),被蓝色圆圈圈出的女孩有阅读障碍,旁边被红色圆圈圈出的女孩没有,那么这句话听起来就像在说:有阅读障碍的女孩比没有阅读障碍的女孩语音意识更低。
但现实更为复杂。我们并不知道那个有阅读障碍的女孩一定比旁边的女孩语音意识更低。现实情况是,如果我们有一个全是阅读障碍儿童的教室和另一个全是非阅读障碍儿童的教室,我们计算并比较这两个教室的平均分,我们很可能会看到平均分的差异,但两组之间会有大量的重叠。
这是一个例子,说明进行分类是如何减少信息的。当我们说“这些孩子都有阅读障碍”时,我们某种程度上是在简化,这种陈述有时会过度简化这些孩子的语音意识状况。
分类的本质与连续性现实 📈
这部分问题首先在于我们如何定义阅读障碍。事实上,没有完美的测试能准确告诉我们谁有阅读障碍。因为我们常常需要排除其他可能导致孩子学习阅读困难的原因。例如,如果我们发现一个孩子上学前没吃好早餐,饥饿就是他们在课堂上学习困难的很好理由;或者他们家里可能有压力很大的情况,而有时这很难被发现。由于需要排除许多因素,一开始就很难精确确定谁有阅读障碍。
此外,阅读能力在人群中是连续变化的。这是一篇关于发展性阅读障碍综述论文中的观点。在不同文化中,当我们根据某种标准化测量(衡量人们阅读速度和效率)来测量人群的阅读能力时,阅读障碍者往往只是处于那个连续体的较低端。它不像底部有一个单独的凸起,突然出现大量阅读障碍读者;它更像是一个正态分布。就像任何正态分布一样,有些人处于顶端(原因未知),有些人处于另一端(原因也不完全清楚)。
但我们划了一条阈值线。有些随意地,我们画了一条线,并说线这一边的所有人将获得治疗。我们做了一个二元决定,关于谁将被归为某一类,以便为他们提供服务和支援。
但这意味着,如果这两个女孩恰好落在这条线的两侧,她们之间的差异可能微乎其微。她们可能极其相似,仅仅因为我们强加了一个分界点,她们就可能被描述成非常不同的人,而实际上她们之间的差异可以忽略不计。
因此,当我们谈论有阅读障碍的人时,必须小心记住,他们与其他学习者并非处于完全不同的类别,他们实际上处于同一个连续体上。首先将阅读障碍作为一个类别来谈论,实际上是人类做出的一种简化选择。
总结与启示 🎯
本节课中我们一起学习了统计摘要作为信息压缩工具的双重性。



这类简化时刻都在发生。总结数据的总体趋势或对事物进行分类可能很方便,但如果我们把摘要当作完整的故事,往往容易产生巨大的误解。关键在于认识到摘要的价值在于其便捷性,但同时要牢记其背后隐藏着更丰富、更复杂的现实。在数据分析和科学沟通中,保持这种警惕性至关重要。
25:统计数据的审辨方法 🔍


在本节课中,我们将学习如何审辨日常生活中遇到的统计数据和相关主张。我们将介绍一个实用的“5W”检查清单,并通过具体案例来练习如何应用它,以判断一个统计主张是否可靠、清晰以及其背后的意图。
5W检查清单:审辨统计主张
为了系统地评估一个统计主张,我们可以使用一个包含五个“W”问题的检查清单。这五个问题分别是:Who(谁)、What(什么)、How(如何)、When(何时)以及Why(为什么)。
上一节我们介绍了审辨统计数据的重要性,本节中我们来看看这个具体的检查清单如何应用。
1. Who:关于谁?谁说的?
这个问题关注的是统计主张的主体和提出者。
- 谁说的? 我们需要考察提出主张的人或机构的资质和背景。他们是否有相关的专业知识或经验?
- 关于谁? 这个统计数据描述的是哪个群体或对象?
案例分析:
在一篇名为《我是一名纽约市护理人员,我从未见过这样的心理健康危机》的文章中,作者声称“在11月的最后一周,911调度员平均每天接到425个情绪失常人员(EDP)的呼叫”。
- 谁说的? 作者是一名在纽约市有近20年工作经验的医疗急救员。这使他具备谈论此话题的合理资质。
- 关于谁? 统计数据是关于纽约市的911调度员。
2. What:统计内容是什么?
这个问题旨在厘清统计数据的定义、单位和基准。
- 单位是什么? 统计数据以什么形式呈现?(例如:每天呼叫次数、百分比、绝对数量)
- 基准是什么? 与什么进行比较?所谓的“增长”是相对于哪个时期或数值?
- 统计捕捉的是什么? 核心概念是如何定义的?例如,“情绪失常人员(EDP)”的确切定义是什么?
案例分析:
- 单位是:
呼叫次数/天。 - 基准未知:我们不知道在作者声称的“危机”时期之前,典型的呼叫量是多少。是200次?还是400次?没有基准,我们难以判断425次是否真的异常高。
- 定义模糊:我们不清楚“情绪失常人员”的具体判定标准,这会影响数据的准确性和可比性。

3. How:数据如何收集与分析?
这个问题探究数据产生的方法和过程。
- 如何收集? 数据是通过什么渠道、以什么方式记录下来的?不同来源的数据如何整合?
- 如何分析? 对原始数据进行了哪些计算或处理?(例如,是简单计数,还是计算了平均值?)
案例分析:
我们只能假设全市的呼叫中心有统一的记录系统,并且这些数据被标准化地汇总起来。分析方式似乎是简单的计数和求日平均值,但这只是我们的假设,文章并未说明。
4. When:数据来自何时?
这个问题关注数据的时间背景。
- 统计数据涉及哪个具体时间段?时效性如何?
案例分析:
时间点非常明确:“在11月的最后一周”。

5. Why:为何使用此统计?
这是最关键的问题,旨在洞察作者引用该统计数据的根本目的。通常有两种主要类型:
类型一:旨在增进理解
作者希望帮助你理解某个现象。例如,一个数据可视化网站用各种图表分析“瑞克摇”(Rickrolling)这种网络迷因的历史和模式,目的是拓展读者对这个现象的认识。
类型二:为观点铺垫
作者引用数据主要是为了给后续要阐述的个人观点或主张增加权威性和说服力,数据本身并非文章讨论的核心。
案例分析:
回顾护理人员的文章,其开篇主题句是:“在我近20年的医疗急救员生涯中,我从未见过纽约当前正在经历的这样的心理健康危机。”
- 文中引用的“日均425个呼叫”这个数据,似乎并非为了让我们深入理解呼叫中心的具体运作,而是为了给作者的个人观察和经历增加分量,用“客观数据”来证明“危机确实存在,并非我个人的主观感受”。
- 这一点可以从我们无法完全回答 What 和 How 中的细节问题得到佐证。如果目的是增进理解,这些信息通常会更明确。
关于“Why”的深入思考

为什么区分“Why”的两种类型如此重要?
首先,数字常被赋予权威性。在我们的文化中,数字常被视为最权威的证据形式。然而,任何人都可以尝试利用这种权威,就像孩子戴上纸皇冠模仿国王一样。一个统计数据可能本身是准确的,但被用在不相关或不恰当的论证中;反之,一个旨在增进理解的统计,也可能因为计算错误而变得不准确。
因此,统计数据的目的(Why)与其正确性(正确/错误)是两个独立的维度。我们不能因为一个数据被用来“铺垫观点”就断定它一定是错的,也不能因为一个数据旨在“增进理解”就认定它一定是对的。
关键在于,当统计数据并非文章核心时,对其呈现的严谨性要求可能会降低,但这只是一种倾向,并非绝对。作为审辨的读者,我们需要对这种可能性保持警惕。
总结
本节课中,我们一起学习了审辨统计数据的“5W”方法。通过 Who、What、How、When、Why 这五个问题,我们可以系统地剖析一个统计主张:
- 检查其来源和背景(Who, When)。
- 厘清其定义和基准(What)。
- 审视其产生过程(How)。
- 最重要的是,洞察其使用目的(Why)。


掌握这个方法,能帮助我们在面对海量数据信息时,不再盲目采信,而是能够提出关键问题,做出更明智的判断。记住,理解一个统计数据的“为什么”,往往是评估其价值和可靠性的第一步。
26:风格、权威与可信度 📊

在本节课中,我们将探讨如何评估日常遇到的各种统计数据和主张的可信度。我们将学习,由于时间和精力的限制,人们常常依赖表面线索(如风格、来源)来判断信息是否可靠,并理解这种方法的优势与潜在风险。
统计数据的背景缺失
上一节我们讨论了统计数据可能存在的陷阱。现在,我们来看一个具体的例子,它展示了当我们缺乏完整背景时可能遇到的问题。
在11月的最后一周,纽约市911调度员平均每天接到425个关于“情绪失常人士”(EDP)的电话。
对于这个统计,我们可能会产生许多疑问。以下是几个关键问题:
- 这些电话是如何被分类和计数的?
- “情绪失常人士”这个类别,是否真的等同于我所理解的“心理健康危机”?
- 我应该将这个数字与什么基准进行比较?在当前危机之前,日均呼叫量是多少?
- 专家是否会首先同意这是一个有效的衡量指标?
验证的困难与现实限制
上一节我们提出了疑问,本节中我们来看看为什么亲自验证一个统计数据如此困难。
我尝试去验证这个统计数据,但这将非常困难,原因有以下几点:
- 数据访问限制:我无法轻易在互联网上找到纽约市所有的911通话记录。
- 技术复杂性:通话记录系统可能涉及从不同操作员那里汇总数据,这是一个技术上复杂的过程。
- 专业知识的缺乏:我没有医学专业知识来验证“情绪失常人士”这个分类标准是否有效。
- 时间成本:我没有足够的时间去完成所有这些验证工作。
我们每天都会遇到大量统计数据,而时间和脑力是有限的资源。因此,无论好坏,由于我们没有时间和精力去深入核查每一条信息,我们常常依赖风格来决定信任哪些来源。
通过风格评估可信度:实例分析
既然我们认识到依赖风格是常见做法,本节中我们来看看如何具体应用这种方法,并分析其局限性。
我将暂时摘下统计学家的“帽子”,尝试以普通人的视角,仅凭风格来权衡一个Instagram帖子的可信度。我们可以将信息来源分为两类:真正的权威和伪装成权威。
第一个例子:一个关于婚姻的“事实”帖
这个帖子声称:“事实:与最好的朋友结婚的人,离婚的可能性降低70%。”
- 支持可信的线索:它自称是“事实”;使用了看起来很专业的希腊字母符号;包含具体的数字“70%”;内容听起来合理。
- 削弱可信的线索:没有提供任何来源或引用;发布者明确要求“标记和分享”,有吸引眼球的动机;设计看起来有些业余;不清楚“心理学事实”这个账号背后是谁。
仅凭这些表面标记,我不会完全相信这个信息。
第二个例子:一个关于抑郁的“事实”帖
这个帖子声称:“事实297:最近一项研究表明,如果成年人在一周内活动量稍微增加,近12%的抑郁症病例本可以预防。”
- 支持可信的线索:数字“12%”听起来很精确;使用了“抑郁”、“稍微增加”等科学或专业术语;使用了“个体”而非“人们”这类更正式的词汇;有一个看起来很专业的蓝色大脑标志。
- 削弱可信的线索:同样没有提供研究来源;发布者要求“分享给需要的人”,虽然看似公益,但仍意在传播;不清楚“每日心理健康事实”账号背后是谁。
这个例子更难判断,可信度模棱两可。
第三个例子:《纽约时报》的文章
现在我们回顾最初关于911电话的报道,它来自《纽约时报》。
- 支持可信的线索:作者具备专业资质;文章使用了具体和技术性的语言(如“11月最后一周”、“EDP”、“日均425通”);似乎提供了相关引用链接;《纽约时报》拥有事实核查团队,并曾发布过更正。
- 需要注意的线索:如果你不信任这个新闻媒体,你可能会将其归为不可信来源;此外,作者提到目睹更多心理健康危机,这与我个人的观察相符,这种共鸣虽然强烈,但属于主观判断。
依赖风格判断的风险与脆弱性
通过以上分析,我们看到依赖风格有其作用,但本节中我们必须正视这种方法的核心漏洞。
由于之前提到的种种原因,我很难亲自验证那个911的统计数据。因此,我最终可能根据表面信号来决定是否信任这篇报道。这些信号可能包括:
- 写作风格
- 是否显得“科学”
- 出版商和作者的资质
- 是否与我的世界观相符
这种方法的脆弱性在于:任何人都可以用听起来权威的语言来呈现发现。即使我们努力培养“不良统计检测器”,熟悉常见的报告错误,问题依然存在。
我们遇到的许多统计主张可能是不完整或模糊的。
- 不完整意味着我们缺少充分理解该统计数据的含义和来源所需的细节。
- 模糊意味着它们与多种解释相符,而不仅仅是作者暗示的那一种。
建立健康的信任基础与信息生态系统
那么,这是否意味着我们注定无法可靠地学习自身经验之外的知识呢?并非如此。
当我们拥有健康的信任基础时,我们就可以借助他人的专业知识进行学习。如果我们信任统计数据产生和呈现的过程,那么我们就不必亲自验证一切,可以依赖他人的专业知识。
当然,现实并非总是如此理想。我们生活在一个复杂的世界,需要一个健康的信息生态系统。这个系统需要多方协同工作:
- 媒体需要始终专业、诚信地行事,并在报道出错时迅速更正。
- 研究者在收集数据、进行分析和总结时必须具备能力并保持诚信。
- 社交网络中的公众人物、专家以及我们的朋友和家人,都需要以关心彼此的方式行事,帮助我们培育良好的信息环境。
总结与展望
本节课中,我们一起学习了评估信息可信度的现实挑战。我们认识到,由于信息过载,仅靠统计素养并不足够,我们不可避免地需要运用“信任”。在理想情况下,这种信任不应基于表面风格,而应基于对产生知识的可靠过程的理解。
这是一个高度复杂的话题。下图是一个非常简化的示意图,展示了从数据到我们最终接收到的“知识”或“主张”之间,可能经过的多个处理阶段和参与者,这说明了话题的微妙性。

[知识/主张] <-- 解释/总结 <-- 分析 <-- 收集 <-- [原始数据/现象]
最终,我们需要超越仅仅使用风格标记,努力在一个由媒体、研究者和社交网络共同构成的健康信息生态系统中,培养基于过程的、更深层次的判断力。



本节课中我们一起学习了:
- 统计数据常常因背景缺失而难以评估。
- 由于现实限制,人们常依赖风格(如语言、来源)快速判断可信度。
- 通过实例分析了如何用风格评估信息,并识别了其核心风险:权威性可以被伪装。
- 指出了统计主张可能“不完整”或“模糊”的问题。
- 提出了解决方案:建立基于可靠过程的信任,并需要一个由媒体、研究者和公众共同维护的健康信息生态系统。
27:成为信息生态的合格管理者 📊


在本节课中,我们将学习如何在复杂的信息生态系统中成为一名负责任的管理者。我们将探讨在社交媒体网络中分享和评估统计数据时应遵循的关键原则,以帮助您更明智地处理信息。
正如我们刚才所见,我们生活在一个复杂的信息生态系统中,其中包含许多相互关联的部分。

现在,您可能身处其中,您可能是媒体的一部分,也可能是一名研究人员或统计数据的生产者。但我认为,所有观看本课程的人都是他人社交网络的一部分。因此,我想聚焦于社交网络这一部分,探讨如果您身处其中,可以做些什么。

1. 分享前核查来源 🔍
上一节我们介绍了信息生态的复杂性,本节中我们来看看作为社交网络中的一员,首先应采取的行动:在分享统计数据前核查其来源。
以下是核查时应遵循的步骤:
- 运用“W问题”:查看您打算分享的内容,尝试回答大部分“W问题”(如谁、什么、何时、何地、为何)。其中,“为何”这个问题通常最为重要。
- 评估来源可信度:观察信息来源是否通常能提供回答这些问题所需的大部分信息。
- 警惕确认性偏见:当遇到似乎能验证您原有信念的统计数据时,要格外小心。在这种情况下,我们往往更容易忽视其中的问题。
2. 正确看待统计数据的权威性 ⚖️
核查来源是第一步,接下来我们需要反思统计数据本身扮演的角色。本节中我们来看看如何避免过度依赖或误用统计数据的“权威性”。
以下是相关的行动指南:
- 认识坏数据的危害:一个糟糕的统计数据可能比没有数据更糟,因为人们通常非常严肃地对待统计数据,倾向于视其为权威,即使我们知道它们可能存在问题。
- 接受测量的局限性:如果无法很好地测量某事物,考虑完全不为其赋予数字。直接说明“没有好的方法来测量这个”是可以接受的。
- 重视其他认知方式:不必总是依赖统计数据。讲述个人经历是完全可以的。有时,直接询问“你在这里的经历如何”这样的叙述性方式,可能比试图获得一个数字更能提供所需信息,甚至是更好的信息。
3. 在日常生活中践行高标准 🧭
了解了评估和使用的原则后,最后我们来看看如何在日常互动中应用这些高标准,以改善整体的信息环境。
以下是您可以采取的具体做法:
- 有选择地发声:当看到对统计数据的误用时,可以提出意见,但建议选择“战场”。判断其利害关系和对方真正的沟通意图。如果它会影响人们的生活,或将被引为某项您不确定的变革的理由,这些就是应该发声的情况。
- 避开惯犯媒体:避开那些持续遵循不良做法的媒体渠道。您寻找的应该是那些会对建议和更正做出回应、进行尽职调查的媒体。如果您常读的媒体一再犯下本课程讨论过的错误,可以考虑将其从您的信息“食谱”中移除。
- 在关切领域保持高标准:在您深切关注的话题上保持高标准。这不仅关乎确保您能获得最充分的信息,也有助于为您所信仰的事业构建更坚实的论据。



在本节课中,我们一起学习了在信息生态中成为合格管理者的三个核心实践:分享前严谨核查来源、审慎看待统计数据的权威性而非盲目使用,以及在日常生活中有策略地践行高标准。通过应用这些原则,我们可以更负责任地参与信息传播,并帮助提升公共讨论的质量。
28:如何描述数据 📊

在本节课中,我们将对统计素养系列的第一部分内容进行一次全面的回顾。我们将梳理已学习过的核心概念,并探讨如何在实际中应用这些知识来理解和描述数据。
🔍 统计是由人创造和分享的
上一节我们介绍了统计的本质,本节中我们来看看统计作为工具的具体特点。我们曾用一棵树的图形来引发思考:如何测量树的大小?事实证明,存在多种可能的定义。
统计是理解世界的工具,但我们必须做出选择:我们要测量或计算什么(比如那棵树)?我们如何首先获取数据?我们将如何总结数据?我们如何解释结果?
⚖️ 有用的统计与恰当的总结
并非所有统计量都同样有用。一个统计量要有用,就必须是对你所关心事物的恰当总结。
以下是统计量需要满足“恰当性”的几个方面:
- 总结方法的正确性:我们讨论过均值和中位数,需要根据情况选择。例如,何时真正应该使用中位数?选择哪个统计量作为总结并非小事。
- 测量的有效性:你所测量的事物是否与你真正想理解的东西紧密对应?就像“情绪戒指”并不是对某人情绪的恰当总结,它实际上对应的是体温,这两者是不同的,其效度很低。因此,我们的方法和测量需要大体上符合我们希望理解的内容。

📉 统计永远伴随不确定性
每个统计量都具有不确定性,我们永远无法摆脱这一点。不同的度量尺度不同,并非所有的不确定性都是相等的,有些尺度优于其他尺度。
因此,说“总存在不确定性”并不等同于说“一切都是随机的,我们无法知道任何事”。我们可以努力减少不确定性,只是无法完全消除,它永远不会完全消失。
🧩 统计的意义在于语境

统计量只有在特定语境中才有意义。要确定一个统计量的含义,我们需要理解这个统计量描述的是什么,以及它是如何产生的。
例如,我们有一个显示“PTSD水平”的吸入器设备图表。我们确实能看到数字,但要理解其真正含义,你必须了解一些背景:这个水平是如何测量的?坐标轴代表什么?具体是什么在下降?“PTSD水平”究竟是什么?这对使用该设备的人有多大影响?因此,在统计学中,我们不能将数字与其语境割裂开来。
重要的是,我们需要理解统计数据的来源才能正确解读它们,但这可能与讲故事者需要吸引人、有趣或高效的需求相冲突。因此,制作图表的人可能与我(作为解读者)存在一些相互竞争的动机。
⚡️ 总结的效率与细节的隐藏
统计帮助我们进行高效的总结,但这些总结可能会隐藏细微差别。
例如,我们如何谈论属于两个不同群体(如有些孩子被诊断为阅读障碍,有些则没有)的人?这两个群体孩子的发展路径有很大重叠,他们并非完全不同的群体。而我们谈论群体差异时使用的语言,可能会极大地夸大我们在文化上对这些差异的认知。当我们把他们作为群体来谈论,并讨论关于平均差异的宏大总结时,我们常常会忽视:这些群体中个体之间的差异,往往比我们想象的要小得多。
🤹 统计思维是一种平衡艺术
最后,统计思维是一种平衡艺术,我认为这是我们许多人每天都在努力应对的挑战,这种挣扎可能永远不会完全消失。
我们可能处于两种极端之间:
一方面,我们可能认为统计都是垃圾,只是人们操纵数据以获得他们想要的数字,毫无用处。
另一方面,我们可能相信统计无所不能,只要我们拥有统计数据,一切都可以被认知。
我们可能会在这两者之间摇摆,要避免极端确实非常困难。但我们可以通过练习(这可能需要很多年,有时你可能会失去平衡)来找到一条中间道路。如果我们对所测量和阅读的内容进行深思,保持警惕(不轻易放弃或让任何信息蒙混过关),我们或许可以在这两个极端之间共存,并利用统计来进行更好的对话,更好地理解对我们重要的一些事情。

🎯 总结
在本节课中,我们一起回顾了描述数据的核心思想:
- 统计是由人创造和分享的工具,其构建过程涉及一系列选择。
- 有用的统计量需要是恰当的总结,包括方法正确和测量有效。
- 所有统计量都伴随不确定性,我们可以管理但无法消除它。
- 统计量的意义完全依赖于其产生的语境,脱离背景的数字毫无意义。
- 统计总结在提升效率的同时,也可能隐藏重要的细节和差异。
- 培养统计思维意味着在“全盘否定”和“盲目相信”之间找到一种批判性且平衡的中间立场。
🚀 下一步:科学与知识
既然你已经了解了这么多关于描述统计的知识,接下来我们将讨论知识。知识是我们认识世界的方式,这是一个极其有趣的话题。
我们知道统计是我们创造知识的一部分,但科学也是。科学是我们创造新知识、学习和检验假设的过程,本身就是一个奇妙而复杂的话题。
在课程的下一个部分,我希望提供一些见解,关于统计如何被用于科学中以检验假设、创造新知识,以及当前科学界关于“数字在创造新知识中扮演什么角色”的一些最大复杂性、张力和争论。我也希望这能让你对科学如何运作有一些有趣的见解,这些可能是你仅从消费科学新闻中无法获得的。我希望当你看到关于实验或科学突破的新闻报道时,能拥有更多的背景知识。


这也与我息息相关,因为我已经做了大约十年的科学家,并且热爱它。期待在那里见到你,我们将围绕科学展开一些对话。

浙公网安备 33010602011771号