杜克大学-R-数据分析笔记-全-

杜克大学 R 数据分析笔记(全)

001:R语言统计学导论 🎯

在本节课中,我们将要学习统计学的基本概念及其在现实世界中的应用,并了解本系列课程的整体结构。

概述

医生如何判断新药比现有药物更有效?谷歌如何利用搜索词判断新的流感季节是否开始?政治家对其最新的民意调查数据应抱有多大信心?Netflix如何实现个性化的电影推荐?这些都是你可以通过统计数据分析来解答的问题。如果你想了解更多,那么你来对地方了。

课程介绍

上一节我们概述了统计学的应用场景,本节中我们来认识一下本课程的讲师团队。

我的名字是 Minna Tiinka Runundll。我的名字是 David Banks。我是 Merlise Clyde。我是 Colin Runundll。我们都是杜克大学统计科学系的教员。

我们为您设计的专项课程《R语言统计学》由四门课程和一个顶点项目组成。它将向您介绍统计学这门学科,将其作为一门理解、分析数据并做出数据驱动决策的科学。

课程目标

本专项课程旨在作为学习批判性思考数据的起点,同时也是频率主义和贝叶斯统计学中基本概念的入门。

以下是本课程的核心目标:

  • 向任何人介绍数据分析和统计学。
  • 无需任何统计学或计算背景。
  • 学习如何在面对不确定性时有效利用数据。

到本专项课程结束时,您将学会如何收集数据、如何分析数据,以及如何使用数据对现实世界现象进行推断并得出结论。

课程特色

除了涉及许多入门统计学课程涵盖的传统方法外,我们还将学习现代且通用的方法,例如基于模拟的推断和贝叶斯推断。

现代统计学的另一个关键方面是计算。在本专项课程中,您将使用R(一种开源统计编程语言)处理真实数据集。

以下是本课程的实践环节介绍:

  • 每周的实验课将教您现代的R包。
  • 学习如何进行可复现的数据分析。

在这些实验中,我们将深入探讨诸如“热手现象”在篮球中是否真的存在、学生对教授的评分是否部分基于教授的吸引力,以及您的谷歌搜索结果如何像老丨虎丨机等问题。

课程项目

在每个课程中以及作为顶点项目的一部分,您将参与一个开放式的数据分析项目。您可以在其中展示您所掌握的统计技能。

总结

本节课中我们一起学习了统计学的广泛应用、本课程的讲师团队、学习目标、特色实践环节以及最终的项目要求。加入我们,一起探索R语言统计学的世界。我们期待很快与您在线互动。😊

002:导论 📊

在本节课中,我们将要学习数据分析的基础知识,包括数据的收集、分析和可视化,以及如何基于数据做出决策。

从历史角度看数据作为证据

上一节我们介绍了课程的整体目标,本节中我们来看看数据作为证据在历史上的一个具体案例。

在美国,关于吸烟危害的研究始于20世纪30年代,当时吸烟变得越来越流行。一些吸烟者似乎对香烟烟雾敏感,另一些人则完全不受影响。反吸烟研究当时遇到了阻力,阻力基于诸如“我叔叔每天抽三包烟,身体依然非常健康”这样的说法。这类证据虽然可能是真实的,但基于有限的样本量,可能无法代表总体。我们称这类证据为轶事证据

当时得出的结论是,吸烟是一种复杂的人类行为,其本质难以研究,且受到人类个体差异的干扰。然而,今天我们对吸烟健康影响的理解已大不相同。随着时间的推移,研究人员得以检查更大规模的案例样本,即更多的吸烟者数据。

随着从更大样本中收集数据,显示吸烟对健康负面影响的趋势变得清晰得多。

课程目标与核心问题

本课程的目标是教你使用统计工具理解数据,以便能够探索变量之间的关系,并在整个课程中做出明智的决策。你将接触到许多研究,当面对一项新研究或一组数据时,你首先应该问自己的问题是:研究的总体是什么?样本又是什么?

例如,让我们考虑2013年发表的这项名为《急诊科中的酒精品牌使用与伤害》的研究。该研究探讨的研究问题是:某些酒精品牌的消费者是否更可能因伤害而进入急诊室?仅从这个问题来看,感兴趣的总体似乎是所有人。换句话说,理想情况下,研究人员希望找到一个能对所有人提出建议的答案。

然而,仔细审视这项研究发现,研究中使用的样本只是美国巴尔的摩市约翰斯·霍普金斯医院的一组急诊室患者。这些是因伤害就诊的患者,酒精品牌消费数据是从那些在就诊前六小时内饮酒的患者中收集的。因此,这项研究的结果实际上只能推广到巴尔的摩的居民,因为某些品牌在该地区可能比其他地区更容易获得,这取决于全国品牌市场份额。同样,该地区居民的饮酒习惯也可能与世界其他地区不同。

本单元内容概览

现在你对如何着手处理统计研究有了初步了解,让我们简要概述本单元将要学习的内容。

我们将从定义感兴趣的总体开始,讨论从该总体中抽取样本的方法,以及如何设计能最好地回答特定研究问题的研究方案。

我们还将学习确定一项研究的推论范围,例如我们何时能做出因果性陈述,何时只能做出相关性陈述,以及何时能将结论推广到更广泛的总体。

我们还将学习探索性数据分析的方法,例如数据可视化和汇总统计。

最后,我们将以基于模拟的统计推断入门作为本单元的结束。

以下是本单元将涵盖的主要主题列表:

  • 定义总体与样本
  • 研究设计与抽样方法
  • 因果推断与相关关系
  • 探索性数据分析与可视化
  • 统计推断基础

总结

本节课中我们一起学习了数据分析的入门知识。我们通过吸烟研究的案例,理解了轶事证据的局限性以及大样本数据的重要性。我们明确了面对任何研究时,首先要问的两个核心问题:总体是什么?样本是什么? 最后,我们预览了本单元将学习的核心内容,包括从数据收集到统计推断的完整流程。

003:数据基础 📊

在本节课中,我们将要学习数据的基础概念。我们将重点讨论观测值、变量和数据矩阵,变量的类型,以及变量之间的关系。

数据矩阵:观测值与变量

上一节我们介绍了数据分析的起点。本节中我们来看看数据是如何组织的。

数据通常以数据矩阵的形式组织。在数据矩阵中,每一行代表一个观测值或一个案例,而每一列代表一个变量。如果你使用过电子表格(如Excel),这种结构对你来说会很熟悉。

以下是一个数据矩阵的抽象表示:

[观测值1, 变量1, 变量2, ...]
[观测值2, 变量1, 变量2, ...]
...

变量的类型

理解了数据矩阵的结构后,接下来我们需要识别其中变量的类型。这是数据分析的关键第一步。

变量主要分为两大类:数值型变量分类型变量

数值型变量

数值型变量,也称为定量变量,其取值为数字。对这些值进行加、减、求平均等数学运算是合理的。数值型变量可进一步细分为:

  • 连续型数值变量:通常通过测量获得(如身高),可以在给定范围内取无限个值。公式表示为:值 ∈ [最小值, 最大值]
  • 离散型数值变量:取值为一组特定的、可数的数值(如一个家庭拥有的汽车数量)。通常,计数数据就是离散型变量。

注意:判断一个变量是连续型还是离散型,应基于其本质而非观测值。连续型变量可能因四舍五入而看起来像离散型(例如,身高通常按英寸或厘米的整数报告)。

分类型变量

分类型变量,也称为定性变量,其取值是有限数量的不同类别。这些类别可以用数字标识(例如,用0代表男性,1代表女性),但对这些数字进行算术运算是没有意义的。分类型变量可进一步细分为:

  • 有序分类变量:类别之间存在固有的顺序。例如,对客户服务的满意度等级:“非常不满意”、“不满意”、“一般”、“满意”、“非常满意”。
  • 无序分类变量:类别之间没有固有顺序。例如,个人偏好类型:“晨型人”或“夜型人”。

实例解析:谷歌透明度报告数据集

现在,让我们应用所学知识,分析一个具体的数据集——2011年谷歌透明度报告中的数据。

以下是该数据集中的变量及其类型分析:

  • 国家:标识变量,代表数据收集的国家名称。
  • 内容移除请求数量离散型数值变量。这是向谷歌提出的请求计数,只能取整数值。
  • 内容移除请求合规率连续型数值变量。这是一个百分比,理论上可以在0到100之间取任何值(尽管数据中可能显示为整数)。
  • 用户数据请求数量离散型数值变量
  • 用户数据请求合规率连续型数值变量
  • 所属半球无序分类变量,取值为“南半球”或“北半球”。
  • 人类发展指数有序分类变量,由联合国发布,等级为“极高”、“高”、“中”、“低”。

变量之间的关系

识别变量类型后,数据分析的下一步是探索变量之间的关系。

当两个变量表现出某种联系时,我们称它们为相关变量相依变量。这种关联可以是正相关(一个变量增加,另一个也倾向于增加)或负相关(一个变量增加,另一个倾向于减少)。如果两个变量没有关联,则称它们为独立

例如,通过绘制“用户数据请求数量”与“合规率”的散点图,我们可能观察到一种正相关趋势:平均而言,请求数量越多,合规率也倾向于更高。同时,我们可能会发现一个异常点(如美国),其请求数量远高于其他国家。

总结

本节课中我们一起学习了数据的基础概念。我们首先了解了数据如何通过数据矩阵组织,其中行是观测值,列是变量。然后,我们深入探讨了数值型(连续/离散)和分类型(有序/无序)变量的区别与识别方法,并通过谷歌数据集进行了实践。最后,我们引入了变量间关系的概念,包括相关与独立、正相关与负相关。

记住,在开始任何分析之前,先停下来思考你正在处理的变量类型,这将帮助你轻松确定最适合的分析方法。在接下来的课程中,我们将学习评估变量之间关系的正式方法。

004:观察性研究与实验

在本节课中,我们将定义观察性研究与实验,并讨论相关性与因果关系的区别。

观察性研究

在观察性研究中,研究者以不直接干预数据产生过程的方式收集数据。换句话说,他们仅仅是进行观察。基于观察性研究,我们只能建立解释变量与响应变量之间的关联,即相关性。

如果一项观察性研究使用的是过去的数据,它被称为回顾性研究;如果数据是在研究过程中持续收集的,则被称为前瞻性研究

实验研究

另一方面,在实验中,研究者将受试者随机分配到不同的处理组中,因此可以在解释变量与响应变量之间建立因果联系。

让我们暂停一下,通过一个例子来澄清“随机分配”的含义。假设我们想评估定期锻炼与能量水平之间的关系。我们可以将研究设计为观察性研究或实验。

以下是两种研究设计的区别:

  • 观察性研究:我们从总体中抽样两类人:选择锻炼的人和不锻炼的人。然后我们计算并比较这两组人的平均能量水平。
  • 实验:我们从总体中抽样一组人。然后我们随机将这组人分配到两个组:在研究期间定期锻炼的组和不锻炼的组。关键区别在于,是否锻炼的决定权不在受试者手中(如观察性研究那样),而是由研究者强制规定。最后,我们比较两组的平均能量水平。

基于观察性研究,即使我们发现这两组人的平均能量水平存在差异,我们也不能将此差异完全归因于锻炼。因为可能存在本研究未控制的其他变量,导致了观察到的差异。例如,身体状况更好的人可能更倾向于定期锻炼,同时也拥有更高的能量水平。

然而,在实验中,由于随机分配,那些可能影响结果的变量(如初始身体状况)很可能在两组中均匀分布。因此,如果我们发现两组平均值存在差异,我们确实可以做出因果陈述,将此差异归因于锻炼。

案例分析:新闻报道中的研究

接下来,我们将回顾一篇关于公共研究的媒体报道,并尝试判断它属于哪种类型的研究。让我们从新闻文章的节选开始:

研究:早餐麦片让女孩保持苗条
吃任何类型早餐的女孩,其平均身体质量指数(一种常用的肥胖指标)都低于那些自称不吃早餐的女孩。自称早餐吃麦片的女孩,其指数甚至更低。该研究由马里兰医学研究所进行,资金来自美国国立卫生研究院和麦片制造商通用磨坊。这些结果来自一项更大规模的NIH调查,该调查追踪了加州、俄亥俄州和马里兰州的2379名9至19岁的女孩。作为调查的一部分,女孩们每年被问及一次她们在过去三天里吃了什么。

文章的标题声称“早餐麦片让女孩保持苗条”。但实际上,这里存在三种可能的解释:

  1. 吃早餐确实导致女孩更苗条。
  2. 苗条可能导致女孩吃早餐,因此它们的因果关系可能是反向的。
  3. 可能存在第三个变量,同时导致了苗条和吃早餐。例如,普遍具有健康意识可能导致身材苗条,以及以早餐开始新的一天。

这种同时影响解释变量和响应变量,并使得它们之间看起来存在关系的额外变量,被称为混杂变量

核心结论:相关性不等于因果性

如果你要从这门课中学到一件事,那就是:相关性不等于因果性。决定我们能够推断因果关系还是仅仅相关性的,是我们得出结论所依据的研究类型。

在大多数情况下,观察性研究只允许我们做出相关性陈述,而实验则允许我们推断因果关系。我们说“大多数情况”,是因为实际上存在更高级的方法(统称为因果推断),允许从观察性研究中做出因果推断,但这些方法超出了本课程的范围。

总结

本节课中,我们一起学习了观察性研究与实验的核心区别。观察性研究通过观察收集数据,只能建立变量间的关联(相关性)。实验则通过随机分配受试者到不同处理组,能够控制混杂变量,从而建立因果关系。理解“相关性不等于因果性”这一原则,对于正确解读数据分析和研究结论至关重要。

005:抽样与偏倚来源 📊

在本节课中,我们将要学习普查与抽样的区别、研究中偏倚的来源,以及几种常见的抽样方法。理解这些概念对于确保数据分析结果的可靠性和有效性至关重要。


普查 vs. 抽样

上一节我们介绍了从总体中抽取样本的概念。但有人可能会问,为什么不直接调查总体中的每一个人,即进行普查呢?理论上,普查似乎更全面。

然而,进行普查需要耗费大量资源。此外,还有其他原因使得普查并非总是最佳选择。

首先,某些个体可能难以定位或测量,而这些人与总体中的其他部分可能存在差异。例如,在美国人口普查中,非法移民通常无法被准确记录,因为他们担心信息会被移交给移民局而不愿填写表格。然而,这些个体可能具有与总体其他部分不同的特征,因此无法获取他们的信息可能导致在非法移民高密度地区的统计数据非常不可靠。

其次,总体很少是静止不变的。即使你能够对总体进行精确测量,总体也在不断变化,因此永远不可能获得一个完美的测量结果。


抽样的自然类比

实际上,抽样是一种非常自然的行为。想象一下你在烹饪时,我们会尝味。也就是说,我们检查烹饪物的一小部分来了解整道菜的情况。我们绝不会为了检查味道而喝掉一整锅汤。

当你尝了一勺汤,并判断这一勺不够咸时,你所做的就是对当前样本进行探索性分析。如果你由此推广并得出结论认为整锅汤都需要加盐,这就是在进行推断。

为了使你的推断有效,你品尝的那一勺(你的样本)需要能代表你的整锅汤(你的总体)。如果你的勺子只从表面舀取,而盐都沉在锅底,那么你尝到的味道很可能无法代表整锅汤。相反,如果你在品尝前先将汤彻底搅拌均匀,那么你舀取的那一勺就更有可能代表整锅汤。


抽样偏倚的来源

以下是几种常见的抽样偏倚来源:

便利样本偏倚:当容易接触到的个体更有可能被纳入样本时,就会发生便利样本偏倚。例如,如果你想了解市民对公共交通费用上涨的看法,但只调查了你所在社区的居民,而不是来自全市的代表性样本,那么你的研究就会受到便利偏倚的影响。

无应答偏倚:如果随机抽取的样本中只有一部分非随机的个体回应了调查,导致样本不再能代表总体,就会发生无应答偏倚。例如,假设你从城市中随机抽取了一些个体进行调查,但某些群体(例如社会经济地位较低的人)回应调查的可能性较低。

自愿回应偏倚:当样本仅由那些自愿回应的人组成,并且他们通常对议题有强烈看法时,就会发生自愿回应偏倚。例如,假设你在全市所有公交站和地铁站放置了投票机,但只有那些选择这样做的人才会花时间投票,表达他们对公共交通费用上涨的看法。

自愿回应偏倚在在线投票中很明显,例如CNN在2013年8月发布的关于西方是否应干预叙利亚的投票。回应此投票的人绝对不代表世界人口,因为他们只是恰好在投票发布当天访问了CNN网站并有足够强烈的意愿去投票的人。事实上,投票结果说明这不是一个科学的民意调查。

回顾:自愿回应偏倚和无应答偏倚的区别在于,在无应答偏倚中,存在一个被调查的随机样本,但选择回应的人不能代表该样本;而在自愿回应偏倚中,则没有初始的随机样本。


历史案例:偏倚样本的误导

让我们看一个历史例子,说明偏倚样本如何导致误导性结果。1936年,兰登寻求共和党总统提名,反对富兰克林·德拉诺·罗斯福(常称为FDR)的连任。

当时一本流行的杂志《文学文摘》对约1000万美国人进行了民意调查,并收到了约240万份回复。相比之下,如今美国可靠的民意调查通常只调查约1500人,因此这是一个巨大的样本。调查显示,兰登很可能以压倒性优势获胜,而FDR只能获得43%的选票。

然而在现实中,FDR以62%的选票赢得了选举。该杂志因这次民意调查而完全失信,并很快停刊。那么,问题出在哪里?

该杂志调查了其自己的读者、注册汽车车主和注册电话用户。这些群体的收入远高于当时的全国平均水平。请记住,那是在大萧条时期,这导致选民名单更有可能支持共和党,而不是当时真正典型的选民。换句话说,样本不能代表当时的美国人口。

虽然《文学文摘》的选举民意调查基于240万的巨大样本量,但由于样本存在偏倚,它并未产生准确的预测。

回到汤的类比:如果汤没有搅拌均匀,无论你的勺子有多大,尝到的味道仍然不对。如果汤搅拌均匀了,一小勺就足以测试汤的味道。


抽样方法

既然我们已经很好地理解了为什么要抽样,以及为什么样本代表总体很重要,现在让我们讨论一些抽样方法,即:简单随机抽样、分层抽样、整群抽样和多阶段抽样。

以下是几种主要的抽样方法:

  • 简单随机抽样:我们从总体中随机选择个案,使得每个个案被选中的概率相等。这类似于从帽子中随机抽取名字。
    • 公式/代码概念sample(population, size = n, replace = FALSE)

  • 分层抽样:我们首先将总体划分为同质的组,称为“层”,然后在每个层内进行随机抽样。例如,如果我们想确保研究中男性和女性得到同等代表,我们可能会先将总体划分为男性和女性,然后在每个组内随机抽样。

    • 公式/代码概念:按stratum(如性别)分组后,在每个组内执行sample()
  • 整群抽样:我们将总体划分为“群”,随机抽取几个群,然后对这些被选中的群内的所有观察单位进行调查。与分层抽样中的“层”不同,整群抽样中的“群”内部是异质的,但各个群之间彼此相似,因此我们可以只从少数几个群中抽样。

    • 公式/代码概念:先sample(clusters, size = k),然后调查所选clusters中的所有个体。
  • 多阶段抽样:这是在整群抽样基础上增加一个步骤。就像在整群抽样中一样,我们将总体划分为群,随机抽取几个群,然后我们再从这些被选中的群内随机抽取观察单位。我们通常出于经济原因使用整群抽样和多阶段抽样。例如,可以将一个城市划分为平均上彼此相似的地理区域,然后随机抽取其中几个区域,前往这些随机选定的区域,再从这些区域内抽取一些人。这样就避免了需要前往城市所有区域的麻烦。


总结

本节课中我们一起学习了普查与抽样的核心区别,理解了便利样本、无应答和自愿回应等抽样偏倚的来源及其危害,并通过历史案例看到了偏倚样本如何导致错误结论。最后,我们介绍了简单随机抽样、分层抽样、整群抽样和多阶段抽样这四种基本抽样方法。记住,一个具有代表性、无偏倚的样本,即使规模不大,也比一个庞大但有偏倚的样本更能帮助我们做出有效的推断。

006:实验设计原则与术语 🧪

在本节课中,我们将讨论实验设计的基本原则,并学习一些相关的实验设计术语。理解这些原则对于设计有效、可靠的数据分析实验至关重要。

实验设计的四项基本原则

实验设计主要遵循四项核心原则,它们共同确保了实验结果的科学性和有效性。

以下是这四项原则:

  • 控制:将感兴趣的处理组与一个对照组进行比较。
  • 随机化:将实验对象随机分配到不同的处理组中。
  • 重复:在研究中收集足够大的样本,或者重复整个研究
  • 区组化:如果已知或怀疑某些变量会影响响应变量,则首先根据这些变量将实验对象分组为区组,然后在每个区组内将案例随机分配到处理组。

深入理解区组化

上一节我们介绍了实验设计的基本原则,本节中我们来看看区组化的具体应用。假设我们想设计一个实验,研究能量胶是否能让人跑得更快。处理组服用能量胶,对照组则不服用任何能量胶。

我们怀疑能量胶可能对职业运动员和业余运动员产生不同的影响。因此,我们需要对“职业状态”这个变量进行区组化

具体操作如下:首先,我们将样本分为职业运动员和业余运动员两个区组。然后,在每个区组(职业组和业余组)内部,再随机将运动员分配到处理组(服用能量胶)和对照组。这样,最终的处理组和对照组中,职业运动员和业余运动员的比例是均衡的。

通过这种方式,如果我们确实发现处理组和对照组在跑步速度上存在差异,我们就可以将这种差异归因于处理(即能量胶),并确信这种差异不是由“职业状态”造成的,因为两个组中职业和业余运动员的比例是相同的。

区分解释变量与区组变量

那么,如何区分解释变量区组变量呢?

  • 解释变量(有时也称为因子)是我们可以施加在实验单元上的条件。例如,是否服用能量胶。
  • 区组变量则是实验单元本身具有的、我们希望加以控制特征。例如,运动员的职业状态。

区组化本质上类似于抽样中的分层,但它应用于实验设置中,是在随机分配时使用,而非在抽样时使用。

实验设计相关术语

为了总结我们对实验设计的讨论,让我们回顾几个新的术语。

以下是几个关键术语及其定义:

  • 安慰剂:一种虚假的治疗,常在医学研究中作为对照组使用。
  • 安慰剂效应:指实验单元仅仅因为相信自己正在接受特殊治疗而表现出改善的现象。
  • 单盲:指实验单元不知道自己属于对照组还是处理组。
  • 双盲:指实验单元和研究人员双方都不知道谁在对照组、谁在处理组的研究。

这些术语在我们后续分析更多研究案例时会非常有用。

总结

本节课中我们一起学习了实验设计的核心原则:控制、随机化、重复和区组化。我们通过能量胶的例子深入探讨了区组化的应用及其重要性,并区分了解释变量与区组变量。最后,我们介绍了一些关键术语,如安慰剂、盲法等,这些是理解和评估科学研究设计质量的基础。掌握这些概念将帮助你设计出更严谨的数据分析实验。

007:随机抽样与分配 🎯

在本节聚焦视频中,我们将讨论随机抽样与随机分配。这两个概念听起来相似,但在研究设计中服务于截然不同的目的。

随机抽样 📊

随机抽样发生在为研究选择受试者时。如果受试者是从总体中随机选择的,那么总体中的每个个体被选中的可能性相等,由此产生的样本很可能代表总体。因此,研究结果可以推广到更广泛的总体。

核心概念sample <- population[sample(nrow(population), size, replace=FALSE)]

随机分配 ⚖️

随机分配仅发生在实验环境中,即受试者被分配到不同处理组时。仔细观察我们的样本,通常会看到受试者之间表现出略微不同的特征。通过随机分配,我们确保这些不同的特征在处理组和对照组中得到同等体现。这使我们能够将观察到的组间差异归因于施加在受试者身上的处理,因为除此之外,这些组本质上是相同的。换句话说,随机分配允许我们基于研究做出因果结论。

核心概念assignment <- sample(rep(c("treatment", "control"), each = n/2))

一个快速示例 📖

假设你想进行一项研究,评估人们阅读衬线字体(serif)还是无衬线字体(sans-serif)更快。衬线是每个字符末端的小装饰笔画。

理想情况下,你首先应从总体中随机抽取研究受试者。然后,你将样本中的受试者分配到两个处理组:一组阅读衬线字体的文本,另一组阅读相同内容但为无衬线字体的文本。通过随机分配,我们确保其他可能影响阅读速度的因素(在此用受试者的不同颜色表示,例如流利度或休闲阅读频率)在两个组中得到同等体现。我们称此类变量为混杂变量。

在这种情况下,如果我们观察到两组平均阅读速度存在任何差异,我们实际上可以将其归因于真正的处理(即字体类型),并知道这很可能不是由混杂变量造成的。

回顾与总结 📝

抽样发生在先,分配发生在后。

总而言之,一项采用随机抽样和随机分配的研究可用于做出因果结论,并且这些结论可以推广到整个总体。这是一个理想的实验,但此类研究通常难以实施,特别是当实验单元是人类时,因为从总体中随机抽样并对他们施加处理可能很困难。这就是为什么大多数实验招募志愿者受试者。

以下是不同类型研究设计的总结:

  • 理想实验:同时使用随机抽样和随机分配。可做出因果结论,且结论可推广。
  • 随机对照实验:使用随机分配,但不使用随机抽样(例如招募志愿者)。可做出因果结论,但结论仅适用于样本,结果不可推广。
  • 典型观察性研究:使用随机抽样,但不使用随机分配。结果只能用于做出相关性陈述,但可以推广到总体。
  • 不理想的观察性研究:既不使用随机分配,也不使用随机抽样。只能用于做出相关性陈述,且结论不可推广。

在本节课中,我们一起学习了随机抽样与随机分配的核心区别及其在研究设计中的关键作用。理解这些概念是进行严谨数据分析的基础。

008:数值数据可视化 📊

在本节课中,我们将学习如何对数值型数据进行可视化。我们将重点讨论用于成对数据的散点图,以及用于描述单个数值变量分布的其他可视化方法。

散点图:探索两个变量间的关系

上一节我们介绍了数据可视化的基本概念,本节中我们来看看如何可视化两个数值变量之间的关系。一个常用的工具是散点图。

我们使用的数据来自Gapminder项目,包含2012年各国的人均收入(美元)和预期寿命(年)信息。数据集中每个观测值代表一个国家。

在分析一对变量时,我们通常需要识别哪个是解释变量,哪个是响应变量。解释变量是我们认为会影响另一个变量的那个。在本例中,我们怀疑一个国家的经济财富(人均收入)可能会影响其人民的平均预期寿命。因此,我们将收入设为解释变量(x轴),将预期寿命设为响应变量(y轴)。

重要提示:将变量标记为解释变量和响应变量,并不能保证两者之间存在因果关系。即使我们发现了变量间的关联,这些标签也只是用来记录我们怀疑哪个变量会影响另一个。由于这些数据是观察性的,并非来自随机对照实验,我们只能讨论相关性,而不能断言因果关系。

那么,这两个变量之间的关系如何?回答这个问题的最佳方法是观察穿过数据云的一条线或曲线。通过观察,我们可以发现:随着收入的增加,预期寿命首先呈现正增长;当收入水平超过某个点后,这种关系趋于平缓,收入水平较高的国家平均预期寿命大致在80至85年之间。这种关系相当强,数据点围绕曲线的离散程度不大。

此外,有几个国家作为潜在的异常值显得与众不同。

以下是评估两个数值变量关系时需要检查的几个方面:

  • 方向:关系是递增还是递减?
  • 形状:关系是线性的,还是遵循其他形式?
  • 强度:关系是强(离散点少)还是弱(离散点多)?
  • 异常值:是否存在需要特别关注的单个或一组观测值?

深入观察异常值

现在,让我们更仔细地看看这些异常值。其中一些国家的人均收入水平非常高,例如卢森堡(人口少、人均收入高)、中国澳门特别行政区,以及卡塔尔(人口少、石油资源丰富)。另一个潜在的异常值是尼泊尔,其预期寿命远高于其低收入水平所对应的预期值。

这些国家确实可能与大多数国家表现不同,因此它们显得突出并不奇怪。在数据分析中,一种天真的处理异常值的方法是立即将其排除。我们称这种方法为“天真”,是因为它通常不是正确的做法。本例就是一个很好的证明,这些异常值可能是非常有趣的案例,根据研究问题和其他相关变量对其进行仔细考量非常重要。

单个变量的分布:直方图

接下来,我们分别看看每个变量的分布。可视化单个数值变量分布的一个好方法是使用直方图。

在直方图中,数据被分组到多个区间(箱)中,条形的高度代表落入每个区间的案例数量。换句话说,直方图提供了数据密度的视图。高条形表示数据相对更集中。例如,我们可以看到大多数国家的平均预期寿命在65至85岁之间。

直方图对于识别分布的形状也非常有用。在本例中,预期寿命的分布呈现左偏。这是由于我们之前发现的预期寿命增长趋于平缓所导致的。人的寿命存在生理极限,在大多数国家,人们都能活到接近这个年龄,但也有一些国家的预期寿命低得多,并且预期寿命越低的国家数量越少,从而形成了长长的左尾。

另一方面,收入的分布是右偏。收入不能为负,所以我们在0处有一个自然边界,但收入可以有多高却没有真正的上限。然而,随着收入水平越来越高,人均收入如此高的国家越来越少,从而形成了长长的右尾。这两个分布的一个共同特征是它们都是单峰的。

理解分布的形状:偏度与峰态

让我们更深入地探讨一下关于偏度和峰态的陈述。

首先,偏度。分布被描述为偏向长尾的一侧。

  • 左偏分布中,长尾在左侧(负端)。
  • 如果看不出明显的偏斜,则分布称为对称
  • 右偏分布中,长尾在右侧(正端)。

评估分布形状的最佳方法是退后一步,想象一条勾勒出分布轮廓的光滑曲线,而不是专注于直方图中条形的锯齿状边缘。

形状的另一个重要方面是峰态

  • 一个分布可能是单峰的(有一个突出的峰值)。
  • 双峰的(有两个突出的峰值)。
  • 均匀的(没有突出的峰值)。
  • 如果有两个以上的突出峰值,分布通常被称为多峰

在入门统计课程中,你最常接触到的分布是单峰的正态分布,你可能也称之为钟形曲线。双峰分布可能表明你的数据中存在两个不同的群体。例如,一个幼儿园里个体身高的分布,第一个峰值可能是孩子们,第二个峰值可能是老师们。均匀分布意味着数据中没有明显的趋势,变量的高值和低值出现的可能性相同。例如,随机抽取的社会安全号码最后一位数字的分布,正如预期的那样,数据没有显示任何趋势,社会安全号码以0、6或9结尾的可能性是相同的。

像评估形状一样,评估峰态也最好通过想象一条勾勒出分布轮廓的光滑曲线来完成。这里有一个技巧:把直方图的条形想象成木块,然后想象将一根软面条扔到它们上面,试着想象软面条会如何落在木块之间和之上。彼此距离较远的峰值可能会形成可区分的突出峰,而彼此靠近的峰值(例如在0和2附近的峰值)可能不会。识别峰的数量并非一门精确的科学,也不应过分纠结于此。通常,你只需要确定分布是均匀的、单峰的,还是其他类型。

可视化细节:箱宽的选择

我们还应该注意,直方图选择的箱宽可以改变它所讲述的故事。

  • 当箱宽太宽时,我们可能会丢失有趣的细节。
  • 当箱宽太窄时,可能难以获得分布的整体图景。
    理想的箱宽取决于你正在处理的数据,因此你应该尝试调整它,直到对可视化效果满意为止。

其他可视化方法:点图与箱线图

让我们回到正在处理的预期寿命数据。另一种可视化此类数据的技术是点图。当对个体值感兴趣时,点图特别有用。然而,随着样本量的增加,点图可能会变得过于杂乱。

另一种特别有助于突出异常值的可视化技术是箱线图。箱线图还可以方便地显示分布的中位数(箱内的粗线)和四分位距(箱的宽度)。

根据这个箱线图,预期寿命的中位数大约是73岁,中间50%的国家的平均预期寿命在65至77岁之间。此外,预期寿命低于48岁的国家被认为具有异常低的预期寿命。收入分布的箱线图显示了我们之前确定的相同的右偏分布,并且人均收入异常高的离群国家在这个可视化中也显得很突出。

从箱线图判断分布偏度的一个方法是想象直方图会是什么样子。分布的峰值大致在中位数附近,尾部将延伸到箱线图中的尾部。

空间分布:强度地图

在本视频中,我们将讨论的最后一种可视化方法是强度地图。对于某些类型的数据(例如我们在本视频中一直在处理的数据),查看空间分布可能很有用。这些图可以揭示其他许多方法未能显示的数据趋势。例如,我们可以看到非洲的收入和预期寿命都较低,而北美和欧洲则较高。

总结

本节课中我们一起学习了多种数值数据的可视化方法。我们首先使用散点图探索了两个数值变量(人均收入与预期寿命)之间的关系,评估了其方向、形状、强度并识别了异常值。接着,我们利用直方图分别查看了单个变量的分布,理解了偏度(左偏、右偏)和峰态(单峰、双峰、均匀)的概念,并注意到箱宽选择的重要性。此外,我们还介绍了点图箱线图,后者能清晰展示中位数、四分位距和异常值。最后,对于具有地理信息的数据,我们看到了强度地图在揭示空间趋势方面的价值。掌握这些工具将帮助你更有效地探索、理解和呈现数值数据。

009:集中趋势度量 📊

在本节课中,我们将学习如何量化数值分布的中心。我们将介绍三种常用的中心度量方法:均值、中位数和众数,并探讨它们在不同分布形态下的表现。

概述

上一节我们讨论了数值变量的分布形状,例如偏态(左偏、对称、右偏)和峰态(单峰、双峰、均匀或多峰)。除了形状,分布的“中心”也是一个关键特征。本节我们将学习如何用具体的数值来描述这个中心。

中心度量方法

以下是三种最常用的中心度量方法:

  • 均值:即算术平均值。其计算公式为:
    mean = (x₁ + x₂ + ... + xₙ) / n
    其中 x₁, x₂, ..., xₙ 代表每个观测值,n 代表观测值的总数。
  • 中位数:将数据从小到大排序后,位于正中间的那个值。如果数据点个数为偶数,则中位数是中间两个数的平均值。
  • 众数:数据集中出现频率最高的观测值。

这些度量如果基于样本数据计算,则称为样本统计量。它们是未知的总体参数(如总体均值μ)的估计值。我们通常用拉丁字母(如 表示样本均值)表示样本统计量,用希腊字母(如 μ 表示总体均值)表示总体参数。

计算示例

为了更好地理解这些概念,我们来看一个简单的例子。假设有9名学生的考试成绩如下:

[85, 90, 76, 92, 88, 88, 95, 81, 87]

以下是计算过程:

  • 均值:将所有分数相加后除以9,结果为 87.11
  • 众数:出现次数最多的分数是 88,因为它出现了两次。
  • 中位数:首先将数据排序:[76, 81, 85, 87, 88, 88, 90, 92, 95]。中间位置(第5个)的值是 88,因此中位数为 88

如果数据量是偶数,例如在上述数据中再加入一个分数 100,排序后中间的两个数是 8888,中位数则为它们的平均值 88

需要注意的是,对于连续型数据,众数可能不太实用,因为很难出现完全相同的值。在实际数据分析中,我们通常使用计算机进行计算,尤其是在处理大规模数据时。

分布形态对中心度量的影响

理解了基本计算方法后,我们来看看分布形状如何影响均值和中位数。让我们回顾之前课程中提到的两个真实数据集。

案例一:各国平均预期寿命分布(左偏分布)
该分布的均值是 70.51,中位数是 73.34。均值(图中粉色实线)低于中位数(橙色虚线)。这是因为左偏分布有一个向左的长尾,少数极低的观测值会将算术平均值(均值)拉低。

案例二:各国人均收入分布(右偏分布)
该分布的均值约为 $12,050,而中位数仅为 $7,000。均值远高于中位数。这是因为右偏分布有一个向右的长尾,少数极高收入的观测值会将均值拉高。

总结

本节课我们一起学习了量化数据分布中心的三种主要方法:

  1. 均值:所有数据的算术平均,对极端值敏感。
  2. 中位数:排序后数据的中点,对极端值不敏感。
  3. 众数:出现频率最高的值。

关键结论是,分布的形态会显著影响均值和中位数的关系:

  • 左偏分布中,均值通常小于中位数。
  • 对称分布中,均值和中位数大致相等
  • 右偏分布中,均值通常大于中位数。

理解这些关系有助于我们更准确地解读数据,并选择合适的统计量来描述数据的中心趋势。


010:离散程度度量 📊

在本节课中,我们将要学习如何度量数据分布的离散程度,即数据的变异性。上一节我们介绍了分布中心的度量方法,本节中我们来看看如何描述数据围绕中心值的分散情况。

概述:什么是离散程度?

观察两个具有相同中心但形状不同的分布曲线。蓝色曲线更“瘦高”,表明其数据更紧密地聚集在中心周围;而绿色曲线更“宽扁”,表明其数据更分散地远离中心。离散程度度量就是用来量化这种数据分散程度的统计量。

度量方法

以下是几种常用的离散程度度量方法。

极差

极差是最简单的度量,计算公式为数据最大值与最小值之差。

公式极差 = 最大值 - 最小值

虽然计算简单,但极差并非衡量样本变异性的可靠指标,因为它仅依赖于分布的两个极端端点值,容易受到异常值的影响。

方差与标准差

更可靠的离散程度指标衡量的是大部分数据与分布中心的接近或远离程度。最常用的此类指标是方差和标准差。

方差

方差大致是各数据点与均值偏差平方的平均值。样本方差记为 ,总体方差记为 σ²

计算公式

  1. 计算每个观测值与均值的差(即偏差)。
  2. 将每个偏差平方。
  3. 将所有平方偏差相加。
  4. 用该总和除以(样本量 n - 1),得到平均平方偏差。

公式S² = Σ(xi - x̄)² / (n - 1)

我们稍后会讨论为何除以 n-1 而不是 n

示例:假设平均预期寿命为70.5岁,数据集包含201个国家。计算第一个国家(预期寿命60.3岁)与均值的偏差为 -10.2岁,将其平方。对后续每个国家重复此过程,直到最后一个。最后,将所有平方偏差之和除以(201 - 1),得到方差约为83.06“岁²”。

由于在计算中我们对偏差进行了平方,方差的单位是原始数据单位的平方。这使得结果(如83.06“岁²”)在直观上难以解释。

为何要平方偏差?

在方差计算中平方偏差有两个主要原因:

  1. 消除负号:如果不平方,正负偏差相加会相互抵消。例如,在均值为0的对称分布中,-2和2与均值的距离相等,但直接相加会得到0。平方后两者都变为正数。
  2. 放大较大偏差:平方运算使较大的偏差获得更大的权重。例如,-2²=4,3²=9,4²=16。这样,数据中较大的波动在方差中会得到更显著的体现。

标准差

为了得到一个与原始数据单位相同的变异性度量,我们使用标准差。标准差本质上是围绕均值的平均偏差,计算为方差的平方根。样本标准差记为 S,总体标准差记为 σ

公式S = √S² = √[ Σ(xi - x̄)² / (n - 1) ]

对于合理规模的数据集,手动计算方差和标准差既繁琐又易错,因此我们通常借助计算工具完成。然而,理解变异性的概念对于进行统计分析至关重要。

变异性与多样性的区别

一个常与变异性混淆的概念是多样性。让我们通过一个例子来区分:

问题一:以下哪组汽车的颜色组成更多样?

  • 组一:包含黄、红、绿、紫、蓝五种不同颜色的车。
  • 组二:包含三辆蓝色和两辆紫色的车。

答案:组一。因为每辆车的颜色都不同,所以多样性更高。

问题二:以下哪组汽车的油耗(英里/加仑)变异性更大?

  • 组一:油耗分别为 10, 20, 30, 40, 50 英里/加仑的车。
  • 组二:三辆油耗为10英里/加仑,两辆油耗为50英里/加仑的车。

答案:这次是组二。回忆一下,更多观测值聚集在中心周围的分布变异性较小,而更多观测值远离中心的分布变异性较大。我们可以通过点图来更清楚地说明这一点。

在组一中,平均油耗为30英里/加仑,数值范围从10到50。但有一个观测值正好在均值处,另外两个观测值比端点值更接近均值。
在组二中,平均油耗为26英里/加仑,数值范围同样从10到50。但没有观测值位于或接近均值。因此,这组数据的平均偏差更大,变异性更高。

四分位距

我们将讨论的最后一个离散程度度量是四分位距。它是数据中间50%的范围,可以计算为第一四分位数与第三四分位数之差,即第25百分位数与第75百分位数之差。

公式IQR = Q3 - Q1

这个度量在箱线图中最容易看到。

示例:回顾预期寿命的箱线图,第一四分位数Q1是65岁,第三四分位数Q3是77岁。因此,四分位距IQR为两者之差,即12岁。在描述预期寿命的分布时,我们可以说中间50%的国家的预期寿命在65岁到77岁之间。

四分位距本身的值(如12)单独看信息量不大,但在比较不同分布时非常有用。四分位距比极差(最大值-最小值)更可靠,因为它不依赖于端点值,而端点值可能是异常观测值或潜在的离群点。

总结

本节课中我们一起学习了度量数据离散程度的几种主要方法:

  1. 极差:计算简单但不稳定,受极端值影响大。
  2. 方差与标准差:通过计算数据与均值的平均偏差平方(方差)及其平方根(标准差)来度量变异性,是更可靠的指标。标准差与原始数据单位一致,解释性更强。
  3. 四分位距:描述数据中间50%的范围,对异常值不敏感,在比较分布时尤其有用。

理解这些度量有助于我们更全面地描述和比较数据分布的特征。

011:稳健统计 📊

在本节课程中,我们将学习什么是稳健统计,并讨论用于描述数据中心和离散程度的稳健度量。

我们定义稳健统计量为那些受极端观测值影响很小的度量指标。

什么是稳健统计?🤔

上一节我们介绍了描述数据分布的不同方法。本节中,我们来看看当数据中存在极端值时,哪些统计量更可靠。

让我们通过一个简单的例子来理解。

假设我们有一个包含1到6之间数值的小数据集:[1, 2, 3, 4, 5, 6]

该数据集的均值中位数都是 3.5

现在,如果我们把其中一个值改为一个非常大的数,比如1000,数据集变为:[1, 2, 3, 4, 5, 1000]

  • 均值会急剧增加到 169.17
  • 中位数则保持不变,仍是 3.5

换句话说,中位数对这个极端观测值是稳健的。这是因为均值依赖于数据集中的所有观测值(它是算术平均值),而中位数只依赖于分布的中间点,端点值的大小与其计算无关。

稳健的离散程度度量 📏

我们刚刚确定了中位数是比均值更稳健的中心度量统计量。与此相对应,基于中位数计算的四分位距,是比标准差极差更稳健的离散程度统计量。

  • 标准差的计算使用了均值。
  • 极差则完全依赖于最极端的两个观测值。

以下是稳健与非稳健统计量的对比总结:

  • 稳健统计量(如中位数、IQR)最适用于描述偏态分布或包含极端观测值的数据。
  • 非稳健统计量(如均值、标准差)则适用于描述对称分布的数据。

总结 📝

本节课中,我们一起学习了稳健统计的概念。我们了解到,稳健统计量(如中位数和四分位距)对数据中的极端值不敏感,因此在分析偏态数据或存在异常值的数据时更为可靠。相反,均值、标准差和极差等非稳健统计量容易受到极端值的影响,但能很好地描述对称分布的数据特征。根据数据的分布形态选择合适的统计量,是进行准确数据分析的关键一步。

012:数据转换 📊

在本节课中,我们将要学习数据转换。数据转换是一种使某些类型的数据更易于建模的有用技巧。我们将首先定义什么是转换,然后回顾在何时应用数据转换可能是有用或必要的。

什么是数据转换?

上一节我们介绍了数据转换的概念,本节中我们来看看其具体定义。

数据转换是使用函数对数据进行重新缩放。当数据存在非常严重的偏态时,我们有时会对其进行转换,使其更易于建模。

常用的数据转换方法

以下是两种最常用的数据转换方法:

最常用的转换是自然对数转换。这种转换通常应用于数据集中大部分数据相对于较大值聚集在零附近,且所有观测值均为正数的情况。例如,我们之前看到人均收入的分布是严重右偏的,但在应用自然对数转换后,数据变得对称得多。有时这类数据更容易建模,因为它们偏态更轻,异常值通常也不那么极端。

除了对数转换,平方根转换和倒数转换等其他转换也可能有用。让我们看一个新的数据集。这里有一个汽车重量与其城市油耗的散点图随机样本。我们可以看到这两个变量呈负相关,这是预期的。更大的汽车每英里油耗更高,但这种关系不是线性的。

转换在散点图中的应用

转换也可以应用于散点图中的一个或两个变量,以使变量之间的关系更线性,从而更容易用简单的方法建模。

例如,这里有一个人均收入与预期寿命的散点图。关系是正向且弯曲的。如果我们对响应变量应用对数转换并再次绘制关系图,关系保持正向,但变得更线性,这使得它比未转换的数据更容易建模。

如何选择转换方法?

仅通过观察这些图表很难判断哪种转换效果更好,或者这些转换是否真的比原始数据产生了更好的结果。在本课程后面,我们将更详细地讨论如何做出这样的判断。但现在,重要的是要认识到转换是有用的,尽管它们使解释变得稍微复杂一些。毕竟,收入的对数或重量的平方根并不容易评估。

虽然我们可以为哪种转换有用制定一些指导原则,但与其专注于一系列规则,不如理解我们为什么首先想要应用转换。因此,让我们再次回顾转换数据的常见目标。

以下是转换数据的三个主要目标:

  1. 以不同视角观察数据结构:转换可以帮助我们从新的角度理解数据分布。
  2. 减少偏态以辅助建模:通过转换使数据分布更对称,便于应用统计模型。
  3. 拉直散点图中的非线性关系:使变量间关系线性化,从而能够使用更简单的方法(如线性回归)对关系进行建模。

总结

本节课中我们一起学习了数据转换。我们了解到,数据转换是通过数学函数对数据进行重新缩放,常用于处理严重偏态的数据或使非线性关系线性化。最常用的方法是自然对数转换,但平方根和倒数转换等也各有用途。虽然转换会使结果的解释变得复杂,但它能帮助我们更清晰地观察数据结构、减少偏态,并简化建模过程。理解转换的目的比机械地套用规则更为重要。

013:探索分类变量 📊

在本节课中,我们将学习如何描述单个分类变量的分布,以及如何评估两个分类变量之间、或一个分类变量与一个数值变量之间的关系。


单个分类变量的分布 📈

首先,我们来看如何描述单个分类变量的分布。一个2014年的美国民意调查询问了受访者认为存钱有多困难。

我们可以用频数表来呈现这项调查中500名参与者的结果:

  • 231人认为存钱非常困难。
  • 196人认为存钱有些困难。
  • 58人认为存钱不太困难。
  • 14人认为存钱一点也不困难。
  • 1名受访者表示不确定。

条形图与相对频率

用图形表示这些数据的一种方法是条形图。这些原始计数确实能告诉我们一些信息,例如大多数人认为存钱是困难的。但在评估分类变量的分布时,我们通常更关注相对频率。

我们也可以绘制这些相对频率的条形图。它看起来和原始条形图一样,只是Y轴从计数变成了相对频率。


条形图与直方图的区别

那么,条形图和直方图有何不同?

  1. 用途不同:条形图用于展示分类变量的分布,而直方图用于展示数值变量的分布。
  2. 坐标轴性质不同:直方图的X轴是数轴,因此条形的顺序不能改变。而在条形图中,类别可以按任何顺序排列,尽管某些顺序(尤其是对于有序变量)可能更有意义。

为什么不使用饼图?

对于这些数据,可能有人会想制作饼图。但实际上,饼图提供的信息远少于条形图。

  1. 饼图虽然能告诉我们各类别的相对大小顺序,但无法直观地告诉我们每个类别具体占多少百分比。
  2. 当一个分类变量有很多类别且相对频率相近时,仅看饼图很难判断哪个类别占比更高。

例如,这里有一个哺乳动物物种目级分类的饼图。仅凭观察,你能分辨出哪个目包含的哺乳动物物种百分比最低吗?很难。因此,结论是:不要使用饼图,坚持使用条形图


两个分类变量之间的关系 🔗

前面提到的同一项调查还询问了每位参与者的收入。我们可能想知道,人们认为存钱难易的看法是否与他们的收入有关。

为了评估这一点,我们将这些变量组织在一个列联表中。我们考虑三个收入水平:每年少于4万美元、每年4万至8万美元之间、每年多于8万美元。还有一些受访者拒绝回答收入问题。

为了评估收入和存钱难易看法是否相关,我们需要比较不同收入水平中认为“存钱非常困难”的人数比例。但我们不能直接比较原始计数,因为每个收入水平的样本量不同。相反,我们应该考虑一个变量在另一个变量条件下的分布


计算条件百分比

以下是计算过程:

  • 在年收入低于4万美元的202人中,有128人认为存钱非常困难,占比为 63%
  • 在年收入4万至8万美元之间的148人中,有63人持相同看法,占比为 43%
  • 在年收入高于8万美元的124人中,有31人持相同看法,占比为 25%
  • 在拒绝透露收入的26人中,有9人持相同看法,占比为 35%

由于认为“存钱非常困难”的百分比在不同收入类别间差异很大,这些数据表明,所考虑的两个变量(对存钱难易的看法和收入)是相关的,或者说不独立


可视化方法:分段条形图与马赛克图

可视化两个分类变量关系的一个明显选择是分段条形图。分段条形图有助于可视化条件频率分布,即一个变量(响应变量)的分布在另一个变量(解释变量)各个水平下的情况。条形的高度表示各收入类别的受访者人数,条形按颜色分段以表示对存钱有不同看法的人数。但请注意,这里显示的是频数(计数),而非相对频率。

为了探索变量之间的关系,我们需要相对频率的可视化。一种方法是直接绘制相对频率的条形图,这基本上将我们之前计算的百分比(如低收入者中63%认为非常困难)可视化。

另一种方法是马赛克图。马赛克图同样展示了在收入条件下,对存钱难易看法的分布。此外,它还显示了收入的边际分布。条形的宽度告诉我们收入的边际分布(例如,收入低于4万美元的受访者最多)。再看每个条形的内部细分:在低收入条形中,代表“非常困难”的段占63%;在中收入条形中占43%;在高收入条形中占25%。这些段的长度因收入水平而异,表明不同收入群体的看法存在差异,从而暗示了两个变量之间的关系。


分类变量与数值变量之间的关系 📉

到目前为止,我们讨论了如何描述单个分类变量的分布,以及如何评估两个分类变量之间的关系。作为对分类变量探索性数据分析讨论的总结,我们来谈谈最后一种关系:数值变量与分类变量之间的关系

当我们想要比较一个数值变量在某个分类变量不同水平上的分布时,通常会考虑这种关系。

例如,这里有一个关于大学生参与社团数量的箱线图,并按年级分类。中位数基本一致,表明平均而言,无论年级高低,学生参与的社团数量大致相同。一年级和四年级学生的变异性更高,而二年级和三年级学生的变异性则低得多(表现为较小的四分位距)。在二年级和三年级学生中,有一些学生参与的社团数量异常地少或多。总体来看,各年级的分布非常相似,这表明学生参与的社团数量可能与其年级无关


总结

本节课中,我们一起学习了:

  1. 使用频数表、条形图和相对频率来描述单个分类变量的分布,并明确了条形图优于饼图。
  2. 使用列联表、条件百分比以及分段条形图、马赛克图等可视化工具来探索和评估两个分类变量之间的关系。
  3. 通过比较数值变量在分类变量不同水平上的分布(例如使用箱线图),来初步判断一个数值变量与一个分类变量之间是否存在关联。

014:统计推断导论 🧠

在本节课中,我们将通过一个关于晋升决策中性别歧视的案例研究,初步介绍统计推断的核心思想,特别是如何使用模拟方法进行假设检验。

案例背景:性别歧视研究

1972年,一项关于性别歧视的研究中,48名男性银行主管各自收到了一份相同的人事档案,并被要求判断此人是否应被晋升为一个被描述为常规工作的分行经理职位。所有档案内容完全一致,唯一的区别是:一半主管收到的档案显示申请人为男性,另一半则显示为女性。哪些主管收到男性或女性档案是随机分配的。在审阅的48份档案中,共有35人获得晋升。该研究旨在检验女性是否受到了不公平的歧视。

数据概览

让我们查看数据。男性晋升比例为 21/24,约 88%;女性晋升比例为 14/24,约 58%。在本研究中,男性和女性的晋升比例存在显著差异。

两种可能的解释

对于研究中观察到的现象,有两种可能的解释,它们构成了我们相互竞争的两个主张:

  1. 零假设:没有发生任何特殊事件。晋升与性别独立,不存在性别歧视。观察到的比例差异纯粹由偶然性导致。
  2. 备择假设:发生了特殊事件。晋升与性别相互依赖,存在性别歧视。观察到的比例差异并非偶然。

假设检验的逻辑:法庭审判的类比

假设检验非常类似于美国的法庭审判。零假设相当于“被告无罪”,备择假设相当于“被告有罪”。我们随后会出示证据(即收集数据),并判断这些证据:如果零假设为真,这些数据是否可能仅凭偶然发生?

  • 如果数据在零假设为真的情况下很可能发生,那么我们无法拒绝零假设,并声明证据不足以表明被告有罪。注意,此时陪审团的裁决是“无罪”,而非“清白”。统计上,我们无法拒绝零假设,但永远不会声称接受零假设。
  • 如果数据在零假设为真的情况下极不可能发生,那么证据将引发我们对零假设的“合理怀疑”,从而我们拒绝零假设,支持备择假设。

在假设检验中,举证责任在于提出不寻常主张的一方。零假设代表通常状态(现状),因此我们必须为备择假设这一不寻常主张收集证据。

模拟实验:假设无性别歧视

为了检验我们的假设,我们将在零假设(即无性别歧视,差异仅由偶然导致)为真的前提下进行模拟实验。你可以使用一副扑克牌跟随操作。

以下是模拟步骤的简要介绍,我们将使用扑克牌来代表研究中的档案。

步骤一:准备牌组

首先,我们需要一副牌来模拟实验。我们让人头牌(J、Q、K、A)代表未晋升的档案,数字牌(2-10)代表晋升的档案。

由于研究中总共有48份档案(35份晋升,13份未晋升),我们需要从一副标准的52张牌中移除4张,以匹配这个分布。具体操作是:移除3张Ace和任意1张数字牌。这样,剩下的牌组中正好有13张人头牌(代表13份未晋升档案)和35张数字牌(代表35份晋升档案),总计48张牌。

步骤二:模拟随机分配

充分洗牌。洗牌过程模拟了“交由偶然决定”这一思想。然后将牌分成两堆,每堆24张,分别代表男性和女性申请者组。

步骤三:计算模拟差异

分别计算两堆牌中数字牌(代表晋升)的数量和比例。然后计算男性组晋升比例女性组晋升比例的差值,并记录这个差值。

步骤四:重复模拟

重复步骤二和步骤三多次(例如1000次),以构建一个在零假设为真条件下,模拟得出的比例差异的分布。

模拟结果与决策

如果我们重复模拟多次,并记录每次模拟中男女晋升比例的差异,就能得到一个类似下图的分布。这个分布以0为中心(即零假设所期望的差异值)。

# 模拟分布的中心是零差异
simulated_differences <- c(-0.042, 0.083, -0.125, ... , 0.167) # 示例数据
mean(simulated_differences) # 应接近0

从模拟差异的分布中,我们可以看到,如果性别确实不影响晋升决策,那么观察到像原始数据中那样高达 30% 的差异是极其罕见的。

这个事件(或更极端事件)发生的低概率表明,晋升决策很可能与性别不独立。因此,我们倾向于拒绝零假设

我们的结论是:这些数据提供了令人信服的证据,表明男性银行主管的晋升决策与性别存在关联。

核心概念:P值

P值的定义是:在零假设为真的前提下,观察到与原研究数据至少一样极端的结果的概率。它是我们在竞争假设之间做出决策的常用标准之一。

# P值的概念性描述
p_value <- Pr(observed_difference >= 0.30 | H0 is true)

总结

本节课我们一起学习了统计推断的入门知识,重点是通过一个案例了解了假设检验的基本流程:

  1. 我们首先设立了零假设备择假设
  2. 接着,我们在零假设为真的假设下模拟了实验过程。
  3. 然后,我们评估了观察到至少与原数据一样极端的结果的概率(即P值)。
  4. 由于这个概率很低,我们决定拒绝零假设,支持备择假设。

在未来的单元中,我们将继续深入探讨P值和假设检验,并学习针对不同类型数据进行假设检验的各种方法。

015:概率导论(二)🎲

在本节课中,我们将要学习概率论的基础知识,包括随机过程的定义、概率的不同解释以及大数定律。这些概念为后续的统计推断提供了重要的概念框架。

随机过程的定义

上一节我们介绍了概率的基本概念,本节中我们来看看什么是随机过程。在随机过程中,我们知道可能发生哪些结果,但我们不知道具体会发生哪一个结果。

以下是随机过程的例子:

  • 抛硬币
  • 掷骰子
  • 音乐播放器的随机播放模式
  • 股票市场

例如,当你点击音乐播放器的随机播放时,你知道可能的结果是什么——下一首歌将来自你的整个音乐库,但你不知道具体是哪一首歌。同样地,抛一枚硬币,我们知道它可能正面朝上或反面朝上,但我们不知道具体是哪一面。

我们还应该注意,有时将一个过程建模为随机过程是有帮助的,即使它并非真正随机。例如,股票市场。

概率的表示与解释

当讨论事件的概率时,我们通常使用符号 P(A) 来表示事件A发生的概率。

概率有几种可能的解释,但它们几乎完全认同概率必须遵循的数学规则,其中之一是:任何事件的概率总是在0和1之间

因此,即使你在日常生活中使用诸如“今天有10%或50%的几率会下雨”这样的措辞,请注意这种说法在统计学中是无意义的。这一点可能没有争议,但在计算概率时需要牢记:如果你得到的结果小于0或大于1,你就知道自己犯了错误。

一个传统的概率定义是相对频率。这是概率的频率主义解释,即一个结果的概率是如果我们无限次观察随机过程时,该结果发生次数的比例。

另一种解释是贝叶斯解释。贝叶斯主义者将概率解释为对同一事件的主观信念程度。对于同一事件,两个不同的人可能有不同的观点,从而为其分配不同的概率。这种解释允许将先验信息整合到推断框架中。贝叶斯方法在过去20年中,很大程度上因计算技术和方法的革命性进步而得到普及。在本课程中,我们将在讨论传统频率主义方法的同时,不时地涉及这些方法。

大数定律

大数定律指出,随着收集到的观测数据越来越多,具有特定结果的发生比例会收敛于该结果的概率。

这就是为什么当我们多次掷一枚公平的骰子时,我们期望出现特定点数(例如5点)的比例会稳定在 1/6 左右。而在序列的早期,由于投掷次数太少,我们可能无法恰好得到1/6的5点。例如,如果你掷骰子6次,并不能保证其中至少会出现一次5点。但如果你掷骰子600次或6000次,你会期望大约有1/6的次数得到5点。

同样地,这也解释了为什么在3次抛硬币中看到3次正面,比在10次或100次抛硬币中看到3次正面更令人惊讶。

独立性示例与赌徒谬误

让我们再看一个例子。假设你抛一枚硬币10次,每次都是正面朝上。你认为下一次抛掷出现正面的机会是多少?是0.5,小于0.5,还是大于0.5?

概率仍然是0.5。因此,第11次抛掷出现正面的概率与第10次或之前任何一次抛掷出现正面的概率相同,都是0.5。每次抛掷是独立的,因此下一次抛掷的结果不依赖于之前抛掷的结果。另一种思考方式是,硬币是没有记忆的。它不记得之前发生了什么,然后对自己说:“好吧,下次让我翻到另一面吧。”换句话说,硬币并不“欠”一个反面。

对大数定律的一个常见误解是,认为随机过程应该补偿过去发生的任何事情。这被称为赌徒谬误或平均定律。因此,虽然我们知道在大量抛掷硬币的过程中,我们期望大约有50%的正面和50%的反面,但对于任何一次给定的抛掷,出现正面或反面的概率恰好是0.5,无论过去发生了什么。当然,如果你真的连续得到数十、数百甚至数千次正面,那么在某些时候,你需要开始思考:也许这不是一枚公平的硬币。

本单元后续内容预告

现在我们已经理清了一些定义,在本单元的剩余部分,我们将讨论概率规则、条件概率(之后我们会将其与上一单元末尾讨论的P值联系起来),以及概率分布。更具体地说,我们将学习二项分布(这在处理分类数据时将证明非常有用)和正态分布(我们将会看到,在本课程后续几乎所有情况下它都很有用)。

总结

本节课中我们一起学习了概率论的核心基础。我们定义了随机过程,了解了概率的频率主义和贝叶斯解释,掌握了大数定律的含义,并通过实例辨析了事件的独立性与常见的赌徒谬误。这些知识为我们后续深入学习概率规则和分布奠定了坚实的基础。

016:互斥事件与一般加法规则 📊

在本节课中,我们将学习概率论的一些基本术语和规则。我们将从互斥事件开始讨论,接着介绍一般加法规则,然后探讨相关的术语,如样本空间概率分布(目前仅关注离散分布),最后以互补事件的介绍结束。

互斥事件与非互斥事件

上一节我们介绍了课程概述,本节中我们来看看互斥事件

互斥事件,根据定义,是指不能同时发生的事件。这个词的同义词是相互排斥。例如:

  • 一次抛硬币的结果不能既是正面又是反面。
  • 一个学生不可能同时挂科和通过一门课程。
  • 从一副牌中抽出一张牌,不可能同时是A和Q。

在文氏图表示中,我们用圆圈代表每个事件。如果事件A和事件B互斥,我们会得到两个互不接触的圆圈,这表明事件A和B同时发生的概率,即 P(A 且 B) = 0。换句话说,事件没有交集,因此称为“互斥”。

非互斥事件,则可能同时发生。例如,一个学生可以同时在统计学和经济学课程中获得A。

在表示非互斥事件A和B的文氏图中,两个圆圈会重叠,或者说有交集。这表明事件A和B同时发生的概率不为零,即它是介于0和1之间的某个数。

一般加法规则的应用

为了巩固这些定义,让我们来应用它们。我们将从互斥事件开始。

当我们谈论“并集”时,我们寻找的是一个事件另一个事件发生的概率。

以下是计算互斥事件并集概率的步骤:

  1. 确定事件A和事件B。
  2. 计算每个事件的概率。
  3. 将两个概率相加。

示例:从一副洗匀的完整扑克牌中,抽到一张J或一张3的概率是多少?

  • 一副完整的牌有52张。
  • 有4张J(每种花色一张)。
  • 有4张3(每种花色一张)。
  • 抽到J的概率是 4/52
  • 抽到3的概率是 4/52
  • 由于J和3是互斥的(一张牌不能同时是J和3),抽到J或3的概率就是两者概率之和:4/52 + 4/52 = 8/52 ≈ 0.154,大约有15%的机会。

因此,对于互斥事件A和B,A或B发生的概率就是P(A) + P(B)

接下来,我们看看非互斥事件的并集。这次,我们想计算从一副洗匀的完整扑克牌中抽到一张J或一张红牌的概率。

以下是计算非互斥事件并集概率的步骤:

  1. 确定事件A和事件B。
  2. 计算每个事件的概率。
  3. 计算事件A和B同时发生的概率(交集)。
  4. 应用公式:P(A 或 B) = P(A) + P(B) - P(A 且 B)。

示例

  • 抽到J的概率:4/52
  • 抽到红牌的概率:26/52
  • 抽到既是J又是红牌(红桃J和方块J)的概率:2/52
  • 因此,抽到J或红牌的概率为:4/52 + 26/52 - 2/52 = 28/52 ≈ 0.538,大约有54%的机会。

所以,对于非互斥事件A和B,A或B发生的概率是 P(A) + P(B) - P(A 且 B)。减去P(A 且 B)是为了避免对重叠部分重复计算。

总结:概率的加法规则可以统一为 P(A 或 B) = P(A) + P(B) - P(A 且 B)。当A和B互斥时,P(A 且 B) = 0,公式就简化为P(A) + P(B)。你无需死记两个公式,可以通过画文氏图或草图来帮助计算,如果有重叠就减去交集概率,没有则无需担心。

样本空间与概率分布

理解了事件的计算后,我们来看看如何系统地描述所有可能的结果。

样本空间是一次试验中所有可能结果的集合。例如,假设一对夫妇有两个孩子。这两个孩子性别的样本空间是什么?(为简化,假设性别仅为男或女)。

  • 可能两个孩子都是男孩。
  • 可能两个孩子都是女孩。
  • 可能第一个是女孩,第二个是男孩。
  • 可能第一个是男孩,第二个是女孩。
    列出所有这些可能性,就得到了这对夫妇两个孩子的性别样本空间。

基于样本空间的概念,概率分布列出了所有可能的结果及其发生的概率。

假设抛掷一枚均匀硬币一次。可能的结果是正面或反面,每个结果发生的概率是50%。假设抛掷硬币两次。可能的结果是:两次正面、两次反面、第一次正面第二次反面、第一次反面第二次正面。由于每个结果可能性相等,每个结果发生的概率约为25%。

这些表格就是感兴趣事件(一次或两次抛硬币)的概率分布。我们可以为任何感兴趣的离散事件创建类似的概率分布,连续变量的概率分布将在本单元后面讨论。

概率分布需要遵循三条基本规则:

  1. 列出的事件必须是互斥的。
  2. 每个概率必须在0到1之间(这遵循概率的基本定义)。
  3. 概率分布中列出的所有概率之和必须等于1(确保涵盖了整个样本空间)。

互补事件

最后,我们来介绍互补事件

互补事件是两个互斥事件,且它们的概率之和为1。例如:

  • 抛一次硬币,事件“正面”的补事件是“反面”。
  • 抛两次硬币,事件“两次正面”的补事件是所有其他三种可能性(两次反面、正反、反正)的集合。这样,我们将样本空间分成两部分,其概率之和仍为1。

重要辨析:互斥事件和互补事件含义不同。

  • 两个互斥事件的概率之和是否总是等于1?不一定。如果样本空间中存在两个以上的结果,那么其中任意两个结果的概率之和通常不会等于1。例如,在美国进行政党归属调查,结果可能包括民主党、共和党、独立人士等。仅取民主党和共和党这两个互斥事件,它们的概率之和很可能小于1,因为样本中还有属于其他党派的人。
  • 两个互补事件的概率之和是否总是等于1?是的,这本身就是互补事件的定义。例如,抛一次硬币,正面和反面是互补事件,其概率之和为1。

因此,互补事件根据定义必然是互斥的。然而,互斥事件不一定总是互补的。


本节课中,我们一起学习了概率论的基础概念。我们定义了互斥事件(不能同时发生)和非互斥事件,并掌握了计算事件并集概率的一般加法规则P(A 或 B) = P(A) + P(B) - P(A 且 B)。我们还了解了样本空间(所有可能结果的集合)和概率分布(列出结果及其概率),以及概率分布必须满足的三个条件。最后,我们区分了互补事件(概率和为1的互斥事件)与一般的互斥事件。理解这些术语和规则是进行更复杂概率计算和统计推断的基石。

017:独立性 🎲

在本节课中,我们将学习独立事件的定义,探讨评估独立性的方法,并介绍独立事件的乘法规则。

什么是独立事件? 🤔

两个过程被称为是独立的,如果知道其中一个的结果,不会为确定另一个的结果提供任何有用的信息。

例如,知道第一次抛硬币结果是正面,并不会为确定第二次抛硬币的结果提供任何有用信息。无论第一次抛掷的结果如何,第二次抛掷得到正面或反面的概率都是0.5。因此,两次抛硬币的结果是独立的。

另一方面,如果知道从一副牌中抽出的第一张牌是A,这确实为计算第二次抽牌结果的概率提供了有用的信息。前提是我们抽牌时不替换,即抽出的牌不放回牌堆。例如,再抽到一张A的概率将是3/51(因为牌堆还剩51张牌,其中只有3张是A),而抽到一张J的概率将是4/51(因为牌堆里还剩4张J)。因此,从一副牌中不替换地连续抽两次的结果是相依的。

如何判断独立性? 📏

基于这个定义,我们可以制定一个判断随机过程之间独立性的一般规则。

如果事件A在事件B发生的条件下发生的概率,等于事件A本身发生的概率,那么事件A和B就被称为是独立的。这个规则本质上说明,知道B并不能告诉我们关于A的任何信息。我们使用竖线符号 | 表示“在...条件下”,即 P(A|B) 表示“在B发生的条件下A发生的概率”。

公式:
如果 P(A|B) = P(A),则事件A和B独立。

实例分析:枪支观点与种族 🧐

让我们快速应用这个规则。2013年,Survey USA采访了北卡罗来纳州500名居民的随机样本,询问他们认为广泛的枪支所有权是保护守法公民免受犯罪侵害,还是让社会更危险。58%的受访者表示它保护公民。67%的白人受访者、28%的黑人受访者和64%的西班牙裔受访者持此观点。

基于这些信息,我们想填写以下句子中的空白:“关于枪支所有权的观点与种族/民族最有可能是______。”选项包括:互补、互斥、独立、相依、不相交。

以下是已知信息:

  • 随机选择的居民认为枪支保护公民的概率 P(保护) = 0.58。
  • 如果居民是白人,则此概率 P(保护 | 白人) = 0.67。
  • 如果居民是黑人,则此概率 P(保护 | 黑人) = 0.28。
  • 如果居民是西班牙裔,则此概率 P(保护 | 西班牙裔) = 0.64。

由于认为枪支保护公民的概率根据个人的种族或民族差异很大,因此关于枪支所有权的观点与种族/民族最有可能是相依的。知道某人的种族/民族可能会为我们提供关于其枪支观点的有用信息,因此我们说这两个变量很可能是相互依赖的。

关于样本数据的说明 📊

我们一直使用“最有可能相依”这样的措辞,因为我们处理的是样本数据,并且尚未使用统计推断工具,这些工具允许我们将从样本中得到的结果推广到总体。

如果我们观察到基于样本计算的条件概率之间存在差异,我们说这些数据提示了相依性。接下来的自然步骤将是进行假设检验,以查看我们观察到的这些差异是否仅仅是偶然或自然随机抽样造成的,还是总体中确实存在真实差异。

然而,在此之前,我们也可以根据观察到的差异大小以及样本量进行一些推测。例如,如果观察到的条件概率(例如,在白人、黑人、西班牙裔条件下认为枪支保护公民的概率)差异很大,那么就有更强的证据表明差异是真实的。另一方面,如果样本量很大,即使条件概率的微小差异也可能为真实差异提供强有力的证据。

独立事件的乘法规则 ✖️

既然我们知道如何检查独立性,那么让我们看看一旦发现事件是独立的,我们可以用它们做什么。

独立事件的乘法规则指出:如果A和B是独立的,那么A和B同时发生的概率就是它们各自概率的乘积。

公式:
如果A和B独立,则 P(A 且 B) = P(A) * P(B)

假设你抛一枚硬币两次。连续得到两次反面的概率是多少?这很简单。连续得到两次反面的概率,就是第一次抛得到反面的概率乘以第二次抛得到反面的概率。我们之前讨论过,抛硬币是彼此独立的,因此我们可以应用刚刚学到的规则。任何一次抛掷得到反面的概率都是0.5或1/2,所以总的概率是四分之一,即约25%。

注意: 这个规则并不局限于两个事件,实际上可以扩展到任意多个独立事件。因此,如果我们不是抛两次硬币,而是抛100次,我们可以简单地将100个相同的概率相乘。一般来说,如果事件A1, A2, ..., Ak是独立的,那么所有这些事件同时发生的概率就是各个事件概率的乘积。

通用公式:
如果 A1, A2, ..., Ak 独立,则 P(A1 且 A2 且 ... 且 Ak) = P(A1) * P(A2) * ... * P(Ak)

应用实例:肥胖率计算 📈

让我们用一些真实数据来应用刚刚学到的知识。

2012年的一项盖洛普民意调查显示,西弗吉尼亚州在美国各州中肥胖率最高,有33.5%的西弗吉尼亚人肥胖。假设肥胖率保持不变,随机选择的两名西弗吉尼亚人都肥胖的概率是多少?

我们已知33.5%的西弗吉尼亚人肥胖,可以记作肥胖的概率 P(肥胖) = 0.335。像我们在过去几个例子中所做的那样,列出问题中的已知条件通常很有用,这有助于保持条理清晰,并让你在后续计算中更容易引用这些值。

题目说明这两个人是随机选择的,这意味着就他们的肥胖状况而言,他们是彼此独立的。例如,如果我们从同一个家庭挑选两个人,其中一人肥胖,另一人也更可能肥胖,因为住在同一家庭的人更可能有共同的饮食和锻炼习惯。然而,由于我们是随机选择这些个体,我们可以说他们是独立的。

既然两者独立,那么两人都肥胖的概率就简单地等于第一个人肥胖的概率乘以第二个人肥胖的概率,每个概率都是0.335,结果是0.112225,即大约有11%的概率随机选择的两名西弗吉尼亚人都肥胖。

结果解读与合理性检查 ✅

这个值,11%(即两人都肥胖的概率),低于其中任何一人肥胖的概率(33.5%)。这从两个方面讲得通:

  1. 数学上:我们将两个介于0和1之间的值相乘,因此乘积必然是一个低于其中任何一个值的数。
  2. 概念上:我们希望找到两个同时符合特定标准的人,因此我们得到想要结果的可能性应该低于只找到一个符合该标准的人的可能性。

以这种方式推理最终的数值答案通常很有用。它帮助我们真正理解我们使用的公式为何如此工作,而无需深入理论证明。同时,在您所处理的数据背景下检查最终数值答案时,这也很有用。换句话说,这是检查你工作的一个好方法。

总结 📝

本节课中,我们一起学习了:

  1. 独立事件的定义:知道一个事件的结果,不影响另一个事件发生的概率。
  2. 判断独立性的方法:检查 P(A|B) 是否等于 P(A)
  3. 独立事件的乘法规则:如果事件独立,它们同时发生的概率等于各自概率的乘积,即 P(A 且 B) = P(A) * P(B)
  4. 应用与解读:我们通过枪支观点与种族的例子理解了如何判断相依性,并通过肥胖率的计算练习了乘法规则的应用,最后讨论了如何对结果进行合理性检查。

018:概率示例 🎲

在本节课中,我们将通过一个来自“世界价值观调查”的真实数据示例,综合运用概率论的核心概念。我们将学习如何判断事件的互斥性与独立性,如何计算事件的并集与补集概率,以及如何利用这些规则解决实际问题。


世界价值观调查是一项持续进行的全球性调查,旨在了解全球人口对生活、工作、家庭、政治等方面的看法。最近一期调查涵盖了来自57个国家的77882人,其估计显示:全球有36.2%的人口同意“男性应比女性拥有更多工作权利”这一说法。

调查还估计,13.8%的人拥有大学或更高学历,同时有3.6%的人同时满足以上两个条件。

首先,我们列出已知信息:

  • 全球36.2%的人口同意该说法,即 P(同意) = 0.362
  • 13.8%的人拥有大学或更高学历,即 P(大学学历) = 0.138
  • 3.6%的人同时满足以上两个条件,即 P(同意 ∩ 大学学历) = 0.036

判断事件是否互斥

第一个问题是:同意“男性应比女性拥有更多工作权利”这一说法,与拥有大学或更高学历,这两个事件是互斥的吗?

回顾我们列出的已知信息。由于P(同意 ∩ 大学学历) = 0.036,不等于零,因此这两个事件不是互斥的。互斥事件意味着两者不可能同时发生,但此处的数据表明有人同时满足两个条件。


绘制文氏图

接下来,我们被要求绘制一个文氏图来总结这些变量及其关联的概率。

既然我们已确定这两个事件并非互斥,我们首先画出两个重叠的圆圈,一个代表“同意”,另一个代表“大学学历”。

然后,我们在中间的重叠区域标记联合概率,即那3.6%同时满足两个条件的人。

我们知道同意者的总比例为36.2%,这包括了那些同时拥有大学学历的人。因此,要找出同意但没有大学学历的人,我们用总同意概率减去联合概率:0.362 - 0.036 = 0.326。所以,有32.6%的人同意该说法但没有大学学历。

类似地,拥有大学学历的总比例为13.8%,减去同时同意该说法的人后,得到0.138 - 0.036 = 0.102。所以,有10.2%的人不同意该说法但拥有大学学历。


计算“或”事件的概率

现在,我们想计算随机抽取的一个人“拥有大学或更高学历”或“同意关于男性工作权利的说法”的概率。

让我们再次回顾目前已知的信息。

我们要求的是 P(同意 ∪ 大学学历),这让我们想起一般加法公式
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

在本题上下文中,即:
P(同意 ∪ 大学学历) = P(同意) + P(大学学历) - P(同意 ∩ 大学学历)

接下来,我们只需代入已知概率:0.362 + 0.138 - 0.036 = 0.464

因此,随机抽取的一个人拥有大学学历或同意该说法的概率约为46.4%。

另一种得到相同答案的方法是使用文氏图。所需的概率基本上由两个圆圈覆盖的总面积表示。我们可以简单地将图中显示的所有概率相加(这些概率已经对重叠部分的重复计算进行了调整),从而得到相同的答案。


计算“既不…也不…”的概率

全球人口中有多少百分比的人既没有大学学历,也不同意关于男性工作权利的说法?

我们可以将其表述为 P(既不同意也无大学学历),这基本上是前面求得的 P(同意 ∪ 大学学历) 的补集。

我们之前求得该概率为46.4%,因此其补集为 1 - 0.464 = 0.536,即53.6%。

在文氏图上,这基本上就是样本空间中“同意”和“大学学历”两个圆圈之外的区域。


判断事件是否独立

接下来,我们评估独立性:某人同意该说法的事件,与他们拥有大学学历的事件,看起来是相互独立的吗?

回忆乘积规则:如果A和B独立,则 P(A ∩ B) = P(A) × P(B)

我们可以通过建立一个等式来检查是否成立:P(同意 ∩ 大学学历) 是否等于 P(同意) × P(大学学历)

我们从引言中已经获得了这三个概率的给定值,只需代入即可:0.036 是否等于 0.362 × 0.138

等式右边计算结果约为0.05,不等于左边的0.036。因此,我们判定这两个事件看起来并不独立


计算“至少一个”的概率

最后,让我们看这个问题:在随机选择的五个人中,至少有一人同意关于男性工作权利的说法的概率是多少?

记住,P(同意) = 0.362,这是回答这个问题唯一相关的信息。

如果随机选择五个人,同意该说法的人数可能从0到5。可能没人同意,可能一人同意,两人同意,……,直到五人都同意。

我们感兴趣的是“至少一人同意”的情况。我们可以将样本空间划分为两个互补的事件:“0人同意”(用0表示)和“至少一人同意”(涵盖了从1到5的所有可能结果)。

要找到五人中至少一人同意的概率,我们只需用1减去其补事件“无人同意”的概率:1 - P(无人同意)

让我们思考一下:如果无人同意,基本上意味着他们每个人都不同意。所以,我们首先需要知道任何一个人不同意该说法的概率。这也是一个补集,是同意概率的补集:P(不同意) = 1 - 0.362 = 0.638

我们需要五个这样的人来构成“五人都不同意”的期望结果。由于我们是随机抽样,一个人是否不同意该说法与另一个人是独立的,因此我们可以将每个概率相乘。

代入公式:1 - (0.638)^5。计算结果约为 0.894

因此,在随机选择的五个人中,至少有一人同意该说法的概率大约为89.4%。


总结

在本示例中,我们综合运用了近期学习的许多概念。我们涉及了样本空间,讨论了互斥事件、互补事件和独立事件。我们还使用了事件的并集加法规则以及独立事件的联合概率乘法规则,既用于计算更复杂的概率,也用于检验事件的独立性。

019:互斥与独立辨析 🔍

在本节聚焦视频中,我们将讨论互斥事件与独立事件。这两个术语听起来相似,且经常被混淆。因此,我们将重新定义它们,并通过一些例子来阐明它们为何并非同一概念。

核心概念回顾 📚

首先,让我们快速回顾一下定义。

  • 互斥事件:也称为不相容事件,指两个事件不可能同时发生
  • 独立事件:指两个事件的发生互不影响,知道其中一个事件的结果,不会提供任何关于另一个事件结果的有用信息

因此,互斥性关注的是事件能否同时发生。如果事件A和B互斥,则它们同时发生的概率为0,即 P(A ∩ B) = 0

而独立性关注的是过程是否相互影响。如果事件A和B独立,则在已知B发生的条件下,A发生的概率就等于A本身发生的概率,即 P(A|B) = P(A)

通过实例辨析 👶

为了更好地理解,我们来看一个关于婴儿眼睛颜色的例子。

假设我们只考虑蓝色、绿色和棕色三种眼睛颜色(为简化,忽略如异色瞳等其他可能性)。对于一个婴儿,其可能的眼睛颜色结果是:蓝色、绿色、棕色。这些结果是互斥的,因为一个婴儿不可能同时拥有两种颜色的眼睛。

现在,假设有两个婴儿。我们知道第一个婴儿的眼睛是蓝色的。那么第二个婴儿的眼睛颜色可能性仍然是:蓝色、绿色、棕色。对于第二个婴儿自身而言,这三种结果同样是互斥的。

然而,第一个婴儿和第二个婴儿的眼睛颜色之间是独立还是依赖,则取决于具体情况:

  • 如果两个婴儿是亲属(例如兄弟姐妹),并且我们知道其中一个有蓝眼睛,那么另一个也更可能有蓝眼睛(由于遗传)。此时,两个事件是依赖的。
  • 如果两个婴儿是从总体中随机抽取、毫无关联的个体,那么第一个婴儿有蓝眼睛这一事实,不会提供任何关于第二个婴儿眼睛颜色的有用信息。此时,两个事件是独立的。

一个重要推论 💡

最后需要注意一点:对于同一个婴儿的眼睛颜色结果(蓝、绿、棕),这些互斥的结果之间也是相互依赖的。因为如果我们知道这个婴儿的眼睛是蓝色的,我们就同时知道他/她的眼睛不是绿色或棕色的。

我们可以将这一观察推广为:具有非零概率的互斥事件总是相互依赖的。因为如果我们知道其中一个事件发生了,我们就知道其他事件不可能发生。

总结 ✨

本节课我们一起学习了互斥事件与独立事件的核心区别:

  • 互斥 关乎事件能否同时发生,其数学表达为 P(A ∩ B) = 0
  • 独立 关乎事件是否相互影响,其数学表达为 P(A|B) = P(A)
  • 关键点在于:非零概率的互斥事件必然是依赖的,因为一者的发生排除了另一者发生的可能性。

理解这一区别对于正确进行概率计算和数据分析至关重要。

020:条件概率 📊

在本节课中,我们将学习概率论中的几个核心概念:边际概率、联合概率以及条件概率。我们将通过具体的数据集示例来理解这些概念,并学习如何使用贝叶斯定理计算条件概率。最后,我们将探讨事件独立性的概念,并了解当事件不独立时如何计算联合概率。


边际概率

首先,我们介绍边际概率。边际概率是指单个事件发生的概率,不考虑其他任何事件。其名称来源于列联表的“边缘”合计。

以下是一个关于青少年社会阶层认知研究的列联表。该研究包含48名工薪阶层和50名中上阶层的16岁青少年。

客观阶层 \ 主观认同 工薪阶层 中上阶层 其他 合计
工薪阶层 29 8 11 48
中上阶层 13 37 0 50
合计 42 45 11 98

问题:一个学生的客观社会阶层是中上阶层的概率是多少?

解答:我们关注“客观中上阶层”这一列。总共有50名学生属于此类别,而学生总数为98人。因此,概率为 50/98 ≈ 51%。

我们将其记为 P(客观 = 中上阶层)


联合概率

上一节我们介绍了单个事件的概率,本节我们来看看两个事件同时发生的概率,即联合概率。

问题:一个学生的客观阶层和主观认同是中上阶层的概率是多少?

解答:我们需要找到同时满足“客观中上阶层”和“主观中上阶层”的学生。从表中可知,有37名学生满足条件。因此,概率为 37/98 ≈ 38%。

我们将其记为 P(客观 = 中上阶层 且 主观 = 中上阶层)。联合概率关注的是两个事件交集中的个体。


条件概率与贝叶斯定理

理解了单个和多个事件的概率后,现在我们来探讨在已知某些信息的情况下,事件发生的概率,即条件概率。

问题:已知一个学生的客观阶层是工薪阶层,那么他主观上认同为中上阶层的概率是多少?

解答:我们已知该学生客观上是工薪阶层(共48人)。在这些学生中,主观认同为中上阶层的有8人。因此,概率为 8/48 ≈ 17%。

我们将其记为 P(主观 = 中上阶层 | 客观 = 工薪阶层)。竖线“|”表示“在...条件下”。

计算条件概率的通用公式是贝叶斯定理

P(A | B) = P(A 且 B) / P(B)


应用示例:美国社区调查

假设我们没有现成的列联表,但知道以下总体数据:

  • 14.6% 的美国人生活在贫困线以下(事件 A)。
  • 20.7% 的美国人在家说英语以外的语言(事件 B)。
  • 4.2% 的美国人同时满足以上两个条件(事件 A 且 B)。

问题:在家说非英语的美国人中,生活在贫困线以下的百分比是多少?即求 P(A | B)

解答:根据贝叶斯定理:
P(贫困 | 说非英语) = P(贫困 且 说非英语) / P(说非英语) = 0.042 / 0.207 ≈ 0.203

因此,大约 20.3% 在家说非英语的美国人生活在贫困线以下。我们可以将此条件概率与总体的14.6%进行比较,发现贫困现象在说非英语的群体中更为普遍,这暗示了两个变量可能是相关的。


独立事件与广义乘法法则

之前我们学过,如果事件A和B独立,那么它们的联合概率为:P(A 且 B) = P(A) × P(B)

那么,当事件不独立,或者我们无法判断其是否独立时,该如何计算联合概率呢?本节我们将利用贝叶斯定理推导出通用的计算方法。

我们可以对贝叶斯定理进行变形,得到计算联合概率的广义乘法法则

P(A 且 B) = P(A | B) × P(B)

这个公式无论事件是否独立都成立。当事件独立时,P(A | B) = P(A),该公式就简化为我们熟悉的独立事件乘法公式。


如何判断独立性?

判断两个事件是否独立,一个关键的方法是检查条件概率是否等于边际概率。

定义:如果 P(A | B) = P(A),则事件A和B是独立的。

概念解释:这意味着知道事件B发生,并没有改变事件A发生的可能性,说明B对A没有提供任何信息,两者独立。

数学证明:若A和B独立,则 P(A 且 B) = P(A) × P(B)。代入贝叶斯定理:
P(A | B) = P(A 且 B) / P(B) = [P(A) × P(B)] / P(B) = P(A)


独立性示例

假设一个班级有100名学生,专业与性别的分布如下:

性别 \ 专业 社会科学 非社会科学 合计
女性 30 20 50
男性 30 20 50
合计 60 40 100
  • P(社会科学) = 60/100 = 0.6
  • P(社会科学 | 女性) = 30/50 = 0.6
  • P(社会科学 | 男性) = 30/50 = 0.6

由于 P(社会科学 | 女性) = P(社会科学 | 男性) = P(社会科学) = 0.6,因此在该假设分布中,学生的专业与性别是独立的


总结 📝

本节课中我们一起学习了概率论的核心概念:

  1. 边际概率:单个事件发生的概率。
  2. 联合概率:两个事件同时发生的概率。
  3. 条件概率:在已知一个事件发生的条件下,另一个事件发生的概率,可通过 贝叶斯定理 P(A|B) = P(A且B)/P(B) 计算。
  4. 事件独立性:如果 P(A|B) = P(A),则事件A和B独立。对于独立事件,联合概率可用简单乘法法则计算;对于非独立事件或情况不明时,应使用广义乘法法则 P(A且B) = P(A|B) × P(B) 来计算联合概率。

这些概念是进行更复杂统计推断和数据分析的基础。

021:概率树 🌳

在本节课中,我们将学习如何使用概率树来求解条件概率。概率树在所求概率与已知概率条件相反时尤其有用。

从简单例子开始

上一节我们介绍了概率树的基本概念,本节中我们通过一个简单例子来具体了解其应用。

你收件箱里有100封邮件。其中60封是垃圾邮件,40封不是。在60封垃圾邮件中,35封包含“免费”一词,其余则不包含。在非垃圾邮件中,只有3封包含“免费”一词。

如果一封邮件包含“免费”一词,那么它是垃圾邮件的概率是多少?

首先,我们需要将已知信息整理成概率树。我们从将总体(本例中是收件箱)根据邮件是否为垃圾邮件进行划分开始。

以下是构建概率树的步骤:

  1. 第一层分支:根据邮件是否为垃圾邮件划分。
    • 垃圾邮件:60封
    • 非垃圾邮件:40封
  2. 第二层分支:在每一类下,根据是否包含“免费”一词进一步划分。
    • 在垃圾邮件中:
      • 包含“免费”:35封
      • 不包含“免费”:25封
    • 在非垃圾邮件中:
      • 包含“免费”:3封
      • 不包含“免费”:37封

求解条件概率

现在我们已经将信息整理成概率树,接下来回到问题本身。问题是:已知一封邮件包含“免费”一词,求它是垃圾邮件的概率。

这可以表示为:P(垃圾邮件 | 包含“免费”)

由于我们已知邮件包含“免费”,因此可以忽略不包含此词的邮件。首先,计算包含“免费”一词的邮件总数:35(来自垃圾邮件) + 3(来自非垃圾邮件) = 38封。

在这些邮件中,我们感兴趣的是垃圾邮件,共35封。因此,概率为 35 / 38 ≈ 0.92 或 92%。

在此过程中,我们隐含地使用了贝叶斯定理。分子是联合概率 P(垃圾邮件 且 包含“免费”),分母是我们所条件化的边际概率 P(包含“免费”)。为了简化,我们直接使用了计数而非概率。

处理概率情景

接下来,我们看一个更复杂的情景,其中我们直接处理概率,而不知道总体大小。

斯威士兰的HIV感染率全球最高。该国25.9%的人口感染了HIV。ELISA测试是最早且最准确的HIV检测方法之一。对于携带HIV的人,该测试的准确率为99.7%。对于不携带HIV的人,测试准确率为92.6%。请注意,这些概率是估计值。

如果一名来自斯威士兰的个体检测结果为阳性,那么他携带HIV的概率是多少?

已知信息:

  • P(HIV) = 0.259
  • 对于携带HIV者:P(阳性 | HIV) = 0.997 (准确率)
  • 对于不携带HIV者:P(阴性 | 非HIV) = 0.926 (准确率)

所求概率为:P(HIV | 阳性)

这是一个条件被“反转”的情况,概率树是解决此类问题最有效的方法之一。

构建概率树求解

首先,根据是否感染HIV进行第一层分支划分(边际概率):

  • P(HIV) = 0.259
  • P(非HIV) = 1 - 0.259 = 0.741

接下来,在每一分支下,根据检测结果进行第二层划分(条件概率):

  • 在“感染HIV”分支下:
    • P(阳性 | HIV) = 0.997
    • P(阴性 | HIV) = 1 - 0.997 = 0.003 (假阴性)
  • 在“未感染HIV”分支下:
    • P(阴性 | 非HIV) = 0.926
    • P(阳性 | 非HIV) = 1 - 0.926 = 0.074 (假阳性)

我们的目标是计算 P(HIV | 阳性)。根据贝叶斯定理,这等于 P(HIV 且 阳性) / P(阳性)

使用概率树,要得到联合概率(如分子),只需将路径上的概率相乘。

以下是各路径的概率计算:

  1. P(HIV 且 阳性) = P(HIV) * P(阳性 | HIV) = 0.259 * 0.997 ≈ 0.2582
  2. P(HIV 且 阴性) = 0.259 * 0.003 ≈ 0.0008
  3. P(非HIV 且 阳性) = P(非HIV) * P(阳性 | 非HIV) = 0.741 * 0.074 ≈ 0.0548
  4. P(非HIV 且 阴性) = 0.741 * 0.926 ≈ 0.6862

现在,回到我们的计算:

  • 分子:P(HIV 且 阳性) ≈ 0.2582
  • 分母:P(阳性)。检测为阳性的人可能来自两个互斥的群体:真正感染HIV的人和未感染但出现假阳性的人。因此,P(阳性) = P(HIV 且 阳性) + P(非HIV 且 阳性) ≈ 0.2582 + 0.0548 = 0.313

最终,P(HIV | 阳性) = 0.2582 / 0.313 ≈ 0.82

总结

本节课中我们一起学习了如何使用概率树求解条件概率,特别是在所求条件与已知条件相反时。

我们通过两个例子进行了实践:

  1. 在邮件分类例子中,我们通过计数直接计算,得出包含“免费”一词的邮件是垃圾邮件的概率约为92%。
  2. 在医学检测例子中,我们使用概率树和乘法规则计算联合概率,并应用贝叶斯定理,得出在斯威士兰,检测结果为阳性的人实际感染HIV的概率约为82%。

概率树是一种强大的工具,它能清晰地组织信息,引导我们逐步计算出所需的概率。

022:贝叶斯推断 🎲

在本节课中,我们将通过一个虚拟游戏来介绍贝叶斯推断方法。我们将学习如何利用贝叶斯定理、条件概率的性质以及概率树,在收集数据的过程中更新我们对不同假设的信念。


游戏设定

我两只手各拿了一个骰子。一个是六面骰,另一个是十二面骰。游戏的最终目标是猜出哪只手拿的是哪个骰子。

但在你做出最终决定之前,这不仅仅是一个猜谜游戏。你可以通过要求我掷出其中一只手的骰子来收集数据,我会告诉你掷出的结果是否大于或等于4。

在我们深入探讨游戏规则之前,让我们先思考一下,用我们拥有的两种骰子掷出大于或等于4的数字意味着什么。

我们将提出两个问题:

  1. 用六面骰掷出大于或等于4的值的概率是多少?
  2. 用十二面骰掷出这个结果的概率是多少?

对于六面骰,样本空间由1到6的数字组成。我们感兴趣的结果是大于或等于4。得到这种结果的概率是 3/6,即 1/250%

对于十二面骰,样本空间更大,数字在1到12之间。我们再次对大于或等于4的结果感兴趣。得到这种结果的概率是 9/12,即 3/475%

假设你正在玩一个目标就是掷出大于等于4的游戏,就像我们现在玩的一样。如果可以让你选,你更愿意用哪个骰子来玩这个游戏,六面骰还是十二面骰?

希望你的答案是十二面骰。我们刚刚计算过概率,掷出大于等于4的数字的概率要高得多,是 75%,而六面骰只有 50%。因此,我们将这个骰子称为“好骰子”。

你的最终目标就是弄清楚哪只手拿着这个好骰子,或者说,十二面骰。


游戏规则

记住,我有两个骰子,一个六面,一个十二面。我把一个骰子放在左手,另一个放在右手,但我不会告诉你哪个骰子在哪个手里。

你选择一只手(左或右),我掷出那只手里的骰子,然后告诉你结果是否大于或等于4。我不会告诉你实际的结果是什么,因为这实际上可能会泄露哪个骰子在哪个手里。想想看,如果我告诉你掷出了11,你就知道你选的那只手拿的是十二面骰,因为用六面骰不可能掷出11。

然后,基于这条信息,你决定哪只手拿着好骰子(十二面骰)。你也可以选择再试一次,换句话说,收集更多数据。你可以要求我再掷一次,我可以再告诉你一次你选的那只手掷出的结果是否大于或等于4。但每一轮都会花费你的钱,所以你不想尝试太多次,你想做出判断。

这显然只是一个游戏,我们制定这些规则是为了说明一个观点。但如果你考虑数据收集,它总是有成本的。虽然我们喜欢大样本量,但获取这样的样本需要大量资源。因此,我们制定的规则并非随意编造,它们反映了进行科学研究的一些现实情况。


可能的决策

在我们继续游戏之前,让我们先评估一下我们可能做出的决定。

关于真相有两种可能性:要么好骰子在右手,要么好骰子在左手。

  • 如果你猜右手拿着好骰子,而好骰子确实在右手,那么你赢了游戏。
  • 然而,如果好骰子在左手,但你猜了右手,你就输了游戏。
  • 同样,如果你猜左手而好骰子在右手,那么你输了。
  • 否则,你就赢了。

为了避免输掉游戏,你可能希望收集尽可能多的数据,但请记住,我们说这是有成本的。所以在某个时刻,在你完全确定之前,你将不得不做出猜测。

如果输掉游戏没有后果,就像在这个场景中,你可能不太在意输赢。但假设你押上了很多钱,那么你可能会对过早下结论持保守态度。

这里我们基本上是在讨论平衡做出错误决定和输掉游戏的代价,与通过额外数据收集带来的确定性之间的关系。


先验概率

在收集任何数据之前,你不知道我是把好骰子(十二面骰)拿在右手还是左手。那么,以下假设相关的概率是多少?

  1. 第一个假设(H1):好骰子在右手。
  2. 第二个假设(H2):好骰子在左手。

虽然这是一个有点主观的问题。很可能你的答案是:好骰子在右手的概率是 50%,在左手的概率是 50%。这些是你对两个相互竞争的主张(假设)的先验概率。也就是说,这些概率代表了你在看到任何数据之前的信念。

你本可以凭空编造这些概率,但你选择做出一个有根据的猜测。在什么情况下你可能不会选择这个答案,而是选择别的?比如说,你知道我通常偏爱我的左手。如果你知道这一点,那么你可能会给我左手拿着好骰子赋予更高的概率。但如果你没有关于我的任何额外信息,50/50 将是你最好的选择。


开始游戏并收集数据

现在我们有了足够的游戏背景信息,终于可以开始玩了。

假设你在第一轮选择了右手。我掷出那只手里的骰子,哇,你掷出了一个大于或等于4的数字。记住,我不会告诉你右手拿的是哪个骰子,也不会告诉你结果是什么,但至少我告诉你掷出了一个高数字。


更新信念:后验概率

现在我们重新评估我们的立场。你选择了右手,并且掷骰子的结果是大于或等于4。观察到这个数据点后,你分配给同一组假设的概率(如果会变的话)如何变化?

第一个假设(H1)是好骰子在右手。第二个假设(H2)是好骰子在左手。

具体概率的计算需要几个步骤,我们马上就会讲到。但首先,让我们试着思考一下,对于H1这个假设,新的概率应该仍然是0.5,小于0.5,还是大于0.5?

希望你的答案是大于0.5。因为我们在那只手掷了骰子并得到了一个高值结果。我们知道这更可能发生在十二面骰上,所以右手拿着十二面骰的概率应该比我们最初设定的要高一点。

让我们实际计算一下这个概率。

我们一开始有两个假设:好骰子在右手,或者坏骰子在右手。我们说在开始数据收集之前,我们给它们相等的真实机会,即 50%。记住,这些是我们的先验概率

然后我们考虑数据收集阶段:

  • 如果好骰子在右手是真的,那么掷出大于等于4的数字的概率是 75%,其补集(掷出小于4的数字)是 25%
  • 另一方面,如果你实际上右手拿的是坏骰子,那么掷出大于等于4的概率只有 50%,其补集(掷出小于4)也是 50%

通常在概率树中,下一步是计算联合概率,所以我们沿着分支相乘:

  • 37.5% 的概率好骰子在右手并且你掷出大于等于4的数字。
  • 12.5% 的概率好骰子在右手并且你掷出小于4的数字。
  • 25% 的概率坏骰子在右手并且你掷出大于等于4的数字。
  • 25% 的概率坏骰子在右手并且你掷出小于4的数字。

记住,我们确实掷出了一个大于等于4的数字,所以我们最感兴趣的是最上面的分支和第三个分支:好骰子在右手且掷出大于等于4,或者坏骰子在右手且掷出大于等于4。

我们之前请你们思考,现在假设H1为真的概率如何变化?这个概率可以正式地写为:P(好骰子在右手 | 用右手骰子掷出≥4)

如果我们想找到这个概率,它是一个条件概率,我们可以利用贝叶斯定理。贝叶斯定理基本上是说,如果你要找 P(A|B),那就用 A 和 B 的联合概率除以 B 的边际概率。

所以,在分子中,我们有“好骰子在右手并且掷出≥4”的概率。在分母中,是“用右手骰子掷出≥4”的简单概率。

联合概率是我们从第一个分支得到的 37.5%。掷出大于等于4的边际概率就是 0.375 + 0.25。你掷出大于等于4可能是因为右手是好骰子,也可能是因为是坏骰子。因为我们对这两个互斥的结果说“或”,所以我们把两个概率相加。

结果算出来是 60%。之前我们猜测假设为真的概率应该从50%增加,事实上,现在有了一个观察到的数据点,我们确实看到了增加到 60%

我们刚刚计算的这个概率也被称为后验概率。它是在给定你用右手骰子掷出大于等于4的条件下,好骰子在右手的概率。后验概率通常定义为 P(假设 | 数据),换句话说,它是给定我们刚刚观察到的数据,我们提出的假设为真的概率。它既取决于我们设定的先验概率,也取决于观察到的数据。

这与我们在性别歧视随机化检验结束时计算的不同,那里计算的是在零假设为真的条件下,观察到或更极端数据的概率,即 P(数据 | 假设),我们称之为 P值。在本课程后面的部分我们会看到更多P值,但这次我们基于所谓的后验概率来做决定,而不是P值。


贝叶斯方法的迭代更新

在贝叶斯方法中,我们随着收集更多数据而迭代地评估主张。在下一次迭代(下一次掷骰子)中,如果我们再玩一次这个游戏,你要求我再次掷出右手或左手的骰子,并且我们再次进行后验计算,我们就可以利用从数据中学到的东西。换句话说,我们用上一次迭代的后验概率来更新我们的先验。

所以在下一次迭代中,我们对于第一个假设(H1)为真的更新后的先验将是 60%(即上一次迭代的后验),而其补集 40% 将是竞争假设的概率。


总结

本节课中我们一起学习了贝叶斯推断的基本思想。让我们来总结一下关键点:

  • 贝叶斯方法允许我们利用先验信息(如先前发表的研究或物理模型)。
  • 它允许我们在收集数据时自然地整合数据并更新你的先验信念。
  • 我们可以避免P值那种反直觉的定义(在零假设为真的条件下,观察到或更极端结果的概率),而是可以根据后验概率(在给定观察数据的条件下,假设为真的概率)来做决定。
  • 一个好的先验有帮助,但一个坏的先验有损害。记住,当我们设定先验(两个假设为真的概率各50%)时,我们说我们是在做有根据的猜测。所以我们不想凭空编造先验概率。
  • 然而,你拥有的数据越多,先验的影响就越小。所以,即使你一开始没有一个很好的先验,随着你收集越来越多的数据,你也能够收敛到正确的概率。

在本课程中,我们将给出的贝叶斯推断例子会简单得多。然而,它们将提供一个坚实的框架,如果你决定继续学习统计学并使用更高级的贝叶斯模型的话。

023:贝叶斯推断示例 🧮

在本节课中,我们将通过一个乳腺癌筛查的真实案例,学习贝叶斯推断的核心思想与应用。我们将看到如何利用先验概率、新收集的数据(检测结果)来更新我们对事件的信念,从而得到后验概率。

概述

贝叶斯推断是一种基于贝叶斯定理的统计方法,它允许我们在获得新证据后,更新对某个假设的概率估计。本节将通过一个具体的医学诊断例子,演示如何从初始的先验概率出发,结合检测结果,一步步计算出后验概率。

解析已知概率

首先,我们需要理解题目中给出的几个关键概率估计值。

  • 根据美国癌症协会的估计,女性患乳腺癌的概率约为 1.7%
  • 根据Susan G. Komen基金会的数据,对于确实患有乳腺癌的女性,乳腺X光检查(钼靶)能正确识别的概率约为 78%。这被称为敏感性
  • 一篇2003年的文章指出,高达 10% 的钼靶检查结果是假阳性。这意味着,即使没有患癌,也有10%的概率检测结果呈阳性。

这些概率都是估计值,但在此示例中,我们将它们作为已知条件。用符号表示如下:

  • P(癌症) = 0.017
  • P(阳性 | 癌症) = 0.78
  • P(阳性 | 无癌症) = 0.10

计算先验概率

在患者未进行任何检测、医生不了解其任何信息之前,医生应如何估计该女性患者患乳腺癌的概率?

由于我们对该患者的病史一无所知,最合理的做法是将其视为从总体中随机抽取的一个人。因此,我们会将这个概率设定为 0.017。这就是我们在收集数据(即进行检测)之前,为患者患癌所分配的先验概率

首次检测:阳性结果的后验概率

当患者接受乳腺癌筛查时,存在两种相互竞争的可能性:患者有癌症,或患者没有癌症。

问题:如果一次钼靶检查结果为阳性,那么患者实际患有癌症的概率是多少?

用概率符号表示,我们被要求计算 P(癌症 | 阳性)。而我们之前得到的是相反的条件概率 P(阳性 | 癌症)。当条件相反时,概率树有助于我们的计算。

以下是构建概率树的步骤:

  1. 第一层分支(假设):患者有癌症,或没有癌症。

    • P(癌症) = 0.017
    • P(无癌症) = 1 - 0.017 = 0.983
  2. 第二层分支(检测结果,基于假设)

    • 如果患者有癌症
      • P(阳性 | 癌症) = 0.78
      • P(阴性 | 癌症) = 1 - 0.78 = 0.22
    • 如果患者无癌症
      • P(阳性 | 无癌症) = 0.10
      • P(阴性 | 无癌症) = 1 - 0.10 = 0.90

已知患者检测结果为阳性,因此我们只关注图中标为“阳性”的两个分支。

接下来,我们计算联合概率:

  • P(癌症 且 阳性) = P(癌症) × P(阳性 | 癌症) = 0.017 × 0.78 = 0.01326
  • P(无癌症 且 阳性) = P(无癌症) × P(阳性 | 无癌症) = 0.983 × 0.10 = 0.0983

现在,我们使用贝叶斯定理计算后验概率:
P(癌症 | 阳性) = P(癌症 且 阳性) / P(阳性)

其中,分母 P(阳性) 是检测结果为阳性的总概率,即两个“阳性”分支的联合概率之和(因为它们是互斥事件):
P(阳性) = P(癌症 且 阳性) + P(无癌症 且 阳性) = 0.01326 + 0.0983 = 0.11156

因此:
P(癌症 | 阳性) = 0.01326 / 0.11156 ≈ 0.119 或 12%

这个 12% 就是我们求得的后验概率。最初,由于对患者一无所知,我们赋予其患癌的概率是1.7%。在收集了“检测结果为阳性”这一新数据后,我们更新了对该患者的认识,现在认为其患癌的概率约为12%。

第二次检测:再次阳性的后验概率

由于一次阳性结果并不一定意味着真正患癌,医生可能会决定让患者重新检测。

问题:如果第二次钼靶检查结果也为阳性,那么患者患癌的概率是多少?

我们再次使用概率树进行分析。但关键的变化在于:这位患者不再是来自总体的一个“陌生人”。我们已经对她进行过一次检测,并且结果为阳性。因此,我们拥有关于她的额外信息,应该用这个信息来更新我们的先验概率。

换句话说,我们将上一次迭代的后验概率(12%)作为本次计算的新先验概率

  1. 更新后的第一层分支(新先验)

    • P(癌症) = 0.12 (来自第一次检测的后验概率)
    • P(无癌症) = 1 - 0.12 = 0.88
  2. 第二层分支(检测性能不变)

    • 检测的准确性没有改变,因此条件概率与之前相同:
      • P(阳性 | 癌症) = 0.78
      • P(阴性 | 癌症) = 0.22
      • P(阳性 | 无癌症) = 0.10
      • P(阴性 | 无癌症) = 0.90

同样,我们只关注“第二次检测为阳性”的分支。

计算新的联合概率:

  • P(癌症 且 阳性) = 0.12 × 0.78 = 0.0936
  • P(无癌症 且 阳性) = 0.88 × 0.10 = 0.088

计算第二次检测后的后验概率:
P(阳性) = 0.0936 + 0.088 = 0.1816
P(癌症 | 两次阳性) = 0.0936 / 0.1816 ≈ 0.515 或 51.5%

在连续两次检测结果均为阳性后,我们评估该患者实际患癌的概率上升到了约 51.5%

总结

在本节课中,我们一起学习了贝叶斯推断的一个完整示例。我们回顾了贝叶斯统计推断的基本流程:设定先验概率 -> 收集数据 -> 计算后验概率 -> 将后验概率作为新的先验进行更新。此外,我们还练习了条件概率、概率树以及贝叶斯定理的应用。这个例子清晰地展示了数据如何影响和更新我们对不确定事件的信念。


(示意图:贝叶斯更新过程)


(示意图:概率树分析)

024:正态分布 📊

在本节课中,我们将学习正态分布及其核心性质,例如68-95-99.7法则。我们还将介绍标准化分数,即Z分数,并通过实例演示如何利用Z分数计算正态分布曲线下的概率和百分位数。

自然界中的正态分布 🌍

许多自然界的变量都近似服从正态分布。一个常用的例子是身高。我们将观察一个在线约会网站OkCupid会员报告的身高分布。由于该网站的会员是美国居民,可能代表了美国人口的随机样本,我们预期他们的身高会遵循所有美国人的身高分布。然而,仔细观察发现情况并非完全如此。

在上图中,浅紫色曲线显示了美国男性的身高分布。

虚线代表了OkCupid上男性报告的身高分布,而深紫色实线是这些男性身高的隐含分布。我们可以看到,OkCupid上男性报告的身高非常接近预期的正态分布,只是整个分布向右偏移了。这表明OkCupid上的男性平均会将自己的身高多报几英寸。此外,从大约5英尺8英寸开始,虚线曲线的顶部进一步向右倾斜,表明接近6英尺的男性会比通常更多地向上取整,OkCupid博客将此解释为向“6英尺高”这一令人向往的心理基准靠拢。

我们在女性中也看到了类似的身高夸大现象,但没有向某个基准身高突变的趋势。

正态分布的性质 🔔

正如我们所见,正态分布是单峰且对称的。由于其形状类似钟形,你可能也听说过它被称为“钟形曲线”。然而,它并非任何对称的单峰曲线。它遵循关于数据围绕均值分布的变异性非常严格的准则。虽然许多变量近似正态,但由于这些严格的准则,没有一个变量是完全正态的。

正态分布有两个参数:均值(通常表示为 μ)和标准差(通常表示为 σ)。

上图展示了两个正态分布:一个以0为中心,标准差为1;另一个以19为中心,标准差为3。这很好地展示了改变分布的中心和离散程度如何改变分布的整体形状。

68-95-99.7法则 📏

那么,这些支配正态分布数据围绕均值变异性的严格规则是什么呢?对于近似正态分布的数据:

  • 约68%的数据落在均值的一个标准差范围内。
  • 约95%的数据落在均值的两个标准差范围内。
  • 约99.7%的数据落在均值的三个标准差范围内。

观测值有可能落在均值4个、5个甚至更多标准差之外,但如果数据近似正态,这些情况非常罕见。

我们也可以利用68-95-99.7法则,在仅知道数据分布的少数几个参数时,估计正态模型的标准差。让我们看一个例子。

一位医生收集了大量近似服从正态分布的心率测量值。他只报告了三个统计量:均值(每分钟110次)、最小值(每分钟65次)和最大值(每分钟155次)。以下哪个最可能是该分布的标准差?

我们知道分布是正态的。因此,首先要做的是画出正态曲线。然后在中心标记均值110。已知最小值为65,最大值为155。我们将利用正态分布中几乎所有数据都落在均值三个标准差范围内这一事实。

如果标准差是5,我们可以计算期望的最小值和最大值为 110 ± 3×5。因此,期望最小值为95,期望最大值为125。这些端点没有达到我们分布的端点,所以观测到的心率必须具有比5更大的标准差。

如果标准差是15,期望的最小值和最大值将分别是65和155。这看起来正好符合。我们可以类似地计算标准差为35和90时的期望最小值和最大值,可以看到这些选择得到的端点要么太高,要么离均值太远。因此,最佳选择是标准差为15,这将使数据的最小值和最大值正好落在三个标准差范围内。

标准化分数(Z分数) 📐

让我们看另一个例子。一位大学招生官想确定两位申请者中,谁在标准化考试中相对于其他考生表现得更好:Pam在SAT中得了1800分,还是Jim在ACT中得了24分。

我们还知道SAT分数近似正态分布,均值为1500,标准差为300;ACT分数近似正态分布,均值为21,标准差为5。

我们可以画出SAT分数的分布,看到Pam的分数比均值高300分。同样,我们可以看到Jim的分数只比ACT均值高3分。然而,我们不能仅仅比较1800和24这两个原始分数就说Pam做得更好,因为它们的测量尺度不同,这是在比较苹果和橘子。

相反,我们想计算Pam和Jim的分数分别比各自分布的均值高多少个标准差。SAT分数的标准差是300,所以Pam的分数比均值高一个标准差。计算如下:首先计算Pam与均值的距离(1800 - 1500),然后除以标准差300,得出她比均值高一个标准差。

ACT分数的标准差是5。所以(24 - 21)/ 5 = 0.6。因此Jim只比均值高0.6个标准差。

将这些值绘制在同一分布上,我们可以看到Pam确实比Jim表现更好。

这些值被称为标准化分数。我们将标准化分数或Z分数定义为一个观测值低于或高于均值的标准差数量。Z实际上来自“标准化”一词中的Z。我们计算观测值的Z分数公式为:

Z = (观测值 - 均值) / 标准差

根据定义,均值的Z分数为0。标准化分数对于识别异常观测值也很有用,通常绝对值大于2的Z分数(即低于或高于均值两个标准差或更多)被认为是异常的。

虽然我们在正态分布的背景下引入了Z分数,但请注意它们实际上可以定义在任何类型的分布上。毕竟,每个分布都有均值和标准差。然而,当分布是正态时,Z分数还可以用来计算百分位数。

使用Z分数计算百分位数 📊

百分位数是落在给定数据点以下的观测值百分比。在图形上,它是概率分布曲线在该观测值左侧下方的面积。为什么我们只能在正态曲线下使用Z分数,而不能在其它形状的分布中使用呢?我们总是可以为任何类型的分布计算百分位数,但如果分布不遵循这种良好的单峰对称正态形状,我们需要使用微积分。在本课程中,我们不使用微积分,因此我们将坚持使用正态分布来计算百分位数或曲线下面积。

在现代实践中,百分位数很容易通过计算获得。例如,在R语言中,函数 pnorm 在给定分布的均值和标准差时,可以计算观测值的百分位数。

pnorm(-1, mean = 0, sd = 1) # 估计约为 0.1587

我们也可以使用网络小程序获得相同的概率,无需访问R。让我们转到幻灯片上的URL,现场演示如何使用该小程序计算这个百分位数。

使用小程序时,首先选择分布为“正态”。我们可以根据需要更改均值,但暂时保留为0(标准正态分布)。也可以调整标准差,暂时保留为1。我们感兴趣的是曲线在临界值-1以下的面积,因此选择“下尾”。我们再次得到相同的答案:15.9%。

最后,我们也可以完全避免计算,使用正态概率表。我们在表格边缘找到Z分数,并获取表格中心给出的相关百分位数值。对于Z分数-1.0,我们在-1.0行和.00列(第二位小数)查找,得到相同的答案:0.1587,约15.9%。

显然,我们不必每次都使用所有方法。我们讨论了三种不同的方法:使用R、使用网络小程序或使用表格。你可以在计算中使用你喜欢的任何一种。虽然计算方法不那么古老,但表格对于理解“曲线下面积”的概念实际上非常有用。我鼓励你使用计算方法,但在学习这些材料时,也请确保有机会与表格互动,并画出你的分布草图,不要仅仅依赖计算机输出的数字,也要确保通过手工计算来验证。

应用示例:计算SAT百分位数 🎓

让我们看一个快速示例。我们知道SAT分数服从正态分布,均值为1500,标准差为300。我们知道Pam在SAT中得了1800分,我们想知道她的百分位分数是多少。

一旦发现分布是正态的,首先要做的总是画出曲线,标记均值,并给感兴趣的区域涂上阴影。这里,我们有一个均值为1500的正态分布。为了找到与SAT分数1800相关的百分位分数,我们给曲线下1800以下的区域涂上阴影。

我们可以使用R和pnorm函数来计算。

pnorm(1800, mean = 1500, sd = 300) # 输出 0.8413

这意味着Pam的分数比84.13%的SAT考生要好。

我们也可以使用表格得出相同的结论。首先,计算Z分数:(1800 - 1500) / 300 = 1。然后在表格中查找Z分数1.0(行1.0,列.00),得到相同的概率0.8413,即获得小于1的Z分数的概率,这基本上意味着曲线下1800以下的阴影面积为0.8413。

如前所述,你不需要对每个问题都使用所有这些方法,但我们在这里练习了所有方法。

请注意,表格和pnorm函数总是给出给定观测值以下的曲线下面积。如果我们想找到观测值以上的面积,我们只需要取这个值的补数,因为曲线下的总面积总是1。所以,Pam比1 - 0.8413 = 15.87%的考生考得差。

寻找特定百分位数对应的分数 🎯

我们也可以利用标准正态分布(即Z分数的分布)的相同性质,来寻找与所需百分位数对应的临界值。下面是一个说明这一点的例子。

你的一个朋友告诉你,她的SAT成绩排在前10%。她可能得到的最低分数是多少?记住,SAT分数服从正态分布,均值为1500,标准差为300。我们正在寻找分布中前10%的临界值。

这是一个与我们之前解决的问题不同的问题,因为这次我们不知道感兴趣的观测值,但我们知道(或至少可以得到)它的百分位分数。由于曲线下的总面积为1,与前10%临界值相关的百分位分数是1 - 0.10 = 0.90。

记住Z分数的公式是:Z = (观测值 - 均值) / 标准差。我们知道均值,也知道标准差。如果我们还知道Z分数,我们就可以解出未知的观测值。

使用表格,我们可以找到与第90百分位数相关的Z分数。我们需要在表格中找到0.90,并从表格边缘获取Z分数。我们没有看到正好0.9,但最接近的是0.8997,对应表格边缘的Z分数是1.28。

我们知道这个数字1.28等于未知观测值(我们称之为x)减去均值除以标准差。

通过简单的代数运算(两边乘以300再加上1500),我们发现临界值是1884。因此,SAT分数分布中前10%(或后90%)的临界值是1884。换句话说,如果你的分数高于1884,你就知道自己在分布的前10%之内。

我们也可以使用R来做这个计算,这次使用qnorm函数(pnorm用于概率,qnorm用于分位数或临界值)。

qnorm(0.90, mean = 1500, sd = 300) # 输出 1884

两种方法得到的结果相同:1884。

总结 📝

在本节课中,我们一起学习了正态分布的核心概念。我们了解了正态分布是单峰、对称的钟形曲线,由均值(μ)和标准差(σ)两个参数描述。我们掌握了68-95-99.7法则,它描述了数据围绕均值分布的规律。我们引入了标准化Z分数的概念及其计算公式 Z = (X - μ) / σ,并学会了如何利用Z分数在正态分布中计算百分位数(曲线下面积)以及根据特定百分位数反推原始分数。最后,我们探讨了使用R语言函数(pnorm, qnorm)、网络工具和概率表等多种方法来实现这些计算。理解这些内容是进行统计推断和数据分析的重要基础。

025:正态分布评估 📊

在本节课中,我们将学习如何评估一个数据分布是否近似于正态分布。我们将重点介绍正态概率图,并解释如何通过它以及68-95-99.7法则来判断数据的正态性。

正态概率图简介

上一节我们介绍了正态分布的基本概念,本节中我们来看看如何通过可视化工具进行判断。

正态概率图是一种特殊的散点图,用于评估数据分布与正态分布的接近程度。在该图中,Y轴代表我们观测到的实际数据值,而X轴代表理论分位数,即如果数据完全服从正态分布时,我们预期会出现的数值。

如果数据与理论分位数之间存在一一对应的关系,那么数据就遵循一个近似正态的分布。由于一一对应的关系在散点图上会呈现为一条直线,因此,点越接近一条完美的直线,我们就越有信心认为数据遵循正态模型。所以,观察正态概率图时,我们主要寻找直线

如何解读正态概率图

以下是解读正态概率图时可能遇到的几种模式:

  • 右偏分布:数据点会向上并向直线的左侧弯曲。
  • 左偏分布:数据点会向下并向直线的右侧弯曲。
  • 短尾分布(比正态分布更窄):数据点会呈现一个S形曲线。
  • 长尾分布(比正态分布更宽):数据点会从直线下方开始,然后穿过直线,最后运行到直线上方。

实例分析:NBA球员身高

让我们通过一个实例来加深理解。下图展示了2008-2009赛季NBA球员身高的直方图与正态概率图。

由于NBA球员的身高普遍远高于普通人群,其身高分布是左偏的。在正态概率图上,这种左偏表现为数据点向下并向理论直线的右侧弯曲。我们还可以看到数据点有跳跃,这实际上是由于报告身高时进行了四舍五入造成的。

使用68-95-99.7法则评估

除了正态概率图,我们还可以运用68-95-99.7法则来评估正态性。具体方法是计算数据中落在均值±1个标准差、±2个标准差、±3个标准差范围内的比例,并与理论值(68%, 95%, 99.7%)进行比较。如果实际比例与理论值接近,则可以为数据服从正态分布提供了支持。

总结

本节课中我们一起学习了评估数据正态性的两种主要方法:

  1. 观察正态概率图:寻找数据点是否紧密排列在一条直线上,并根据点的弯曲方向判断偏态与峰态。
  2. 应用68-95-99.7法则:通过计算实际数据在特定标准差范围内的比例,与理论预期进行对比。

在实践中,由于手动计算分位数和Z分数非常繁琐,我们通常依赖R语言等统计软件来生成正态概率图并进行计算。掌握这些评估方法,能帮助我们在进行后续的统计推断(如t检验、方差分析、线性回归)前,确认数据是否满足正态性假设。

026:正态分布应用

在本节课中,我们将学习如何应用正态分布模型来解决实际问题。我们将通过两个具体的例子,演示如何使用不同的工具和方法来计算概率和百分位数。

概述

正态分布是数据分析中一个非常重要的模型。许多自然现象和测量数据都近似服从正态分布。我们将通过两个案例来学习如何利用正态分布的特性进行计算:第一个案例是计算行李超重的概率,第二个案例是找出特定百分位数对应的温度值。

案例一:计算行李超重概率

假设某航空公司乘客托运行李的重量近似服从正态分布,其均值为45磅,标准差为3.2磅。大多数航空公司对超过50磅的行李收取额外费用。我们需要计算有多少比例的乘客需要支付这笔费用。

行李重量服从正态分布,均值为45,标准差为3.2,我们可以将其表示为:N(μ=45, σ=3.2)。我们的目标是计算重量超过50磅的概率,即 P(X > 50)

以下是几种不同的计算方法。

方法一:使用在线模拟工具

我们可以访问一个正态分布模拟工具来完成计算。在工具中,我们将分布类型设置为“正态”,均值设置为45,标准差设置为3.2。然后,我们将关注的分界值(cutoff value)滑动到50。工具会显示,大约有5.91%的乘客的行李重量会超过50磅。

方法二:使用R语言的 pnorm 函数

在R语言中,我们可以直接使用 pnorm 函数。该函数计算给定值左侧(小于该值)的概率。

pnorm(50, mean=45, sd=3.2)

运行上述代码会得到结果 0.9409。这表示重量低于50磅的概率是94.09%。然而,我们关心的是超过50磅的概率,即右侧的概率。因此,我们需要计算其补集:

1 - pnorm(50, mean=45, sd=3.2)

计算结果是 0.0591,即大约5.91%的乘客需要支付超重费用。

方法三:手动计算Z分数并使用概率表

我们也可以手动计算Z分数,然后查标准正态分布表。

首先,计算观测值50对应的Z分数:

Z = (观测值 - 均值) / 标准差 = (50 - 45) / 3.2 ≈ 1.56

然后,在标准正态分布表中查找Z=1.56对应的概率值。在表中,Z=1.56对应的概率约为0.9406。这同样是重量低于50磅的概率。因此,重量超过50磅的概率为:

1 - 0.9406 = 0.0594 ≈ 5.9%

三种方法得出的结论一致:大约有5.9%的乘客的行李会超重。

案例二:计算特定百分位数对应的温度

现在,我们来看第二个问题。洛杉矶六月份的平均日最高气温为77华氏度,标准差为5华氏度。假设气温近似服从正态分布。我们需要找出六月份洛杉矶最冷的20%的日子,其气温低于多少度。

这里,我们已知分布 N(μ=77, σ=5) 和一个概率(20%),需要反推出对应的观测值(温度)。这涉及到计算百分位数。

方法一:使用R语言的 qnorm 函数

在R语言中,我们可以使用 qnorm 函数,它根据给定的概率(百分位)返回对应的分位数。

qnorm(0.20, mean=77, sd=5)

运行代码得到结果 72.79。这意味着,六月份洛杉矶最冷的20%的日子,其最高气温低于72.79华氏度。

方法二:手动计算Z分数并使用概率表

我们也可以手动完成这个过程。首先,我们需要找到概率0.20对应的标准Z分数。

在标准正态分布表中查找最接近0.20的概率值。我们发现,概率值0.2005对应的Z分数是-0.84(因为我们在分布的低端,所以Z分数为负)。

接下来,我们利用Z分数的公式反推观测值X:

Z = (X - μ) / σ
-0.84 = (X - 77) / 5

解这个方程:

X - 77 = -0.84 * 5
X - 77 = -4.2
X = 77 - 4.2 = 72.8

因此,最冷的20%的日子的气温低于大约72.8华氏度。这与R计算的结果非常接近。

总结

在本节课中,我们一起学习了正态分布的两个核心应用。

首先,我们学习了如何计算某个特定值以上的概率(右尾概率)。我们使用了三种工具:在线模拟工具、R语言的 pnorm 函数,以及手动计算Z分数查表法。核心公式是 Z = (X - μ) / σ

其次,我们学习了如何根据已知的概率(百分位)来反推对应的观测值。我们使用了R语言的 qnorm 函数,以及手动查表并利用Z分数公式反推的方法。

掌握这些方法,你就能灵活运用正态分布模型来解决各种实际问题,无论是预测概率还是确定关键阈值。

027:二项分布 📊

在本节课中,我们将要学习二项分布。我们将定义二项分布,讨论其性质,并列出随机变量服从二项分布所需的条件。我们还将学习如何使用网络计算器、R语言以及手动计算来求解二项分布下的概率。最后,我们将评估二项分布的特征,例如其均值和标准差。


二项分布的定义与性质

上一节我们介绍了课程概述,本节中我们来看看二项分布的具体定义。我们将通过一个经典的心理学实验来展开讨论。

这个实验由耶鲁大学心理学家斯坦利·米尔格拉姆在20世纪60年代开始进行。实验测量了参与者在权威人士的指令下,执行与自己个人良知相冲突的行为的意愿。

实验设置如下:实验者命令“教师”在“学习者”每次答错问题时给予其强烈的电击。“教师”是研究的对象,而“学习者”实际上只是一名演员。电击并非真实,每次“教师”实施电击时,会播放预先录制的声音,因此“教师”认为自己真的在电击他人。

米尔格拉姆发现,大约65%的人会服从权威并给予此类电击。多年来,后续研究表明这个数字在不同社区和时代大致保持一致。

在米尔格拉姆的实验中,每个人可以被视为一次试验。如果一个人拒绝实施强烈电击,则被标记为“成功”;如果她实施了此类电击,则被标记为“失败”。由于只有35%的人拒绝实施此类电击,因此成功的概率 P = 0.35。请注意,我们在此处可以按需定义“成功”和“失败”,因为在后续分析中,我们将重点关注那些拒绝实施电击的人。

当一个单独的试验只有两种可能结果时,它被称为伯努利随机变量


计算概率:一个具体例子

假设我们随机选择四个人参与这个实验。恰好有一个人拒绝实施电击的概率是多少?

我们将这四个人命名为安东尼、布列塔尼、克拉拉和多里安,分别用A、B、C、D表示。我们感兴趣的是四人中有一人拒绝实施电击的情况,这有多种可能发生的场景。

以下是所有可能的场景:

  • 场景一:第一个人拒绝,其余三人不拒绝。
    概率为:0.35 * 0.65 * 0.65 * 0.65 = 0.0961
  • 场景二:第一个人不拒绝,第二个人拒绝,其余两人不拒绝。
    概率为:0.65 * 0.35 * 0.65 * 0.65 = 0.0961
  • 场景三:前两人不拒绝,第三个人拒绝,最后一人不拒绝。
    概率为:0.65 * 0.65 * 0.35 * 0.65 = 0.0961
  • 场景四:前三人不拒绝,最后一个人拒绝。
    概率为:0.65 * 0.65 * 0.65 * 0.35 = 0.0961

这些是互斥的场景,它们不可能同时发生。因此,当我们说“场景一场景二场景三场景四”时,我们将各个概率相加。所以,恰好一人拒绝的总概率是 0.0961 + 0.0961 + 0.0961 + 0.0961 = 0.3844

我们也可以这样得到答案:将单个场景的概率乘以场景的总数。在第一个计算完成后,我们可以快速找出有多少种场景,然后简单地将一个场景的概率乘以场景数,即可得到相同答案。


二项分布公式

这种情况是应用二项分布的完美场景。该分布描述了在n次独立的伯努利试验中,恰好获得k次成功的概率,其中每次试验的成功概率为p。

我们证明了该概率可以计算为场景数乘以单个场景的概率

  • 单个场景的概率p^k * (1-p)^(n-k)。这意味着:成功概率的(成功次数)次方,乘以失败概率的(失败次数)次方。
  • 场景数 是选择k次成功发生在n次试验中的方式数。

为了找到场景数,我们之前枚举了所有可能场景。但这仅在数量较少时可行。如果数量很多,例如在100次试验中寻找4次成功的场景数,这种方法将非常繁琐且容易出错。

因此,我们通常使用另一种方法,即组合函数,它用于计算从n次试验中选择k次成功的方式数。

该函数的计算公式为:
n choose k = n! / (k! * (n-k)!)

让我们看几个例子:

  • 例子1:在4次试验中找到1次成功的场景数。
    n = 4, k = 1
    4 choose 1 = 4! / (1! * 3!) = (4*3*2*1) / (1 * 3*2*1) = 4。我们之前已经知道有4种场景。
  • 例子2:在9次试验中找到2次成功的场景数。
    n = 9, k = 2
    9 choose 2 = 9! / (2! * 7!) = (9*8*7!) / (2*1 * 7!) = 72 / 2 = 36

这些手动计算很好,但为了加快速度,我们也可以在R中使用计算。相关的函数也叫 choose,它接受两个参数n和k。例如,choose(9, 2) 同样得到36。


二项分布公式总结

将所有这些放在一起,如果:

  • p 代表成功概率
  • (1-p) 代表失败概率
  • n 代表独立试验的次数
  • k 代表成功的次数

那么,在n次试验中获得k次成功的概率可以表示为:

P(X = k) = (n choose k) * p^k * (1-p)^(n-k)

其中,(n choose k) = n! / (k! * (n-k)!)


二项分布的条件

现在我们已经知道如何应用这些公式计算二项概率,让我们暂停一下,退一步思考:一个随机变量要服从二项分布需要满足什么条件?

以下是四个条件:

  1. 试验必须是独立的。
  2. 试验次数 n 必须是固定的。
  3. 每次试验的结果必须被分类为“成功”或“失败”。
  4. 每次试验的成功概率 p 必须相同。

第四个条件实际上与第一个条件密切相关,因为如果试验是独立的,那么可以合理地确定每次试验的成功概率是相同的。


应用实例:员工敬业度

根据2013年盖洛普的一项调查,全球只有13%的员工在工作中是“敬业”的(“敬业”指心理上投入工作,并可能为组织做出积极贡献)。在一个由10名员工组成的随机样本中,恰好有8人敬业的概率是多少?

首先,解析我们得到的信息:

  • 我们有10名员工,所以 n = 10
  • 13%的人敬业,所以成功概率 p = 0.13
  • 失败概率是其补集,1 - p = 0.87
  • 我们寻找8次成功,所以 k = 8

我们可以使用二项分布来求这个概率,因为我们实际上满足二项分布所需的条件:

  • 我们有员工的随机样本,因此满足独立试验条件。
  • 由于试验独立,每名员工的成功概率为 p = 0.13
  • 对每名员工只有两种可能结果:敬业或不敬业。
  • 我们有固定的试验次数 n = 10

因此,要找到10次试验中8次成功的概率,我们首先使用 10 choose 8 计算场景数,然后乘以一个场景的概率:p^8 * (1-p)^2

计算过程:
10 choose 8 = 10! / (8! * 2!) = (10*9*8!) / (8! * 2*1) = 90 / 2 = 45 种场景。
每个场景的概率:0.13^8 * 0.87^2
最终概率非常小:45 * (0.13^8 * 0.87^2) ≈ 2.78e-07

为什么这是一个很低的概率?因为如果成功概率只有13%,那么在10名员工中,我们预计敬业的人数远少于8人。因此,我们在这里寻找的是一个高度不可能的结果。


使用R和计算器

我们也可以使用R来计算相同的概率。在R中,我们使用 dbinom 函数,其中第一个参数是成功次数 k,第二个参数是试验次数 n,第三个参数是成功概率 p

dbinom(8, 10, 0.13) 会得到与我们手动计算相同的微小概率。

另一种方法是使用分布计算器小程序。我们可以选择分布为二项分布,设置 n=10p=0.13,然后查找 k=8 对应的概率。图表中每个条形代表一个可能的结果,条形的高度代表该结果的概率。


二项分布的均值与标准差

在一个由100名员工组成的随机样本中,你预计有多少人会敬业?记住 p = 0.13

这很简单,预计的敬业员工人数是 100 * 0.13 = 13
更正式地说,二项分布的期望值均值等于 n * p

但这并不意味着在每100名员工的随机样本中,恰好有13人敬业。在某些样本中,敬业员工的数量会较少,而在另一些样本中会较多。

那么我们预计这个值会有多大变化?像往常一样,我们可以用标准差来量化均值周围的变异性。

对于二项分布,标准差定义为:
标准差 = sqrt( n * p * (1-p) )

代入调查中的值,我们得到:
sqrt(100 * 0.13 * 0.87) ≈ 3.36

这意味着,预计100名员工中有13人敬业,上下浮动大约3.36人。请注意,二项分布的均值和标准差可能不总是整数,这没关系,这些值代表了我们平均预期会看到的情况。


总结

本节课中我们一起学习了二项分布。我们通过米尔格拉姆实验的例子引入了二项分布的概念,学习了其概率计算公式 P(X=k) = C(n,k) * p^k * (1-p)^(n-k),并明确了随机变量服从二项分布的四个条件:试验独立、试验次数固定、结果二分、概率恒定。我们还通过员工敬业度的例子实践了概率计算,并介绍了二项分布的均值 μ = n*p 和标准差 σ = sqrt(n*p*(1-p)) 的计算方法。最后,我们了解了如何使用R语言和计算工具来辅助求解二项分布问题。

028:二项分布的正态近似 📊

在本节课中,我们将要学习二项分布的形状如何随参数变化,并探讨当试验次数增加时,二项分布如何逐渐接近正态分布。我们将学习利用正态分布的计算方法来近似求解二项分布的概率问题。

二项分布的形状变化 🔄

上一节我们介绍了二项分布的基本概念,本节中我们来看看它的形状如何随参数变化。

假设我们有一个二项随机变量,其成功概率 p = 0.25。下图展示了当试验次数 n = 10 时该分布的形状。

让我们暂停一下,仔细观察这张图。每个条形代表在10次试验中可能出现的成功次数,范围从0到10,因此共有11个条形。条形的高度代表该结果出现的可能性。例如,0次成功的概率计算公式为 (0.75)^10,因为0次成功意味着10次失败,计算结果约为0.056,即该条形的高度。

n = 10p = 0.25 时,期望成功次数为 2.5,因此分布围绕这个值中心化。此时,二项分布是右偏的。

让我们保持 p = 0.25 不变,将样本量增加到 n = 20。我们看到分布的中心发生了变化(因为 n * p 不同了),同时形状也发生了变化。分布虽然仍是右偏,但偏斜程度大大降低。

将样本量进一步增加到 n = 50,分布看起来更加对称和平滑。当样本量增加到 n = 100 时,分布看起来与正态分布几乎没有区别。

应用场景:Facebook用户研究案例 📱

接下来,我们通过一个Facebook用户研究的案例,看看为什么这种近似关系很有用。


一项近期研究发现,Facebook用户“得到”的往往多于“付出”。例如,样本中40%的用户曾发出好友请求,但63%的用户至少收到过一个请求。用户平均为好友内容点赞14次,但自己的内容平均被点赞20次。用户平均发送9条私信,但收到12条。12%的用户在照片中标记过朋友,但35%的用户自己被标记过。

这种现象的解释是“超级用户”的存在,即那些贡献内容远多于普通用户的用户。研究还发现,25%的Facebook用户被认为是超级用户,且平均每个用户有245个好友。

我们的问题是:一个拥有245个好友的平均Facebook用户,其好友中有70个或更多是超级用户的概率是多少?

以下是问题中的关键信息:

  • 成功概率 p = 0.25(好友是超级用户)。
  • 试验次数 n = 245(好友总数)。
  • 我们感兴趣的概率是成功次数 k >= 70(至少有70个超级用户好友)。

正态近似法的应用 🧮

我们有 n = 245 次独立试验,每次试验(一个好友)的结果是成功(超级用户)或失败(非超级用户),每次成功的概率固定为 p = 0.25。下图是 n = 245p = 0.25 的二项分布图,我们感兴趣的是 k >= 70 的概率,即从70到245所有可能成功次数的概率之和。

我们可以用二项公式计算从70到245每一个结果的概率然后相加,但这非常繁琐。此时,二项分布与正态分布的相似性就派上用场了。图中蓝色阴影区域的面积,可以用一条平滑的正态曲线下的面积来近似计算,这比计算并累加大量二项概率要简单得多。

要计算正态概率,我们需要知道正态分布的参数,这可以通过原二项分布的均值和标准差来估计。

  • 均值 μ = n * p = 245 * 0.25 = 61.25
  • 标准差 σ = sqrt(n * p * (1-p)) = sqrt(245 * 0.25 * 0.75) ≈ 6.78

这意味着,在245个好友中,我们期望有约61.25个超级用户,标准差约为6.78。

给定观测值 x = 70、均值 μ 和标准差 σ,我们可以通过计算Z分数来求曲线下的面积。

  • Z分数公式:Z = (x - μ) / σ = (70 - 61.25) / 6.78 ≈ 1.29

由于我们关注的是观测值 70 右侧的阴影区域,我们需要计算 Z > 1.29 的概率。查标准正态分布表,Z = 1.29 对应的左侧面积为 0.9015。因此,Z > 1.29 的概率为 1 - 0.9015 = 0.0985

所以,一个拥有245个好友的平均Facebook用户,其好友中至少有70个超级用户的概率约为 9.85%

精确计算与连续性校正 🔍

我们也可以直接使用R语言的 dbinom 函数进行精确计算。

# 计算从70到245所有成功次数的概率之和
sum(dbinom(70:245, size = 245, prob = 0.25))

计算结果约为 0.11311.3%,与我们之前近似得到的 0.0985 略有不同。

一方面,这在意料之中,因为“正态近似”本身就是一种近似。另一方面,如果需要精确概率,这个差异可能令人困扰。让我们仔细对比二项分布和它的正态近似。

我们可以看到,红色的正态曲线与代表精确二项概率的条形略有不同。此外,在连续的正态分布下,“恰好70次成功”的概率是未定义的,因此70右侧的阴影面积并未完全包含“70次成功”的概率。

一个常见的修正方法是进行 0.5的连续性校正。即用 69.5 代替 70 来计算Z分数。

  • 校正后Z分数:Z = (69.5 - 61.25) / 6.78 ≈ 1.22
  • 查表得 Z = 1.22 对应左侧面积 0.8888,因此右侧概率为 1 - 0.8888 = 0.1112

经过连续性校正后,近似结果 0.1112 与精确二项结果 0.113 就非常接近了。

使用在线工具计算 🛠️

另一种计算二项分布概率的方法是使用在线统计计算器(Applet)。


操作步骤如下:

  1. 选择“二项分布”。
  2. 将试验次数 n 滑动到 245
  3. 将成功概率 p 滑动到 0.25
  4. 将临界值设置为 70
  5. 选择计算“上尾”概率(大于或等于)。
    计算结果再次确认了 11.3% 这个精确概率。

成功-失败条件与总结 📝

在刚才的例子中,我们通过绘图直观地确认了二项分布是单峰、对称且近似正态的。但如果我们无法绘图,如何判断样本量是否足够大,可以放心地使用正态近似呢?

经验法则是 成功-失败条件

  • 一个二项分布,当期望成功数 n * p >= 10 且期望失败数 n * (1 - p) >= 10 时,可以认为它近似服从正态分布。

在这种情况下,我们可以用均值为 μ = n * p、标准差为 σ = sqrt(n * p * (1-p)) 的正态分布来近似它。为了获得更精确的近似概率,可以对观测值进行 0.5 的连续性校正。

让我们做一个快速练习:对于成功概率 p = 0.25 的二项分布,要使其近似正态分布,所需的最小样本量 n 是多少?

  • 根据条件一:n * 0.25 >= 10 => n >= 40
  • 根据条件二:n * 0.75 >= 10 => n >= 13.33
    取两者中较大的值,因此最小需要 40 次观测。

本节课总结:
本节课中我们一起学习了二项分布的形状如何随参数变化。我们了解到,当试验次数足够大时(满足成功-失败条件),二项分布的形状会非常接近正态分布。这使得我们可以利用更简单的正态概率计算方法来近似求解复杂的二项概率问题。我们还介绍了连续性校正来提高近似的精确度,并通过Facebook的案例演示了整个应用过程。理解二项分布的正态近似,是后续对二分类型变量进行统计推断的重要基础。

029:二项分布应用 🎯

在本节课中,我们将学习如何应用二项分布来解决实际问题。我们将通过一个具体的案例,计算在不同样本量下特定事件发生的概率,并探讨如何使用计算工具(如模拟程序、R语言)以及正态近似法来求解。课程将涵盖概率计算、分布形状的判断以及连续性校正的概念。


根据民意调查计算概率 📊

根据2014年盖洛普民意调查,在计划购买健康保险的未参保美国人中,有56%的人表示将通过政府医疗保险交易所购买。

问题:在一个由10人组成的随机样本中,恰好有6人计划通过政府医疗保险交易所购买健康保险的概率是多少?

上一节我们介绍了二项分布的基本概念,本节中我们来看看如何应用这些概念进行计算。

使用模拟程序计算

我们可以使用二项分布模拟程序来简化计算。

以下是具体步骤:

  • 选择分布类型为二项分布。
  • 设置样本量 n = 10
  • 设置成功概率 p = 0.56
  • 选择计算“等于”恰好6次成功的概率。

计算结果为 0.243,即 24.3%。这意味着,在10人的随机样本中,恰好有6人计划通过政府交易所购买保险的概率是24.3%。

使用R语言计算

作为替代方法,我们可以使用R语言中的 dbinom 函数进行计算。

dbinom(6, size = 10, prob = 0.56)

执行此代码将得到相同的答案:0.243

手动计算

我们也可以通过手动计算来验证结果。我们要求的是在10次试验中恰好有6次成功的概率。

计算公式为:
P(X = 6) = C(10, 6) * (0.56)^6 * (0.44)^4

其中 C(10, 6) 是组合数。展开计算后,我们同样会得到结果 0.243。在二项分布图中,这个概率对应于成功次数为6的条形图高度。考虑到我们期望的成功次数是 10 * 0.56 = 5.6,得到6次成功是一个可能性较高的结果。


大样本下的概率变化趋势 📈

现在让我们看看另一个问题。

问题:在一个由1000人组成的随机样本中,恰好有600人计划通过政府医疗保险交易所购买健康保险的概率是多少?选项是:A) 0.243(与之前n=10时相同), B) 小于0.243, C) 大于0.243。

这个问题旨在评估推理和概念理解,而非计算能力。

上一节我们计算了小样本下的精确概率,本节中我们来推理大样本下的变化趋势。

推理过程

  • 成功概率 p 仍为 0.56
  • 在之前 n=10 的练习中,期望成功次数为 5.6,目标值 6 与期望值的差距为 0.4
  • 在当前 n=1000 的练习中,期望成功次数为 1000 * 0.56 = 560,目标值 600 与期望值的差距为 40

目标结果离期望结果远得多。根据我们之前讨论的大数定律,当期望值为560时获得600次成功,应该比期望值为5.6时获得6次成功的可能性低得多

因此,答案是 小于0.243

我们可以用R快速验证:

dbinom(600, size = 1000, prob = 0.56)

计算结果约为 0.00098,远低于之前计算的0.243。


描述二项分布的形态 🔍

接下来,我们被要求描述一个随机样本量为100时,计划通过政府交易所购买保险的人数的概率分布。

已知 p = 0.56n = 100。这个样本量足够大吗?我们来看看它是否满足近似正态分布的条件。

判断分布是否近似正态的规则是:至少需要有10次期望成功和10次期望失败。

  • 期望成功次数:100 * 0.56 = 56 (>10)
  • 期望失败次数:100 * 0.44 = 44 (>10)

两个条件都满足,因此该二项分布的形态将是近似正态的。

正态分布有两个参数:均值(μ)和标准差(σ)。要完整描述这个分布,我们需要计算它们。

  • 均值(期望成功次数)μ = n * p = 100 * 0.56 = 56
  • 标准差σ = sqrt(n * p * (1-p)) = sqrt(100 * 0.56 * 0.44) ≈ 4.96

因此,这个二项分布可以近似看作一个均值为56、标准差为4.96的正态分布。


计算累积概率:至少60人 📉

最后,我们考虑以下问题:在一个100人的随机样本中,至少有60人计划通过政府交易所购买健康保险的概率是多少?

我们将展示多种解决方法,你可以选择其中一种掌握即可。

方法一:使用模拟程序

以下是使用模拟程序的步骤:

  • 分布类型选择二项分布。
  • 试验次数 n 设为100。
  • 成功概率 p 设为0.56。
  • 将关注点的值设为60。
  • 我们寻找的是“大于或等于”60的概率,因此选择计算上尾面积。

结果显示概率为 24.1%

方法二:使用R语言

我们可以再次利用R语言,结合 dbinomsum 函数。

sum(dbinom(60:100, size = 100, prob = 0.56))

这段代码计算了成功次数从60到100的所有个体概率之和,结果同样是 0.24124.1%

方法三:正态近似法(含连续性校正)

我们已知该分布近似正态,μ = 56σ ≈ 4.96

首先,计算Z分数:Z = (观察值 - 均值) / 标准差 = (60 - 56) / 4.96 ≈ 0.81
查标准正态分布表,对应概率约为 0.209

这个结果比用模拟程序和R计算出的精确概率(0.241)要低。差异主要是因为正态分布是连续的,而二项分布是离散的。为了修正这一点,我们应用连续性校正:将关注的观察值60减去0.5。

计算校正后的Z分数:Z_corrected = (59.5 - 56) / 4.96 ≈ 0.71
查表得校正后的概率约为 0.239,这个结果与精确二项分布计算出的概率(0.241)就非常接近了。


总结 ✨

本节课中我们一起学习了二项分布在数据分析中的实际应用。我们通过一个案例,计算了在不同样本量下特定成功次数的概率,并比较了使用模拟程序、R语言以及手动计算等多种方法。我们了解到,当样本量足够大时,二项分布可以近似用正态分布来描述,但在计算累积概率时需要注意使用连续性校正来提高近似精度。这些技能对于进行统计推断和概率建模至关重要。

posted @ 2026-03-26 12:26  布客飞龙III  阅读(24)  评论(0)    收藏  举报