谷歌高级数据分析-IV-笔记-全-

谷歌高级数据分析 IV 笔记(全)

001:统计的力量 📊

概述

在本课程中,我们将学习统计学在高级数据分析中的核心作用。你将了解如何运用统计工具将数据转化为有用的知识,并学会使用描述性统计和推断性统计来总结数据、做出预测和辅助决策。


欢迎与回顾

欢迎进入高级数据分析学习之旅的下一阶段。首先,祝贺你取得的进展。你已经学习了数据专业人员如何为组织的成功做出贡献,以及他们在工作中使用的主要工具和技术。

你现在已经熟悉了Python编程语言的基本语法和功能,并且知道如何使用代码进行探索性数据分析。你可以使用数据整理来组织和清理数据,并创建数据可视化来分享重要信息。做得很好,你的分析工具箱里已经有不少工具了。


统计学的定义与重要性

接下来,我们将学习统计学。统计学是对数据的收集、分析和解释的研究。统计学(常缩写为stats)为数据专业人员提供了强大的工具和方法,用于将数据转化为有用的知识。

你已经了解了探索性数据分析及其如何帮助你总结数据的主要特征。描述性统计也能做到这一点,而这正是我们的起点。

但数据专业人员还使用统计学来做更多事情:基于可用数据的小样本,对不确定事件做出明智的预测,并对未知值做出准确的估计。这被称为推断性统计,你将在本课程中全面学习它。

例如,数据专业人员使用统计学来预测未来的销售收入、新广告活动的成功率、金融投资的回报率或新应用程序的下载量。统计分析可以告诉你哪个版本的网站能吸引更多新客户并让他们停留更长时间,或者新用户通常在公司的网站上花费三分钟后会创建账户。

从统计分析中获得的见解有助于企业领导者做出决策、解决复杂问题并改善产品和服务的性能。这就是为什么数据专业人员需求如此之高,以及数据职业领域不断增长的原因。


讲师介绍

说到数据专业人员,请允许我介绍一下自己。我叫Evan,是一名经济学家,我与谷歌的各个团队进行咨询合作。这意味着我使用统计学和其他工具来分析和解释数据,以帮助商业领袖做出明智的决策。这包括帮助他们量化不确定性,并确定是否有足够的证据来拒绝一个假设——这两点你稍后都会学到更多。我很高兴能成为你这门课程的讲师。

在开始之前,让我谈谈我自己学习统计学的经历。本科时我主修经济学和数学,然后继续攻读经济学博士学位。我专注于统计学和计量经济学(经济学的一个分支,使用统计学来分析经济问题)。在我的研究生学习期间,我曾在一家在线学习公司实习,并在一家在线零售公司担任研究员。在这些角色和经历中,我使用了许多不同的统计工具来解决问题。

我经常发现,我正在处理的问题可以用一种我不熟悉的统计方法来解决。我喜欢不断学习新方法,扩展我能处理的问题范围。这些高级方法建立在统计学概念的基础之上。在本课程中,我们将专注于这些基础知识,为你未来的职业生涯做好准备。


课程目标与结构

所以,如果你是统计学新手,欢迎你。本课程不假定你具备任何统计学先验知识。我们将从头开始,逐步讲解每个概念。

但如果你有一些统计学经验,那也很好。我们将帮助你以新的方式运用你已有的知识,使你能够将统计学知识具体应用到数据分析中。在本课程中,你将发现数据专业人员如何在日常工作中使用统计工具。

你还将学习解释发现并与利益相关者分享的策略,这些利益相关者可能不熟悉统计概念或所有技术细节。

以下是本课程的主要内容结构:

  • 统计在数据分析中的作用:我们将从介绍统计在数据分析中的作用开始,并讨论描述性统计和推断性统计之间的区别。
  • 描述性统计:你将学习描述性统计,如均值中位数标准差,如何帮助你快速总结并更好地理解数据。
  • 推断性统计:然后,我们将探索如何使用推断性统计从数据中得出结论并进行预测。
  • 概率:接下来,我们将探索概率,并发现衡量不确定性的有用方法。我们将讨论概率的基本规则,以及如何解释不同类型的概率分布,如正态分布二项分布泊松分布
  • 抽样:从那里,我们将转向抽样。我们将讨论什么是一个好的样本、不同抽样方法的优缺点,以及如何处理抽样分布。
  • 置信区间:我们还将研究置信区间,它描述了估计中的不确定性。你将学习如何构建不同类型的置信区间并解释其含义。
  • 假设检验:之后,我们将探索如何使用假设检验来比较和评估关于数据的相互竞争的主张。我们将介绍将不同检验应用于特定数据集的步骤,并演示如何解释检验结果。
  • 项目实践:最后,你将有机会在你的下一个作品集项目中应用你的统计学知识。该作品集项目基于一个A/B测试场景,这是统计学的一个重要实际应用。在未来的工作面试中,你可以分享你的项目,作为你技能的展示,给潜在雇主留下深刻印象。

总结

我将全程指导你。请记住,你可以自己设定学习节奏,随时根据需要多次观看视频,并复习对你来说是新的主题。到课程结束时,你将拥有一个有用的统计学概念工具包,可以伴随你接下来的学习之旅和未来的职业生涯。

让我们开始吧。

002:参与与连接 👨‍💼🤝

在本节课中,我们将跟随谷歌经济学家Evan的分享,了解数据分析师工作中至关重要的“参与”与“连接”技能。我们将学习如何将技术分析转化为商业价值,以及如何通过人际网络加速个人成长。


大家好,我是Evan,是谷歌的一名经济学家。高中时期,我的数学成绩不错,但对它并没有特别浓厚的兴趣。进入大学后,我选修了一门经济学课程,并开始对运用这个框架来观察世界和解决问题产生了极大的兴趣。

上一节我们了解了数据分析的基础,本节中我们来看看数据分析师在实际工作中如何发挥作用。

我的日常工作是与业务领导者合作,理解他们面临的问题,并协助他们构思解决方案。有时,这仅仅是就问题进行讨论和咨询,帮助他们找到出路;另一些时候,我会亲自从公司收集数据,进行分析,解决问题,并帮助他们识别那些能为决策提供信息、解决问题的有趣指标和结果。

此外,我每天也喜欢花时间研究我不熟悉的主题,进行自主学习,以确保我的技能不断增长,工具箱日益丰富。


在数据分析领域开启职业生涯时,一些软技能至关重要。以下是其中最关键的两项:

首先,是展示成果的能力。你可能花了大量功夫进行数据挖掘,试图寻找有价值的信息,并且可能确实有所发现。然而,能够清晰地将这些发现传达给那些并非你所研究领域的专家的人,实际上相当困难。

其次,是确保掌握基础知识,不要试图过快前进。如果遇到不理解的内容,就重新观看课程、阅读资料,务必打好基础,因为所有知识都是层层递进的。


如果我能给刚担任第一个数据分析角色的自己一些建议,那就是:花时间去结识该领域的其他人,与他们建立联系,并学习他们所知的一切。

我认为,这个领域的许多数据专业人士都积累了大量的知识,这些知识对于他们所在的公司、他们的特定角色、以及某些类型的问题都非常有用。这些知识存在于他们的脑海中,没有写在书里,也没有记录在手册中。

因此,你与人们交流得越多,结识的人越多,并与他们讨论你遇到的各种问题,你的成长和学习速度就会越快。你无需独自摸索、一点点解决问题,而是可以与其他人合作,他们能帮助你更快地解决这些问题,因为他们已经解决过类似问题并掌握了相关信息。


本节课中,我们一起学习了数据分析师工作中“参与”与“连接”的核心价值。我们了解到,将复杂分析转化为清晰的洞见、扎实掌握基础知识、以及积极构建专业网络,是推动职业成长和高效解决问题的关键。记住,数据分析不仅是技术,更是关于沟通、合作与持续学习。

003:统计的力量 📊

概述

在本节课中,我们将要学习统计学的基本概念及其在数据分析中的核心作用。我们将探讨数据专业人员如何运用统计学从数据中获取洞见,并帮助组织解决复杂问题。课程将涵盖统计学的基础角色、描述性统计与推断性统计的区别,以及三种关键描述性统计量的应用。最后,我们将学习如何使用Python计算这些统计量。


统计学的定义与作用

统计学是研究数据收集、分析和解释的学科。它在数据驱动的工作中扮演着基础性角色。理解基本的统计学概念对于任何数据专业人员都至关重要。

上一节我们介绍了统计学的定义,本节中我们来看看统计学在实际工作中的具体应用。


统计学在实践中的应用:A/B测试

数据专业人员运用统计方法来执行A/B测试等任务。通过一个实际案例,我们可以观察到统计学如何帮助比较不同策略的效果,并基于数据做出决策。


统计学的两大类型

统计学主要分为两种类型:描述性统计和推断性统计。

以下是这两种类型的简要说明:

  • 描述性统计:数据专业人员使用描述性统计来探索和总结数据。
  • 推断性统计:数据专业人员使用推断性统计来得出结论并对数据进行预测。

了解了统计学的两大分支后,接下来我们深入探讨描述性统计中几种关键的度量方法。


三种描述性统计量

描述性统计可以帮助你更好地理解数据的各个方面。以下是三种重要的类型:

  • 集中趋势度量:例如均值(Mean),其公式为 mean = sum(x) / n,用于描述数据的中心位置。
  • 离散程度度量:例如标准差(Standard Deviation),其公式为 std = sqrt( sum( (x - mean)^2 ) / (n-1) ),用于描述数据的分散或波动情况。
  • 位置度量:例如百分位数(Percentiles),用于确定数据集中各值的相对位置。

使用Python计算描述性统计量

最后,你将学习如何使用Python编程语言来计算描述性统计量并总结数据。例如,使用Pandas库可以轻松计算均值、标准差等。

import pandas as pd
# 假设df是一个DataFrame
mean_value = df['column_name'].mean()
std_value = df['column_name'].std()

总结

本节课中我们一起学习了统计学的核心定义及其在数据分析中的重要性。我们区分了描述性统计与推断性统计,并详细探讨了集中趋势、离散程度和位置度量这三种描述性统计量。最后,我们介绍了使用Python进行相关计算的基本方法。掌握这些基础概念是迈向更高级数据分析的关键一步。

004:《统计的力量》- 统计学在数据科学中的角色 📊

在本节课中,我们将要学习统计学在数据科学中的核心作用,以及为什么掌握基础统计概念对每一位数据从业者都至关重要。

概述

之前我们了解到,统计学是研究数据的收集、分析和解释的学科。如今,人类生成和收集的数据量前所未有。当我们发送短信、在线购物或在社交媒体上发布照片时,我们都在生成新的数据。随着数据量的增长,分析和解释这些数据的需求也随之增加。这正是统计和数据驱动工作如此重要的主要原因,数据分析领域的发展速度几乎与数据本身的增长一样快。

数据从业者在商业、医学、科学、工程、政府等众多领域运用统计学来分析数据。本节视频将讨论统计学在数据科学中的角色,并解释为什么学习基础统计概念对每位数据从业者都必不可少。

统计学的日常应用与专业价值

数据从业者运用统计方法的力量来识别数据中有意义的模式和关系,分析和量化不确定性,从数据中生成见解,对未来做出明智的预测,并解决复杂问题。

即使你从未学习过统计学,你可能每天都在使用它。以下是几个常见的例子:

  • 天气预报:当你看到“70%的降水概率”或“50%的降雪概率”时,这基于概率,即事件发生的可能性。
  • 体育数据:你关注的板球运动员的击球率或篮球运动员的场均得分,这些数据表达了平均值
  • 选举民调:新闻报道中提及“3%的误差幅度”并说明数据是通过在线调查收集的,这里涉及误差幅度的概念。
  • 儿童体检:医生告知你的孩子身高体重处于某个百分位数,并可能展示同年龄所有孩子的中位数身高和体重。

这些场景都包含了本课程中将深入学习的统计概念。所有这些统计数据都为你提供了可以应用于生活的有用知识。

统计学在数据科学工作中的具体应用

在专业工作中,数据从业者运用着相同的概念。例如:

  • 数据专家可能使用概率来预测一项投资的未来回报率。
  • 他们可能估算一家公司的年度平均销售收入。
  • 他们可以计算误差幅度,以量化员工满意度调查的不确定性。
  • 他们可能使用百分位数来对不同城市的房屋中位价进行排名。

在工作中,数据从业者利用统计学将数据转化为见解,帮助利益相关者做出决策。统计学是数据分析的基石,也是数据从业者所使用的最高级分析方法的基础。而这一切都始于我们正在本课程中探索的基础概念。

统计学:数据科学的通用语言

我们可以将统计学在数据科学中的作用,类比为语法在日常对话中的作用。当你与朋友或同事聊天时,你可能不会刻意思考词性等语法概念。如果你能进行对话,说明你已经知道如何使用名词、动词和形容词。对基础语法的了解使得使用语言成为可能,这正是其基础性所在。

同样地,对基础统计学的共同认知,使得数据从业者能够使用一种通用语言进行交流。学习这些基础知识最终将使你能够参与到关于更高级主题的对话中。

你将在统计学的这个基础上,构建更复杂的方法,例如:

  • 假设检验
  • 分类
  • 回归分析
  • 时间序列分析

总结

本节课中,我们一起学习了统计学在数据科学中的核心角色。我们了解到,统计学不仅是分析和解读海量数据的工具,更是数据从业者进行有效沟通和高级分析的共同语言。从日常生活中的概率、平均值,到专业领域中的误差幅度、百分位数,基础统计概念构成了我们从数据中提取价值、做出预测和解决复杂问题的起点。掌握这些基础知识,是迈向运用假设检验、回归分析等高级方法,并最终将数据转化为 actionable insights 的关键第一步。

005:AB测试 📊

在本节课中,我们将学习统计学在商业中的一个核心应用——AB测试。我们将了解AB测试的基本概念、实施步骤,以及支撑其背后的关键统计学原理。通过一个在线商店的实例,你将看到如何利用数据驱动决策来优化产品性能。


AB测试概述

当今经济以数据为核心。商业领袖希望基于证据和分析做出数据驱动的决策。利用从数据中获得的洞察来指导决策过程的公司,比不这样做的公司更可能成功。而数据专业人员正是生成这些洞察的人。他们运用统计学将数据转化为知识,并帮助利益相关者做出明智决策。本课程涵盖的所有基础统计概念都具有宝贵的实际应用价值。在本视频中,你将有机会看到统计学的实际应用。我们将探讨统计学在商业中最流行的应用之一:AB测试。

我将讨论你在本课程中学到的统计概念如何帮助你使用AB测试分析和解读数据。公司使用AB测试来评估从网站设计、移动应用程序、在线广告到营销邮件等方方面面。


什么是AB测试?🔍

AB测试是一种比较两个版本的事物以找出哪个版本表现更好的方法。

AB测试之所以流行,是因为它在许多在线应用中效果显著。例如,企业经常使用AB测试来比较网页的两个版本,以找出哪个版本能获得更多点击、购买或订阅。即使是对网页的微小改动,比如改变按钮的颜色、大小或位置,也可能增加财务收益。AB测试帮助商业领袖优化产品性能并改善客户体验。

公司使用AB测试的另一种方式是用于营销邮件。你可能会向客户列表发送两个版本的邮件,以找出哪个版本能带来更多销售额。或者,你可能会测试两个版本的在线广告,以发现访客更常点击哪一个。一旦你进行了AB测试,就可以利用数据对你的广告进行永久性更改。


AB测试实例分步解析 🛒

让我们逐步解析一个AB测试的例子。

假设你经营一家在线商店,有10%的网站访客会进行购买。你想进行一次AB测试,以查明改变“加入购物车”按钮的大小是否会提高转化率(即购买产品的客户百分比)。

该测试向一组随机选择的用户展示你网页的两个版本,称为版本A和版本B。版本A是原始网页。版本B是带有更大“加入购物车”按钮的网页。测试将一半用户导向版本A,另一半导向版本B。测试运行两周。

测试结束后,对结果的统计分析表明,版本B中更大的按钮导致了购买量的增加。版本B的转化率为30%。这比版本A的10%转化率高出三倍。这是一个显著的提升。由于你的AB测试,你的公司有了一个数据驱动的理由,可以用版本B替换当前网页,并增大“加入购物车”按钮的尺寸。


AB测试背后的统计学概念 📈

现在你了解了AB测试如何运作。让我们探索AB测试背后的统计概念。稍后我们将更详细地介绍每个概念。请将以下列表视为你未来统计知识的简要预览。

以下是支撑AB测试的几个核心统计学概念:

  • 样本与总体:AB测试分析的是从访问网站的所有用户总体中抽取的一小部分用户。在统计学中,我们称这个较小的群体为样本。样本是更大总体的一个子集。你可以使用样本数据对整个人群进行推断或得出结论。数据专业人员使用推断统计学,基于数据样本对数据集进行推断。换句话说,统计学是一个强大的工具,可以利用已知数据预测未知结果。例如,你无法知道接下来的10万名网站访客会如何行为。但你可以观察接下来的100名访客,然后使用推断统计学来预测接下来的99,900名访客会如何行为。正如你将发现的,统计学可以帮助你准确地做出这个预测。这就是为什么通过AB测试观察样本对公司如此有价值。他们可以利用测试结果进行改进业务的变更。

  • 抽样:从总体中选择数据子集的过程是AB测试的关键部分。在进行测试之前,你需要确定样本量,即测试中的用户数量。选择正确的样本量有助于你获得有效的测试结果并避免统计错误。例如,你将使用统计学来帮助你确定是需要使用1000还是10000的样本量才能准确预测客户行为。

  • 置信区间:像任何统计测试一样,AB测试无法以100%的确定性预测用户行为。统计学能做的是构建一个置信区间,即描述估计值周围不确定性的一系列值。了解如何构建和解释置信区间可以帮助你基于测试样本对所有用户做出明智的决策。使用统计学,你可以量化AB测试的不确定性,并与利益相关者分享这些信息,以帮助他们解读结果。我们稍后将详细讨论如何解释置信区间。

  • 统计显著性:测试完成后,你需要确定结果的统计显著性。统计显著性指的是这样一种主张:测试或实验的结果不能仅用偶然性来解释。例如,版本A和版本B之间的差异是由于随机机会,还是由于你更改了“加入购物车”按钮的事实?假设检验是一种统计方法,可以帮助你回答这个问题。该检验有助于量化结果是可能由于偶然性还是具有统计显著性。假设检验为你将网页更改为版本B或保持版本A不变提供了数据驱动的支持。


总结与展望 🚀

在本节课中,我们一起学习了AB测试的基本流程及其背后的核心统计学原理,包括样本与总体、抽样、置信区间和统计显著性。

软件可以帮助你计算复杂的数学问题,但对统计学的工作知识能让你正确地设计、实施和解读真实测试的结果。到本课程结束时,你将知道如何使用我们刚刚回顾的所有统计概念来分析和解读数据。事实上,你将能够在一个基于真实AB测试场景的作品集项目中运用你的统计技能。

此外,你的统计学知识将为你今后探索更高级的数据分析方法奠定基础。

006:描述性统计与推断性统计 📊

在本节课中,我们将要学习统计学在数据科学中的两大支柱:描述性统计推断性统计。我们将了解它们各自的作用、区别以及数据专业人员如何运用它们从数据中获得不同的洞见。


描述性统计 📈

上一节我们介绍了统计学的角色,本节中我们来看看第一种主要方法:描述性统计。描述性统计用于描述总结数据集的主要特征。这种方法非常有用,因为它能让你快速理解大量数据。

例如,假设你拥有1000万人的身高数据。逐行扫描这些数据进行分析是不现实的,即使能做到,解读起来也极其困难。然而,如果你能对数据进行总结,就能立刻使其变得有意义。计算出身高的均值平均值,就能为你提供关于数据的有效知识。阅读一个汇总值远比盯着数百万行数据高效。

描述性统计主要有两种常见形式:

以下是两种主要的描述性统计形式:

  • 可视化图表:如图形和表格。你已学过图表如何帮助你探索、可视化和分享数据。常见的数据可视化形式包括直方图、散点图和箱线图。
  • 汇总统计量:让你用一个单一的数字来总结数据。一个常见的例子就是均值

汇总统计量又分为两大主要类型:

以下是两种主要的汇总统计量类型:

  • 集中趋势度量:如均值,用于描述数据的中心位置。
    • 公式示例:均值 = (所有数据值之和) / (数据个数)
  • 离散程度度量:如标准差,用于描述数据的离散程度或数据点之间的变异量

像均值和标准差这样的统计量用于描述和总结数据,但数据专业人员的工作不止于此。


推断性统计 🔮

上一节我们学习了如何描述数据,本节中我们来看看如何从数据中得出结论和进行预测。为此,数据专业人员使用推断性统计

推断性统计允许数据专业人员基于数据的样本,对总体数据集做出推断。样本所来源的数据集称为总体。总体包含了你感兴趣测量的所有可能元素。而样本是总体的一个子集。

数据专业人员使用样本来对总体进行推断。换句话说,他们利用从总体的一小部分收集到的数据,来得出关于整个总体的结论。

需要注意的是,统计总体可以指人、物体或事件。例如:

  • 总体可以是某个国家的所有居民。
  • 可以是太阳系中的所有行星。
  • 也可以是1000次抛硬币的所有可能结果。

而样本则是这些总体中任意一个的较小群体或子集,例如部分居民、部分行星或部分抛硬币结果。

让我们看一个例子。假设你想研究美国所有大学生的音乐偏好,以了解他们是更喜欢流行、说唱、乡村、古典还是其他类型的音乐。美国大约有2000万大学生,从每个人那里收集数据成本太高且耗时太长。

相反,你可以使用一个样本,只调查这2000万学生中的一个子集。之后我们会讨论选择不同样本量的因素,以及更大的样本量如何影响结果。现在,假设你决定调查1000名学生,而不是2000万。然后,你就可以利用这个结果来推断所有大学生的音乐偏好。

请记住,你的样本应该能够代表你的总体。否则,你从样本中得出的结论将是不可靠的,并且可能存在偏差。一个代表性样本是能够准确反映总体特征的样本。例如,如果你只调查数学专业的学生或只调查学生运动员,那么你的样本就不能代表所有大学生。


参数与统计量 📝

最后,让我们回顾两个与总体和样本相对应的术语:参数统计量

  • 参数是总体的一个特征。
  • 统计量是样本的一个特征。

例如,整个长颈鹿种群的平均身高是一个参数。而随机抽取的10只长颈鹿的平均身高则是一个统计量

正如前面提到的,收集关于大型总体中每个成员的数据是困难的(在这个例子中,要找到并测量世界上每一只长颈鹿的身高)。因此,我们使用已知的样本统计量值(例如100只长颈鹿的平均身高)来估计未知的总体参数值。


总结 ✨

本节课中我们一起学习了:

  1. 描述性统计:用于总结和描述数据的主要特征,包括可视化图表和汇总统计量(如均值和标准差)。
  2. 推断性统计:用于基于样本数据对总体做出推断和预测。
  3. 核心概念:总体(所有感兴趣的元素)、样本(总体的子集)、参数(总体特征)和统计量(样本特征)。
  4. 使用样本进行推断的关键是确保样本对总体具有代表性

我们涵盖了许多关键概念,这些是后续课程学习的基础。接下来,我们将回到推断性统计的主题,更详细地探讨抽样,并了解常见的推断性统计方法,如置信区间假设检验

007:集中趋势度量 📊

在本节课中,我们将要学习如何描述数据集的“中心”。我们将介绍三种核心的集中趋势度量方法:均值、中位数和众数。理解这些概念能帮助你快速把握数据的整体结构,就像初到一座城市,先找到市中心能帮你更好地规划行程一样。

探索数据集的中心 🧭

每次探索一个新的数据集,都像第一次探索一座城市。在城市中,我们通常会从市中心开始旅程,以此了解自己与城市边界或地标之间的距离和方位。同理,在数据分析中,我们首先需要知道数据集的“中心”在哪里,然后了解其他数值是如何围绕这个中心分布的。测量数据集的中心和离散程度,能帮助我们快速理解其整体结构,并决定后续需要深入探索的部分。

之前的学习中,你已经了解到描述性统计包括集中趋势度量和离散程度度量。集中趋势度量是代表数据集中心的值,而离散程度度量则代表数据集的分散情况。本节课,我们将重点学习如何计算三种集中趋势度量:均值、中位数和众数。你可能在之前的课程中对这些术语有所了解,但我们将在此深入探讨它们在统计学和数据分析中的重要性,并讨论如何根据具体数据选择最合适的度量方法。

计算均值:数据的平均值 ➗

让我们从均值开始。均值是数据集中所有数值的平均值。

以下是计算均值的步骤:

  1. 将数据集中的所有数值相加,得到总和。
  2. 用总和除以数据集中数值的总个数。

例如,假设你有以下一组数值:10, 8, 5, 7, 70

  • 首先,将所有数值相加:10 + 8 + 5 + 7 + 70 = 100
  • 然后,用总和除以数值个数(5):100 / 5 = 20
  • 因此,这组数据的均值或平均值是 20

用公式表示,均值的计算为:
均值 = (所有数值之和) / (数值个数)

寻找中位数:数据的中间值 📏

接下来,我们看看中位数。中位数是数据集中的中间值,这意味着数据集中有一半的数值比它大,另一半比它小。

以下是寻找中位数的步骤:

  1. 将数据集中的所有数值从小到大排列。
  2. 如果数值个数是奇数,则中位数就是排序后位于正中间的那个数。
  3. 如果数值个数是偶数,则中位数是排序后中间两个数的平均值。

以前面的数据集 10, 8, 5, 7, 70 为例:

  • 首先,将其从小到大排列:5, 7, 8, 10, 70
  • 数值个数为5(奇数),正中间的值是第三个数值 8。因此,中位数是 8

如果我们添加一个数值 4,数据集变为 10, 8, 5, 7, 70, 4

  • 排序后为:4, 5, 7, 8, 10, 70
  • 数值个数为6(偶数),中间的两个值是 78
  • 中位数是它们的平均值:(7 + 8) / 2 = 7.5

你可能已经注意到,在我们最初的例子中,均值(20)远大于中位数(8)。这是因为数据中存在一个极端值 70,它显著拉高了整体平均值。这种与其他数据差异极大的值被称为离群值

均值与中位数的选择 🤔

作为集中趋势的度量,均值和中位数适用于不同类型的数据。

  • 如果数据集中存在离群值中位数通常是衡量中心更好的指标,因为它不受极端值影响。
  • 如果数据集中没有离群值均值通常能很好地代表数据的中心。

例如,假设你想在某个社区买房,并查看了10套房子的价格来了解均价。前9套房子的价格都是10万美元,但第10套房子的价格高达100万美元(这是一个离群值)。计算均值时,总价190万美元除以10,得到平均价格为19万美元。这个均值并不能很好地代表该社区的典型房价,因为实际上10套房子中只有1套超过10万美元。而中位数价格是10万美元,它能给你一个关于该社区典型房价的更好概念。

因此,选择使用均值还是中位数,取决于你正在处理的具体数据集以及你希望从数据中获得何种洞察。

确定众数:最常见的值 📈

最后,我们来看众数。众数是数据集中出现频率最高的值。一个数据集可能没有众数、有一个众数或有多个众数。

以下是几个例子:

  • 数据集 1, 2, 3, 4, 5 没有众数,因为没有重复的值。
  • 数据集 1, 3, 3, 5, 7 的众数是 3,因为3是唯一出现超过一次的值。
  • 数据集 1, 2, 2, 4, 4 有两个众数:24

众数在处理分类数据时特别有用,因为它能清晰地显示哪个类别出现得最频繁。例如,一家在线零售公司进行客户满意度调查,选项为“差”、“一般”、“好”、“很好”。用条形图汇总结果后,最高的条形对应的评分(比如“差”)就是众数。这为公司提供了关于客户满意度的清晰反馈。

课程总结 🎯

本节课中,我们一起学习了三种衡量数据集中心的方法:

  • 均值通过计算平均值来寻找中心。
  • 中位数通过寻找中间值来定位中心。
  • 众数通过识别出现频率最高的值来确定中心。

了解数据集的中心,就像了解一座城市的市中心一样,能帮助你快速把握其基本结构,并为后续的分析步骤指明方向。根据数据中是否存在离群值以及数据的类型(数值型或分类型),你可以选择最合适的度量方法来获得有价值的洞察。

008:离散程度度量 📊

在本节课中,我们将要学习如何衡量数据集中数值的离散程度或变异性。了解数据的中心位置固然重要,但掌握数据围绕中心点的分散情况,才能获得对数据的完整认知。

上一节我们介绍了中心趋势的度量,如均值、中位数和众数。本节中我们来看看如何度量数据的离散程度。

为什么需要度量离散程度?🤔

即使数据集的中心值相同,其变异性也可能大不相同。例如,有三个小数据集,每个数据集有三个值,总和都是90,因此均值都是30(90 / 3 = 30)。然而,数值围绕均值的分布却截然不同:

  • 第一个数据集的值(25, 30, 35)都接近均值30。
  • 第三个数据集的值(5, 10, 75)则比均值分散得多。

因此,我们需要离散程度度量来量化这种差异。

主要的离散程度度量 📏

以下是两种关键的离散程度度量方法。

1. 极差

极差是数据集中最大值与最小值之间的差值。它计算简单,能快速反映数据的整体跨度。

示例:假设有哥斯达黎加中央谷地过去一周的每日华氏温度数据,最高温度为77度,最低温度为67度。那么极差就是 77 - 67 = 10度。

2. 标准差

标准差衡量的是数据值相对于数据集均值的分散程度。它计算的是数据点到均值的典型距离。标准差越大,数值相对于均值就越分散。

另一个相关的度量是方差,它是每个数据点与均值之差的平方的平均值。本质上,方差是标准差的平方。我们将在后续课程中更详细地学习方差。

为了更直观地理解离散程度,我们可以观察三个正态概率分布图。每个曲线的最高点(中心)代表均值。蓝色曲线的标准差为1,绿色为2,红色为3。蓝色曲线离散程度最小,数据点大多靠近均值,因此标准差最小。红色曲线离散程度最大,数据点离均值更远,因此标准差最大。

如何计算标准差?🧮

现在,让我们来探讨如何计算这些数字。

以下是样本标准差的计算公式:

s = sqrt( Σ (x_i - x̄)^2 / (n - 1) )

  • s:样本标准差
  • Σ:求和符号
  • x_i:数据集中的每个值
  • :样本均值
  • n:样本中的数据点个数

对于初学者,这个公式可能看起来复杂。但请放心,我们将逐步解析。作为数据专业人士,你通常会用计算机进行计算。理解计算背后的概念,比死记硬背公式更重要,这能帮助你将来将统计方法应用于实际问题。

注意:计算总体和样本的标准差使用不同的公式。数据专业人士通常处理样本数据,并基于样本对总体进行推断,因此我们这里回顾的是样本公式。

让我们通过计算一个小数据集 [8, 10, 12] 的标准差来理解这个公式。计算分为五个步骤:

  1. 求均值(8 + 10 + 12) / 3 = 10
  2. 求每个值与均值的差,并平方
    • (8 - 10)^2 = 4
    • (10 - 10)^2 = 0
    • (12 - 10)^2 = 4
  3. 求平方差之和4 + 0 + 4 = 8
  4. 除以 (n - 1)n = 3,所以 8 / (3 - 1) = 8 / 2 = 4
  5. 取平方根sqrt(4) = 2

因此,该数据集的标准差为 2

标准差的实际应用 🌤️

标准差在日常生活中的应用非常广泛。例如,气象学家使用标准差进行天气预报,以了解不同地区每日温度的变化情况,从而做出更准确的预测。

想象两位气象学家分别在A市和B市工作。在三月期间:

  • A市:平均温度66°F,标准差3°F。
  • B市:平均温度64°F,标准差16°F。

两个城市的平均温度相似,但B市的标准差要大得多。这意味着B市的每日温度变化更大,天气可能日间差异巨大。而在A市,天气则更为稳定。如果B市的气象学家仅依据均值预测天气,其预测误差可能高达16度。标准差为气象学家提供了一个衡量变异性的有用工具,并有助于确定其预测的可信度。

数据专业人士同样使用标准差来衡量广告收入、股票价格、员工薪资等多种类型数据的变异性。

总结 📝

本节课中我们一起学习了度量数据离散程度的核心概念。我们了解到,极差提供了数据范围的快速概览,而标准差则能更细致地描述数据点相对于均值的典型分散情况。掌握这些度量方法,结合上一节的中心趋势度量,我们就能对数据集形成更全面、更深入的理解。

接下来,我们将讨论一些理解数据集中数值相对位置的方法。

009:位置度量 📊

在本节课中,我们将要学习描述性统计中的位置度量。位置度量帮助我们理解数据集中某个值相对于其他值的位置,例如它是处于较高、较低还是中间水平。我们将重点介绍百分位数、四分位数、四分位距以及五数概括法。


描述性统计回顾

上一节我们介绍了描述数据中心趋势(如均值、中位数)和离散程度(如标准差)的工具。这些工具能帮助我们探索和理解数据集。

本节中,我们来看看位置度量。位置度量用于确定一个值在数据集中相对于其他值的位置。了解数据的位置,有助于我们判断某个值是高于还是低于其他值,或者它是否落在数据的下、中、上部分。

在城市中,这类似于了解不同兴趣点之间的相对位置。例如,知道艺术博物馆离城市公园有多远,或者你想去的著名餐厅是否靠近你想参观的历史古迹,都是很有用的。


百分位数 📈

百分位数是指低于该值的数据所占的百分比。它显示了数据集中某个特定值的相对位置或排名。

一些大学要求申请者参加标准化考试。例如,在美国,SAT和ACT是常见的考试。当学生收到考试成绩时,通常也会收到相应的百分位数。

例如,假设一个考试成绩落在第99百分位数。这意味着该分数高于99%的所有考试成绩。如果分数落在第75百分位数,则该分数高于75%的所有考试成绩。如果分数落在第50百分位数,则该分数高于一半或50%的所有考试成绩,依此类推。

百分位数对于比较不同量纲的值非常有用。例如,不同的考试可能有不同的评分系统:SAT分数范围是400到1600,ACT分数范围是1到36,而典型的学校数学或历史考试分数范围可能是0到100。

如果你只知道每个考试的原始分数,比如SAT 1000分,ACT 20分,学校考试70分,你无法进行有意义的比较。但如果你知道这三个考试成绩都落在第50百分位数,那么你就可以有意义地比较学生在不同考试中的表现了。


四分位数 🔢

你可以使用四分位数来大致了解值的相对位置。四分位数将数据集中的值分成四个相等的部分。

四分位数让你可以比较相对于数据四个部分的值。每个部分包含数据集中25%的值。

以下是四分位数的定义:

  • 第一四分位数(Q1):也称为下四分位数,是数据前半部分的中间值。25% 的数据点低于Q1,75% 高于它。
  • 第二四分位数(Q2):数据集的中位数50% 的数据点低于Q2,50% 高于它。
  • 第三四分位数(Q3):数据后半部分的中间值。75% 的数据点低于Q3,25% 高于它。

请注意四分位数与百分位数之间的关系:Q1对应第25百分位数,Q2对应第50百分位数,Q3对应第75百分位数。


计算四分位数:一个例子

假设你是一支运动队的经理。你拥有显示每个球员在整个赛季中进球数的数据。你想根据进球数比较每个球员的表现。

以下是计算数据四分位数的步骤:

第一步:将值从小到大排列。
[11, 12, 14, 18, 22, 23, 27, 33]

第二步:找到数据集的中位数。这是第二四分位数Q2。
由于数据集中有偶数个值,中位数是两个中间值(18和22)的平均值。
Q2 = (18 + 22) / 2 = 20

第三步:找到数据集下半部分的中位数。这是下四分位数Q1。
下半部分数据:[11, 12, 14, 18]
Q1 = (12 + 14) / 2 = 13

第四步:找到数据集上半部分的中位数。这是上四分位数Q3。
上半部分数据:[22, 23, 27, 33]
Q3 = (23 + 27) / 2 = 25

将数据分成四分位数可以让你清楚地了解球员的表现。你现在知道,下四分位数的球员进了13个或更少的球,而上四分位数的球员进了25个或更多的球。换句话说,下25% 的球员进了13个或更少的球,而上25% 的球员进了25个或更多的球。中间50% 的球员进球数在13到25之间。


四分位距 📏

数据的中间50%被称为四分位距。四分位距是第一四分位数Q1和第三四分位数Q3之间的距离。

从技术上讲,IQR是一种离散程度的度量,因为它衡量的是数据中间一半(即中间50%)的 spread。

这等同于第25百分位数和第75百分位数之间的距离,也就是Q1和Q3之间的距离。IQR对于确定数据值的相对位置也很有用。

公式IQR = Q3 - Q1

在这个例子中,Q3 = 25Q1 = 13,所以 IQR = 25 - 13 = 12


五数概括法 📋

最后,你可以用五数概括法来总结数据集中的度量划分。这五个数字包括:最小值第一四分位数中位数(第二四分位数)第三四分位数最大值

对于你的运动数据,五数概括法是:[11, 13, 20, 25, 33]

五数概括法很有用,因为它让你从极值到中心对数据的分布有一个整体的了解。你可以用箱线图将其可视化。

  • 箱线图的“箱体”部分从第一四分位数延伸到第三四分位数。
  • 箱体中间的垂直线是中位数。
  • 箱体两侧的水平线(称为“须”)从第一四分位数延伸到最小值,以及从第三四分位数延伸到最大值。

下面的箱线图显示了进球数据。我们可以在箱线图上找到这些值并确定四分位距:

  • Q1(下四分位数)= 13
  • Q3(上四分位数)= 25
  • 四分位距是箱体的长度:25 - 13 = 12

总结

本节课中我们一起学习了描述性统计中的位置度量。我们介绍了:

  • 百分位数:用于确定一个值在数据集中的相对排名。
  • 四分位数:将数据分为四等份,帮助我们理解数据的分布结构。
  • 四分位距:衡量数据中间50%的离散程度。
  • 五数概括法:通过最小值、Q1、中位数、Q3和最大值来全面描述数据分布。

数据专业人员使用位置度量(如百分位数和四分位数)来更好地理解各种数据,这可能包括公共卫生数据(如预期寿命)、经济数据(如家庭收入)、商业数据(如产品销售额)等等。

接下来,你将使用Python来计算描述性统计量并总结数据集。

010:《统计的力量》- 统计学作为数据驱动解决方案的基础 📊

概述

在本节课中,我们将跟随谷歌云的数据科学开发者倡导者Alok,探讨统计学在数据科学领域的核心地位。我们将了解统计学如何结合数学与数据应用,为数据驱动型决策提供坚实基础,并通过一个真实案例展示统计学在解决实际问题、影响决策过程中的强大作用。


统计学:数学与数据的结合

我是Alok,在谷歌云担任数据科学开发者倡导者。我的主要工作是向开发者介绍如何使用谷歌云。

我认为,统计学是数学与数据应用的结合。对于数据专业人士而言,学习统计学至关重要。因为它能为你将要应用的各种技术背后的数学原理打下良好基础,并为你提供如何将这些数学知识应用于不同问题的广泛信息。

上一节我们明确了统计学的定义,接下来我们看看它在实际工作中的价值。

统计学在实践中的核心作用

我在谷歌的第一份工作,是在搜索广告团队担任数据科学家。我们持续使用统计方法来生成洞察,从而为决策提供信息。事实上,这基本上是这项工作的核心。

统计学工具如何具体解决难题呢?以下通过一个案例来说明。

案例研究:用统计学解释群体差异

有一次,统计学帮助影响了决策者的判断。这个项目涉及两个群体,我们称其为A组和B组。我们观察到这两个群体在某个特定指标上的行为存在很大差异。

高管们很担心:为什么它们会不同?也许差异不应该这么大。此时,统计方法至关重要。

我们不得不针对多种因素进行调整,例如:

  • 用户构成:审视数据的不同切片。
  • 置信区间:为我们观察到的平均差异添加置信区间。

我们发现,差异并没有我们最初看到的那么大,并且可以归因于其他因素,比如我们用户群体的构成等。

我们将这个结果呈现给高管,他们因此感到宽慰,因为差异并不大,也无需采取特定措施来改变A组和B组之间的动态。这个差异在他们看来处于合理的范围内。

这个案例展示了统计学的分解能力。下面我们来总结其核心价值。

统计学的价值与学习建议

核心理念是:统计学为你提供一套工具。在上述案例中,它给了我一套工具,将这个问题分解成多个部分,并开始解释我们为何会观察到这些差异。

完成像本课程这样的项目,其价值在于它能为你从事数据科学和数据分析的卓越工作奠定基础。学习一些数据课程并获得一些项目经验,能让你很好地准备去分析数据并产生影响。

无论你最终在哪个行业工作,对于正在学习过程中、或许感到挣扎的人,我能给出的最好建议是:牢记你的最终目标。无论是学习一项新技能,还是开启一条全新的职业道路,这都能真正成为你的优势。

尝试一步一步来。如果你稍微落后了,原谅自己,只需牢记最终目标。那就是你想要到达的地方。


总结

本节课中,我们一起学习了:

  1. 统计学的本质:它是数学理论与数据实践应用的桥梁。
  2. 统计学的实践核心:为数据驱动的决策提供持续、可靠的洞察。
  3. 统计学的分析能力:通过工具(如调整混合因素、计算置信区间)将复杂问题分解,揭示数据差异背后的真实原因。
  4. 统计学的基础价值:是从事数据科学和数据分析工作的基石。
  5. 学习心态:面对挑战时,应循序渐进并始终聚焦最终目标。

掌握统计学,意味着你掌握了从数据中提炼真相、驱动明智决策的关键能力。

011:《统计的力量》- 使用Python计算描述性统计 📊

在本节课中,我们将学习如何使用Python计算描述性统计量,以探索和总结数据集的关键特征。我们将使用一个关于全国各地区识字率的数据集作为示例,通过Python代码快速获取中心趋势、离散程度和数据位置等统计信息。


数据理解与准备

上一节我们介绍了描述性统计的基本概念。本节中,我们来看看如何在实际分析前,先理解数据的背景和结构。

想象你是一位为国家教育部工作的数据分析师。你的任务是分析全国中小学(6-18岁学生)的识字率数据。数据涵盖了国家的每个州和地区。

首先,我们需要导入必要的Python库并加载数据。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

我们加载名为 education_district_w 的数据集。为数据选择能清晰说明其内容和目的的命名是一种最佳实践。

education_district_w = pd.read_csv('education_district_w.csv')

使用 head 函数可以快速查看数据集的前几行,帮助我们了解数据结构。

print(education_district_w.head(10))

数据集包含7列和680行。前五列是不同的行政单位:地区名称、州名称、区块、村庄和集群。这代表了国家将人口组织成不同规模单位的方式。

TOT_POPULA 列代表总人口。
OVERALL_LI 列代表整体识字率。

正确理解数据至关重要:每一行代表一个不同的地区,而不是一个州或村庄。因此,“村庄”列显示每个地区包含的村庄数量,“总人口”列显示每个地区的人口,“整体识字率”列显示每个地区的识字率。


计算描述性统计量

现在我们对数据有了更好的理解,接下来使用Python计算描述性统计量。

在Python中,计算描述性统计最有用的函数是 describe。数据专业人员使用此函数可以一次性计算许多关键统计量。

对于包含数值数据的列(如识字率),describe 函数会返回以下统计信息:

  • 观测值数量
  • 平均值
  • 中位数
  • 标准差
  • 最小值和最大值
  • 第一和第三四分位数

我们的主要兴趣是识字率。该数据包含在 OVERALL_LI 列中,它显示了国家每个地区的识字率。

以下是使用 describe 函数显示识字率关键统计量的方法:

print(education_district_w['OVERALL_LI'].describe())

输出结果为所有地区提供了关键统计信息。count 类别确认数据集中有634个地区。注意,整体识字率列的观测值数量是634,但数据集的行数是680。这是因为 describe 函数不包含缺失值。

统计摘要提供了关于整体识字率的宝贵信息。例如,平均值有助于阐明数据集的中心。我们现在知道所有地区的平均识字率约为73%。这个信息本身很有用,也可以作为比较的基础。

了解所有地区的平均识字率有助于你理解哪些个别地区显著高于或低于平均值。这将帮助教育部决定如何分配资源以提高识字率。

请注意,输出中的25%、50%和75%类别分别指Q1、Q2和Q3。记住,Q2也是数据的中位数。


分析分类数据

describe 函数也可用于具有分类数据的列,例如州名称列。在这种情况下,你将获得列中所有观测值的计数,以及以下信息:唯一值的数量、最常见的值(众数)以及最常见值的频率。

使用 describe 函数来找出数据中有多少个州,以及哪个州包含的地区最多:

print(education_district_w['state_name'].describe())

unique 类别显示数据集中有36个州。
top 类别显示“州21”是最常见的值,包含的地区最多。
freq 类别告诉你“州21”出现在75行中,这意味着它包含75个不同的地区。这就是众数。

这些信息可能有助于根据地区数量来确定哪些州需要更多的教育资源。


使用单独的函数进行深入计算

describe 函数非常有用,因为它可以一次性显示各种关键统计量。Python也有用于单独统计量的函数,例如 meanmedianstdminmax。你在之前的课程中曾使用 meanmedian 函数来检测异常值。

如果你想基于描述性统计进行进一步的计算,这些单独的函数也很有用。

例如,你可以同时使用 minmax 函数来计算数据的极差。极差将显示所有地区中最高和最低识字率之间的差异。

要计算极差,请使用 maxmin 函数,从最高识字率中减去最低识字率:

range_overall_li = education_district_w['OVERALL_LI'].max() - education_district_w['OVERALL_LI'].min()
print(range_overall_li)

所有地区识字率的极差约为61.5个百分点。这是最大值98.7%减去最小值37.2%的结果。

这个巨大的差异告诉你,有些地区的识字率远高于其他地区。在接下来的视频中,你将持续分析这些数据,并可以发现哪些地区的识字率最低。这将帮助政府更好地了解全国范围内的识字率情况,并在此基础上建设成功的教育计划。


总结

本节课中我们一起学习了如何使用Python高效地计算描述性统计量。我们首先导入并理解了识字率数据集的结构,然后使用 describe() 函数一次性获取了中心趋势、离散度和位置等多方面统计摘要。此外,我们还学习了如何对分类数据使用 describe(),以及如何利用单独的统计函数(如 max()min())进行更深入的计算,例如求取数据的极差。

使用描述性统计来总结你的数据集是分析过程中重要的早期步骤,它能让你对数据有一个基本的理解,为后续更深入的分析奠定基础。

012:第一单元总结 📊

在本节课中,我们将对《统计的力量》第一单元的核心内容进行回顾与总结。我们已经学习了数据专业人员如何运用统计学从数据中获取洞见,以支持商业决策和解决复杂问题。


课程内容回顾

上一节我们介绍了描述性统计和推断性统计的基本应用。本节中,我们来具体看看本单元涵盖的关键知识点。

以下是本单元学习的主要内容列表:

  • 统计学的两大分支描述性统计用于探索和总结数据;推断性统计用于从数据中得出结论并进行预测。
  • 描述性统计的核心概念:包括集中趋势度量离散程度度量位置度量
  • Python分析工具:Python是进行统计分析的强大工具,可用于快速探索数据集并计算描述性统计量。

关键概念详解

统计学的类型

数据专业人员使用描述性统计来探索和总结数据。他们使用推断性统计来对数据得出结论并进行预测。

描述性统计量

在描述性统计部分,我们学习了集中趋势度量、离散程度度量和位置度量。例如,集中趋势可以用均值公式 mean = sum(x) / n 来计算。

Python的应用

最后,我们了解到Python是进行统计分析的强大工具。你可以使用Python来探索数据集,并快速计算描述性统计量以总结数据。例如,使用Pandas库可以轻松计算均值:

import pandas as pd
data.mean()

学习建议与下一步

你可以运用这些技能来更好地理解未来职业生涯中可能遇到的任何新数据。

接下来,你需要准备一次分级评估。建议查阅列出了所有新术语的阅读材料,并随时重温涵盖关键概念的讲解视频、阅读材料和其他资源。

截至目前,你的学习进展值得祝贺。我们很快会再次相见。


总结

本节课中,我们一起回顾了《统计的力量》第一单元的核心内容:统计学的两大类型、描述性统计的主要度量方法,以及利用Python进行高效数据分析的基本方法。这些基础知识将为你后续的深入学习奠定坚实的起点。

013:概率基础

在本节课中,我们将学习概率的基本概念及其在数据分析中的应用。概率是数学的一个分支,用于衡量和量化不确定性。数据专业人员使用概率帮助决策者在不确定情况下做出数据驱动的决策。

上一节我们介绍了描述性统计,本节中我们来看看概率如何帮助我们理解不确定性。

🎯 概率的定义与类型

概率使用数学来描述事件发生的可能性。例如,明天下雨或中彩票的机会。

数据专业人员使用所有可用数据,基于概率做出合理预测。例如,假设你与一家大型航空航天公司的利益相关者合作。他们需要决定是否投资新技术以改进喷气发动机的生产流程。作为数据专业人员,你可以估计新技术产生积极影响的概率,并预测其潜在成本和收益。利益相关者可以利用这些信息做出对组织最有利的明智决策。

我们将从回顾两种主要概率类型开始:客观概率和主观概率。

📐 基本概率规则

以下是概率计算中的三个基本规则:

  1. 补集规则:事件不发生的概率等于1减去事件发生的概率。公式为:P(非A) = 1 - P(A)
  2. 加法规则:两个事件至少有一个发生的概率。对于互斥事件,公式为:P(A或B) = P(A) + P(B)
  3. 乘法规则:两个事件同时发生的概率。对于独立事件,公式为:P(A且B) = P(A) * P(B)

🔗 条件概率与贝叶斯定理

接下来,我们将讨论条件概率以及如何描述相关事件之间的关系。

条件概率是指在已知另一个事件发生的情况下,某个事件发生的概率。我们将学习贝叶斯定理,这是条件概率的一个关键公式,也是更高级贝叶斯分析的基础。其基本形式为:
P(A|B) = [P(B|A) * P(A)] / P(B)

📊 概率分布

概率分布描述了随机事件可能结果的似然性,可以分为离散型和连续型。

以下是两种主要的概率分布类型:

  1. 离散概率分布:例如二项分布和泊松分布。它们可以帮助你对特定类型的数据进行建模。
  2. 连续概率分布:我们将重点探讨正态分布,这是所有统计学中使用最广泛的分布。你将了解其主要特征以及它如何应用于许多不同的数据集。

📈 Z分数与正态分布

我们还将讨论Z分数如何帮助你更好地理解数据值与标准正态分布之间的关系。Z分数的计算公式为:
Z = (X - μ) / σ
其中,X是数据值,μ是均值,σ是标准差。

💻 Python应用

最后,你将学习如何使用Python的SciPy统计模块将概率分布应用于你的数据。


本节课中我们一起学习了概率的核心概念,包括其定义、基本规则、条件概率、贝叶斯定理以及各种概率分布。掌握这些知识是进行高级统计分析和数据驱动决策的基础。

准备好开始学习概率后,请加入下一个视频。

014:客观概率与主观概率 📊

在本节课中,我们将学习概率的基本概念,特别是区分客观概率主观概率。概率是衡量和量化不确定性的工具,能帮助我们基于不确定的结果做出明智的决策。无论是决定今日的穿着,还是预测产品销售,概率都扮演着核心角色。


什么是概率?

概率帮助你度量和量化不确定性,并就不确定的结果做出明智决策。

例如,你可以使用概率来决定某一天的穿着。今天的天气预报说,基于现有数据,有70%的概率会下雪。根据这个信息,你决定戴上帽子、手套并穿上雪地靴。当雪落下时,你得以保持温暖和干燥。

数据专业人员可能使用概率来预测一家公司在特定时间段内销售一定数量产品的可能性、一项金融投资将获得正回报的可能性、一位政治候选人将赢得选举的可能性,或者一项医学测试的准确性。


客观概率

上一节我们介绍了概率的基本作用,本节中我们来看看概率的主要类型之一:客观概率。客观概率基于统计数据、实验和数学测量。

数据专业人员使用客观概率来分析和解释数据。客观概率有两种类型:古典概率经验概率

古典概率

古典概率基于对具有等可能结果的事件的正式推理。

要计算一个事件的古典概率,你可以用期望结果的数量除以所有可能结果的总数

公式:
P(事件) = 期望结果数 / 所有可能结果总数

以下是两个古典概率的例子:

  • 抛硬币:当你抛一枚硬币时,结果要么是正面,要么是反面(“正面”和“反面”是通常用来指代硬币两面的术语)。只有两种可能的结果,且两种结果的可能性相等。因此,得到正面的概率是二分之一,即50%。得到反面的概率也是如此。
  • 抽扑克牌:一副标准扑克牌有52张牌。抽一张牌时,你抽到牌堆中任何一张特定牌(无论是红桃A、梅花10还是黑桃4)的概率是52分之1,约等于1.9%。

经验概率

然而,大多数事件更为复杂,并不具有等可能的结果。例如,天气通常不是50%的概率下雨或下雪,明天可能有80%的概率下雨,20%的概率是其他结果。

当古典概率适用于具有等可能结果的事件时,数据专业人员则需要使用经验概率来描述更复杂的事件。

经验概率基于实验或历史数据。它表示一个事件基于先前实验结果或过去事件而发生的可能性。

要计算经验概率,你可以用特定事件发生的次数除以事件发生的总次数

公式:
P(事件) = 事件发生次数 / 总试验次数

例如,假设你进行了一项有100人参与的味觉测试,以了解他们是更喜欢草莓味还是薄荷巧克力片味的冰淇淋。你想知道一个人更喜欢草莓味冰淇淋的概率。

你的味觉测试显示,有80人更喜欢草莓味冰淇淋。要计算概率,你将“更喜欢草莓味冰淇淋”这个事件发生的次数(80)除以总事件次数(100)。80除以100等于0.8,即80%。

因此,一个人比起薄荷巧克力片味更偏好草莓味冰淇淋的概率是80%。


概率与推断统计

之前我们学习了推断统计,以及数据专业人员如何使用样本数据对更大的总体进行推断或预测。推断统计同样使用概率。

例如,一家零售公司可能会调查100名具有代表性的客户样本,以预测其所有客户的购物偏好。数据专业人员依赖经验概率来帮助他们基于样本数据做出准确的预测。

另一个例子是网站的A/B测试。你测试一部分用户样本,以预测所有用户未来的行为。假设样本用户更喜欢绿色的“行动号召”按钮,而不是蓝色的。你可以从这些数据中推断,未来更大的用户群体很可能也共享这种偏好。

A/B测试让你能够基于经验概率对未来用户做出合理的预测。这种概率可以帮助在线企业做出更明智的决策并增加销售额。


主观概率

在了解了基于数据和计算的客观概率后,我们来看看另一种类型:主观概率。主观概率的结果基于个人感觉、经验或判断

这种类型的概率不涉及正式计算、统计分析或科学实验。

例如,你可能有一种强烈的感觉,认为某匹马会赢得赛马比赛,或者你最喜欢的球队会赢得冠军赛。你可能有充分的理由支持你的信念,但你的理由是个人化的或主观的。

你的信念并非基于统计分析或科学实验。因此,一个事件的主观概率可能因人而异,差异很大。


区分概率类型的重要性

当你评估一个预测或做出决策时,了解主观概率和客观概率之间的区别非常重要。

例如,一家汽车公司的首席执行官可能自信地认为,使用一项新技术来制造他们的皮卡将能降低成本并增加利润。

但如果他们的预测仅仅基于个人感觉或主观概率,那么这个预测可能并不可靠。

基于统计分析或客观概率的数据科学,可以帮助准确预测新技术的潜在影响,并帮助首席执行官就是否采用该技术做出明智的、数据驱动的决策。


总结

本节课中我们一起学习了概率的两种主要类型:

  1. 客观概率:基于数据、实验和数学计算,包括古典概率(用于等可能事件)和经验概率(用于基于历史数据的事件)。
  2. 主观概率:基于个人感觉、经验或判断,缺乏统一的客观计算基础。

理解并正确应用这两种概率,是进行有效数据分析和做出可靠决策的关键。接下来,我们将探讨概率的一些基本概念。

015:概率原理 🎲

概述

在本节课中,我们将学习概率的基本概念。概率是数学中用于处理不确定性或确定事件发生可能性的工具。我们将讨论概率的数学定义,并学习如何计算单一随机事件的概率。


概率的基本概念

最近,你了解到概率使用数学来处理不确定性,或确定事件发生的可能性。

在本次视频中,你将学习一些概率的基本概念。

我们将讨论概率的数学定义以及如何计算单一随机事件的概率。

首先,我想为你提供一些关于本课程部分将使用的示例类型的背景信息。

我们将继续引用诸如抛硬币、掷骰子和抽牌这类事件的例子。这样做有几个原因。一是历史原因。现代概率论起源于16和17世纪对机会游戏的分析。

其次,也是更重要的,这些事件具有明确定义的结果,并且大多数人都熟悉。它们只是基本概率概念的绝佳示例。这就是为什么它们被世界各地的统计学课程所使用。

在本课程后期,我们将探讨更复杂事件的概率,例如你未来作为数据专业人员将遇到的那些事件。


概率的数学定义

现在,让我们来谈谈概率的基本概念。

首先,事件发生的概率表示为一个介于0和1之间的数字。

如果事件的概率等于0,则该事件发生的可能性为0%。

如果事件的概率等于1,则该事件发生的可能性为100%。

在0和1之间还有许多可能性。如果事件的概率等于0.5,则该事件发生或不发生的可能性各为50%。

如果事件的概率接近零,则该事件发生的可能性很小。

如果事件的概率接近一,则该事件发生的可能性很大。

例如,如果某只股票今年上涨的概率是0.05或5%,那么你可能不想购买它。如果概率是0.95或95%,那么它可能是一项不错的投资。


随机事件与随机实验

概率衡量随机事件的可能性。随机事件的结果无法确定地预测。

在抛硬币或掷骰子之前,你并不知道结果。硬币可能正面朝上或反面朝上,骰子可能显示1到6之间的任何数字。

这些是统计学家所称的随机实验的例子,也称为统计实验。

随机实验是一个其结果无法确定预测的过程。

所有随机实验都有三个共同点:

  • 实验可以有多个可能的结果。
  • 你可以提前表示每个可能的结果。
  • 实验的结果取决于机会。

让我们以抛硬币为例。

  • 存在多个可能的结果。
  • 你可以提前表示每个可能的结果:正面或反面。
  • 结果取决于机会。在你实际抛掷硬币之前,你无法知道是正面还是反面。

或者想想掷一个六面骰子。

  • 存在多个可能的结果。
  • 所有结果都可以提前表示:1、2、3、4、5和6。
  • 任何一次掷骰的结果都取决于机会。在你掷出骰子之前,你无法知道会出现哪个数字。

概率的计算方法

为了计算随机实验的概率,你将期望结果的数量除以可能结果的总数。

你可能还记得,这也是古典概率的公式:

P(事件) = 期望结果数 / 总可能结果数

所以,抛硬币得到正面的概率是2次机会中的1次。即 1 / 2 = 0.5 或 50%。

掷骰子得到数字2的概率是6次机会中的1次。即 1 / 6 ≈ 0.167 或约16.7%。


应用示例:抽弹珠

现在,让我们进行一个不同的随机实验。

想象一个罐子里装有10颗弹珠。其中2颗是红色,3颗是绿色,5颗是蓝色。

你决定从罐子里取出一颗弹珠。你想知道弹珠是绿色的概率。

首先,计算可能结果的数量。你有同等机会选择10颗弹珠中的任何一颗。

接下来,找出这些结果中有多少符合你的期望:即选择绿色弹珠的机会。

在总共10颗弹珠中,有3颗是绿色的。

因此,选择绿色弹珠的概率是10次中的3次,即 3 / 10 = 0.3。换句话说,你有30%的机会选择到绿色弹珠。


总结

本节课中,我们一起学习了概率的基本原理。我们定义了概率是介于0和1之间的数字,用于量化事件发生的可能性。我们探讨了随机实验的概念及其三个特征。最重要的是,我们掌握了计算单一随机事件概率的核心公式:P(事件) = 期望结果数 / 总可能结果数,并通过抛硬币、掷骰子和抽弹珠的例子进行了实践。这些知识将作为未来学习更复杂概率计算的基础。

016:《统计的力量》课程笔记 📊

课程16:概率与事件的基本规则

在本节课中,我们将学习概率论中的三个基本规则:补集规则、加法规则和乘法规则。这些规则是处理多个事件概率计算的基础,对于未来的数据分析工作至关重要。我们还将区分两种不同类型的事件:互斥事件与独立事件,并学习如何为它们计算概率。


概率符号表示法

为了更高效地沟通概率概念,我们首先需要了解标准的概率符号表示法。

  • 字母 P 表示事件的概率。
  • 如果你处理两个事件,可以将一个事件标记为 A,另一个标记为 B
  • 事件A的概率记作 P(A)
  • 事件B的概率记作 P(B)
  • 如果你想表示事件A不发生的概率,可以在A后面加上一个撇号,记作 P(A'),也可以读作“非A的概率”。

规则一:补集规则

在统计学中,一个事件的补集是指该事件不发生的情况。例如,要么下雨,要么不下雨;要么中彩票,要么不中彩票。下雨的补集是不下雨,中奖的补集是不中奖。

补集规则的核心在于:一个事件发生的概率和它不发生的概率之和必须等于1。概率为1意味着100%的确定性。另一种理解方式是,两个互斥事件(发生或不发生)的概率之和为100%。

补集规则的公式是:
P(A') = 1 - P(A)

例如,如果天气预报说明天有30%的概率下雨,即 P(下雨) = 0.3。那么明天下雨的概率是:
P(不下雨) = 1 - P(下雨) = 1 - 0.3 = 0.7
所以,不下雨的概率是70%。


互斥事件与加法规则

补集规则和接下来要介绍的加法规则都适用于互斥事件

互斥事件是指两个事件不可能同时发生。例如,你不可能同时访问阿根廷和中国,也不可能同时向左转和向右转。

加法规则指出:如果事件A和事件B是互斥的,那么事件A事件B发生的概率,等于它们各自概率的和。
公式为:
P(A 或 B) = P(A) + P(B)

让我们通过一个掷骰子的例子来理解。假设你想知道,在单次投掷一个六面骰子时,掷出2点4点的概率是多少。

这两个事件是互斥的,因为你一次只能掷出一个数字。掷出任何特定数字的概率是1/6。

以下是计算步骤:

  1. P(掷出2) = 1/6
  2. P(掷出4) = 1/6
  3. 根据加法规则:P(2 或 4) = 1/6 + 1/6 = 2/6 = 1/3

因此,掷出2点或4点的概率是三分之一,约等于33%。


独立事件与乘法规则

上一节我们介绍了用于互斥事件的加法规则,本节中我们来看看如何处理独立事件。

如果一个事件的发生不会改变另一个事件发生的概率,那么这两个事件就是独立事件。这意味着一个事件的结果不会影响另一个事件的结果。例如,从图书馆借书不会影响明天的天气;早上喝咖啡不会影响下午邮件的投递。

乘法规则指出:如果事件A和事件B是独立的,那么事件A事件B同时发生的概率,等于它们各自概率的乘积。
公式为:
P(A 且 B) = P(A) × P(B)

让我们看一个连续抛硬币的例子。假设你想知道,第一次抛硬币得到反面并且第二次抛硬币得到正面的概率。

首先,判断事件类型:两次抛硬币是独立事件,第一次的结果不会影响第二次。每次抛硬币得到正面或反面的概率始终是1/2(50%)。因此,我们使用乘法规则。

以下是计算步骤:

  1. P(第一次反面) = 0.5
  2. P(第二次正面) = 0.5
  3. 根据乘法规则:P(第一次反面 且 第二次正面) = 0.5 × 0.5 = 0.25

所以,第一次得到反面且第二次得到正面的概率是25%。


规则对比与总结

为了帮助记忆,让我们对比一下加法规则和乘法规则的区别。清楚这些区别有助于你在不同场景下正确应用规则。

以下是两种规则的核心区别:

  • 计算方式:加法规则是求和概率;乘法规则是求积概率。
  • 适用事件:加法规则适用于互斥事件(不能同时发生);乘法规则适用于独立事件(互不影响)。
  • 逻辑关系:加法规则用于计算事件A事件B发生的概率;乘法规则用于计算事件A事件B同时发生的概率。

课程总结

本节课中,我们一起学习了概率论的三个基本规则:

  1. 补集规则:用于计算事件不发生的概率,公式为 P(A') = 1 - P(A)
  2. 加法规则:用于计算互斥事件中任一事件发生的概率,公式为 P(A 或 B) = P(A) + P(B)
  3. 乘法规则:用于计算独立事件同时发生的概率,公式为 P(A 且 B) = P(A) × P(B)

这些规则为我们描述和分析互斥或独立的事件提供了强大的工具。在接下来的视频中,我们将探讨条件概率,它适用于另一种事件类型——相关事件。

017:条件概率 📊

在本节课中,我们将学习条件概率。条件概率用于计算在另一个事件已经发生的情况下,某个事件发生的概率。这对于理解事件之间的依赖关系至关重要,并在金融、保险、科学和机器学习等领域有广泛应用。


从独立事件到依赖事件

上一节我们介绍了独立事件的概率计算。本节中我们来看看依赖事件。

两个事件是独立的,如果一个事件的发生不影响另一个事件的结果,例如两次抛硬币。两个事件是依赖的,如果一个事件的发生改变了另一个事件的概率,这意味着第一个事件影响了第二个事件的结果。

以下是依赖事件的例子:

  • 访问网站依赖于拥有互联网接入。
  • 出国旅行依赖于持有护照。
  • 从一副标准扑克牌中抽一张A(事件A),然后从同一副牌中再抽一张A(事件B)。第二次抽到A的概率会因第一次抽走一张牌而改变。

理解条件概率

条件概率是指在另一个事件(B)已经发生的条件下,某个事件(A)发生的概率。其核心概念可以用以下公式描述:

公式1:
P(A|B) = P(A ∩ B) / P(B)
其中,P(A|B) 表示“在B发生的条件下A发生的概率”,P(A ∩ B) 表示“A和B同时发生的概率”。

这个公式也可以从乘法法则推导出来:

公式2:
P(A ∩ B) = P(B) * P(A|B)

根据已知信息的不同,可以选择使用更便捷的公式形式。


条件概率计算示例

让我们通过具体例子来应用这些公式。

示例1:连续抽到两张A

  • 事件A:第一次抽到A。概率 P(A) = 4/52
  • 事件B|A:在第一次抽到A的条件下,第二次抽到A。此时牌堆剩51张牌,其中3张A,所以 P(B|A) = 3/51

计算连续抽到两张A的概率,即 P(A ∩ B)
P(A ∩ B) = P(A) * P(B|A) = (4/52) * (3/51) = 1/221 ≈ 0.5%

示例2:大学录取与奖学金

  • 事件A:被大学录取。概率 P(A) = 10/100
  • 事件B|A:在被录取的条件下,获得奖学金。概率 P(B|A) = 2/100

计算被录取且获得奖学金的概率,即 P(A ∩ B)
P(A ∩ B) = P(A) * P(B|A) = (10/100) * (2/100) = 1/500 = 0.2%


条件概率的应用

条件概率帮助我们更好地理解依赖事件之间的关系。作为数据专业人士,我经常使用条件概率来预测诸如广告活动等事件将如何影响销售收入。随后,我会将分析结果分享给利益相关者,以支持他们做出更明智的商业决策。


本节总结

本节课中我们一起学习了条件概率。我们明确了依赖事件与独立事件的区别,掌握了条件概率的核心公式,并通过扑克牌和大学申请两个实例演练了计算过程。理解条件概率是分析事件间关联、进行精准预测的重要基础。

018:探索贝叶斯定理 📊

在本节课中,我们将学习贝叶斯定理。贝叶斯定理是一个用于计算条件概率的数学公式,它允许我们根据新信息来更新对事件发生概率的估计。这是现代数据分析,特别是贝叶斯统计推断中的核心工具。


什么是条件概率?

上一节我们介绍了概率的基本概念,本节中我们来看看条件概率

条件概率指的是在已知另一个事件已经发生的情况下,某个事件发生的概率。例如,从一副扑克牌中抽出一张A后,再抽出一张A的概率就发生了变化。


贝叶斯定理简介

理解了条件概率后,我们正式引入贝叶斯定理

贝叶斯定理,也称为贝叶斯法则,是一个用于确定条件概率的数学公式。它以18世纪英国数学家托马斯·贝叶斯命名。该定理提供了一种方法,可以根据事件的新信息来更新该事件的概率。

在贝叶斯统计中:

  • 先验概率:指在收集新数据之前,事件发生的概率。
  • 后验概率:指在获得新数据之后,更新的事件发生概率。“后验”意为“发生在之后”。后验概率是通过使用贝叶斯定理更新先验概率计算得出的。

例如,假设某种医疗状况与年龄相关。你可以使用贝叶斯定理,根据年龄更准确地判断一个人患有该状况的概率。先验概率是“一个人患有该状况”的概率;后验概率则是“如果一个人处于某个特定年龄组,他患有该状况”的概率。


贝叶斯定理的应用领域

贝叶斯定理是贝叶斯统计(也称为贝叶斯推断)领域的基础,是现代数据分析中用于分析和解释数据的强大方法。

以下是贝叶斯定理在各领域的应用实例:

  • 金融:金融机构使用贝叶斯分析来评估贷款风险或预测投资成功概率。
  • 电子商务:在线零售商使用贝叶斯算法预测用户是否会喜欢某些产品和服务。
  • 市场营销:营销人员依赖贝叶斯定理从客户反馈中识别积极或消极的回应。

贝叶斯定理公式

现在,让我们来看看定理本身。请记住,无需死记硬背,重点是理解其逻辑。

贝叶斯定理指出,对于任意两个事件A和B,事件A在事件B发生的条件下发生的概率,等于事件A的概率乘以事件B在事件A发生的条件下的概率,再除以事件B的概率。

用数学公式表示为:

P(A|B) = [P(A) * P(B|A)] / P(B)

其中:

  • P(A) 是先验概率,即事件A发生的概率。
  • P(A|B) 是后验概率,即我们最终想求的、在事件B发生条件下事件A发生的概率。
  • P(B|A) 是在事件A发生条件下事件B发生的概率。
  • P(B) 是事件B发生的概率。

贝叶斯定理的关键在于,它同时包含了 P(B|A)P(A|B) 这两个条件概率。如果你知道其中一个,贝叶斯定理可以帮助你确定另一个。


实例解析:户外派对的天气决策

为了更直观地理解,我们来看一个具体例子。

假设你正在策划一个大型户外活动,例如毕业派对,活动的成功依赖于好天气。在活动当天早上,你发现天空多云。你想知道在早晨多云的情况下,下雨的概率有多大。如果下雨概率高,你可能决定将活动移至室内或取消。

你掌握以下信息:

  1. 在这个季节,总体下雨概率是 10%
  2. 早晨多云很常见,40% 的日子以多云开始。
  3. 在所有下雨的日子中,有 50% 是以多云早晨开始的。

在这个例子中:

  • 先验概率 P(A):是总体下雨概率,即 10%
  • 新数据 (事件B):早晨是“多云”的。
  • 后验概率 P(A|B):我们最终想求的是在“多云”条件下“下雨”的概率。

我们可以使用贝叶斯定理,根据“早晨多云”这一新数据来更新下雨的先验概率。

步骤分解:

  1. 定义事件:
    • 事件 A:下雨。
    • 事件 B:早晨多云。
  2. 代入已知数值:
    • P(A) = 下雨概率 = 0.1
    • P(B) = 早晨多云概率 = 0.4
    • P(B|A) = 在下雨条件下早晨多云的概率 = 0.5
  3. 套用贝叶斯公式计算 P(A|B):
    P(下雨 | 多云) = [P(下雨) * P(多云 | 下雨)] / P(多云)
    = (0.1 * 0.5) / 0.4
    = 0.05 / 0.4
    = 0.125 或 12.5%

计算结果,在早晨多云的情况下,今天下雨的概率是 12.5%。这就是你的后验概率,即根据新数据更新后的概率。概率仍然对你有利,因此你可以决定继续举行户外派对。


总结

本节课中我们一起学习了贝叶斯定理。我们了解到:

  1. 贝叶斯定理是一个基于新信息(证据)来更新事件发生概率的数学工具。
  2. 它涉及先验概率(更新前)和后验概率(更新后)的概念。
  3. 其核心公式为:P(A|B) = [P(A) * P(B|A)] / P(B)
  4. 贝叶斯定理在金融、电商、医疗等多个领域有广泛应用。
  5. 通过一个“户外派对天气决策”的实例,我们一步步演示了如何应用贝叶斯定理解决实际问题。

掌握贝叶斯定理,能帮助你在数据分析中更灵活、更动态地根据证据调整预测和判断。

019:贝叶斯定理的扩展版本 🧮

在本节课中,我们将学习贝叶斯定理的扩展版本,并了解如何利用它来评估测试的准确性。

你已经了解到,贝叶斯定理描述了如何根据事件的新数据来更新该事件的概率。但贝叶斯定理存在多个不同的版本。它们以不同的方式书写,并用于解决不同类型的问题。

上一节我们介绍了贝叶斯定理的基本形式,本节中我们来看看它的一个扩展版本。

扩展版贝叶斯定理公式 📝

贝叶斯定理的扩展版本公式较长。如果你不是经验丰富的统计学家,它可能看起来相当令人生畏。你无需担心记忆这个公式,重要的是了解在某些情况下,扩展版本比基本版本更适用。

该定理表述如下:

P(A|B) = [P(B|A) * P(A)] / [P(B|A) * P(A) + P(B|¬A) * P(¬A)]

你可以使用贝叶斯定理的两个版本来处理不同类型的问题。例如,有时你不知道事件B的概率,而事件B的概率是基本贝叶斯定理公式分母的一部分。在这种情况下,你可以使用贝叶斯定理的扩展版本,因为使用扩展版本时你不需要知道事件B的概率。

扩展定理的应用场景:测试评估 🔬

这个更长的贝叶斯定理版本通常用于评估测试,例如医学诊断测试、质量控制测试或软件测试(如垃圾邮件过滤器)。在评估测试的准确性时,贝叶斯定理可以考虑测试错误的概率,即假阳性和假阴性。

以下是相关概念的定义:

  • 假阳性:指测试结果表明某物存在,但实际上并不存在的结果。例如,垃圾邮件过滤器可能错误地将合法电子邮件识别为垃圾邮件。假阳性通常指医学测试,但也适用于软件测试等其他领域。例如,防病毒软件可能指示某个计算机文件是病毒,即使该文件是正常的。
  • 假阴性:指测试结果表明某物不存在,但实际上存在的结果。例如,垃圾邮件过滤器可能错误地将垃圾邮件识别为合法邮件。假阴性也适用于制造业中的各种测试。例如,质量控制测试可能错误地将有缺陷的部件识别为合格部件。

接下来,让我们通过一个详细的例子来探索如何使用扩展版贝叶斯定理来评估测试。

实例分析:花生过敏诊断测试 🥜

假设你想评估一项检查花生过敏存在的诊断测试的准确性。

已知条件如下:

  • 假设有1%的人口对花生过敏。
  • 根据历史数据,如果一个人过敏,测试呈阳性的概率为95%。
  • 如果一个人不过敏,测试仍有2%的概率呈阳性。这是一个假阳性,因为这是对实际不过敏的人得出的阳性结果。

你想知道的是:在一个人测试呈阳性的条件下,他实际上过敏的几率是多少?

你也可以从先验概率和后验概率的角度来思考这种情况。你从一个先验概率开始,即一个人过敏的概率为1%。然后,你将根据测试结果(真阳性和假阳性的概率)的新数据来更新这个先验概率。最终,你想找出在测试呈阳性的条件下过敏存在的后验概率。

这种情况涉及两个主要事件:

  1. 实际上过敏(事件A)。
  2. 测试呈阳性(事件B)。

请记住,这两个事件是不同的,因为你可能测试呈阳性但并不过敏,这就是假阳性。

现在,让我们回顾一下已知信息:

  • 一个人实际过敏的概率是1%。所以 P(A) = 1%
  • 如果一个人过敏,测试呈阳性的概率是95%。这是一个条件概率:在过敏存在的条件下测试呈阳性的概率。所以 P(B|A) = 95%
  • 假阳性结果:在过敏不存在的条件下测试呈阳性的概率是2%。这是另一个条件概率:P(B|¬A) = 2%
  • 最后,利用补集规则,你还可以计算出一个概率:不过敏的概率。补集规则指出,事件A不发生的概率等于1减去事件A发生的概率。所以,如果 P(A) = 1% 或 0.01,那么不过敏的概率 P(¬A) = 1 - 0.01 = 0.99 或 99%

这些是你已知的概率。你不知道的是事件B的概率,即一个人获得阳性测试结果的概率 P(B)。这正是你使用基本版贝叶斯定理会遇到困难的地方,因为事件B的概率是公式的一部分。相反,你可以使用扩展版本,因为该公式不需要知道事件B的概率。

代入公式计算 🧮

现在,你可以将已知信息代入扩展版贝叶斯定理公式:

  • P(A) = 0.01
  • P(¬A) = 0.99
  • P(B|A) = 0.95
  • P(B|¬A) = 0.02

计算过程如下:
P(A|B) = (0.95 * 0.01) / (0.95 * 0.01 + 0.02 * 0.99)
P(A|B) = 0.0095 / (0.0095 + 0.0198)
P(A|B) = 0.0095 / 0.0293
P(A|B) ≈ 0.324 或 32.4%

所以,P(A|B),即在测试呈阳性的条件下过敏存在的概率,约为 32.4%

如果32.4%这个数字看起来很低,那是因为过敏本身就很罕见。一个随机的人既测试呈阳性又真正过敏的可能性并不大。贝叶斯定理的扩展版本通过考虑多个概率,让你对测试的准确性有了更好的理解。

总结 📋

本节课中我们一起学习了贝叶斯定理的扩展版本。我们了解到,当缺乏事件B的直接概率时,可以使用这个扩展公式。我们通过一个花生过敏诊断测试的例子,演示了如何应用该公式计算后验概率,并理解了假阳性和假阴性在评估测试准确性中的重要性。扩展版贝叶斯定理为我们提供了一种更全面的工具,用于在现实世界的不确定性中做出更明智的判断。

020:《统计的力量》课程笔记 📊

课程概述

在本节课中,我们将要学习概率分布的核心概念。我们将探讨随机变量的两种类型,并学习如何用概率分布来描述随机事件的可能结果。理解这些基础知识对于后续学习更复杂的统计模型至关重要。


随机变量:离散与连续

上一节我们介绍了基础概率,本节中我们来看看概率分布的核心描述对象——随机变量。

随机变量代表随机事件可能结果的值。随机变量主要分为两种类型:离散型和连续型。

以下是两种随机变量的主要区别:

  • 离散型随机变量:拥有可数个可能值。通常,离散变量是可以计数的整数。

    • 例如,掷骰子五次,你可以数出数字“2”出现的次数。
    • 例如,抛硬币五次,你可以数出正面朝上的次数。
  • 连续型随机变量:在某个数字范围内取所有可能的值。连续变量处理的是小数值,而非整数。

    • 例如,1到2之间的所有小数值,如1.1、1.12、1.125等。这些值是不可数的,因为1和2之间可能存在的小数位数没有限制。
    • 通常,这些是可以测量的十进制值,如身高、体重、时间或温度。例如,测量一个人的身高,你可以不断提高测量精度:70.2英寸、70.23英寸、70.237英寸等。可能值的数量是无限的。

为了帮助区分这两种类型,你可以使用以下通用准则:

  • 如果可以计数结果的数量,你处理的是离散型随机变量。例如,计数硬币正面朝上的次数。
  • 如果可以测量结果,你处理的是连续型随机变量。例如,测量一个人跑完马拉松所需的时间。

概率分布简介

现在我们已经探讨了随机变量,让我们回到概率分布的主题,它描述了随机变量每个可能值的概率。

离散分布代表离散型随机变量,连续分布代表连续型随机变量。一旦知道了随机变量的样本空间,你就可以为每个可能值分配概率。

在统计学中,你可以使用术语“样本空间”来描述随机变量所有可能值的集合。

  • 例如,单次抛硬币是一个具有两个可能值的随机变量:正面和反面。所以样本空间是 {正面, 反面}。
  • 例如,掷一个六面骰子,你有一个具有六个可能值的随机变量,样本空间为 {1, 2, 3, 4, 5, 6}。

离散概率分布示例

让我们看一个离散概率分布的例子。以熟悉的随机事件——单次掷骰子为例。

单次掷骰子的样本空间是 {1, 2, 3, 4, 5, 6}。每个结果的概率相同,都是六分之一,或约16.7%。

你可以将离散概率分布显示为表格或图形。

分布表总结了每个可能结果的概率。顶行列出了骰子掷出的每个结果,底行列出了相应的概率。

条形图(或直方图)以不同的形式显示了相同的概率分布。对于离散概率分布,随机变量沿x轴绘制,相应的概率沿y轴绘制。

在本例中,x轴代表单次掷骰子的每个可能结果(1到6),y轴代表每个结果的概率。


连续概率分布

连续概率分布及其图形的工作方式与离散分布略有不同。这是由于离散型和连续型随机变量之间的差异造成的。

离散型随机变量的概率分布可以告诉你变量每个可能值的精确概率。例如,掷骰子得到3的概率是六分之一,约16.7%。

连续型随机变量的概率分布只能告诉你变量取某个值范围的概率。

让我们看一个例子来了解更多。连续型随机变量可能具有无限数量的可能值。

假设你想测量从附近森林中随机挑选的一棵橡树的高度。在这个例子中,树的高度是一个连续型随机变量。树的高度可能是,比如说,15英尺,或15.2英尺,或15.2187英尺,等等。你可以无限地继续为测量值添加另一个小数位。

现在,假设你想知道橡树的高度恰好是15.2英尺的概率。因为树的高度可以是15英尺到16英尺之间范围内的任何小数值,所以树的高度恰好是任何一个特定值的概率基本上为零。

在这个例子中,你需要使用连续概率分布来告诉你橡树高度在某个范围或区间内的概率,例如在15英尺到16英尺之间。任何特定值的概率为0,因此只讨论区间的概率才有意义。

在图表上用曲线显示值范围或区间的概率是一种便捷的方式。连续分布表现为曲线。你可能听说过钟形曲线,它指的是称为正态分布的连续分布的图形。

在曲线上,x轴代表你正在测量的变量值(本例中是橡树高度),y轴代表称为概率密度的东西。这是一个处理区间值的数学函数。你现在不需要专注于数学细节,只需知道概率密度与概率不是一回事。


课程总结

本节课中我们一起学习了概率分布的基础知识。我们定义了随机变量,区分了离散型与连续型随机变量,并通过掷骰子和测量树高的例子,了解了两种类型概率分布的表现形式及其核心差异。概率分布是建模和分析数据模式的强大工具,掌握这些概念是理解更高级统计方法的关键。

关于概率分布以及它们如何帮助你建模不同类型的数据,还有很多需要学习。这些主题比较复杂,所以欢迎你随时重看视频以巩固这部分内容。

021:二项分布 📊

概述

在本节课中,我们将要学习一种在数据分析中极为重要的离散概率分布——二项分布。二项分布专门用于描述只有两种可能结果(例如成功或失败)的重复性独立事件。掌握它,能帮助我们更好地理解和预测现实世界中许多二元决策事件的结果。


从离散分布到二项分布

上一节我们介绍了离散概率分布,它用于描述像抛硬币或掷骰子这类结果是可数的随机事件。例如,抛10次硬币得到正面的次数。

本节中,我们来看看其中最常用的一种离散分布:二项分布。二项分布是一种离散分布,它专门为那些只有两种可能结果(成功或失败)的事件建模。该定义基于两个核心假设:每个事件是独立的(即一个事件的结果不影响其他事件的概率),并且每次试验的成功概率是相同的。

例如,连续抛同一枚硬币10次就符合二项分布的条件。请注意,“成功”和“失败”只是为了分析方便而贴的标签。在抛硬币的例子中,结果只有正面或反面。你可以根据分析需要,将其中任意一个结果定义为“成功”。无论你如何定义,关键是要知道这两个结果必须是互斥的。

作为快速回顾,如果两个结果不能同时发生,它们就是互斥的。在一次抛硬币中,你不可能同时得到正面和反面,只能是其中之一。


二项分布的应用领域

数据专家在不同领域使用二项分布来建模数据,例如医学、银行、投资和机器学习。

以下是几个具体应用场景:

  • 在医学中,用于模拟新药产生副作用的概率。
  • 在金融风控中,用于判断一笔信用卡交易是否为欺诈。
  • 在投资中,用于模拟股票价格上涨或下跌的概率。
  • 在机器学习中,二项分布常用于数据分类。例如,数据专家可以训练一个算法来判断一张动物的数字图片是否是猫。

认识二项实验

二项分布所代表的随机事件类型被称为二项实验

二项实验是一种随机实验。你可能还记得,随机实验是一个其结果无法被确定预测的过程。所有随机实验都有三个共同点:实验可以有多个可能结果;每个可能结果都可以预先表示;实验结果取决于机会。

而一个二项实验则具有以下特定属性:

  • 实验由一系列重复的试验组成。
  • 每次试验只有两种可能的结果。
  • 每次试验的成功概率相同。
  • 每次试验都是独立的。

让我们用一个例子来理解这些属性。连续抛硬币10次就是一个二项实验,因为它具备以下特征:

  • 实验由10次重复试验(即抛掷)组成。
  • 每次试验只有两种结果:正面或反面。
  • 每次试验的成功概率相同。如果你定义“成功”为正面,那么每次抛掷的成功概率都是相同的50%。
  • 每次试验是独立的。一次抛掷的结果不会影响任何其他抛掷的结果。

另一个二项实验的例子

让我们看看另一个例子,以巩固理解。假设你想知道某一天有多少顾客向百货商店退货。

假设每天有100名顾客光顾商店,并且所有顾客中有10%会退货。你将“退货”标记为“成功”。这是一个二项实验,原因如下:

  • 有100次重复试验(即顾客访问)。
  • 每次试验只有两种可能结果:退货或不退货。
  • 每次试验的成功概率相同。如果将退货视为成功,那么每位顾客访问的成功概率都是相同的10%。
  • 每次试验是独立的。一位顾客的访问结果不会影响其他任何顾客的访问结果。

理解二项实验的特征至关重要,因为二项分布只能为这类事件的数据建模。如果你处理的是不同类型事件的数据,就需要使用其他类型的概率分布(例如泊松分布)来建模。


二项分布公式与计算

一旦你确定你的数据分布是二项的,就可以应用二项分布公式来计算概率。你无需记忆公式,可以用计算机进行计算。如果你想深入了解,可以查阅相关阅读材料。

简而言之,二项分布公式帮助你确定在特定次数的试验中,获得特定次数成功结果的概率。例如,在特定次数的抛硬币中得到特定次数正面的概率。

公式如下:
P(X = k) = C(n, k) * p^k * (1-p)^(n-k)

在这个公式中:

  • k 指成功的次数。
  • n 指试验的总次数。
  • p 指单次试验的成功概率。
  • C(n, k)(也写作 n choose k)指在 n 次试验中获得 k 次成功有多少种不同的组合方式。

实例解析:商店退货概率

让我们用商店的例子来更好地理解公式如何工作。这次,假设所有顾客中有10%会退货,并且有三位顾客访问了商店。你仍将退货标记为成功。

你可以使用公式来确定在这三位顾客中,获得0、1、2和3次退货的概率。在计算中,x 指退货的次数。

我们跳过计算步骤,直接看结果:

  • x = 0(0次退货)的概率是 0.729
  • x = 1(1次退货)的概率是 0.243
  • x = 2(2次退货)的概率是 0.027
  • x = 3(3次退货)的概率是 0.001

可视化二项分布

然后,你可以使用直方图来可视化这个概率分布。对于像二项分布这样的离散概率分布,随机变量(这里是退货次数)绘制在x轴上,对应的概率绘制在y轴上。

在本例中,x轴显示每小时退货次数:0、1、2、3。y轴显示获得该结果的概率。


总结

本节课中,我们一起学习了二项分布。二项分布让你能够为只有两种可能结果(成功或失败)的事件建模概率。识别数据的分布是任何分析中的关键一步,它能帮助你基于数据对未来结果做出更明智的预测。

022:泊松分布 📊

在本节课中,我们将要学习泊松分布。泊松分布是一种重要的离散概率分布,它用于描述在固定时间或空间内,事件发生次数的概率。掌握泊松分布能帮助我们更好地理解和预测现实世界中的随机事件,例如网站访问量、客服电话数量等。


概率分布的重要性

作为数据专业人士,了解概率分布非常有用,因为不同类型的分布能帮助你为不同类型的数据建模。

每次处理新数据集时,我都会尝试理解数据分布中是否存在某种模式。

了解数据的概率分布也有助于我选择效果最佳的机器学习模型。

这样,我就能在更短的时间内获得更好的结果。

数据专业人士会用到许多不同类型的概率分布。

随着你在职业生涯中不断进步和学习,你可以探索不同的分布,并发现它们如何应用于你的工作。


离散概率分布:二项分布与泊松分布

在本课程的这个部分,我们将重点介绍两种最常见的离散概率分布:二项分布和泊松分布。

上一节我们介绍了二项分布,它描述了每次试验只有两种可能结果(成功或失败)的重复实验。

本节中,我们来看看泊松分布的主要特征。

泊松分布是一种概率分布,它模拟在特定时间段内发生一定数量事件的概率。

泊松分布也可用于表示在特定空间(如距离、面积或体积)内发生的事件数量。但在本课程中,我们将重点关注时间。


泊松分布的起源与应用

泊松分布最初由法国数学家西莫恩·德尼·泊松于1830年推导出来。他开发这个分布是为了描述赌徒在大量尝试中赢得一个困难机会游戏的次数。

数据专业人士使用泊松分布来为以下类型的数据建模:

  • 客服呼叫中心每小时预期的电话数量。
  • 网站每小时的访问者数量。
  • 餐厅每天的顾客数量。
  • 城市每月发生的严重风暴次数。

泊松实验的特征

泊松分布代表一种称为泊松实验的随机实验。泊松实验具有以下属性:

以下是泊松实验的三个关键属性:

  1. 实验中的事件数量是可数的。
  2. 已知在特定时间段内发生的平均事件数。
  3. 每个事件都是独立的。

让我们探索一个例子。

假设你是一名数据专业人士,为一家大型快餐连锁店工作。

你知道一家餐厅的得来速服务平均每分钟收到两份订单。

你想确定餐厅在给定一分钟内收到特定数量订单的概率。

这是一个泊松实验,因为:

  • 实验中的事件数量是可数的:你可以计算订单数量。
  • 已知在特定时间段内发生的平均事件数:平均每分钟两份订单。
  • 每个结果都是独立的:一个人下单的概率不影响另一个人下单的概率。

泊松分布公式

一旦确定你正在处理泊松分布,就可以应用泊松分布公式来计算概率。

简而言之,该公式帮助你确定在特定时间段内发生一定数量事件的概率。

泊松概率质量函数公式为:
P(X = k) = (λ^k * e^(-λ)) / k!

在这个公式中:

  • λ 是希腊字母 Lambda,指在特定时间段内发生的平均事件数。
  • k 指事件的数量。
  • e 是一个常数,约等于 2.71828
  • ! 代表阶乘。这是一个函数,将一个数乘以它以下的所有正整数直到1。例如,2! = 2 * 1

公式应用示例

让我们继续使用我们的连锁餐厅例子,以更好地理解公式的工作原理。

回顾一下,餐厅的得来速服务平均每分钟收到两份订单。你可以使用泊松公式来确定餐厅在给定一分钟内收到0、1、2或3份订单的概率。

了解这些信息可能有助于餐厅为得来速服务安排人员配置。

我将跳过计算过程,直接给出结果:

  • X = 0 份订单时,概率 P ≈ 0.1353
  • X = 1 份订单时,概率 P ≈ 0.2707
  • X = 2 份订单时,概率 P ≈ 0.2707
  • X = 3 份订单时,概率 P ≈ 0.1805

然后,你可以使用直方图来可视化概率分布。

  • X轴显示事件数量,本例中是每分钟订单数。
  • Y轴显示发生概率。

例如:

  • 一分钟内收到零份订单的概率约为 0.135313.53%
  • 收到一份订单的概率是 0.270727.07%
  • 收到两份订单的概率也是 0.270727.07%
  • 收到三份订单的概率是 0.180518.05%

二项分布与泊松分布的比较

在结束之前,让我们比较一下你最近学到的两种离散概率分布:二项分布和泊松分布。

有时,弄清楚应该使用二项分布还是泊松分布可能具有挑战性。为了帮助你在两者之间做出选择,你可以使用以下一般准则:

以下是选择分布类型的关键依据:

  • 使用泊松分布:如果你已知事件在特定时间段内的平均发生概率,并且你想找出在该时间段内发生一定数量事件的概率。
    • 例如:如果一个呼叫中心平均每小时接到10个客服电话,你可以使用泊松分布来找出在下午2点到3点之间接到12个电话的概率。
  • 使用二项分布:如果你已知事件发生的确切概率,并且你想找出该事件在重复试验中发生一定次数的概率。
    • 例如:如果任何一次抛硬币得到正面的概率是50%,你可以使用二项分布来找出在10次抛硬币中得到8次正面的概率。

总结

本节课中,我们一起学习了泊松分布。我们了解了它的定义、起源、应用场景以及核心公式 P(X = k) = (λ^k * e^(-λ)) / k!。通过餐厅订单的例子,我们看到了如何计算和解释泊松概率。最后,我们比较了泊松分布与二项分布,明确了它们各自的使用场景。

在你未来作为数据专业人士的职业生涯中,你将使用像二项分布和泊松分布这样的离散分布来更好地理解你的数据,并对未来结果做出明智的预测。

023:正态分布 📊

在本节课中,我们将学习统计学中最重要的概率分布之一:正态分布。我们将从离散分布过渡到连续分布,详细介绍正态分布的特征、图形表示以及其核心应用——经验法则。通过具体的例子,你将理解如何在实际数据分析中运用正态分布。


从离散分布到连续分布

上一节我们讨论了离散概率分布,其结果是可数的整数,例如掷骰子的点数。本节中,我们来看看连续概率分布。

连续概率分布处理的结果可以在一个数字范围内取任意值,通常是可测量的十进制数值,如身高、体重、时间或温度。例如,时间可以不断被更精确地测量:1.1秒、1.12秒、1.1257秒等。

在本视频中,我们将探讨统计学中应用最广泛的概率分布:正态分布。


什么是正态分布?🔔

正态分布是一种连续概率分布,它在均值两侧对称,呈钟形。

正态分布常被称为“钟形曲线”,因为其图形中心有一个峰值,两侧向下倾斜。它也被称为高斯分布,以德国数学家卡尔·高斯命名,他首次描述了该分布的公式。

如果你想了解更多关于这个公式的细节,请查阅相关阅读材料。

正态分布是统计学中最常见的概率分布,因为许多不同类型的数据集都呈现出钟形曲线。例如,如果你随机抽样100人,对于身高、体重、血压、智商分数、薪资等连续变量,你都会发现正态分布曲线。

以标准化考试成绩为例。大多数人的分数接近平均分或均值。分数低于或高于平均分的人数较少,且离均值越远,人数越少。分数极高或极低、远离均值的人只占很小比例。这种分数分布就形成了钟形曲线。

大多数数据值相对接近均值。一个值离均值越远,在正态曲线上出现的可能性就越低。X轴代表你测量的变量值,Y轴代表你观察到该值的可能性。在考试成绩的例子中,X轴是原始分数,Y轴是获得该分数的人口百分比。

数据专业人士使用正态分布来模拟商业、科学、政府、机器学习等领域的各种数据集。理解正态分布对于更高级的统计方法(如假设检验和回归分析)也很重要,这些你将在后续课程中学习。此外,许多机器学习算法都假设数据是正态分布的。


正态分布的特征

所有正态分布都具有以下特征:

  • 形状呈钟形曲线。
  • 均值位于曲线的中心。
  • 曲线在中心两侧对称。
  • 曲线下的总面积等于1。

为了阐明正态分布的特征,让我们绘制蜜脆苹果重量的图表。假设蜜脆苹果的重量近似服从正态分布,均值为100克,标准差为15克。

首先,在曲线中心找到均值。这也是曲线的最高点或峰值。这个数据点代表了数据集中最可能的结果:平均重量100克。

其次,注意曲线在均值两侧对称。50%的数据在均值以上,50%在均值以下。

第三,一个点离均值越远,这些结果出现的概率就越低。离均值最远的点代表了数据集中最不可能出现的结果,即重量极低或极高的苹果。

最后,曲线下的面积等于1。这意味着曲线下的面积占分布中所有可能结果的100%。


标准差与正态分布

在正态分布上,数据点与均值的距离通常用标准差来衡量。回顾一下,标准差计算的是数据点与数据均值的典型距离。均值代表数据的中心,而标准差衡量的是数据的离散程度。标准差越大,数据值相对于均值就越分散。

在我们的苹果例子中,平均重量是100克,标准差是15克。

  • 一个位于均值以上一个标准差的苹果重115克(即100克 + 15克)。
  • 一个位于均值以下一个标准差的苹果重85克(即100克 - 15克)。
  • 一个位于均值以上两个标准差的苹果重130克。
  • 一个位于均值以下两个标准差的苹果重70克。

经验法则 📏

正态曲线上的值根据其与均值的距离以规则模式分布。这被称为经验法则。

它指出,对于一个给定的正态分布数据集:

  • 68% 的值落在均值的一个标准差范围内。
  • 95% 的值落在均值的两个标准差范围内。
  • 99.7% 的值落在均值的三个标准差范围内。

经验法则可以让你清楚地了解数据集中值的分布情况,这有助于你节省时间并更好地理解数据。

让我们继续苹果的例子。经验法则告诉你,大多数苹果(68%)的重量会落在平均重量100克的一个标准差范围内。这意味着68%的苹果重量在85克(均值以下一个标准差)到115克(均值以上一个标准差)之间。

95%的苹果重量在70克到130克之间,即在均值的两个标准差范围内。

几乎所有的苹果(99.7%)重量在55克到145克之间,即在均值的三个标准差范围内。


经验法则的应用

经验法则对于估计数据非常有用,特别是对于像整个人口的身高和体重这样的大型数据集。你可以使用经验法则来初步估计数据集中值的分布,例如有多少百分比的值会落在均值1个、2个或3个标准差范围内。这可以节省时间并帮助你更好地理解数据。

此外,了解值在正态分布上的位置对于检测异常值很有用。回顾一下,异常值是与其余数据显著不同的值。通常,数据专业人士认为位于均值三个标准差以上或以下的值是异常值。识别异常值很重要,因为一些极端值可能是由于数据收集或数据处理中的错误造成的,这些错误值可能会扭曲你的分析结果。

让我们探索另一个例子,看看经验法则如何帮助你更好地理解数据。

假设你有一个花园,植物的高度服从正态分布,均值为32.1英寸,标准差为2.2英寸。假设你想找出高度大于29.9英寸的植物占多少百分比,因为你希望植物至少有这么高,作为你后院景观设计计划的一部分。

首先,找出值29.9在分布上的位置。29.9位于均值以下一个标准差处。

经验法则告诉你,68%的值落在均值的一个标准差范围内。这些值中的一半(34%)落在均值以下。

现在,你知道有34%的值在29.9和均值之间,因为29.9是均值以下一个标准差。此外,在正态分布中,所有值的50%落在均值或曲线中心以上。

这两个百分比之和将告诉你大于29.9的值的总百分比。34%加上50%等于84%,所以你的植物中有84%高于29.9英寸。

经验法则帮助你快速理解数据值的整体分布。现在,你知道你的大多数植物都足够高,符合你的景观设计计划。


总结

本节课中,我们一起学习了统计学中的核心概念——正态分布。我们从离散与连续分布的区别入手,详细介绍了正态分布的钟形特征、对称性以及均值与标准差的作用。我们重点探讨了经验法则,它描述了数据在正态分布中围绕均值的分布规律(68-95-99.7规则),并通过苹果重量和植物高度的例子演示了如何应用该法则来估算数据比例和识别异常值。作为未来的数据专业人士,掌握正态分布将帮助你识别各种数据集中的重要模式,并为学习更高级的统计和机器学习方法奠定坚实基础。

024:使用Z分数标准化数据 📊

在本节课中,我们将要学习Z分数的概念及其应用。Z分数是一种统计工具,它能帮助我们比较来自不同类型正态分布数据集中的数值。通过标准化数据,我们可以消除不同数据集之间单位、均值和标准差的差异,从而进行有意义的比较。

正态分布与Z分数简介

上一节我们介绍了正态分布及其在多种数据集中的应用。本节中,我们来看看Z分数,以及它如何帮助我们比较不同类型正态分布数据集中的数值。

Z分数衡量的是一个数据点距离总体均值有多少个标准差。它可以帮助我们了解数据点与均值的偏离程度。

  • 如果数值等于均值,则Z分数为 0
  • 如果数值大于均值,则Z分数为正数
  • 如果数值小于均值,则Z分数为负数

标准化的意义

Z分数有助于标准化数据。在统计学中,标准化是将不同变量置于同一尺度上的过程。我们稍后会查看其计算公式。

Z分数也被称为标准分数,因为它基于所谓的标准正态分布。标准正态分布是一个均值为 0、标准差为 1 的正态分布。Z分数的范围通常在 -33 之间。

标准化非常有用,因为它允许你比较来自不同数据集的分数,这些数据集可能具有不同的单位、均值和标准差。

Z分数的应用场景

数据专业人员使用Z分数来更好地理解单个数据集内以及不同数据集之间数据值的关系。

以下是Z分数的一个主要应用领域:

  • 异常检测:用于发现数据集中的异常值。异常检测的应用包括发现金融交易中的欺诈、制造产品中的缺陷、计算机网络中的入侵等。

为了说明其比较价值,假设有三个不同的客户满意度调查,它们使用不同的评分标准:

  • 调查A的评分范围为 1 到 20
  • 调查B的评分范围为 500 到 1500
  • 调查C的评分范围为 130 到 180

如果同一产品在调查A中得分为 9,在调查B中得分为 850,在调查C中得分为 142,这些数字本身意义不大。但如果你知道它们的Z分数都是 1(即高于均值一个标准差),你就可以有意义地比较不同调查的评分了。

如何解读Z分数

一个数值的Z分数可以按以下方式解读:

  • Z分数为 1,表示该数值高于均值1个标准差
  • Z分数为 1.5,表示该数值高于均值1.5个标准差
  • Z分数为 -2.3,表示该数值低于均值2.3个标准差

计算Z分数

你可以使用以下公式计算Z分数:

z = (x - μ) / σ

在这个公式中:

  • x 代表单个数据值或原始分数。
  • μ(希腊字母 mu)代表总体均值。
  • σ(希腊字母 sigma)代表总体标准差。

因此,我们也可以说:z = (原始分数 - 均值) / 标准差

示例一:标准化测试

假设你参加了一项标准化测试,你的成绩是 133。该测试的平均分是 100,标准差是 15。假设成绩呈正态分布,你可以使用公式计算你的Z分数。

你的Z分数 = (原始分数 133 - 平均分 100) / 标准差 15 = (33) / 15 = 2.2

Z分数为 2.2 表明你的测试成绩比平均分高出 2.2个标准差。这是一个非常好的成绩。回想一下经验法则,95%的数值落在均值两侧两个标准差之内。你的成绩 2.2 超过了均值以上两个标准差。

示例二:课堂考试

现在来看一个不同评分标准的考试。假设你得了 85 分,你想知道相对于班上其他同学,这是否是一个好成绩。它是否是好成绩取决于所有考试成绩的均值和标准差。

假设考试成绩呈正态分布,平均分为 90,标准差为 4。你可以计算原始分数 85 的Z分数。

你的Z分数 = (原始分数 85 - 平均分 90) / 标准差 4 = (-5) / 4 = -1.25

Z分数为 -1.25 表明你的考试成绩 85 分比平均分低 1.25个标准差

总结与展望

本节课中,我们一起学习了Z分数的核心概念、计算公式及其在数据比较和异常检测中的应用。Z分数通过标准化,为我们提供了一种衡量单个数值在分布中相对位置的强大工具。

作为数据专业人员,你将使用Z分数来更好地理解数据集中特定值之间的关系。在实际工作中,你很可能会使用像Python这样的编程语言在计算机上计算Z分数,这将在后续视频中学习。

025:在Python中使用概率分布 📊

概述

在本节课中,我们将学习如何使用Python对数据进行概率分布建模。我们将重点探讨正态分布,并学习如何计算Z分数来识别数据中的异常值。通过本教程,你将掌握利用Python进行数据分布分析和异常值检测的基本技能。

准备工作与库导入

上一节我们介绍了数据分析的基本流程。本节中,我们来看看如何用Python实现具体的分布分析。

首先,我们需要导入必要的Python库。这些库将帮助我们进行数据处理、统计计算和可视化。

以下是需要导入的库及其常用缩写:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from scipy import stats
  • NumPy (np): 用于数值计算。
  • Pandas (pd): 用于数据处理和分析。
  • Matplotlib.pyplot (plt): 用于数据可视化。
  • Statsmodels (sm): 用于探索数据和执行统计检验。
  • Scipy.stats (stats): SciPy库中的统计模块,提供丰富的统计函数。

探索数据分布:绘制直方图

在尝试用概率分布建模数据之前,第一步是可视化数据的形状。这有助于我们判断数据是否近似于某种已知的分布。

我们将使用Matplotlib的直方图功能来可视化地区识字率数据的分布。假设我们的数据存储在名为df的Pandas DataFrame中,且识字率数据位于overall_LI列。

plt.hist(df['overall_LI'], bins=30, edgecolor='black')
plt.xlabel('Literacy Rate (%)')
plt.ylabel('Number of Districts')
plt.title('Distribution of District Literacy Rates')
plt.show()

生成的直方图显示,识字率数据的分布呈钟形,并且关于均值对称。正态分布正是一种连续的概率分布,其形状为钟形且关于均值对称。图中均值(约73%)位于中心位置。因此,正态分布可能是建模此数据的合适选择。

验证正态性:经验法则

为了验证数据是否服从正态分布,我们可以使用Python来检查数据是否符合经验法则。

经验法则指出,对于任何正态分布:

  • 约68%的值落在均值的一个标准差范围内。
  • 约95%的值落在均值的两个标准差范围内。
  • 约99.7%的值落在均值的三个标准差范围内。

首先,我们计算数据的均值和标准差。

mean_overall_LI = df['overall_LI'].mean()
std_overall_LI = df['overall_LI'].std()
print(f"Mean Literacy Rate: {mean_overall_LI:.2f}%")
print(f"Standard Deviation: {std_overall_LI:.2f}%")

假设计算得到均值约为73.4%,标准差约为10%。如果数据服从正态分布,我们预期大约68%的值会落在63%(73 - 10)到83%(73 + 10)的区间内。

现在,我们计算实际落在该区间内的数据比例。

lower_limit = mean_overall_LI - 1 * std_overall_LI
upper_limit = mean_overall_LI + 1 * std_overall_LI

within_one_std = ((df['overall_LI'] >= lower_limit) & (df['overall_LI'] <= upper_limit)).mean()
print(f"Percentage within one standard deviation: {within_one_std:.3f} or {within_one_std*100:.1f}%")

输出显示,约有66.4%的地区识字率落在均值的一个标准差范围内,这与经验法则预测的68%非常接近。

我们可以使用相同的代码结构,通过修改标准差的倍数(2或3),来计算落在两个和三个标准差范围内的数据比例。结果可能显示,约有95.4%的值落在两个标准差内,99.6%的值落在三个标准差内。这些值(66.4%, 95.4%, 99.6%)与经验法则的预测(68%, 95%, 99.7%)高度吻合。至此,我们可以有把握地说,该数据服从正态分布。

应用:使用Z分数识别异常值

了解数据服从正态分布对分析非常有用,因为许多统计检验和机器学习模型都假设数据服从正态分布。此外,当数据服从正态分布时,我们可以使用Z分数来衡量值的相对位置并找出异常值。

Z分数表示一个数据点低于或高于总体均值多少个标准差。它有助于我们理解一个值在分布中的位置。例如,仅知道识字率为80%信息有限,但如果知道其Z分数为2,我们就知道该值高于均值两个标准差。

数据专业人员常使用Z分数进行异常值检测。通常,他们将Z分数小于-3或大于3的观测值视为异常值,即那些落在均值三个标准差之外的值。

首先,我们在数据集中创建一个新列Z_score,用于存储每个地区识字率的Z分数。

df['Z_score'] = stats.zscore(df['overall_LI'])

Python的stats.zscore函数会自动完成所有计算。接下来,我们编写代码来识别异常值,即Z分数绝对值大于3的地区。

outliers = df[(df['Z_score'] > 3) | (df['Z_score'] < -3)]
print(outliers[['district_id', 'overall_LI', 'Z_score']])

通过Z分数分析,我们可能识别出两个异常地区,例如地区461和地区429。这两个地区的识字率低于总体均值超过三个标准差,意味着它们的识字率异常低。这一分析结果提供了重要信息,政府或许希望向这两个地区提供更多资金和资源,以期显著提高识字率。

总结

本节课中,我们一起学习了如何在Python中使用概率分布对数据进行建模。我们首先通过绘制直方图来探索数据形状,然后利用经验法则验证数据是否服从正态分布。最后,我们应用Z分数来识别数据中的异常值。概率分布对于数据建模至关重要,并能帮助我们决定在分析中使用何种统计检验。除了正态分布,Python还能帮助我们处理各种广泛的概率分布。

026:《统计的力量》课程总结 🎯

在本节课中,我们将对概率论部分的学习内容进行总结。我们回顾了概率的基本概念、规则、概率分布及其在数据科学中的应用。


概率论的核心概念与应用

你已经完成了概率论的入门学习。你学到了许多重要的概念。做得很好。

在这一过程中,我们探讨了数据专业人员如何利用概率对不确定事件做出合理预测,并帮助个人和组织做出数据驱动的决策。

基础概率是数据科学的基石,它也为更高级的统计方法(如假设检验和回归分析)提供了基础,这些内容你将在后续课程中探索。

在你的数据专业职业生涯中,你将使用概率分布来发现数据中的重要模式。此外,掌握概率分布的知识对于机器学习至关重要,而机器学习是现代数据科学的核心工具。


概率的类型与基本规则

我们首先回顾了两种主要的概率类型:客观概率主观概率。数据专业人员使用客观概率来分析和解释数据。

接着,我们回顾了概率的基本规则,例如补集规则加法规则乘法规则


条件概率与贝叶斯定理

然后,你学习了条件概率,它帮助你更好地理解相关事件之间的关系。

我们还讨论了贝叶斯定理,它可以根据事件的新数据来更新该事件的概率。


从基础概率到概率分布

之后,我们从基础概率过渡到概率分布。概率分布用于描述随机事件可能结果的可能性,可以是离散的连续的。数据专业人员使用概率分布来在复杂数据集中发现有意义的模式。


离散概率分布

接下来,我们探讨了离散概率分布,例如二项分布泊松分布,并发现了它们如何帮助你为不同类型的数据建模。


连续概率分布

然后,我们转向连续概率分布。我们重点介绍了正态分布(或称钟形曲线),这是统计学中使用最广泛的分布。我们还讨论了Z分数如何帮助你更好地理解数值与标准正态分布之间的关系。


实用工具:SciPy Stats 模块

最后,你了解到 SciPy Stats 模块 是处理概率分布的一个强大工具。

你使用正态分布为数据建模并获得有用的见解。


后续安排与复习建议

接下来,你将准备一个分级评估。请查看列出了所有新术语的阅读材料。

在下次见面之前,欢迎随时重温涵盖关键概念的视频阅读材料和其他资源。祝你好运。


总结

本节课中,我们一起学习了概率论的基础知识,包括概率的类型、基本规则、条件概率、贝叶斯定理,以及离散和连续概率分布。我们还了解了这些概念在数据科学和机器学习中的实际应用,并介绍了 SciPy Stats 这一实用工具。掌握这些内容将为你的数据分析之旅奠定坚实的基础。

027:模块三导论 🎯

在本节课中,我们将开启模块三的学习,重点探讨抽样的概念、过程、方法及其在数据分析中的核心作用。我们将学习如何从总体中选取样本,并利用样本数据对总体进行推断。


回顾与展望 📈

上一模块中,我们学习了描述性统计和基础概率,掌握了描述、分析和解读数据的基本方法。这些知识是通向假设检验、回归分析等更高级统计方法的基石。

统计学的学习是一个持续的旅程,尤其对于数据专业人士而言。随着全球数据量的不断增长和数据领域的快速发展,持续学习新的机器学习方法和技能至关重要。

引入抽样概念 🔍

本节中,我们来看看数据分析的下一阶段:抽样。抽样是指从总体中选取一个数据子集的过程。

例如,若想调查一个10万人的总体,你可以选取一个100人的代表性样本。随后,你可以基于样本数据对总体得出结论。

在统计学中,总体可以指任何类型的数据,包括人、物体、事件、测量值等。

本模块学习路径 🗺️

以下是本模块我们将要学习的主要内容:

  1. 推断统计学回顾与代表性样本:首先回顾推断统计,并审视代表性样本的概念。
  2. 抽样过程阶段:详细讲解从选择目标总体到为样本收集数据的各个阶段。
  3. 抽样方法类型:探讨两种主要的抽样方法:概率抽样非概率抽样
  4. 方法的优缺点与随机抽样:讨论各种抽样方法的利弊,并阐述随机抽样如何帮助确保样本对总体具有代表性。
  5. 抽样偏差:介绍不同形式的抽样偏差,如覆盖不足和无应答偏差,及其对非概率抽样方法的影响。
  6. 抽样分布:探索样本统计量的概率分布,即抽样分布。我们将学习样本均值和比例的抽样分布,以及如何估计总体的相应值。
  7. 中心极限定理:涵盖中心极限定理及其如何帮助估计不同类型数据集的总体均值。
  8. Python实践:最后,学习如何使用Python的scipy.stats模块处理抽样分布,并对总体均值进行点估计。

总结 ✨

本节课中,我们一起预览了模块三的核心内容——抽样。我们了解到抽样是连接样本与总体的桥梁,是进行统计推断的关键步骤。掌握不同的抽样方法、理解潜在的偏差,并学会利用抽样分布和中心极限定理进行估计,对于做出准确的数据驱动决策至关重要。

准备好后,我们将在下一个视频中深入探讨这些主题。

028:重视每个人的贡献 👥

在本节课中,我们将学习谷歌员工规划与人力分析负责人Cliff分享的工作方法。他将介绍如何通过数据驱动决策,并强调团队合作与有效沟通在解决复杂问题中的核心作用。


我叫Cliff,是谷歌的员工规划与人力分析负责人。我利用数据帮助员工提高工作效率、增强联系,并整体改善他们的福祉。我也使用数据来改进我们的人力资源实践,重点关注混合办公政策以及办公地点策略。

我一直对员工发展、人才战略和人力资源问题感兴趣。但我没有预料到数据分析会在我的工作中扮演如此核心的角色,也没想到自己会如此热爱它。

在这个领域,帮助我建立自信的一个关键认识是:我们是在团队中跨职能工作的。我不需要为问题提供所有解决方案。我会带来关于如何利用数据解决问题的视角,但同时,与我合作的同事也带来了丰富的技能。我将此视为一种伙伴关系,关键在于发挥团队中每个人的最大优势。这种认识为我的工作带来了极大的信心。


上一节我们了解了Cliff的背景和工作理念,本节中我们来看看他与合作伙伴沟通的具体策略。

在与合作伙伴沟通时,我的首选策略是首先安排几次非正式的会议,以了解他们更广泛的业务目标。我甚至不会考虑我们正在合作的具体项目,而是更广泛地思考他们如何定义成功。这帮助我理解我们所做的工作如何融入他们更大的蓝图背景中。

从沟通的角度,我做的第二件事是尝试复述我认为我听到的内容。无论是复述我对他们问题的理解,还是他们希望从数据中看到的产出,都是为了测试我是否真正理解了他们的目标。


当我们探讨了初步沟通策略后,接下来看看如何深入挖掘问题的核心。

当我与某人合作,并感觉我们没有触及问题或疑问的根源时,我发现一个非常有用的方法是:从数据的角度,为他们列出一系列不同的选项或可能性,并围绕哪些选项真正能引起他们的共鸣展开对话。

因此,这是在倾听与引导之间找到平衡,作为一种方式来激发他们自己可能未曾想到的想法。


本节课中我们一起学习了Cliff在数据分析工作中强调团队合作与有效沟通的方法。核心要点包括:认识到团队协作的价值、通过初步会议理解业务全局、通过复述确认理解,以及在遇到瓶颈时通过提供数据选项来引导对话、激发新思路。这些策略共同强调了重视每个人的贡献是成功进行数据驱动决策的关键。

029:抽样介绍 📊

在本节课中,我们将要学习抽样的基本概念及其在数据科学中的重要性。我们将探讨描述性统计与推断性统计的区别,并深入理解如何通过抽样从样本数据中得出关于总体的可靠结论。


描述性统计与推断性统计

在课程的前期,我们简要讨论了描述性统计与推断性统计之间的区别。

描述性统计,如均值标准差,用于总结数据集的主要特征。其公式可以表示为:
[
\text{均值} = \frac{\sum_{i=1}^{n} x_i}{n}
]
[
\text{标准差} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}
]

推断性统计则使用样本数据来对更大的总体进行结论或预测。

现在,我们将回到推断性统计,并更详细地探讨样本与总体之间的关系。


抽样的定义与重要性

课程的这一部分将全面介绍抽样。抽样是从总体中抽取数据子集的过程。

在本视频中,我们将讨论数据专业人员如何在数据科学中使用抽样,以及确保样本具有代表性的重要性。

数据专业人员使用抽样来分析多种不同类型的数据。

以下是抽样帮助我的数据科学团队回答的一些问题:

  • 我们需要测试应用商店中的多少产品,才能确信所有产品都安全无恶意软件?
  • 我们如何选择用户样本来为在线零售商店进行有效的A/B测试?
  • 我们如何选择视频流媒体服务的客户样本来获取他们观看节目的可靠反馈?

抽样在数据科学中非常有用,因为选择样本比收集总体中每个项目的数据所需时间更少。

使用样本可以节省资金和资源。分析样本比分析整个总体更实际。

这在现代数据分析中尤为重要,因为您经常需要处理极其庞大的数据集。

例如,假设您想知道一个大城市中使用笔记本电脑的人口百分比。

一种方法是调查城市中的每一位居民。首先,获取城市每位居民的联系信息将非常困难。其次,向城市每位居民发放调查问卷将非常昂贵、复杂且耗时。

另一种方法是找到一个更小的居民子集并向他们发放调查问卷。这个子集就是您的样本。然后,您可以使用收集到的关于笔记本电脑使用的样本数据,来推断整个人口的笔记本电脑使用情况。

与收集总体中每个成员的数据相比,收集样本数据更快、更实际且成本更低。


代表性样本的重要性

请记住,您的样本应该能够代表您的总体。

回想一下,代表性样本能够准确反映总体的特征。您对总体所做的推断和预测都基于您的样本数据。

如果您的样本不能准确反映您的总体,那么您的推断将不可靠,您的预测也将不准确。

这可能会给利益相关者和组织带来负面结果。

例如,假设您只联系计算机科学家进行您的笔记本电脑调查。您的样本将无法准确反映整体人口。计算机科学家比典型的城市居民更有可能使用笔记本电脑。许多居民可能无法使用任何类型的计算机,甚至不知道如何使用。

一个只包含计算机科学家的样本是不具代表性的。一个具有代表性的样本应该包括具有不同计算机知识水平和访问权限的人。

让我们考虑另一个场景。想象一下,您想找出美国每个成年人的平均身高。那是一个庞大的人群。即使尝试测量该国的每个人,也需要花费惊人的时间、精力和金钱。

相反,您可以抽取一个100人的样本,并使用该样本数据来推断整个人口。

现在,假设您的样本数据仅来自职业篮球运动员。职业篮球运动员非常高。有些身高超过7英尺。平均而言,他们比人口中几乎所有人都要高得多。他们的平均身高并不能准确反映整体人口的平均身高。

一个只包含职业篮球运动员的样本并不能代表美国的每个成年人。


数据专业人员的实践视角

作为一名数据专业人员,我每天都与样本数据打交道。

我可以告诉您,拥有一个具有代表性的样本至关重要。

我的一位明智的同事曾经说过,一个好的模型无法克服一个糟糕的样本。正确的数据专业人员使用强大的统计工具,这些工具可以对复杂的数据集进行建模并帮助生成有价值的见解。

但是,如果您正在处理的样本数据不能准确反映您的总体,也就是说,如果您的样本不具代表性,那么您的模型再好也无关紧要。

如果您的预测模型基于一个糟糕的样本,那么您的预测将不会准确。

最终,您的样本质量有助于决定您与利益相关者分享的见解的质量。为了根据客户样本的反馈对所有客户做出可靠的推断,请确保您的样本能够代表总体。


总结

在本节课中,我们一起学习了抽样的核心概念。我们明确了描述性统计与推断性统计的区别,理解了抽样在数据科学中的高效性和实用性。最重要的是,我们深入探讨了代表性样本的关键作用:一个不具代表性的样本会导致不可靠的推断和不准确的预测,无论后续的统计模型多么先进。因此,确保样本能够准确反映总体特征,是进行有效数据分析、得出可靠结论的基石。

030:抽样过程 📊

在本节课中,我们将学习抽样过程的主要阶段。抽样是数据分析的基础,理解抽样过程如何运作,直接影响样本数据的质量。我们将通过一个具体的例子,逐步拆解抽样的五个关键步骤。


概述

作为数据专业人员,你会经常处理样本数据。这些数据可能来自其他研究者,也可能由你的团队自行收集。无论来源如何,了解抽样过程至关重要,因为它直接决定了样本是否能够代表总体,以及样本是否存在偏差。例如,如果仅基于职业篮球运动员的样本来估计一个国家全体成年人的平均身高,结果必然不准确。

接下来,我们将详细探讨典型抽样过程的五个主要阶段,为你提供一个理解抽样如何实施以及如何影响样本数据的实用框架。


抽样过程的五个步骤

为了清晰地概述抽样过程,我们将其分为五个步骤。

  1. 确定目标总体
  2. 选择抽样框
  3. 选择抽样方法
  4. 确定样本量
  5. 收集样本数据

我们将以一项民意调查为例进行说明。假设加拿大温哥华市政府计划修建一个新的地铁系统,并将通过公众投票决定是否推进该项目。市政府希望了解公众对该项目的支持度,因此委托你进行一项民意调查,以估计支持该项目的成年居民比例(法定成年年龄为18岁及以上)。


第一步:确定目标总体

抽样过程的第一阶段是确定你的目标总体。目标总体是你感兴趣并希望深入了解的完整元素集合。

在我们的例子中,目标总体包括该市所有18岁及以上、拥有投票资格的居民。假设该市符合此条件的居民有10万人。

由于对目标总体中的每一个人进行调查既困难又昂贵,你决定抽取一个样本。


第二步:选择抽样框

抽样过程的下一步是创建抽样框。抽样框是你的目标总体中所有个体的列表。本质上,它是你研究感兴趣的所有人或事物的完整名录。

目标总体与抽样框的区别在于:总体是概括性的,而框是具体化的。因此,如果你的目标总体是10万名18岁及以上、有投票资格的市民,那么你的抽样框可能就是一份包含从“Alana Aoki”到“Zoe Zpa”所有这些居民姓名的列表。

然而,由于实际原因,你的抽样框可能无法精确匹配目标总体,因为你可能无法接触到总体中的每一个成员。例如,市政府可能没有每位居民可靠的联系方式,或者并非所有有资格的选民都实际进行了注册登记(而他们的意见对这项由选举决定的地铁项目来说无关紧要)。

由于这些原因,你的抽样框不会与目标总体完全重合。抽样框将包含你能够获取有效信息的、18岁及以上的居民列表。因此,抽样框是你的目标总体中可触及的部分


第三步:选择抽样方法

接下来,你需要选择抽样方法,这是抽样过程的第三步。选择正确的抽样方法是帮助确保样本具有代表性的关键途径。

抽样方法主要分为两大类:概率抽样非概率抽样。在后续课程中,我们将更详细地探讨具体方法。目前,你只需知道:

  • 概率抽样使用随机选择来生成样本。
  • 非概率抽样通常基于便利性或研究者的个人偏好,而非随机选择。

由于概率抽样方法基于随机选择,总体中的每个人都有同等机会被选入样本。这为你获得代表性样本提供了最佳机会,因为你的结果更有可能准确反映总体情况。

因此,假设你有足够的预算和时间,可以为你的地铁项目民意调查使用概率抽样方法。使用随机选择能最大程度地获得一个能代表总体的样本。


第四步:确定样本量

抽样过程的第四步是确定样本的最佳大小,因为你没有资源对抽样框中的每个人进行调查。

在统计学中,样本量指的是为研究或实验所选择的个体或项目的数量。样本量有助于确定你对总体所做预测的准确性。通常,样本量越大,你的预测就越准确。

根据你调查所期望的准确度水平,你可以决定样本中应包含多少符合条件的选民。


第五步:收集样本数据

这是抽样过程的最后一步。为了调查被选入样本的居民,你决定进行一项问卷调查。

根据问卷调查的回复,你确定支持拟议地铁项目的、18岁及以上合格选民的比例。然后,你将此信息分享给市领导,以帮助他们做出更明智的决策。


总结

本节课我们一起学习了抽样过程的五个核心步骤:确定目标总体、选择抽样框、选择抽样方法、确定样本量以及收集样本数据。有效的抽样能确保你的样本数据能够代表目标总体。这样,当你使用样本数据对总体进行推断时,你就可以合理地确信你的推断是可靠的。

你进行的民意调查将为市领导提供关于新地铁项目公众支持度的更好参考,并有助于为该项目未来的决策提供信息。你在抽样过程每一步所做的决策都会影响样本数据的质量。理解抽样过程将使你成为一名更优秀的数据专业人员,无论你是分析其他研究者收集的数据,还是亲自进行调查。

031:概率抽样方法详解 📊

在本节课中,我们将要学习四种主要的概率抽样方法。上一节我们介绍了概率抽样与非概率抽样的区别,并了解了抽样过程的第三步是执行概率抽样。本节中,我们将详细探讨每种概率抽样方法的具体操作、优势与局限性。

概率抽样方法共有四种:简单随机抽样、分层随机抽样、整群随机抽样和系统随机抽样。

简单随机抽样 🎲

在简单随机抽样中,总体中的每个成员被随机选择,且被选中的机会均等。你可以使用随机数生成器或其他随机选择方法来完成。

例如,假设你想调查一家拥有1000名员工的公司的员工工作体验。你可以为数据库中的每位员工分配一个1到1000的编号,然后使用随机数生成器选择100人作为样本。

简单随机抽样的主要优势在于其通常具有较好的代表性,因为总体中的每个成员都有同等机会被选中。随机抽样有助于避免偏差,从而获得更准确的结果。

然而,在实践中,进行大规模的简单随机抽样通常成本高昂且耗时。此外,如果样本量不够大,总体中的某些特定群体可能在样本中代表性不足。使用更大的样本量能使样本更准确地反映总体。

分层随机抽样 📊

在分层随机抽样中,你将总体划分为不同的组(称为“层”),然后从每一层中随机选择部分成员组成样本。层可以按年龄、性别、收入或你感兴趣的任何类别来划分。

例如,假设你想调查高中生周末用于学习的时间。你可以将学生总体按年龄(14岁、15岁、16岁、17岁)分层,然后从每个年龄组中调查同等数量的学生。

分层随机抽样有助于确保总体中每个群体的成员都被纳入调查。这种方法允许你对相关群体得出更准确的结论。例如,14岁和17岁的学生对周末学习的看法可能不同,分层抽样能捕捉到这两种视角。

分层抽样的一个主要缺点是,如果你对总体缺乏了解,可能难以确定研究中合适的分层标准。例如,在研究收入中位数时,你可能需要按职业类型、行业、地点或教育水平分层,但若不了解这些类别与收入中位数的相关性,则难以做出最佳选择。

整群随机抽样 🏢

进行整群随机抽样时,你将总体划分为若干“群”,随机选择某些群,并将选中群内的所有成员纳入样本。整群抽样与分层随机抽样类似,但区别在于:分层抽样是从每组中随机选择部分成员,而整群抽样是选中某组的所有成员。

群可以按年龄、性别、地点或你希望研究的任何识别细节来划分。例如,假设你想对一家全球性公司的员工进行调查。该公司在全球不同城市设有10个办事处,每个办事处员工数量和职位构成相似。你可以随机选择三个城市的三个办事处作为群,并将这三个办事处的所有员工纳入样本。

这种方法的一个优势是,当每个群都能整体反映总体时,整群抽样能获取特定群的所有成员信息。这对于处理具有明确定义子群的大规模、多样化总体非常有用。例如,如果研究人员想了解挪威奥斯陆小学生的偏好,他们可以用一所学校作为该市所有学校的代表性样本。

整群抽样的一个主要缺点是,可能难以创建能准确反映整体总体的群。例如,出于实际原因,你可能只能接触到位于美国的办事处,而美国员工的特征和价值观可能与其他国家的员工不同。

系统随机抽样 🔢

在系统随机抽样中,你将总体中的每个成员按顺序排列成一个序列。然后,在序列中随机选择一个起点,并按固定间隔选择样本成员。

假设你想调查一所社区大学的学生。进行系统随机抽样时,你可以将学生姓名按字母顺序排列,随机选择一个起点,然后每隔五个名字选取一个作为样本。

系统随机抽样通常能代表总体,因为每个成员被纳入样本的机会均等。学生的姓氏是B还是R不会影响其特征。此外,当你拥有完整的总体成员名单时,系统抽样快速且方便。

系统抽样的一个缺点是,在开始前你需要知道研究总体的大小。如果没有这些信息,则难以选择一致的间隔。

总结 📝

本节课我们一起学习了四种基于随机选择的概率抽样方法:简单随机抽样、分层随机抽样、整群随机抽样和系统随机抽样。这些方法是大多数数据专业人士首选的抽样方式,能帮助你创建具有代表性的样本。在接下来的视频中,我们将探讨一些非概率抽样方法,并了解为何它们不被视为具有代表性。

032:抽样偏差的影响 📊

在本节课中,我们将学习抽样偏差如何影响数据分析,并探讨四种非概率抽样方法。理解这些概念对于确保数据结论的公平性和准确性至关重要。

作为一名数据专业人员,我经常使用样本数据来帮助构建机器学习模型。如今,机器学习模型可能帮助决定一个人是否能获得贷款批准、工作面试机会或准确的医疗诊断。基于代表性样本构建的模型更有可能在贷款或工作面试的决策上做出公平且无偏的判断。使用能代表总体中不同类型人群的样本,有助于确保每个人都能获得最适合他们的对待。

然而,偏差会影响样本数据。当样本不能代表整个总体时,就会发生抽样偏差。为了消除偏差,我尝试使用能代表整体总体的样本。从非代表性样本中得出结论的后果可能很严重。

上一节我们介绍了概率抽样方法使用随机选择,这有助于避免抽样偏差。随机选择的样本意味着总体中的所有成员都有平等的机会被包含在内。相比之下,非概率抽样方法不使用随机选择,因此它们通常不会生成代表性样本。事实上,它们常常导致有偏的样本。然而,非概率抽样通常成本更低,对研究者来说也更方便。有时由于预算、时间或其他原因,使用概率抽样并不可行。此外,非概率方法对于探索性研究很有用,这类研究旨在初步了解一个总体,而不是对总体整体得出结论或做出预测。

本节中,我们将讨论四种非概率抽样方法,并了解抽样偏差如何影响每种方法。

以下是四种非概率抽样方法:

  • 便利抽样:在这种方法中,你选择那些易于联系或接触的总体成员。顾名思义,进行便利抽样涉及从对你来说更方便的地方收集样本,例如你的工作场所、当地学校或公园。例如,为了进行民意调查,研究人员可能会在白天站在当地一所高中前,对碰巧路过的人进行民意调查。因为这些样本是基于研究者的便利性,而不是更广泛的总体样本,所以便利样本经常表现出覆盖不足偏差。当总体中的某些成员在样本中代表性不足时,就会发生覆盖不足偏差。例如,不在该学校工作或上学的人在样本中的代表性就会不足。
  • 自愿响应抽样:这种类型的样本由自愿参与研究的总体成员组成。例如,一家餐厅的老板想知道人们对他们晚餐选择的看法。他们要求常客参与一项关于餐厅食品质量的在线调查。自愿响应样本往往受到无响应偏差的影响,当某些群体的人不太可能提供回应时,就会发生这种偏差。自愿回应的人可能比总体中的其他人有更强烈的意见,无论是正面还是负面。这使得餐厅的自愿顾客成为一个非代表性样本。
  • 滚雪球抽样:在滚雪球抽样中,研究人员招募初始参与者进行研究,然后要求他们招募其他人参与研究。就像滚雪球一样,随着更多参与者的加入,样本量变得越来越大。例如,如果一项研究调查大学生作弊行为,潜在的参与者可能不愿意站出来,但如果研究人员能找到几个愿意参与的学生,这两个学生可能认识其他也在考试中作弊的人。然后,初始参与者可以通过分享研究的好处并向他们保证保密性来招募其他人。尽管研究参与者帮助建立样本似乎很方便,但这种招募方式可能导致抽样偏差,因为初始参与者自行招募其他参与者,很可能他们中的大多数人都具有相似的特征,而这些特征可能无法代表所研究的总体。
  • 目的抽样:在目的抽样中,研究人员根据研究目的选择参与者。因为参与者是根据研究需求被选入样本的,不符合要求的申请者会被拒绝。例如,一位研究人员想调查学生对其大学特定教学方法有效性的看法。研究人员只想包括那些经常上课且有良好学业记录的学生,因此他们选择平均绩点最高的学生参与研究。在目的抽样中,研究人员经常有意将某些群体排除在样本之外,以专注于他们认为与研究最相关的特定群体。在这种情况下,研究人员排除了平均绩点不高的学生。这可能导致有偏的结果,因为样本中的学生不太可能代表整个学生群体。

作为一名数据专业人员,你必须从开始收集样本数据的那一刻起,到呈现结论之时,始终考虑偏差和公平性问题。一旦你意识到一些常见的偏差形式,你就可以对任何形式的偏差保持警惕。

本节课中,我们一起学习了抽样偏差对数据分析的潜在影响,并详细探讨了便利抽样、自愿响应抽样、滚雪球抽样和目的抽样这四种非概率抽样方法。理解这些方法的局限性,对于在数据工作中识别和避免偏差、确保结论的公正与有效至关重要。

033:抽样如何影响数据 📊

在本节课中,我们将要学习抽样过程如何影响数据,以及如何利用样本统计量来估计总体参数。我们将重点讨论抽样分布的概念,并解释如何通过样本均值来估计总体均值。此外,我们还将介绍标准误差的概念及其在衡量估计准确性中的作用。


在之前的视频中,你已经学习了抽样过程的工作原理,以及各种抽样方法的优缺点。作为一名数据专业人员,我经常使用样本数据来对未来销售额或产品表现做出有根据的预测。理解抽样如何从正面和负面两方面影响你的数据,对于你未来在数据分析领域的职业生涯至关重要。

例如,数据专业人员使用样本统计量的一种方式是估计总体参数。你可能还记得,统计量是样本的特征,而参数是总体的特征。

例如,随机抽取的100只企鹅的平均体重是一个统计量。而总数10000只企鹅的总体的平均体重是一个参数。数据专业人员可能会使用这100只企鹅样本的平均体重来估计总体的平均体重。这种估计被称为点估计。点估计使用单个值来估计总体参数。

在本视频中,我们将讨论抽样分布的概念,以及它如何帮助你表示随机样本的可能结果。你还将学习样本均值的抽样分布如何帮助你做出总体均值的点估计。


什么是抽样分布? 📈

抽样分布是样本统计量的概率分布。回想一下,概率分布表示随机变量的可能结果,例如抛硬币或掷骰子。同样地,抽样分布表示样本统计量(如均值)的可能结果。

想象你从一个人群中重复抽取相同大小的简单随机样本。由于每个样本都是随机的,样本的均值会因样本而异,这种变化无法确定性地预测。

为了更好地理解均值的抽样分布,让我们继续以企鹅为例。假设你正在研究一个由10000只小蓝企鹅组成的种群,这是所有已知企鹅物种中最小的。你想找出这个种群中蓝企鹅的平均体重。

由于定位并称量每一只企鹅耗时太长,你转而从总体中收集样本数据。假设你从总体中重复抽取简单随机样本,每个样本包含10只企鹅。换句话说,你从群体中随机选择10只企鹅,称重,然后用另一组10只企鹅重复这个过程。

  • 对于你的第一个样本,你发现10只企鹅的平均体重是3.1磅。
  • 对于你的第二个样本,10只企鹅的平均体重是2.9磅。
  • 对于你的第三个样本,平均体重是2.8磅,依此类推。

假设这个种群中企鹅的真实平均体重是3磅(尽管在实践中,除非你称量每一只企鹅,否则你不会知道这一点)。每次你抽取10只企鹅的样本时,样本中企鹅的平均体重很可能接近总体均值3磅,但不完全是3磅。偶尔,你可能会得到一个全是小于平均体型的企鹅的样本,平均体重为2.5磅或更少;或者你可能会得到一个全是大于平均体型的企鹅的样本,平均体重为3.5磅或更多。平均体重会随样本不同而随机变化。

抽样变异性指的是估计值在不同样本之间的变化程度。你可以使用抽样分布来表示所有不同样本均值的频率。我发现将其可视化为直方图会很有帮助。

让我们绘制10个简单随机样本(每个样本10只企鹅)的均值。最常出现的样本均值将在3磅左右。最不常见的样本均值将是更极端的体重,例如2.3磅或3.7磅。


样本大小的影响 📏

随着样本大小的增加,你样本数据的平均体重将更接近总体的平均体重。换句话说,如果你对整个总体进行抽样(即实际称量所有10000只企鹅),你的样本均值将与你的总体均值相同。

但是,为了获得总体均值的准确估计,你不必称量10000只企鹅。如果你从总体中抽取足够大的样本量,比如100只企鹅,你的样本均值将是总体均值的准确估计。

这一点基于中心极限定理,我们将在课程后面更详细地探讨。目前只需知道,如果你的样本足够大,你的样本均值将大致等于总体均值。

例如,假设你收集了100只企鹅的样本,发现样本的平均体重是3磅。这意味着你对整个企鹅种群平均体重的最佳估计也是3磅。


衡量估计的准确性:标准误差 🔍

你也可以使用你的样本数据来估计任何给定样本的平均体重在多大程度上准确地代表了总体平均体重。了解这一点很有用,因为均值因样本而异,任何给定样本都不一定是总体均值的精确反映。

例如,企鹅种群的真正平均体重可能是3磅,但任何给定企鹅样本的平均体重可能是3.3磅、2.8磅、2.4磅等等。你的样本数据变异性越大,样本均值作为总体均值准确估计的可能性就越小。

数据专业人员使用样本均值的标准差来衡量这种变异性。回想一下,标准差衡量数据的变异性或数据值的分散程度。数据值之间的分布越广,标准差就越大。

在统计学中,样本统计量的标准差被称为标准误差均值的标准误差衡量所有样本均值之间的变异性。

  • 较大的标准误差表明样本均值更分散,或者说变异性更大。
  • 较小的标准误差表明样本均值更接近,或者说变异性更小。

标准误差越小,你的样本均值作为总体均值准确估计的可能性就越大。

例如,假设你抽取三个随机样本,每个样本10只企鹅。第一个样本的平均体重是3.3磅,第二个是3.1磅,第三个是2.9磅。这三个样本均值之间没有太大变异性,数值都很接近。标准误差将相对较小。

现在,假设你抽取另外三个随机样本,每个样本10只企鹅。第一个样本的平均体重是2.2磅,第二个是3.2磅,第三个是4.2磅。这三个样本均值之间有更大的变异性,数值更分散。标准误差将相对较大。

请注意,标准误差的概念基于重复抽样的实践。在现实中,研究人员通常只处理一个样本,因为对一个人群进行重复抽样通常太复杂、昂贵或耗时。相反,统计学家基于重复抽样的数学假设推导出了一个计算标准误差的公式。


计算标准误差 🧮

你可以使用以下公式计算样本均值的标准误差:

标准误差 = S / √n

其中:

  • S 是样本标准差
  • n 是样本大小

例如,在你的企鹅体重研究中,假设一个100只企鹅的样本平均体重为3磅,标准差为1磅。你可以通过将样本标准差(1)除以样本大小(100)的平方根来计算标准误差。

1 / √100 = 0.1

这意味着你对所有企鹅真实总体平均体重的最佳估计是3磅。但你应该预期,从一个样本到下一个样本的平均体重会以大约0.1的标准差变化。

随着样本量的增大,你的标准误差会变小。这是因为标准误差衡量的是你的样本均值与实际总体均值之间的差异。随着样本变大,你的样本均值更接近实际总体均值。对总体均值的估计越准确,标准误差就越小。

假设你收集了10000只企鹅的样本,而不是100只。你发现样本平均体重是3磅,样本标准差是1磅。标准误差是 1 / √10000 = 0.01。你对样本均值的最佳估计仍然是3磅,但现在你可以预期,从一个企鹅样本到下一个样本的平均体重变化的标准差仅为0.01。


总结 📝

在本节课中,我们一起学习了:

  1. 抽样分布是样本统计量(如均值)的概率分布,它展示了从同一总体中重复抽样时,统计量可能取值的分布情况。
  2. 随着样本大小的增加,样本均值会越来越接近总体均值,这使得基于大样本的估计更加可靠。
  3. 标准误差是衡量样本统计量(特别是均值)变异性的关键指标,它等于样本标准差除以样本大小的平方根(S / √n)。标准误差越小,表明样本估计越精确。
  4. 总体而言,当样本量增大、标准误差减小时,你可以对你的估计有更多的信心,因为抽样分布的均值更接近总体均值。

接下来,当我们讨论中心极限定理时,我们将进一步探讨这个想法。

034:中心极限定理 📊

在本节课中,我们将要学习中心极限定理。这是一个强大的统计学概念,它允许数据专业人员通过样本数据来估计整个总体的参数,例如平均收入、平均身高或平均通勤时间。无论总体数据的分布形状如何,中心极限定理都为我们提供了一种可靠的方法来推断总体特征。


中心极限定理的核心概念

上一节我们介绍了样本与总体的基本关系,本节中我们来看看中心极限定理如何具体运作。

中心极限定理指出:随着样本量的增加,样本均值的抽样分布会趋近于一个正态分布(即钟形曲线)。这意味着,如果你从总体中抽取足够大的样本,样本均值将大致等于总体均值。

用公式可以表示为:
n → ∞ 时,样本均值的分布 → N(μ, σ²/n),其中 μ 是总体均值,σ 是总体标准差,n 是样本量。


定理的应用条件与样本量

中心极限定理的强大之处在于它适用于任何总体。你不需要事先知道总体分布的形状。只要样本量足够大,抽样分布就会呈现正态分布。

以下是关于样本量的一些关键点:

  • 通常认为样本量达到 30 或更多 就足够了。
  • 所需的样本量具体取决于数据集,可以通过探索性数据分析来确定。
  • 在实践中,样本量的选择还受到预算、时间、资源和所需置信水平等因素的影响。

定理的实际案例

为了理解中心极限定理如何在实际中发挥作用,让我们来看两个例子。

案例一:美国收入分布

美国2010年的家庭年收入分布图显示,数据严重右偏,远非正态分布。这种偏斜是由于最富裕家庭的收入异常高。

然而,根据中心极限定理,如果你从所有家庭中随机抽取收入数据,并且样本量足够大,那么这些样本均值的分布将遵循正态分布。即使总体分布(每个美国家庭的收入)不是正态的,抽样分布的均值也能为你提供对总体平均收入的准确估计。

案例二:咖啡饮用量研究

假设你想研究美国咖啡饮用者(约1.5亿人)的平均每日咖啡饮用量,但无法调查每一个人。

以下是你可以采取的步骤:

  1. 从总体中反复随机抽取样本,比如每次抽取100名咖啡饮用者。
  2. 计算每个样本的日均咖啡饮用量均值。例如,第一个样本均值可能是22.5盎司,第二个是28.2盎司,第三个是25.4盎司,依此类推。
  3. 理论上,你可以抽取10个、50个或100个样本,并不断增加样本量。

中心极限定理告诉我们,随着样本量的增加,这些样本均值的分布形状将越来越接近钟形曲线。如果你从总体中抽取一个足够大的样本,其抽样分布的均值就等于总体均值。这样,你就可以准确地估计出整个人群的日均咖啡饮用量(根据观察,美国人平均每天喝大约24盎司,即3杯咖啡;如果是数据专业人员,这个平均值可能更高)。


总结

本节课中我们一起学习了中心极限定理。我们了解到,无论原始总体数据呈何种分布(如偏斜的收入分布),只要样本量足够大,样本均值的分布就会趋近于正态分布。这一定理是统计学中一项基础且强大的工具,使数据专业人员能够通过可管理的样本数据,对经济、科学、商业等领域的总体参数进行有效且可靠的估计。

035:比例的抽样分布 📊

在本节课中,我们将学习数据专业人员如何使用样本统计量来估计总体参数。上一节我们介绍了如何使用均值的抽样分布来估计总体均值。本节中,我们将探讨如何利用比例的抽样分布来估计总体比例。

概述

数据专业人员经常需要估计总体中具有某一特征的个体所占的百分比,这被称为总体比例。例如,估计喜欢公司食堂食物的员工比例,或网站访客的购买转化率。由于调查整个总体通常不现实,我们会从总体中抽取样本,并利用样本比例来推断总体比例。本节将解释比例的抽样分布概念、其重要性以及如何计算比例的标准误来衡量估计的准确性。

比例的抽样分布

想象你在一家市场研究公司工作,客户是一家运动鞋制造商,希望了解智利圣地亚哥16至19岁青少年对“一脚蹬”式运动鞋的偏好。该年龄段总共有10万名青少年。由于无法调查所有人,你决定从总体中抽取随机样本。

假设你从总体中重复抽取了多个简单随机样本,每个样本包含100名青少年。在第一个样本中,你发现12%的青少年偏好“一脚蹬”运动鞋。第二个样本中,这个比例是8%。第三个样本中,比例是11%。

这种现象被称为抽样变异性,即样本统计量(如比例)会因样本不同而波动。与样本均值类似,样本比例也存在变异性。

中心极限定理与比例

中心极限定理同样适用于样本比例。随着样本量增大,样本比例的分布会趋近于正态分布。分布曲线的中心是总体比例的真值。

例如,如果我们已知总体中真正偏好“一脚蹬”运动鞋的青少年比例是10%,那么大多数样本的比例会接近10%,但不会完全等于10%。偶尔也会有比例极低或极高的样本。

你可以用抽样分布来展示所有不同样本比例出现的频率。例如,抽取10个样本后,可以用直方图展示比例的分布。出现最频繁的值会集中在10%附近,而像5%或15%这样的极端值则出现较少。

比例的标准误

与样本均值一样,我们可以使用比例的标准误来衡量抽样变异性。它表示一个特定的样本比例可能与真实总体比例相差多少。

了解这一点很重要,因为样本比例会因样本而异,任何一个给定的样本比例都可能不等于真实的总体比例。真实比例可能是10%,但某个样本的比例可能是12%、9%或7%等。样本数据的变异性越大,样本比例作为总体比例估计值的准确性就越低。

利益相关者的决策通常基于你提供的估计值,因此理解估计的准确性至关重要。

以下是计算比例标准误的公式:

公式:
标准误 = sqrt( p_hat * (1 - p_hat) / n )

其中:

  • p_hat样本比例(作为总体比例的估计值)。
  • n样本量

计算示例

假设你调查了100名青少年,发现估计有10%(即0.1)的人偏好“一脚蹬”运动鞋。那么,p_hat = 0.1n = 100

代入公式计算:
标准误 = sqrt( 0.1 * (1 - 0.1) / 100 ) = sqrt( 0.1 * 0.9 / 100 ) = sqrt( 0.09 / 100 ) = sqrt(0.0009) = 0.03

因此,比例的标准误是0.03或3%。

样本量的影响

随着样本量增大,标准误会变小。因为标准误衡量的是样本比例与真实总体比例之间的差异。样本越大,样本比例通常越接近总体比例,估计也就越准确,标准误自然越小。

基于你的估计结果,运动鞋公司的利益相关者可以做出产品开发决策。例如,如果偏好“一脚蹬”式样的比例较低,他们可能会减少在这类产品上的研发投入。

后续步骤:置信区间

通常,数据专业人员的下一步是使用标准误来构建置信区间。置信区间描述了估计的不确定性,并为利益相关者提供了关于结果的更详细信息。在本课程后续部分,你将学习如何计算和解释置信区间,从而更准确地预测总体偏好。

总结

本节课中,我们一起学习了:

  1. 总体比例的概念及其在商业和研究中的应用。
  2. 如何使用比例的抽样分布来估计总体比例。
  3. 中心极限定理如何确保大样本下比例分布接近正态。
  4. 如何计算比例的标准误以衡量估计的准确性和抽样变异性。
  5. 理解了样本量对标准误和估计精度的影响。

掌握比例的抽样分布是进行统计推断的基石,它使我们能够基于样本数据,对总体特征做出合理、量化的估计。

036:使用Python处理抽样分布 📊

概述

在本节课中,我们将学习如何使用Python进行随机抽样,并基于样本数据对总体参数进行点估计。我们将通过一个具体的案例——估计某国所有地区的平均识字率——来演示整个过程。

上一节我们讨论了数据专业人员如何使用样本数据对总体参数进行点估计。本节中,我们将动手使用Python来模拟这一过程。

导入必要的库

首先,我们需要导入将要使用的Python包和库。为了节省时间,我们使用缩写来重命名它们。

import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy import stats

获取随机样本

现在,我们将从数据集中随机抽取50个地区作为样本。Python的pandas库提供了便捷的sample函数来模拟随机抽样。

以下是sample函数及其参数的简要说明:

  • n: 所需的样本大小,即样本中包含的项目数量。
  • replace: 表示是“有放回抽样”还是“无放回抽样”。
  • random_state: 随机数种子,用于确保结果可重现。

对于我们的例子,我们将进行有放回抽样,并设置一个任意的随机种子。

sampled_data = your_dataframe['literacy_column'].sample(n=50, replace=True, random_state=31208)
print(sampled_data)

运行上述代码后,输出将显示从数据集中随机选择的50个地区及其识字率。

计算样本均值(点估计)

获得随机样本后,我们可以计算其均值,以此作为总体均值的点估计。

estimate1 = sampled_data.mean()
print(f"第一个样本的识字率点估计为: {estimate1:.2f}%")

根据我们的第一个随机样本,地区识字率的样本均值约为74.22%。这就是基于50个地区样本对总体均值的点估计。

需要记住,由于抽样变异性,样本均值通常不会与总体均值完全相同。

抽样变异性

为了理解抽样变异性,让我们基于另一个随机样本计算第二个点估计。

estimate2 = your_dataframe['literacy_column'].sample(n=50, replace=True, random_state=56801).mean()
print(f"第二个样本的识字率点估计为: {estimate2:.2f}%")

第二个样本的均值约为74.24%。它与第一个估计值(74.22%)略有不同,但非常接近。这种差异正是抽样变异性的体现。

中心极限定理告诉我们,当样本量足够大时,样本均值的分布会接近正态分布。并且,从总体中抽取的观测值越多,样本均值就越接近总体均值。样本量越大,对总体均值的估计通常就越准确。

模拟抽样分布

现在,假设我们重复这项研究10,000次,获得10,000个均值点估计。也就是说,我们抽取10,000个大小为50的随机样本,并计算每个样本的均值。

根据中心极限定理,抽样分布的均值将大致等于总体均值。我们可以用Python来计算这个包含10,000个样本的抽样分布的均值。

以下是实现步骤的代码:

# 1. 创建一个空列表来存储每个样本的均值
estimate_list = []

# 2. 设置一个循环,运行10,000次
for i in range(10000):
    # 3. 在每次迭代中:抽取一个随机样本,计算其均值,并添加到列表中
    sample_mean = your_dataframe['literacy_column'].sample(n=50, replace=True).mean()
    estimate_list.append(sample_mean)

# 4. 将列表转换为数据框以便分析
estimate_df = pd.DataFrame(estimate_list, columns=['sample_mean'])

# 5. 计算这10,000个样本均值的平均值(即抽样分布的均值)
mean_of_sample_means = estimate_df['sample_mean'].mean()
print(f"10,000个样本均值的平均值(抽样分布均值)为: {mean_of_sample_means:.2f}%")

运行代码后,抽样分布的均值约为73.41%。这与你完整数据集的总体均值(约73.4%)基本一致。

可视化与核心结论

为了直观展示抽样分布与正态分布的关系,我们可以将两者绘制在同一张图上(此处不深入代码细节)。从这样的图表中,我们可以得出三个关键结论:

  1. 正如中心极限定理所预测的,抽样分布的直方图可以很好地用正态分布来近似。直方图的轮廓紧密跟随正态曲线。
  2. 抽样分布的均值(蓝色虚线)与总体均值(绿色实线)重叠。这表明两个均值基本相等。
  3. 我们第一个基于50个地区的估计值(红色虚线)离中心较远。这是由于抽样变异性造成的。

中心极限定理表明,随着样本量的增加,你的估计会变得更准确。对于足够大的样本,样本均值紧密遵循正态分布。

实际应用与总结

你的第一个50个地区样本估计的平均识字率为74.22%,这与73.4%的总体均值相对接近。为了确保你的估计对政府有用,你可以将该国的识字率与其他基准(如全球识字率或同等水平国家的识字率)进行比较。如果该国的识字率低于这些基准,这可能有助于说服政府投入更多资源来提高全国识字率。

通过抽样来估计总体参数是统计推断的一种强大形式。当你处理大量数据和复杂计算时,Python可以帮助你快速做出准确的估计。

本节课中,我们一起学习了如何使用Python模拟随机抽样、计算样本均值作为点估计、理解抽样变异性,并通过模拟大量样本来验证中心极限定理。这些技能是进行统计推断和数据分析的基础。

037:抽样总结 📊

在本节课中,我们将回顾并总结抽样相关的核心概念。抽样是数据分析的基础,它使数据专业人员能够基于样本数据对总体进行推断、预测和估计。


抽样基础回顾

上一节我们介绍了抽样的基本概念,本节中我们来看看抽样的重要性及其在数据职业中的应用。

在数据职业领域,你将经常处理样本数据。数据专业人员使用样本数据对总体进行推断、预测和估计。抽样之所以有用,是因为收集整个总体的数据通常成本过高、耗时过长或过于复杂。有时,完整的数据集可能过大,即使计算机也难以处理。

有效的抽样在现代数据分析中尤为重要,因为数据专业人员经常处理极其庞大的数据集。例如,你可能需要处理包含数千万个数据点的经济数据,并仅使用10,000个数据点的样本。

作为一名数据专业人员,理解用于生成样本数据的抽样过程至关重要,同时需要判断你的样本是否代表总体。此外,正如你现在所知,不同类型的偏差会影响不同的抽样方法。


抽样过程与主要方法

以下是抽样过程的主要阶段:

  1. 选择目标总体
  2. 确定抽样框架
  3. 选择抽样方法
  4. 确定样本量
  5. 收集样本数据

抽样方法主要分为两大类:

  • 概率抽样:每个成员被选中的概率已知。
  • 非概率抽样:每个成员被选中的概率未知。

我们讨论了每种方法的优缺点,以及随机抽样如何帮助确保样本质量高且能代表总体。


偏差与抽样分布

我们还讨论了抽样中的不同偏差形式,以及偏差如何影响非概率抽样方法。你了解到,从有偏差的数据中得出的任何见解,对于利益相关者来说可能都不准确或无用。

之后,你学习了样本均值和比例的抽样分布,以及如何估计相应的总体参数。

我们也涵盖了中心极限定理,它帮助你估计许多不同类型数据集的总体均值。其核心思想是,无论总体分布如何,当样本量足够大时,样本均值的分布近似正态分布。

公式示例:样本均值分布的标准误(Standard Error)可表示为:
SE = σ / √n
其中,σ 是总体标准差,n 是样本量。


Python实践与应用

最后,你学习了如何使用Python的SciPy Stats模块处理抽样分布,并对总体均值进行点估计。

代码示例:使用scipy.stats计算置信区间

import scipy.stats as st
import numpy as np

# 假设有一个样本数据
sample_data = np.array([...])
sample_mean = np.mean(sample_data)
sample_std = np.std(sample_data, ddof=1) # 使用样本标准差
n = len(sample_data)

# 计算95%置信区间
confidence_level = 0.95
se = sample_std / np.sqrt(n)
ci = st.t.interval(confidence_level, df=n-1, loc=sample_mean, scale=se)
print(f"95%置信区间: {ci}")


总结与后续安排

本节课中,我们一起学习了抽样的完整流程、主要方法、偏差的影响、抽样分布理论(包括中心极限定理)以及使用Python进行实际估计的方法。

接下来,你将参加一次分级评估以作准备。请查阅列出了所有新术语的阅读材料,并随时重温涵盖关键概念的视频阅读材料和其他资源。

恭喜你取得的进步,让我们继续保持!🚀

038:欢迎来到模块四 📊

在本节课中,我们将要学习置信区间的基本概念、重要性以及如何构建和解释置信区间。置信区间是统计学和数据分析中用于描述估计值不确定性的关键工具。


回顾学习旅程 🧭

上一节我们介绍了抽样分布和点估计。本节中,我们来看看如何量化估计的不确定性。

截至目前,您已经掌握了以下知识:

  • 数据专业人员如何使用描述性统计来总结和探索数据。
  • 如何使用推断性统计从数据中得出结论。
  • 概率的基本规则,如加法规则和乘法规则。
  • 二项分布、泊松分布和正态分布等概率分布如何帮助您对不同类型的数据进行建模。
  • 抽样的主要阶段以及不同抽样方法的优缺点。
  • 数据专业人员如何使用抽样分布来估计总体均值和比例。

置信区间简介 🎯

在课程的这个部分,我们将探讨如何构建和解释置信区间。

置信区间是一个数值范围,用于描述估计值周围的不确定性

在统计学和数据科学中,有多种方法可以描述估计的不确定性。以下是两种主要方式:

  • 置信区间
  • 可信区间

这两个概念对应着两种不同的统计思想流派:频率学派贝叶斯学派。置信区间是一个频率学派的概念,而可信区间是一个贝叶斯学派的概念。尽管两者的目标相似,但它们具有不同的统计定义和技术流程。

目前您无需担心细节,但需要了解不同统计方法以及数据专业人员用于分析和解释数据的工具所处的更广泛背景。


为什么学习置信区间?💡

了解如何构建和解释置信区间至关重要,至少有以下两个原因:

  1. 许多数据专业人员在其日常工作中经常使用置信区间,这可能很快也会成为您工作的一部分。
  2. 在未来的工作面试中,您很可能会被问到关于置信区间的问题。因此,掌握该主题的基础知识至关重要。

接下来,我们将讨论置信区间在数据驱动工作中的重要性,以及它们如何帮助您描述估计的不确定性。


置信区间的应用实例 📈

数据专业人员可能会使用置信区间来描述以下估计的不确定性:

  • 股票投资组合的平均投资回报率。
  • 工厂机械的平均维护成本。
  • 将注册奖励计划的客户百分比。
  • 将点击广告的网站访问者百分比。

然而,置信区间经常被误解,这可能导致研究得出错误结论。因此,您还将学习如何正确解释置信区间以及如何避免常见错误。


构建置信区间的步骤 🔨

我们将详细介绍构建置信区间的流程:

  1. 确定样本统计量选择置信水平
  2. 定义边际误差
  3. 计算区间

然后,您将学习如何为均值比例构建置信区间。

最后,您将学习如何使用 Python 的 scipy.stats 模块为总体均值的点估计构建置信区间。


总结 📝

本节课中,我们一起学习了置信区间的核心概念及其在数据分析中的重要性。我们了解到置信区间是描述估计不确定性的关键工具,并预览了构建置信区间的基本步骤和应用场景。

准备好学习更多内容后,我们将在下一个视频中继续。

039:置信区间介绍 📊

在本节课中,我们将要学习置信区间(Confidence Interval)这一核心概念。我们将了解它与点估计的区别,并详细解析其构成要素:样本统计量、误差幅度和置信水平。通过学习,你将理解置信区间如何帮助数据专业人员更可靠地表达估计中的不确定性。


在之前的内容中,我们讨论了数据专业人员如何对总体参数进行点估计。

例如,基于100只企鹅的样本,数据专业人员可能估计10,000只企鹅总体的平均体重为31磅;或者基于100名选民的民意调查,数据专业人员可能估计在即将到来的选举中,所有100,000名选民中有55%的人偏爱某位候选人。

点估计使用单一数值来估计总体参数。

相比之下,区间估计使用一个数值范围来估计总体参数。

置信区间是区间估计的一种类型。例如,对于企鹅体重,你可能会构建一个95%的置信区间,范围在28到32磅之间;对于选举民调,你可能会构建一个99%的置信区间,范围在51%到57%之间。

在本视频中,我们将介绍置信区间的主要组成部分,并讨论置信区间如何帮助你表达估计的不确定性。

通常,数据专业人员会使用置信区间而非点估计来分享他们的结果。

点估计可能有用,但像“30磅”这样的单一数值无法表达任何估计中固有的不确定性。

这种不确定性源于随机抽样的方法。为了便于举例,我们假设所有10,000只企鹅的真实平均体重是31磅,尽管除非你称量每一只企鹅,否则你不会知道这个真实值。

在实践中,数据专业人员通常只抽取一个随机样本,因为重复随机抽样通常既昂贵又耗时。

由于样本是随机的,任何给定样本的均值很可能不等于实际的总体均值。

例如,你可能恰好称量了一组最近难以觅食的企鹅样本,因此它们的体重只有28磅;或者你可能称量了一组最近饱餐了一顿鱼类的企鹅样本,它们的体重高于平均水平,达到32磅。

无论哪种情况,你的样本估计值都不会等于31磅的总体均值。

因此,如果你只提供样本统计量或点估计,它不会那么准确。

置信区间为数据专业人员提供了一种方法来表达由随机性引起的不确定性,并提供更可靠的估计。

除了样本统计量,置信区间还包括误差幅度和置信水平。

让我们通过企鹅的例子来更好地理解每个组成部分。

我们将从样本统计量开始。我们这组企鹅的样本均值是30磅。

接下来,我们将确定估计的区间,该区间由样本统计量加减误差幅度来定义。

误差幅度代表了总体参数与样本估计之间预期的最大差异。

换句话说,这是数据专业人员预期其估计值可能与实际值之间存在的差异量。

因此,如果我们的企鹅样本统计量是30磅,误差幅度是正负2磅,那么区间的下限是28磅,上限是32磅。

区间的上限是30加2等于32磅。

这个数值范围表达了由于随机抽样导致的估计不确定性。

计算误差幅度涉及将标准误乘以一个Z分数。请记住,Z分数衡量的是标准正态分布中数据点与总体均值的距离。

通常,你会使用计算机进行这些计算。

除了样本统计量和误差幅度,置信区间还包括置信水平。

置信水平描述了特定抽样方法产生的置信区间包含总体参数的可能性。

例如,假设你使用95%的置信水平来计算一个介于28到32磅之间的置信区间。

从技术上讲,这意味着如果你从企鹅总体中抽取100个随机样本,并为每个样本计算一个95%的置信区间,那么大约100个区间中的95个(即总数的95%)将包含真实的总体均值。

其中一个这样的区间就是20到32磅之间的数值范围。

如果这个解释现在看起来有些抽象,请不要担心,在后续的视频中,我们将更详细地讨论置信水平。

作为数据专业人员,你可以根据所需估计的准确性来选择自己的置信水平。

常见的置信水平是90%、95%和99%。95%是一个流行的选择。例如,大多数选举民调报告95%的置信水平,大多数A/B测试也建议使用95%的置信水平。

请注意,95%并没有什么神奇之处。这是基于统计研究和教育传统的一种选择。你可以调整置信水平以满足分析的要求。

让我们探讨另一个例子。想象你是一家时尚公司的数据专业人员。你的经理要求你估计新春季系列服装的销售收入。

当你与利益相关者会面时,你可能会说:“我认为我们的销售额将达到100万美元。”或者你可能会说:“基于95%的置信水平,我估计我们的销售收入将在95万美元到105万美元之间。”

第一种陈述提供了点估计,第二种陈述则提供了置信水平和区间估计,并传达了估计中的不确定性。

它为你的利益相关者提供了更多信息,并帮助他们就与未来销售收入相关的问题做出更明智的决策。

作为数据专业人员,你还必须确保你的利益相关者理解你的结果,因此清晰地传达如何解释置信区间是你的职责。我们将在后面更详细地讨论解释问题。


本节课中,我们一起学习了置信区间。我们了解到,与单一数值的点估计不同,置信区间通过提供一个数值范围(样本统计量 ± 误差幅度)以及一个置信水平,来更可靠地表达对总体参数的估计及其不确定性。掌握置信区间的概念和构成,对于进行严谨的数据分析和有效沟通结果至关重要。

040:解读置信区间

在本节课中,我们将要学习如何正确解读置信区间。置信区间是统计学中用于表达结果不确定性的重要工具,但也是常被误解的概念之一。我们将通过一个具体的例子,理解其核心含义,并澄清几种常见的错误解读方式。

概述:什么是置信区间?

最近你了解到,数据专业人士使用置信区间来表达其结果的不确定性,以便更好地理解结果并向利益相关者有效传达信息。因此,知道如何正确解读置信区间至关重要。

置信区间是统计学中最容易被误解的概念之一,因为它是一个复杂的主题。无论是新手学生还是有经验的研究人员,有时都会对置信区间做出不准确的陈述。所以,如果你没有立刻理解这个概念,请不要担心,你并不孤单。

通过本视频的学习,你将更好地理解如何解读置信区间,并学习一些常见的误解形式以及如何避免它们。

案例分析:城市规划中的树木高度

让我们探索一个例子。假设你是一名数据专业人士,在一家大城市的城市规划公司工作。市政府要求你的团队设计以红枫树为特色的新公园和人行道。

为了规划目的,你的经理要求你估算该市所有约10,000棵红枫树的平均高度。你没有测量每一棵树,而是收集了50棵树的样本。样本的平均高度为50英尺,标准差为7.5英尺。

基于95%的置信水平,你计算出的平均高度置信区间在48英尺到52英尺之间。这个区间估计将帮助你的团队设计符合城市景观条例的新公园和人行道。

深入理解“95%置信水平”

此时,你可能想知道,选择95%的置信水平并说你对该区间估计有95%的信心,这究竟意味着什么?

之前你了解到,置信水平表达了估计过程的不确定性。让我们从更技术的角度来谈谈这意味着什么。

95%置信意味着:如果你从总体中重复抽取随机样本,并使用相同的方法为每个样本构建一个置信区间,那么你可以预期这些区间中有95%会包含总体均值。

你也可以预期总区间中有5%不会包含总体均值。在实践中,数据专业人士通常只选择一个随机样本并生成一个置信区间,这个区间可能包含也可能不包含实际均值。这是因为重复随机抽样通常很困难、昂贵且耗时。置信区间为数据专业人士提供了一种量化由随机抽样引起的不确定性的方法。

在我们的例子中,你有一个95%的置信区间,表明平均高度在48到52英尺之间。为了这个例子,我们假设所有10,000棵红枫树的实际平均高度是51英尺。在实践中,除非你测量了城市里的每一棵树,否则你无法知道这一点。

这意味着,如果你抽取20个50棵树的随机样本,并为每个样本计算一个置信区间,你可以预期20个区间中有19个(即总数的95%)会包含51英尺的总体均值。其中一个这样的区间就是48到52英尺这个值域。

让我们暂停一下。我知道这是很多需要消化的新信息。置信区间可能有点棘手,这就是为什么它们经常被误解。为了更好地理解“你对估计有95%的信心”意味着什么,让我们更详细地探讨我们的城市规划例子。

想象你使用相同的抽样方法,再抽取20个50棵树的随机样本。由于每个样本都是从一个大总体中随机选择的,均值会因样本而异。记住,这被称为抽样变异性

对于你的第一个50棵树样本,平均高度是50英尺。对于你的第二个50棵树样本,平均高度结果是49.5英尺。对于你的第三个样本,你得到的平均高度是51.5英尺,依此类推。由于抽样变异性,任何给定样本的平均高度不一定等于实际的总体均值。置信区间有助于表达这种不确定性。

你基于每个样本均值计算的置信区间也会因样本而异,并且任何给定的区间不一定包含51英尺的总体均值。

例如:

  • 你的第一个样本平均高度为50英尺,置信区间在48英尺到52英尺之间。这个区间包含了51英尺的总体均值。
  • 你的第二个样本平均高度为49.5英尺,置信区间在47.5到50.5英尺之间。这个区间没有包含51英尺的总体均值。

然而,95%的置信水平意味着你可以预期20个区间中有19个(即总数的95%)会包含总体均值。换句话说,这种方法产生的区间包含总体均值的成功率为95%,这是一个相当不错的成功率。

常见的置信区间误解

现在你对如何解读置信区间有了更好的理解,让我们回顾一下这个概念常见的三种误解。了解这些误解将帮助你在未来避免它们。

以下是三种常见的错误解读:

  1. 误解一:认为95%的置信区间意味着数据集中95%的数据值都落在该区间内。
    这不一定正确。例如,你的树木高度95%置信区间在48英尺到52英尺之间。说你的数据集中所有值有95%落在这个区间内可能并不准确。有可能超过5%的树木高度在区间之外,要么低于48英尺,要么高于52英尺。

  2. 误解二:认为95%的置信区间意味着所有可能的样本均值有95%落在该区间范围内。
    这也不一定正确。例如,你的树木高度95%置信区间在48英尺到52英尺之间。想象你使用相同的抽样方法重复抽样。有可能超过5%的样本均值会小于48英尺或大于52英尺。

  3. 误解三:认为置信区间指的是你结果中唯一的误差来源。
    虽然每个置信区间都包含一个误差范围,但统计分析中可能还存在许多其他类型的误差。例如,调查中的问题可能设计不佳,或者抽样偏差可能影响样本数据。误差范围是衡量不确定性的有用指标,能使你的估计更可靠,但它并不是你分析中唯一可能的误差来源。

总结与要点

所以,当你解读置信区间时,请记住,不确定性在于基于随机抽样的估计过程。95%的置信水平指的是该过程的成功率。换句话说,你可以预期你生成的随机区间中有95%会捕获总体参数。

知道如何正确解读置信区间将使你更好地理解你的估计,并帮助你与利益相关者分享有用且准确的信息。你可能还需要解释常见的误解以及它们为何不正确。你肯定不希望你的利益相关者产生错误的想法或基于误解做出决策。理解如何有效地向利益相关者传达你的结果是成为一名数据专业人士的重要组成部分。

在本节课中,我们一起学习了置信区间的核心含义:它描述的是估计方法的可靠性,而非单个区间或数据的属性。我们通过城市规划的例子,理解了“95%置信”意味着如果重复抽样构建区间,有95%的区间会包含真实参数。我们还澄清了三种常见误解,强调了置信区间只量化了随机抽样带来的不确定性,而非所有可能的误差。掌握这些知识,将帮助你更自信、更准确地进行数据分析和沟通。

041:构建比例的置信区间 📊

在本节课中,我们将学习如何为总体比例构建置信区间。我们将通过一个选举民意调查的实例,逐步讲解构建置信区间的四个关键步骤。

概述

在之前的课程中,我们了解到数据专业人员使用置信区间来描述对总体均值或比例估计的不确定性。本节视频将重点讲解如何为比例构建置信区间。我们将通过一个涉及选举民意调查的例子,按步骤进行演示。之后,我们也会介绍均值的置信区间。

实例背景:选举民意调查

假设你是一家民意调查机构的数据专业人员。即将举行一场州长选举,候选人是蒂芙尼·戴维斯和玛雅·克鲁兹。

你的机构代表戴维斯竞选团队。距离选举日还有四周。戴维斯团队要求你进行一次民意调查,以了解他们的候选人目前的支持情况。

你从总共10万名选民中随机抽取了100名选民作为样本。你询问他们计划投票给哪位候选人。结果显示,55%的选民支持戴维斯,45%的选民支持克鲁兹。

这个调查结果让你的候选人感到高兴。如果在选举日戴维斯获得超过50%的选票,她就能获胜。所以55%是一个好结果。这似乎是好消息,对吗?

但你也知道,这只是从一个庞大总体中抽取的一个包含100名选民的随机样本。如果你抽取另一个100名选民的随机样本,可能会得到不同的结果。抽取第三个样本,结果可能再次不同,以此类推。换句话说,你的单个样本可能无法提供选举日将投票给戴维斯的选民的实际总体比例或百分比。

例如,在选举日,戴维斯可能获得52%(足以获胜),也可能获得49%(不足以获胜)。

因此,与其依赖一个点估计值作为你的候选人将赢得选举的证据,不如使用你的样本数据来构建一个置信区间。这将为竞选团队提供一个关于你估计值的不确定性以及可能的选举结果的更清晰概念。

构建置信区间的步骤

现在,让我们开始构建置信区间。首先,回顾一下构建置信区间的步骤:

  1. 确定样本统计量。
  2. 选择置信水平。
  3. 计算误差范围。
  4. 计算区间。

接下来,我们将详细讲解每一步。

第一步:确定样本统计量

你的民意调查代表了支持你候选人的选民百分比,即55%。这是一个样本比例

第二步:选择置信水平

大多数选举民意调查报告95%的置信水平。戴维斯竞选团队也要求你在计算中使用95%的置信水平。

第三步:计算误差范围

误差范围指的是样本统计量上方和下方的数值范围。如果你处理的是正态分布和大样本量,计算误差范围的一种方法是将Z分数乘以标准误差。

让我们分解一下这个概念。

回顾一下,Z分数衡量的是标准正态分布中数据点与总体均值的距离。例如,Z分数为1表示高于均值1个标准差。Z分数为-1.5表示低于均值1.5个标准差。

下表显示了与常用置信水平对应的Z分数:

  • 90% 置信水平对应 Z = 1.645
  • 95% 置信水平对应 Z = 1.96
  • 99% 置信水平对应 Z = 2.58

如果你选择95%的置信水平,则使用Z分数1.96来计算误差范围。

现在,你需要计算你的标准误差。你可能还记得,标准误差衡量的是样本统计量的变异性。它显示了你的样本比例可能与实际总体比例有多大差异。标准误差越大,样本的变异性就越大。

比例的标准误差公式如下:

标准误差 = √[ p̂ * (1 - p̂) / n ]

其中:

  • 是样本比例
  • n 是样本大小

你的样本比例是0.55,样本大小是100。将这些数字代入公式,你得到标准误差约为0.05。

现在,让我们把所有部分组合起来。误差范围是你的Z分数1.96乘以你的标准误差0.05。

误差范围 = 1.96 * 0.05 = 0.098

第四步:计算置信区间

构建置信区间的最后一步是计算区间本身。

区间的上限是样本比例加上误差范围:0.55 + 0.098 = 0.648,即64.8%。

区间的下限是样本比例减去误差范围:0.55 - 0.098 = 0.452,即45.2%。

因此,你得到了一个从45.2%延伸到64.8%的95%置信区间。

结果解读与样本量的影响

虽然你的置信区间大部分位于50%以上,但这并不一定是为即将到来的选举感到乐观的理由,因为45.2%的下限低于50%。基于这个置信区间,输掉选举仍然是一种可能性。竞选团队可能希望增加在电视或社交媒体广告上的投入,以确保胜利。

或者,如果竞选团队希望获得更准确的选举结果估计,他们可能会要求进行另一次样本量更大的民意调查。这将提供一个更准确的估计,因为它包含了更多的选民。

假设你进行了另一次样本量为1000名选民的民意调查。新的调查显示,54%的选民支持候选人戴维斯。如果你使用这些数字计算一个95%的置信区间,你的区间将从50.9%延伸到57.1%。现在,你的区间下限高于50%。这应该能让戴维斯团队对即将到来的选举更有信心。当然,他们的候选人仍然有可能输掉选举,因为置信水平是95%,而不是100%。

你可能会注意到,随着样本量增大,置信区间会变窄。对于100的样本,区间覆盖了19.6个百分点。对于1000的样本量,区间覆盖了6.2个百分点。这是因为随着样本量的增加,你的误差范围会减小。

如果你能对总体中的每个成员进行抽样,误差范围将为0。但当然,对整个总体进行抽样或重复抽样通常成本太高且耗时。

数据专业人员通常处理的是来自庞大总体的单个随机样本。置信区间帮助数据专业人员基于现有数据提供更可靠的估计。根据你的数据,你的候选人很可能会赢得选举。

总结

在本节课中,我们一起学习了如何为总体比例构建置信区间。我们通过一个选举民意调查的实例,详细演练了构建置信区间的四个步骤:确定样本统计量(样本比例)、选择置信水平(如95%)、计算误差范围(使用Z分数和标准误差),最后计算置信区间的上下限。我们还讨论了如何解读置信区间结果,并理解了增加样本量可以减小误差范围,从而获得更精确的估计。置信区间是数据专业人员量化估计不确定性、做出更可靠推断的强大工具。

042:构建均值的置信区间 📊

在本节课中,我们将学习如何为均值构建置信区间。我们将通过一个关于手机电池寿命的具体案例,一步步演示计算过程,并理解置信区间在商业决策中的应用。


概述

之前我们学习了数据专业人员如何使用置信区间来表达估计的不确定性,并为一个即将到来的选举中的投票比例构建了置信区间。本节中,我们将构建另一个置信区间,但这次是为均值构建。基本流程与比例类似,但需要新的计算方法。

案例背景:新手机电池寿命

假设你是一家手机公司的数据专业人员。公司最近开发了一款电池续航更长的手机,设计目标是至少运行20小时无需充电。这是一个重大的电池升级,预计将促进销售。

营销团队正计划围绕新电池开展广告活动。管理层希望在广告公开前,确保关于20小时电池寿命的说法是准确的。他们要求你分析数据,并为新手机的电池寿命做出可靠的估计。

公司已生产了10万台新手机。产品工程团队随机抽取了100台手机进行测试,并记录了电池寿命数据。根据数据,你得知样本的平均电池续航时间为20.5小时,样本标准差为1.7小时。并且,根据关于电池标准制造工艺的数据,你还知道总体标准差为1.5小时。

构建置信区间的步骤

以下是构建置信区间的四个标准步骤。

第一步:确定样本统计量

你的样本代表了100部手机的平均电池续航时间。在本例中,你使用的样本统计量是样本均值

第二步:选择置信水平

管理层要求你选择95%的置信水平,这是公司对新产品的标准要求。

第三步:计算误差范围

误差范围指的是样本统计量上下波动的数值范围。你可以通过将Z分数乘以标准误差来计算误差范围。

你可能还记得,使用的Z分数取决于你的置信水平。下表显示了与常用置信水平(如90%、95%和99%)对应的Z分数。95%置信水平的Z分数是1.96

现在,我们来计算标准误差。标准误差衡量样本统计量的变异性,它显示了样本均值可能与实际总体均值有多大差异。标准误差越大,变异性越大。

均值的标准误差公式为:总体标准差 / √样本容量

你的总体标准差是1.5,样本容量是100。将数字代入公式,得到标准误差为 0.15

误差范围 = Z分数 × 标准误差 = 1.96 × 0.15 = 0.294

第四步:计算置信区间

置信区间的上限是样本均值加上误差范围:20.5 + 0.294 = 20.794小时(约20小时48分钟)。

置信区间的下限是样本均值减去误差范围:20.5 - 0.294 = 20.206小时(约20小时12分钟)。

因此,你得到了手机电池寿命的95%置信区间,范围从20小时12分钟到20小时48分钟

结果解读与决策

这个置信区间为公司管理层提供了重要信息。区间的下限(20小时12分钟)高于公司20小时的目标。这有助于营销团队有信心地宣传手机的电池寿命至少为20小时。

你将分析结果呈现给公司的利益相关者,结果让除了营销总监之外的所有人都感到满意。营销总监在广告活动上投入了大量时间和精力,希望获得更高的置信度。他要求你使用99%的置信水平重新分析数据。

为了让营销总监满意,你使用相同的样本数据,但将置信水平从95%改为99%,重新计算结果。新的置信区间范围从20小时7分钟到20小时53分钟。区间的下限仍然高于20小时。这个结果应该能让公司管理层对电池寿命更有信心,并有望让营销总监满意。

你可能注意到,随着置信水平的提高,置信区间会变宽。在95%的置信水平下,区间覆盖了36分钟;在99%的置信水平下,区间覆盖了46分钟。这是因为更宽的置信区间更有可能包含实际的总体参数。

重要说明

在本例中,我们知道总体标准差是1.5小时。然而在实践中,总体标准差通常是未知的,必须根据样本标准差进行估计。这是因为很难获得大型总体的完整数据。如果你不知道总体标准差,置信区间的计算会发生变化。想了解更多,可以查阅相关阅读材料。

总结

本节课中,我们一起学习了如何为均值构建置信区间。我们回顾了构建置信区间的四个步骤:确定样本统计量、选择置信水平、计算误差范围以及计算区间本身。通过一个手机电池寿命的案例,我们看到了如何应用这些步骤,并理解了置信水平的变化如何影响区间的宽度。作为数据专业人员,你可以使用置信区间来帮助利益相关者基于准确的估计做出明智的决策。你的数据分析将有助于塑造公司的新产品发布策略,在新产品的未来成功中扮演关键角色。

043:使用Python计算置信区间 📊

在本节课中,我们将学习如何使用Python为点估计构建置信区间。我们将通过一个具体的教育数据分析案例,演示如何从样本数据出发,计算并解释置信区间,从而为决策提供更可靠的统计依据。


概述

之前我们讨论了数据专业人员如何使用样本数据对总体参数进行点估计。例如,数据专业人员可能抽取墨西哥城100个房屋价格的随机样本来估计该城市所有房屋的平均价格。

点估计可以提供总体参数的大致概念,但由于抽样变异性,估计通常包含一些误差。在实践中,重复抽样以获得更精确的估计通常耗时且成本高昂。

因此,数据专业人员使用置信区间来描述估计的不确定性,并为利益相关者提供更多信息。

在本视频中,你将使用Python为点估计构建置信区间。


场景回顾

我们将继续之前的情景:你是一名为某大国教育部工作的数据专业人员。

回顾一下,你正在分析每个地区的识字率数据,并将继续使用之前处理过的数据。如果需要访问数据,请现在进行。

在之前的视频中,我们设想了教育部要求你收集地区识字率数据。你只能调查随机选择的50个地区,而不是原始数据集中包含的所有634个地区。你使用Python模拟了抽取50个地区的随机样本,并对所有地区的平均识字率进行了点估计。

现在,作为下一步,设想教育部要求你为平均地区识字率的估计构建一个95%的置信区间。

你可以使用Python来构建这个置信区间。让我们打开Jupyter Notebook并开始。


准备工作

首先,导入你计划使用的Python包:numpypandas。为了节省时间,使用缩写重命名你的包:nppd

import numpy as np
import pandas as pd

scipy 导入 stats 模块。

from scipy import stats

你也可以使用在之前视频中处理过的相同样本数据。编写代码让Python模拟相同的地区识字率数据随机样本。

首先,命名你的变量 sampled_data,然后输入 sample 函数的参数:sample_size=50replace=True(因为你是进行有放回抽样)。对于 random_state,选择相同的随机数(之前使用的是31208)以生成相同的结果。

sampled_data = your_dataframe.sample(n=50, replace=True, random_state=31208)

现在,显示你的变量值。输出显示了从数据集中随机选择的50个地区,每个地区都有不同的识字率。


置信区间构建步骤回顾

在之前的视频中,我们逐步构建了置信区间。让我们回顾一下四个主要步骤:

  1. 确定样本统计量。
  2. 选择置信水平。
  3. 计算误差范围。
  4. 计算区间。

之前,你一步一步地完成了这些步骤来构建置信区间。使用Python,你只需一行代码就可以构建置信区间,并能更快地获得结果。


使用Python函数计算置信区间

如果你处理的是大样本(例如大于30),可以使用 scipy.stats.norm.interval 函数为均值构建置信区间。

该函数包含以下参数:

  • alpha:指置信水平。
  • loc:指样本均值。
  • scale:指样本标准误。

让我们更详细地探讨每个参数。

第一,alpha 或你的置信水平。

教育部要求95%的置信水平,这是政府资助研究的公认标准。

第二,loc 或样本均值。

这是你50个地区样本的平均识字率。命名一个新变量 sample_mean,然后计算你样本数据的平均地区识字率。

sample_mean = sampled_data['literacy_rate'].mean()

第三,scale 或样本标准误。

回顾一下,标准误衡量的是你样本数据的变异性。你可能还记得样本标准误的公式是:样本标准差除以样本大小的平方根

你可以编写代码来表达这个公式,并让Python为你进行计算。

首先,命名一个新变量 estimated_standard_error。接下来,取样本数据的标准差并除以样本大小的平方根。在括号内,写入你的数据框名称,后跟 shape 函数和 [0]

回顾一下,shape 函数返回数据框中的行数和列数。shape[0] 只返回行数,这与你的样本大小相同。

estimated_standard_error = sampled_data['literacy_rate'].std() / np.sqrt(sampled_data.shape[0])

构建置信区间

现在你已经准备好将所有内容整合起来,使用 stats.norm.interval 函数构建你的置信区间。

首先,写出函数并设置参数:对于 alpha,设置为 0.95,因为你想使用95%的置信水平;对于 loc,输入变量 sample_mean;对于 scale,输入变量 estimated_standard_error

confidence_interval = stats.norm.interval(alpha=0.95, loc=sample_mean, scale=estimated_standard_error)

然后运行代码,你的置信区间就出来了。Python使这个过程非常高效。

你得到了一个关于平均地区识字率的95%置信区间,范围大约从 71.4% 到 77.0%

教育部将使用你对平均地区识字率的估计来帮助做出向不同州分配资金的决定。


提高置信水平

现在,设想部门的一位高级主管希望对你的结果更有信心。主管希望确保你有一个可靠的估计,并建议你使用99%的置信水平重新计算区间。

要选择新的置信水平,复制并粘贴你之前的代码。将你的 alpha0.95 更改为 0.99,以基于样本数据计算99%的置信区间。

confidence_interval_99 = stats.norm.interval(alpha=0.99, loc=sample_mean, scale=estimated_standard_error)

现在运行代码,这是你的置信区间。

你得到了一个关于平均地区识字率的99%置信区间,范围大约从 70.5% 到 77.9%


置信水平与区间宽度的关系

你可能会注意到,随着置信水平的提高,置信区间会变宽。

  • 在95%的置信水平下,区间覆盖了 5.6 个百分点。
  • 在99%的置信水平下,区间覆盖了 7 个百分点。

这是因为更宽的置信区间更有可能包含实际的总体参数。

在我们本视频的场景中,你只有50个地区的数据。然而,在之前的视频中,你计算了数据集中所有634个地区的平均识字率,大约为 73.4%

因此,事实证明,你的两个置信区间都捕获了实际的总体均值。你的结果将帮助教育部决定如何分配政府资源以提高识字率。


总结

在本节课中,我们一起学习了如何使用Python快速构建置信区间。我们回顾了置信区间的概念和构建步骤,并通过实际代码演示了如何利用 scipy.stats.norm.interval 函数,根据指定的置信水平、样本均值和标准误来计算区间。我们还观察到,更高的置信水平会导致更宽的置信区间,这反映了统计估计中精度与把握度之间的权衡。掌握这一技能,将使你能够更专业地量化估计的不确定性,并为数据驱动的决策提供有力支持。

044:置信区间总结 🎯

在本节课中,我们将总结置信区间这一核心概念。我们将回顾置信区间在数据分析中的作用、构建步骤、解读方法,以及如何应用置信区间为决策提供支持。


置信区间简介 📊

课程开始时,我们讨论了数据专业人员如何使用样本统计量来估计总体参数。在本部分课程中,我们估计了汽车发动机的平均排放率和手机电池的平均寿命。

置信区间有助于表达估计中的不确定性,并提供一个可能结果的范围。

例如,我可以说营销活动将带来20万美元的新销售额。或者,我可以说基于95%的置信水平,我估计营销活动将带来15万至25万美元的新销售收入。两种预测可能都合理,但置信区间表达了估计中的不确定性,并为利益相关者提供了更多信息,帮助他们做出更好的决策。


置信区间的作用与价值 💡

上一节我们介绍了置信区间的基本概念,本节中我们来看看它在实际组织中的价值。

向利益相关者提供可靠的估计对组织有积极影响。例如,假设你是一家在全球运输产品的航运公司的数据专业人员。你可以使用置信区间来帮助估计经济因素,如燃料价格、运输成本、当地关税等。这些信息帮助公司领导者最小化风险、避免不必要的开支并提高效率。提高运输的速度和安全性将使依赖你公司服务的数千人受益。


置信区间的构建与解读 🔧

在本部分课程中,我们讨论了置信区间在数据分析中的作用,并回顾了构建置信区间的基本步骤。接下来,你学习了如何解读置信区间,以及如何避免对其结果的常见误解。

以下是构建置信区间的基本步骤:

  1. 识别样本统计量:例如样本均值或样本比例。
  2. 选择置信水平:例如95%或99%。
  3. 计算标准误差:衡量估计的变异性。
  4. 查找临界值:基于置信水平和分布(如Z分布或t分布)。
  5. 计算误差范围:公式为 误差范围 = 临界值 * 标准误差
  6. 指定区间:公式为 置信区间 = 点估计值 ± 误差范围

然后,你学习了如何为均值和比例构建置信区间。最后,我们使用Python的scipy.stats模块为总体均值的点估计构建了置信区间。

# 示例:使用scipy.stats计算总体均值的置信区间
import scipy.stats as st
import numpy as np

# 假设的样本数据
sample_data = np.array([...]) # 你的数据
confidence_level = 0.95
sample_mean = np.mean(sample_data)
sample_std = np.std(sample_data, ddof=1) # 样本标准差
n = len(sample_data)

# 计算标准误差和t临界值
standard_error = sample_std / np.sqrt(n)
t_critical = st.t.ppf((1 + confidence_level) / 2, df=n-1)

# 计算误差范围和置信区间
margin_of_error = t_critical * standard_error
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

总结与下一步 🚀

本节课中我们一起学习了置信区间的核心概念、构建方法、实际应用及其在支持数据驱动决策中的重要性。

很快,你将参加一次分级评估。为了准备,请查看列出了所有新术语的阅读材料,并随时重温涵盖关键概念的视频阅读材料和其他资源。你做得很好,请继续保持。


045:模块五导论 🎯

在本节课中,我们将学习假设检验的基本概念、一般步骤及其在数据分析中的应用,例如在临床试验中评估新药的有效性。


未来的数据分析师们,你们的学习之旅已经取得了长足的进步。回顾一下你们已经掌握的新技能:你们可以计算描述性统计量,如均值标准差,来概括数据特征;可以使用二项分布泊松分布正态分布等概率分布来为不同类型的数据建模;能够运用抽样分布来估计总体均值和比例;并且可以构建置信区间来描述估计的不确定性。

现在,你们将为技能库增添一项新技能:假设检验

假设检验是一种统计程序,它利用样本数据来评估关于总体参数的某个假设。例如,在临床试验中,假设检验常被用来判断一种新药是否能给患者带来更好的治疗效果。

设想一家制药公司发明了一种治疗普通感冒的新药。该公司随机抽取了200名有感冒症状的人进行测试。在不服用药物的情况下,典型患者的感冒症状会持续7.5天。而服用该药物的患者,平均恢复时间为6.2天。此时,公司可能会问:临床试验的结果是否具有统计显著性

回忆一下,统计显著性是指测试或实验的结果不能仅用偶然性来解释。换句话说,药物是否真的对恢复时间产生了积极影响?还是说,这个结果仅仅是出于偶然或抽样变异性?

为了回答这些问题,公司可能会要求数据分析师进行假设检验。该检验有助于量化结果是更可能源于偶然,还是具有统计显著性。这一知识将帮助公司判断药物是否真正有效,以及是否应批准其公开使用。

接下来,我们将概述假设检验的一般步骤,从陈述原假设备择假设,到选择显著性水平,再到计算P值,并最终决定是拒绝还是未能拒绝原假设。

然后,我们将探讨两种不同类型的假设检验:单样本检验双样本检验

最后,你将学习如何使用Python的scipy.stats模块进行双样本假设检验,以比较两个总体均值。

准备好学习更多内容后,我们将在下一个视频中继续。

046:在不断变化的数据空间中持续学习 🎯

概述

在本节课中,我们将跟随谷歌数据科学实习生Elilia的分享,了解数据科学工作的实际应用、所需技能以及职业发展路径。课程将涵盖数据科学的核心工作内容、跨领域应用的可能性,以及持续学习的重要性。


大家好,我是Elilia,是谷歌的一名数据科学实习生。

我来自法国,在那里长大并完成了大部分学业。我一直对数学非常感兴趣。

在我大学教育的初期,我也发现了计算机科学,并开始培养这方面的技能。

在法国寻找第一份实习时,我一直在寻找将这两个领域应用于现实问题的方法。

我发现了数据科学实习岗位,这让我希望继续在数据科学领域发展并专攻此方向。

我一直关注数据科学在人工智能和医疗保健等领域的各种应用。

这就是为什么我对在谷歌工作非常感兴趣,特别是在Verily公司。

最让我兴奋的是能够处理与医疗保健相关的数据集,生成见解并构建模型,这些模型能对患者或整个医疗保健行业产生实际影响。

谷歌的数据科学实习生在实习期间会获得一个项目来开展工作。

我具体从事的是临床自然语言处理,基本上是使用机器学习方法从临床记录中提取相关信息,并从中生成见解。

我绝对认为我的实习为我在数据科学领域的职业生涯做了充分准备。

作为一名数据科学家,你总是在学习新事物。总会有新的最先进模型出现。

跟上它们的步伐并真正了解它们的工作原理总是非常有趣,这样你就能根据你的具体用例来调整它们。

该项目的一部分是从患者记录和笔记中提取健康的社会决定因素。

然后我探索了这些健康的社会决定因素之间的关系,并发现了一些非常有趣的关联。

有些是已知的,但我觉得能够通过自己的工作亲自观察到它们真的很酷。

我认为数据科学和数据科学家工作的伟大之处在于,数据科学可以对任何领域产生影响。

如果你对与数据科学无关的某个领域感兴趣,我相当确定你能找到与之相关的工作。

关注你感兴趣的行业,很可能那里就会有数据科学的工作岗位。


总结

本节课中,我们一起学习了数据科学实践者的真实工作体验。我们了解到,数据科学是一个结合了数学、计算机科学和领域知识的交叉学科,其核心在于从数据中提取价值并解决实际问题。无论是处理临床文本的自然语言处理(NLP)任务,还是探索健康的社会决定因素,数据科学工作都要求持续学习新模型和方法(例如,不断跟进 state-of-the-art models)。最重要的是,数据科学的应用无处不在,可以将个人兴趣与职业发展相结合,在任何你关切的领域产生积极影响。

047:47_05_03_假设检验介绍 📊

在本节课中,我们将要学习假设检验的基本概念和步骤。假设检验是一种利用样本数据来评估关于总体参数假设的统计方法。例如,在新药的临床试验中,假设检验可以帮助你判断药物对你样本组的平均恢复时间的影响是统计显著的,还是仅仅出于偶然。

假设检验步骤概述 🔍

在上一节中,我们提到了假设检验的核心作用。本节中,我们来看看执行假设检验的具体步骤。以下是执行假设检验的四个主要步骤:

  1. 陈述原假设和备择假设。
  2. 选择显著性水平。
  3. 计算 P 值。
  4. 决定拒绝或无法拒绝原假设。

目前,这些概念可能有些抽象。这没关系。在本视频结束时,你会对每一个概念有更深入的了解。现在,为了阐明假设检验的步骤,让我们先探索一个例子。之后,我们将重新审视这些概念。

一个简单的例子:检验硬币是否公平 🪙

想象你得到一枚用于游戏的硬币。你不确定这枚硬币是公平的还是被做过手脚的。也就是说,你不知道它是一枚标准硬币,还是被特意加重以影响抛掷结果(例如,总是正面朝上)。在游戏中使用它之前,你想弄清楚这枚硬币是否公平。你决定通过连续抛掷六次并记录结果来测试这枚硬币。

正如我们之前在概率讨论中提到的,如果硬币是公平的,对于任何一次抛掷,正面或反面朝上的概率都是 0.5 或 50%。如果硬币被做了手脚总是反面朝上,那么任何一次抛掷反面朝上的概率会高得多,可能是 90% 甚至 100%。

在你开始测试之前,你需要一个基准来评估测试结果。例如,假设前两次抛掷都是反面。硬币是被做了手脚吗?

回想一下,我们将使用乘法规则来计算独立事件的概率。所以,硬币连续两次反面朝上的概率是 0.5 * 0.5 = 0.25 或 25%。这并非不可能。此时,你不能合理地断定硬币被做了手脚。

现在,想象硬币连续四次反面朝上。发生这种情况的概率是 0.5 * 0.5 * 0.5 * 0.5 = 0.0625 或 6.25%。这不太可能,但并非不可能。然而,你希望更有信心地认为这个结果不是偶然的。

你决定使用 5% 作为阈值来判断结果是否出于偶然。换句话说,如果假设硬币是公平的,那么出现该结果的概率小于 5%,你就将得出结论认为硬币实际上被做了手脚。

例如,一枚公平的硬币连续六次反面朝上的概率是 0.5 * 0.5 * 0.5 * 0.5 * 0.5 * 0.5 = 0.0156 或 1.56%。这太不可能了,因为可能性低于你设定的 5% 阈值。如果发生这种情况,你将断定硬币被做了手脚。

现在,你准备好进行测试了。你连续抛掷硬币六次并记录结果。硬币每次都反面朝上。你得出结论,硬币被做了手脚。不幸的是,除非你在表演魔术并且恰好需要一枚总是反面朝上的硬币,否则这枚硬币对你没什么用处。

这个例子是检验硬币是否公平的假设检验的一个简化版本。你经历了假设检验程序的每一步。

深入探讨假设检验步骤 📝

上一节我们通过例子了解了假设检验的流程。本节中,我们来更详细地探讨每个步骤。以下是执行假设检验的四个步骤:

  1. 陈述原假设和备择假设。
  2. 选择显著性水平。
  3. 计算 P 值。
  4. 决定拒绝或无法拒绝原假设。

第一步:陈述假设

首先,陈述你的原假设和备择假设。

  • 原假设 是一个被假定为真的陈述,除非有令人信服的证据证明其相反。原假设通常假设你观察到的数据是偶然发生的。
  • 备择假设 是一个与原假设相矛盾的陈述,只有在有令人信服的证据支持时才会被接受为真。备择假设通常假设你观察到的数据不是偶然发生的。

在我们的例子中:

  • 你的原假设 是:硬币是公平的。拥有公平的硬币是标准或典型状态。原假设声称你的观察结果纯粹是偶然的。
  • 你的备择假设 是:硬币不公平。备择假设声称结果是做手脚造成的,并非偶然。

第二步:选择显著性水平

接下来,选择你的显著性水平。这是你认为结果具有统计显著性的阈值。显著性水平也是当原假设为真时,你拒绝原假设的概率。我将在视频后面详细讨论这一点。

在我们的例子中,你使用 5% 作为阈值来判断抛硬币的结果是否出于偶然。通常,数据专业人员将显著性水平设定为 5%。

请注意,5% 并没有什么神奇之处。这是基于统计研究和教育传统的一种选择。你可以根据分析的要求调整显著性水平。其他常见的选择是 1% 和 10%。

第三步:计算 P 值

然后,计算你的 P 值。P 值 指的是当原假设为真时,观察到与所观察结果一样极端或更极端的结果的概率。

我们已经计算出一枚公平的硬币连续六次反面朝上的概率是 1.56%。所以,如果你假设原假设为真(即硬币是公平的),那么我们例子中的 P 值就是 1.56%。任何低于此值的概率都意味着有更强的证据支持备择假设。

记住,你的备择假设是硬币不公平。例如,用一枚公平的硬币连续抛掷 7 次反面的概率是 0.5^7 = 0.0078 或 0.78%,这低于 1.56% 的 P 值。如果你连续抛掷出七次反面,你将有更强的证据支持备择假设,即硬币不公平。

第四步:做出决定

最后,你必须决定是拒绝还是无法拒绝原假设。统计学家总是说“无法拒绝”而不是“接受”。这是因为假设检验基于概率,而非确定性,而“接受”意味着确定性。通常,作为数据专业人员,我们尽量避免声称基于统计方法的结果是确定的。

关于假设检验的结论,有两条主要规则:

  • 如果你的 P 值小于 你的显著性水平,你拒绝 原假设。
  • 如果你的 P 值大于 你的显著性水平,你无法拒绝 原假设。

在抛硬币的例子中,你的 P 值 1.56% 小于你的显著性水平 5%。因此,你拒绝原假设,并得出结论:你连续六次反面的结果具有统计显著性,并非偶然。

你的拒绝或无法拒绝的决定也取决于你的显著性水平。假设在你的测试之前,你选择了 1% 而不是 5% 作为显著性水平。在那种情况下,你将无法拒绝原假设,因为你的 P 值 1.56% 将大于你的显著性水平 1%。

假设检验中的错误 ⚠️

一个统计上显著的结果并不能 100% 确定地证明一个假设是正确的。因为假设检验基于概率,所以在对原假设下结论时,总是有可能得出错误的结论。在假设检验中,下结论时可能犯两种错误:第一类错误第二类错误

  • 第一类错误,也称为假阳性,发生在你拒绝了实际上为真的原假设时。换句话说,你得出结论认为你的结果具有统计显著性,而实际上它是偶然发生的。在我们的例子中,当硬币实际上是公平时,却断定硬币被做了手脚,这将被视为第一类错误。即使你连续得到了六次反面,这个结果仍然可能是偶然的——可能性极低,但确实可能。
  • 第二类错误,也称为假阴性,发生在你未能拒绝实际上为假的原假设时。换句话说,你得出结论认为你的结果是偶然发生的,而实际上它具有统计显著性。在我们的例子中,你将会断定硬币是公平的,而实际上它被做了手脚。

之前视频中提到,你的显著性水平也是当原假设为真时拒绝它的概率。5% 的显著性水平意味着当你拒绝原假设时,你愿意接受 5% 的犯错几率。

为了降低犯第一类错误的风险,请选择较低的显著性水平。回想一下,如果你选择 1% 的显著性水平,你将无法拒绝原假设,并得出结论认为硬币是公平的。然而,选择较低的显著性水平意味着你更有可能犯第二类错误或假阴性。

作为数据专业人员,了解假设检验中固有的潜在错误以及它们如何影响你的结果是有帮助的。根据具体情况和分析目标,你可能希望最小化第一类错误或第二类错误的风险。

想象你正在为降落伞制造商测试面料的强度。你希望非常有信心你使用的材料足够坚固,能够制作出功能正常的降落伞。第一类错误或假阳性意味着你错误地认为材料足够坚固。显然,在这种情况下,你希望最小化第一类错误的风险。为此,请选择 1% 而不是标准的 5% 作为显著性水平。这一变化将第一类错误或假阳性的机会从 5% 降低到 1%。

最终,作为数据专业人员,你有责任决定需要多少证据才能断定一个结果具有统计显著性,以及第一类错误或假阳性的风险有多大。对于所有情况,并没有单一正确的答案。这需要你来决定。

总结 📋

本节课中我们一起学习了假设检验的核心概念和完整流程。抛硬币的例子向你展示了进行假设检验所涉及的主要概念。作为数据专业人员,你将把这些概念用于你可能想要进行的任何假设检验。

048:单样本均值检验 📊

在本节课中,我们将学习如何进行单样本假设检验。这是一种用于判断总体参数(如均值或比例)是否等于某个特定值的统计方法。我们将通过一个在线配送公司的实际案例,详细讲解单样本Z检验的完整步骤。

概述:假设检验的类型

上一节我们介绍了假设检验的基本概念。本节中,我们来看看假设检验的两种主要类型:单样本检验和双样本检验。

  • 单样本检验:用于判断一个总体参数(如均值或比例)是否等于一个特定值。
  • 双样本检验:用于判断两个总体参数(如两个均值或两个比例)是否彼此相等。我们将在后续课程中探讨双样本检验。

数据专业人员可能会使用单样本假设检验来确定:

  • 公司的平均销售收入是否达到目标值。
  • 某种医疗方法的平均成功率是否达到设定目标。
  • 股票投资组合的平均回报率是否等于市场基准。

案例背景:在线配送公司

假设你是一名为在线配送公司工作的数据专业人员。通常,在线食品订单的平均配送时间为40分钟,标准差为5分钟。

最近,公司管理层推出了一项新的培训计划,旨在提高配送效率。在配送员完成培训后,管理层随机抽取了50个订单的样本,以了解配送所需时间。

这50个订单样本的平均配送时间为38分钟,标准差为5分钟。总体均值(40分钟)与样本均值(38分钟)之间存在2分钟的观测差异。

管理层要求你判断平均配送时间的减少是否具有统计显著性,还是仅仅出于偶然。如果减少是显著的,公司就计划在其他地区投资开发和实施该培训计划。

你决定进行单样本Z检验来分析这些数据。

进行假设检验的步骤

以下是进行假设检验的标准步骤:

  1. 陈述原假设和备择假设。
  2. 选择显著性水平。
  3. 计算P值。
  4. 决定拒绝或不拒绝原假设。

接下来,我们将按照这些步骤,逐一应用到我们的案例中。

第一步:陈述假设

首先,陈述你的原假设和备择假设。原假设是一个被假定为真的陈述,除非有令人信服的证据证明其不成立。

在单样本Z检验中,原假设声明总体均值等于一个观测值。在本案例中,你的原假设是:平均配送时间等于40分钟(即标准的平均配送时间)。

原假设 (H₀): μ = 40

备择假设是与原假设相矛盾的陈述。在单样本检验中,备择假设主要有三种选项:总体均值不等于、小于或大于观测值。在本案例中,你想测试培训是否降低了平均配送时间。因此,你的备择假设是:平均配送时间小于40分钟。

备择假设 (H₁): μ < 40

第二步:选择显著性水平

接着,设定显著性水平,即你认为结果具有统计显著性的阈值。这也是当原假设为真时,你错误地拒绝它的概率。

你选择5%的显著性水平,这是公司进行数据分析的标准。

显著性水平 (α): 0.05

第三步:计算P值

现在,计算P值。P值是指当原假设为真时,观测到与样本差异一样极端或更极端结果的概率。

通常,平均配送时间是40分钟。你的样本平均配送时间是38分钟。你的原假设声称这2分钟的差异是由于偶然或抽样变异性造成的。

你的P值就是:如果原假设为真,观测到2分钟或更大差异的概率。

如果这个结果的概率非常小(具体来说,如果你的P值小于5%的显著性水平),那么你将拒绝原假设。

P值的计算概念

作为数据专业人员,你几乎总是使用Python等编程语言或其他统计软件在计算机上计算P值。然而,让我们简要了解一下计算中涉及的概念,以便更好地理解其工作原理。

能够使用代码进行计算对你的未来职业很重要,但熟悉计算背后的概念将帮助你将这些统计方法应用到工作问题中。

P值是根据所谓的检验统计量计算得出的。在假设检验中,检验统计量是一个数值,它显示你的观测数据与原假设下预期的分布匹配得有多紧密。

因此,如果你假设原假设为真(平均配送时间为40分钟),那么配送时间数据服从正态分布。检验统计量显示了你的观测数据(样本平均配送时间38分钟)将落在该分布的哪个位置。

由于你正在进行Z检验,你的检验统计量是一个Z分数。Z分数衡量的是一个数据点低于或高于总体均值多少个标准差,它告诉你你的值在正态分布上的位置。

以下公式根据你的样本数据给出检验统计量Z:

Z = (x̄ - μ) / (σ / √n)

其中:

  • 是样本均值(38分钟)
  • μ 是总体均值(40分钟)
  • σ 是总体标准差(5分钟)
  • n 是样本大小(50)

将数字代入公式并计算,你得到一个Z分数:Z ≈ -2.82

让我们看看Z分数-2.82在分布中的位置。它位于左侧很远的地方,几乎低于均值三个标准差。对于正态分布,得到小于你的Z分数-2.82的值的概率,是通过计算Z分数左侧曲线下的面积得出的。

这被称为左尾检验,因为你的P值位于分布的左尾。曲线这部分的面积就等于你的P值。

再次强调,你的P值是当原假设为真时,观测到与样本检验统计量一样极端或更极端结果的概率。你的备择假设声明平均配送时间减少了,这就是为什么我们关注得到任何等于或低于Z分数-2.82的值的概率。

在不同的检验场景中,你的检验统计量可能是+2.45,并且你可能关注等于或高于Z分数2.45的值。那样的话,你的P值将位于分布的右尾,你将进行右尾检验。

如果你计算P值,你会发现它是 0.00230.23%。这意味着,如果原假设为真,平均配送时间出现2分钟或更大差异的概率是0.23%。换句话说,差异是由于偶然造成的可能性极低。

第四步:做出决策

要对你的原假设得出结论,请将你的P值与显著性水平进行比较。

  • 如果你的P值小于显著性水平,你得出结论:平均配送时间存在统计显著性差异。换句话说,你拒绝原假设
  • 如果你的P值大于显著性水平,你得出结论:平均配送时间不存在统计显著性差异。换句话说,你不拒绝原假设

你的P值0.0023(0.23%)小于显著性水平0.05(5%)。

因此,你拒绝原假设,并得出结论:平均配送时间存在统计显著性差异。

总结与业务决策

本节课中,我们一起学习了如何执行单样本Z检验。我们从陈述假设开始,设定了显著性水平,理解了P值和检验统计量的概念,并最终根据P值与显著性水平的比较做出了统计决策。

在我们的案例中,分析结果表明,更快的配送时间很可能是培训带来的积极效果。你的分析将帮助公司领导层决定是否在未来对该培训计划进行更大投资。根据你的结果,他们很可能会这样做。

049:双样本均值检验

在本节课中,我们将学习如何执行双样本均值检验。这是一种用于比较两个独立群体均值是否存在显著差异的统计方法,在数据分析中,尤其是在A/B测试场景下应用广泛。

上一节我们介绍了单样本假设检验,用于分析单个总体均值是否等于某个特定值。本节中我们来看看双样本检验,它用于判断两个总体的均值是否彼此相等。

概述:双样本T检验的应用场景

在数据分析领域,双样本检验最常用于A/B测试。例如,一家在线零售店考虑为其最忠诚的会员更改着陆页。公司最关心的指标是用户每次会话在着陆页上花费的平均时间。

以下是进行此类分析的标准步骤:

  1. 设置实验,将用户随机分为两组:A组使用默认着陆页,B组使用重新设计的版本。
  2. 使用T检验比较两个着陆页的平均停留时间,以确定两个样本均值之间的差异是否具有统计显著性。换句话说,如果B组在着陆页上花费的时间比A组长,T检验将帮助判断这是由于偶然性还是新设计导致的。

双样本T检验的假设

双样本均值T检验基于以下假设:

  • 两个样本彼此独立
  • 每个样本的数据都是从正态分布的总体中随机抽取的。
  • 总体标准差未知,需要从样本数据中估计。

在实践中,由于很难获得大型总体的完整数据,总体标准差通常是未知的,因此数据专业人员通常使用T检验

T检验与Z检验的区别

  • Z检验:当总体标准差已知时使用,其检验统计量是Z分数,基于标准正态分布
  • T检验:当总体标准差未知时使用,其检验统计量是T分数,基于T分布

T分布的图形呈钟形,与标准正态分布相似,但其尾部更厚。更厚的尾部表明,在小数据集的情况下,出现异常值的频率更高。随着样本量的增加,T分布会逐渐接近正态分布。

实战演练:化妆品网站A/B测试

假设你是一家化妆品公司的数据专家。公司正在研究客户在其网站上花费的时间。你的团队领导要求你进行一项A/B测试,以确定将着陆页的背景色从灰色改为绿色是否会影响页面平均停留时间。

你随机选择了两组用户:

  • 第一组访问灰色着陆页(版本A)。
  • 第二组访问绿色着陆页(版本B)。

你从A/B测试中收集到以下数据:

  • 40名用户访问版本A,平均停留时间为300秒,标准差为18.5秒。
  • 38名用户访问版本B,平均停留时间为305秒,标准差为16.7秒。

观察到的均值差异为 305 - 300 = 5 秒。你决定进行双样本T检验来分析这些数据。

假设检验步骤

以下是进行假设检验的标准步骤:

  1. 陈述零假设和备择假设。
  2. 选择显著性水平。
  3. 计算P值。
  4. 决定拒绝或不拒绝零假设。

第一步:陈述假设

在双样本T检验中:

  • 零假设 (H₀):两个总体均值之间没有差异。除非有令人信服的相反证据,否则假定此假设为真。
    • 对于本例:版本A和版本B的平均停留时间没有差异
  • 备择假设 (H₁):与零假设相反的陈述。
    • 对于本例:版本A和版本B的平均停留时间存在差异

第二步:设置显著性水平

显著性水平是你认为结果具有统计显著性的阈值,即当零假设为真时拒绝它的概率。你选择5%的显著性水平,这是公司进行A/B测试的标准。

第三步:计算P值

P值是在零假设为真的情况下,观察到样本均值差异达到或超过实际观测差异(5秒)的极端程度的概率。

如果这个结果的概率非常小(特别是P值小于5%的显著性水平),你将拒绝零假设。

作为数据专家,你几乎总是使用Python等编程语言或统计软件在计算机上计算P值。首先需要计算检验统计量。

由于你正在进行T检验,因此需要计算T分数。使用以下公式根据样本数据计算检验统计量T:

T = (x̄₁ - x̄₂) / √( (s₁² / n₁) + (s₂² / n₂) )

其中:

  • x̄₁x̄₂ 是两个组的样本均值。
  • n₁n₂ 是两个组的样本大小。
  • s₁s₂ 是两个组的样本标准差。

将本例数据代入公式计算,得到检验统计量 T ≈ -1.2508

对于T检验,检验统计量在零假设下服从T分布。你的备择假设指出版本A和B的均值存在差异。观察到的差异是5秒。因此,如果你发现均值之间存在统计显著差异(无论是小于还是大于观察到的5秒差异),你都将拒绝零假设。

由于你对两个方向(小于或大于检验统计量)的值都感兴趣,因此你的P值是获得小于T分数 -1.2508 或大于T分数 +1.2508 的值的概率。P值对应于分布左尾和右尾曲线下的面积,这被称为双尾检验

计算得出的P值为 0.214821.48%。这意味着,如果零假设为真,那么版本A和版本B平均停留时间之间的绝对差异达到或超过5秒的概率是 21.48%

第四步:得出结论

将P值与显著性水平进行比较:

  • 如果 P值 < 显著性水平,则得出结论:两个版本之间的均值存在统计显著差异。即,拒绝“版本A和B平均停留时间无差异”的零假设。
  • 如果 P值 > 显著性水平,则得出结论:两个版本之间不存在统计显著差异。即,无法拒绝零假设。

本例中,P值 0.2148 (21.48%) 大于显著性水平 0.05 (5%)。因此,你无法拒绝零假设,并得出结论:版本A和版本B的平均停留时间之间不存在统计显著差异。换句话说,观察到的平均停留时间差异很可能只是由于偶然性。

分析结论与业务建议

你的分析将帮助公司决定如何重新设计网站。既然灰色和绿色背景色在平均停留时间上没有统计显著差异,你可以建议公司:

  • 测试其他颜色,例如蓝色或黄色。
  • 测试其他设计功能,例如文本大小或按钮形状。
    也许不同的设计更改会对客户在着陆页上的平均停留时间产生影响。

总结

本节课中我们一起学习了双样本T检验。我们了解到,这是一种用于比较两个独立群体均值的强大统计工具,尤其适用于A/B测试。我们回顾了其核心假设、与Z检验的区别,并通过一个化妆品网站的背景色A/B测试案例,完整演练了从建立假设、计算检验统计量(T分数)和P值,到最终做出统计决策的全过程。关键在于比较P值与预设的显著性水平,从而判断观察到的差异是真实的效应还是随机波动。

050:双样本比例检验 📊

在本节课中,我们将学习如何使用双样本Z检验来比较两个总体的比例。我们将通过一个具体的商业案例,一步步地完成假设检验的完整流程。


概述

之前我们学习了使用双样本T检验来比较两个总体的均值。例如,我们曾用它来比较一家化妆品公司两个不同版本着陆页的平均停留时间。

本节中,我们来看看如何比较两个总体的比例。由于技术原因,T检验不适用于比例数据,因此我们需要使用双样本Z检验。数据专业人员可能会使用此方法来比较两条装配线上产品的缺陷比例、两个试验组对新药的副作用比例,或两个选区注册选民对新法的支持比例。


案例背景:员工满意度调查

假设你是一家国际建筑公司的数据专业人员。公司在伦敦和北京设有办公室。人力资源团队希望了解北京办公室和伦敦办公室的员工满意度水平是否存在差异。

团队在每个办公室随机抽取了50名员工进行调查,询问他们是否对当前工作感到满意。他们要求你判断伦敦和北京满意员工的比例是否存在统计学上的显著差异。如果存在,HR团队将投入资源调查原因。

根据调查结果:

  • 伦敦办公室有67% 的员工表示满意。
  • 北京办公室有57% 的员工表示满意。

两地满意员工比例存在10个百分点(67% - 57%)的差异。你决定进行双样本Z检验来分析数据。


假设检验步骤回顾

以下是进行假设检验的标准步骤:

  1. 陈述原假设和备择假设。
  2. 选择显著性水平。
  3. 计算P值。
  4. 决定是否拒绝原假设。

接下来,我们将这些步骤应用到我们的案例中。


第一步:陈述假设

在双样本Z检验中:

  • 原假设 (H₀) 声称两个群体的比例没有差异。除非有令人信服的证据,否则我们假定它为真。
  • 备择假设 (H₁) 则声称存在差异。

应用到我们的案例:

  • H₀: 伦敦和北京满意员工的比例没有差异
  • H₁: 伦敦和北京满意员工的比例存在差异

第二步:选择显著性水平

显著性水平是你认为结果具有统计学显著性的阈值,即当原假设为真时错误地拒绝它的概率。

你选择5%(α = 0.05)作为显著性水平,这是公司进行员工调查的标准。


第三步:计算P值

P值是在原假设为真的前提下,观察到样本比例差异达到或超过实际观测到的差异(10个百分点)的概率。

如果这个结果的概率非常小(即P值小于5%的显著性水平),你将拒绝原假设。

作为数据专业人员,你通常会使用Python等编程语言或统计软件来计算P值。计算过程如下:

首先,计算检验统计量 Z。公式如下:

Z = (p̂₁ - p̂₂) / √[ p̂₀(1 - p̂₀) * (1/n₁ + 1/n₂) ]

其中:

  • p̂₁p̂₂ 是第一组和第二组的样本比例。
  • n₁n₂ 是第一组和第二组的样本大小。
  • p̂₀合并比例,即两个样本比例的加权平均值(具体公式此处暂不展开)。

将我们的数据(p̂₁=0.67, p̂₂=0.57, n₁=50, n₂=50)代入公式计算,得到 Z ≈ 1.03

对于Z检验,在原假设下,检验统计量服从正态分布。我们的备择假设是“存在差异”,因此我们关注的是绝对值大于等于观测差异的情况。这是一个双尾检验

P值对应于Z分数小于 -1.03 或大于 1.03 的概率,即正态分布曲线下左右两尾的面积之和。计算得出 P值 ≈ 0.3030(30.3%)

这意味着,如果原假设为真(即两地满意度无真实差异),观察到满意度比例差异达到或超过10个百分点的概率是30.3%。


第四步:做出决策

现在,将P值与显著性水平进行比较以得出结论:

  • 如果 P值 < 显著性水平,则拒绝原假设,认为两组比例存在统计学显著差异。
  • 如果 P值 ≥ 显著性水平,则无法拒绝原假设,认为没有足够证据表明两组比例存在统计学显著差异。

在我们的案例中:
P值 (0.303) > 显著性水平 (0.05)

因此,我们无法拒绝原假设。结论是:伦敦办公室和北京办公室的满意员工比例不存在统计学上的显著差异。换言之,观测到的10个百分点的差异很可能是由随机抽样误差(机会)导致的。


总结

本节课中,我们一起学习了双样本比例Z检验的完整流程。我们通过一个员工满意度调查的案例,从建立假设、选择显著性水平,到计算检验统计量和P值,最后做出统计决策。

分析结果表明,两地办公室的满意度没有显著差异。这个结论帮助人力资源团队节省了时间和金钱,因为他们无需投入资源去调查根本不存在的“差异”背后的原因。当然,他们仍然可以致力于研究如何提升整体的员工满意度水平。

你掌握了如何使用统计方法来区分数据中的真实信号与随机噪声,从而为商业决策提供坚实的依据。

051:使用Python进行假设检验 📊

在本节课中,我们将学习如何使用Python进行双样本T检验,以判断两个样本均值之间的差异是否具有统计显著性,还是仅仅源于随机波动。

概述

上一节我们介绍了专业人士如何使用双样本假设检验。本节中,我们将通过一个具体的教育数据分析案例,使用Python来执行一次完整的双样本T检验。我们将模拟从两个州中随机抽取学区数据,并检验其平均识字率是否存在显著差异。

数据准备与随机抽样

首先,我们需要导入必要的Python库并加载数据。

import pandas as pd
from scipy import stats

假设我们有一个包含各州学区识字率的数据集。我们需要筛选出州21和州28的数据。

# 筛选州21的数据
state_21 = df[df[‘state_name‘] == ‘State 21‘]
# 筛选州28的数据
state_28 = df[df[‘state_name‘] == ‘State 28‘]

由于时间和资源有限,我们无法调查所有学区。因此,我们需要从每个州中随机抽取20个学区作为样本。

以下是进行随机抽样的步骤:

# 从州21中随机抽取20个学区,设置随机种子以确保结果可复现
sampled_state_21 = state_21.sample(n=20, replace=True, random_state=13490)
# 从州28中随机抽取20个学区,使用不同的随机种子
sampled_state_28 = state_28.sample(n=20, replace=True, random_state=39103)

现在,我们计算两个样本的平均识字率。

mean_21 = sampled_state_21[‘overall_literacy‘].mean()
mean_28 = sampled_state_28[‘overall_literacy‘].mean()

根据样本数据,州21的平均学区识字率约为70.8%,州28约为64.6%。观察到的差异为6.2个百分点(70.8 - 64.6)。然而,这个差异可能只是抽样变异造成的,我们需要通过假设检验来确认其统计显著性。

执行双样本T检验

现在我们已经准备好了数据,可以开始正式的假设检验。双样本T检验是用于比较两个独立样本均值的标准方法。

回顾一下假设检验的四个步骤:

  1. 陈述零假设和备择假设。
  2. 选择显著性水平。
  3. 计算P值。
  4. 决定是否拒绝零假设。

第一步:陈述假设

在双样本T检验中:

  • 零假设 (H₀):两个群体的均值没有差异。公式表示为:H₀: μ₁ = μ₂
  • 备择假设 (H₁):两个群体的均值存在差异。公式表示为:H₁: μ₁ ≠ μ₂

在我们的案例中:

  • H₀: 州21和州28的平均学区识字率没有差异。
  • H₁: 州21和州28的平均学区识字率存在差异。

第二步:选择显著性水平

教育部要求使用标准的5%(即0.05)作为显著性水平(α)。这意味着,如果零假设为真,我们错误地拒绝它的概率为5%。

第三步:计算P值

P值是在零假设为真的前提下,观察到样本均值差异达到或超过我们实际观测到的差异(6.2个百分点)的概率。

我们将使用SciPy库中的ttest_ind函数进行计算。由于我们无法获知两个州全部人口的方差,因此不假设两个样本的方差相等。

# 执行双样本T检验,不假设方差相等
t_stat, p_value = stats.ttest_ind(a=sampled_state_21[‘overall_literacy‘],
                                   b=sampled_state_28[‘overall_literacy‘],
                                   equal_var=False)

运行代码后,我们得到P值约为0.0064(即0.64%)。

第四步:做出决策

现在,我们将P值与显著性水平进行比较:

  • 如果 P值 < 显著性水平 (0.05),则拒绝零假设,认为差异具有统计显著性。
  • 如果 P值 > 显著性水平 (0.05),则无法拒绝零假设,认为差异不具有统计显著性。

我们的P值(0.0064)小于0.05。因此,我们拒绝零假设

结论与意义

我们得出结论:州21和州28的平均学区识字率之间存在统计上显著的差异

这个分析结果对资源分配具有实际指导意义。由于存在显著差异,且州28的识字率较低,教育部可能会向州28分配更多政府资源,以帮助提升其识字率。

双样本T检验是探究两个样本均值差异的强大工具。数据专业人员经常使用T检验来帮助利益相关者做出数据驱动的决策。

总结

本节课中,我们一起学习了如何使用Python执行双样本T检验的全过程。我们从数据准备和随机抽样开始,逐步完成了假设陈述、设定显著性水平、计算P值以及做出统计决策的步骤。最终,我们根据检验结果,为教育资源分配提供了数据支持。掌握这一方法,你就能科学地评估不同群体间的差异是否真实存在。

052:假设检验总结 📊

在本节课中,我们将要学习假设检验的核心流程、不同类型及其在实际数据分析中的应用。假设检验是数据专业人员判断结果是否具有统计显著性的关键工具。


假设检验的一般流程

上一节我们介绍了假设检验的重要性,本节中我们来看看进行假设检验需要遵循的标准步骤。

以下是假设检验的标准流程:

  1. 陈述原假设(H₀)与备择假设(H₁)。
  2. 选择显著性水平(α)。
  3. 计算检验统计量并找到对应的P值。
  4. 根据P值与显著性水平的比较,决定是拒绝还是无法拒绝原假设。

假设检验的类型

了解了基本流程后,我们来探讨两种主要的假设检验类型:单样本检验与双样本检验。

单样本假设检验

为了理解单样本假设检验的工作原理,我们以一家在线食品配送服务的平均配送时间数据分析为例,进行了单样本Z检验

其核心公式为:
Z = (样本均值 - 假设的总体均值) / (总体标准差 / √样本量)

双样本假设检验

接下来,为了探索双样本检验,我们通过一个建筑公司两个不同办公室的员工满意度比例对比,进行了双样本Z检验

此外,你还学习了如何使用Python的scipy.stats模块进行双样本T检验,以判断两个总体均值之间的差异是否具有统计显著性。这在A/B测试中非常常用。

以下是使用Python进行双样本T检验的示例代码框架:

from scipy import stats
t_statistic, p_value = stats.ttest_ind(sample_a, sample_b)

假设检验的实际应用:A/B测试

数据专业人员经常在A/B测试的背景下使用双样本检验。公司利用A/B测试评估从网站设计、移动应用到数字广告和营销邮件的方方面面。

在本课程的这一部分,我们通过一个化妆品公司的案例,使用双样本T检验比较了用户在两个不同版本登录页面上花费的平均时间。A/B测试帮助商业领袖优化性能并改善客户体验。


课程总结与后续安排

本节课中,我们一起学习了假设检验的完整流程、单样本与双样本检验的方法,以及它们在A/B测试等实际场景中的应用。

很快,你将在一个基于真实A/B测试场景的组合项目中运用你的Python技能,为此你已经做好了充分准备。接下来,请准备一次分级评估。建议查阅列出了所有新术语的阅读材料,并随时复习涵盖关键概念的课程视频、阅读材料和其他资源。

祝贺你取得的所有进展,做得很好!😊

053:模块六项目介绍

在本节课中,我们将学习如何完成本课程的最终作品集项目。该项目旨在展示你在统计学方面的知识,并为你未来的求职面试提供具体的讨论案例。


大家好,我是Tiffany,再次回来与大家讨论你们的作品集项目,以及如何在求职中运用它们。

与之前的课程一样,你将完成一个独立的作品集项目。完成这个项目是向潜在雇主展示你在数据相关任务方面的知识和经验的绝佳方式。这一次,你的项目将展示你在统计学方面的所学。

这个作品集项目也是一个发展你面试技能的机会。当潜在雇主评估你时,他们可能会询问你过去如何应对挑战的具体例子。你可以利用你的作品集来讨论你解决过的数据问题。

这个项目将帮助你思考统计学如何指导数据专业工作,并为你未来的工作面试提供一个具体的讨论案例。

一些雇主可能还会要求你完成特定的任务,例如A/B测试。除了拥有作品集,创建你自己的实验设计意味着你将为这些面试做好更充分的准备。

能够使用代码和统计软件进行计算对你的未来职业至关重要,而理解如何将这些统计模型应用于工作场所的问题,是在数据领域取得成功的关键。

为了完成作品集项目,你将获得一个商业案例的详细信息。然后,你将根据指导完成你的“薪酬策略”文档中的新条目,进行一次A/B测试,以比较产品的两个不同版本并选择表现更好的那个。

你将运用统计学来探索数据集,理解数据的分布,并确定你的结果是否具有统计显著性。然后,你将用定量的方式总结你的发现,并得出一个与商业问题相关的结论。


完成这个项目后,你将拥有一个可以添加到作品集里的A/B测试案例。在你的“薪酬策略”文档中,你还会记录下整个过程所采取的步骤,这些记录可以用来向未来的招聘经理解释你的工作。

那么,让我们开始吧。


本节课中,我们一起学习了最终作品集项目的目标与结构。我们了解到,该项目不仅是一个展示统计学技能的成果,更是一个为求职面试做准备、记录分析过程并解决实际商业问题的宝贵工具。

054:向潜在雇主展示你的才能 📊

在本节课中,我们将学习如何有效地向潜在雇主展示你在数据科学领域的才能。课程内容基于一位行业专家的分享,重点在于如何将理论知识转化为实践证据,以证明你的能力。


我叫肖恩,目前是YouTube Shop的产品分析师。作为一名产品分析师,我利用谷歌收集的数据来更好地理解用户如何使用我们的产品,并思考如何通过数据做出更好的产品决策,从而为用户提供更优质的服务。

让我真正进入高级数据分析领域的,其实是高中时听到的一个流行词——“大数据”。我当时认为,我们可以利用大数据来理解世界的运行方式,甚至预测未来。这对于当时还是青少年的我来说,非常有吸引力。


上一节我们了解了肖恩进入数据领域的初衷,本节中我们来看看他在求职方面的具体建议。他认为,在寻找数据科学工作时,最重要的事情如下:

以下是肖恩认为求职时最重要的几点:

  • 第一,展示你对数据科学理论和实践技能的理解。 在准备证明材料时,确保你有一个Github链接或过往演示文稿的合集,用以展示你曾进行过任何与数据科学或数据可视化相关的演示。
  • 第二,在作品集或简历中展示统计技能时,要注重实践应用。 需要注意到,这些技能在网上很容易获取,每个人都可以从YouTube、Coursera或其他在线课程平台学习。你真正需要做的是展示你如何在实践中运用这些技能。
  • 第三,解释问题与解决方案的关联。 例如,尝试解释你试图解决的具体业务问题或研究问题是什么,并解释你为何决定使用某种模型或解决方案来解决该问题。仅仅知道理论或如何实现一个模型是不够的,你真正需要展示的是你理解为何要使用这些模型。

在上一节我们列出了核心要点,本节我们来深入探讨如何具体呈现。在这些情况下,确保你始终突出你试图解决的问题所对应的业务或研究目标,然后准确地解释你如何应用这些技能,以及如何评估结果。

如果你没有数据科学专业的大学学位,请不要担心,因为从在线课程中学到的技能正是行业所需要的。


本节课中我们一起学习了如何向雇主展示数据科学才能。核心在于超越理论知识的罗列,通过具体的项目、清晰的逻辑(解释业务问题 -> 选择解决方案/模型 -> 评估结果)来证明你的实践能力和解决问题的思维。记住,有效的展示比单纯的技能列表更有说服力。

055:统计的力量 📊 - 期末作品集项目介绍

在本课程中,我们学习了统计学的基本概念,包括描述性统计与推断性统计、基础概率与概率分布、抽样、置信区间以及假设检验。现在,是时候将所学知识付诸实践,完成本次作品集项目了。

在之前的课程中,我们练习了用数据讲述故事。这些技能将伴随我们完成这个新项目。


项目背景与目标 🎯

上一节我们回顾了本课程的核心统计概念,本节中我们来看看期末项目的具体内容。

现在,你已经积累了一些完成作品集项目的经验,可以开始思考如何运用统计学来论证某个产品的有效性。

在本课程的这个部分,你将为一个特定公司模拟一次 A/B 测试。然后,使用统计方法分析数据,并解释哪个版本的产品表现更好。最后,你将根据结果,向企业提出是否应该实施产品新版本的建议。

以下是本项目的核心步骤:

  1. 设计并模拟 A/B 测试:设定对照组(A)和实验组(B)。
  2. 收集与分析数据:运用假设检验等统计方法。
  3. 解释结果并给出建议:基于分析,做出商业决策推荐。

技能进阶与职业发展 🚀

在完成这个项目后,你将在课程的其他部分继续探索作为一名数据专业人士的更多内涵。你将努力发展更多技能,以帮助自己脱颖而出。

关于使用数学模型分析数据集,还有更多知识需要学习。作为一名数据专业人士,你工作的很大一部分是分析数据,从而就项目方向提出有依据的建议。

通过运用统计学来实施和分析 A/B 测试,你将帮助未来的雇主或客户就其公司产品或服务的投资做出明智的决策。

随着课程的深入,你将学习更高级的技术,如回归分析机器学习,以展示数据分析在提升业务绩效方面的强大力量。


项目价值总结 ✨

本节课中,我们一起学习了期末作品集项目的目标与结构。这个作品集项目是一个绝佳的机会,可以向潜在雇主展示你为什么是他们团队中有价值的成员。

通过将统计理论应用于实际的 A/B 测试模拟与分析,你不仅巩固了所学知识,更构建了一份证明你能够用数据驱动决策、创造商业价值的实战作品。

056:《统计的力量》课程总结与职业建议 📊

在本节课中,我们将对《统计的力量》课程进行总结,并探讨如何将所学知识应用于职业发展。课程涵盖了数据分析的核心流程、Python工具的应用以及统计方法在业务场景中的实践。

你已经出色地掌握了数据收集与分析的方法,这些方法能帮助业务决策。你学到了如何分析数据,并利用数据内在的信息,帮助相关方全面了解当前的业务状况。

至此,你的作品集中已新增了PACE策略文档、一个整洁的数据集、能讲述数据故事的可视化图表以及一次模拟的A/B测试。随着你继续完成本课程的其他项目,你的作品集将持续丰富,展示你的学习进度与技能提升。

请记住,你正在积累具体的案例,这些案例在未来与潜在雇主或招聘经理的面试中值得深入讨论。

课程核心内容回顾 🔍

上一节我们介绍了项目成果,本节中我们来回顾课程所涵盖的核心知识与技能。

到目前为止,你强化了对在数据职业中遵循PACE结构重要性的理解,观察了Python如何助力数据操作,以及如何组织分析数据集以讲述引人入胜的故事。此外,本课程还教授了如何使用统计方法来探索任何给定的数据集,或分析与解释通过抽样收集的数据。

以下是本课程涵盖的关键技能点:

  • PACE工作流: 规划、分析、构建与执行的结构化框架。
  • Python数据分析: 使用 pandasnumpy 等库进行数据操作与分析。
  • 统计探索: 应用描述性统计与推断性统计理解数据。
  • A/B测试模拟: 设计实验并使用代码(如 scipy.stats)进行假设检验。

应对职业面试的准备 💼

在开始为未来的面试做准备时,你可能会被问到以下类型的问题。以下是你可以提前思考的方向:

  • 问题一: 你会如何使用统计学来衡量我们公司的业绩?
  • 问题二: 你曾如何使用统计模型解决业务问题?
  • 问题三: 设计一个A/B测试实验需要考虑哪些不同的因素?

你也可能被要求分享你参与过的一个重要数据项目的细节,以及你如何利用统计学获得对团队或组织有益的见解。在这种情况下,你刚刚完成的这个项目将是一个绝佳的讨论话题。你使用Python为特定场景模拟了一次A/B测试。

同时请记住,A/B测试也应用于许多其他场景。尽管如此,A/B测试通常需要类似的方法,因为它们都用于比较同一事物的两个版本,无论是产品、网站、电子邮件活动还是其他。对于包括数据领域在内的许多职业而言,一项关键技能是能够灵活应用你的知识。

持续学习与展望 🚀

你在数据学习之旅上已经取得了长足的进步。接下来,你将全面学习回归模型。然后,你将有机会通过创建一篇博客文章来展示你的理解,并评估一个需要多元线性回归模型的业务场景。到本课程结束时,你将拥有一个坚实的作品集来展示你所完成的一切。

本节课总结:本节课我们一起回顾了《统计的力量》课程的核心内容,包括PACE框架、Python数据分析、统计方法及A/B测试实践。我们探讨了如何将这些知识转化为面试中的优势,并为接下来的回归模型学习做好了铺垫。持续构建你的作品集,灵活运用技能,是迈向数据职业成功的关键。

057:《统计的力量》课程总结 🎯

在本节课中,我们将对《统计的力量》这一部分的学习内容进行总结,回顾已掌握的核心统计概念,并展望后续课程的学习方向。


恭喜你完成了本项目的统计部分学习。

你对统计知识的掌握,为你未来在数据专业领域学习更高级的分析方法奠定了坚实基础。

你的统计知识也将在未来的求职面试中发挥重要作用。

对基础统计概念的深刻理解,将使你成为更具竞争力的求职者和更优秀的数据专业人士。

之前我曾提到,成为一名数据专业人士意味着在整个职业生涯中持续学习。

这正是我热爱这个领域的原因。每次遇到一个新概念,我都会充满兴奋感与重新燃起的好奇心。

学习高级数据分析,就像探索一个不断膨胀的宇宙。随着数据量的持续增长,有太多奇妙的新世界等待我们去发现,我们关于如何最佳分析和解读这些数据的知识也在同步增长。

我至今仍花费大量时间自学机器学习的最新进展,并阅读关于在数据分析中应用统计方法的新途径。

现在,你也踏上了同样的学习旅程,并且在本课程中已经学到了很多。


核心知识回顾 📚

上一节我们概述了学习成果,本节我们来具体回顾一下你已掌握的核心统计技能。

以下是你在本课程中学到的主要内容:

  • 描述性统计:你学会了计算均值中位数标准差等描述性统计量,用以探索和总结新的数据集。
    • 公式示例:样本均值 x̄ = (Σx_i) / n
  • 概率分布:你学会了应用二项分布泊松分布正态分布等概率分布来为数据建模。
  • 抽样分布与估计:你学会了使用抽样分布对总体均值比例进行点估计。
  • 置信区间:你学会了构建置信区间来描述估计值的不确定性。
  • 假设检验:你学会了进行假设检验,以确定结果的统计显著性。

后续学习展望 🚀

掌握了统计知识后,你已经为接下来的课程做好了充分准备。

在接下来的课程中,你将以此为基础继续构建知识体系。

下一门课程将为你的分析工具箱增添一个强大的新工具——一种名为回归的统计方法。

此后,你将有机会探索迷人的机器学习世界。


课程交接与祝福 ✨

我很高兴你将开始与下一位讲师合作。你可能还记得在本项目介绍视频中出现过的那位同事——在谷歌从事数据科学与营销交叉领域工作的Tiffany

Tiffany将为你详细讲解回归分析,并帮助你朝着完成本项目、追求未来数据专业职业生涯的目标迈出下一步。

很荣幸能陪伴你走过这段学习旅程。

祝愿你在下一阶段及未来的旅程中一切顺利。祝你好运。

posted @ 2026-03-26 12:28  布客飞龙III  阅读(12)  评论(0)    收藏  举报