DLAI-数据分析基础笔记-全-

DLAI 数据分析基础笔记(全)

001:欢迎学习数据分析 📊

在本节课中,我们将要学习数据分析的重要性、应用场景以及它在当今数字化世界中的核心价值。数据分析能帮助我们做出更明智的决策,并在众多领域创造职业机会。


数据非常重要,因为世界已经变得更加数字化。现在许多活动都会产生数据,例如发送电子邮件、访问网站、点击某些内容而非其他内容、购买商品,以及决定观看某部电影而非另一部。世界充满了数据。这意味着,能够查看、分析和理解数据的人可以做出更好的决策。

这一点也体现在数据相关职位空缺的数量上。美国劳工统计局估计,到2033年,数据科学类职位的增长将达到36%。这远高于职业的平均增长速度。

因此,通过学习数据分析,你可以在个人生活和职业生活中做出更好的决策,并且,如果你愿意,还能建立一份出色的职业生涯。


我很高兴向大家介绍肖恩·博斯。肖恩是Netflix的数据科学与工程负责人,他为Netflix及其客户提供了大量关于观看各种娱乐节目的数据洞察。肖恩也曾是马里兰大学商学院的前任教授,因此对数据在商业、学术界和政府中的应用有着深刻见解。我期待他与大家分享所有这些见解。

欢迎,肖恩。谢谢你,吴恩达。很高兴来到这里。我最初从事航空航天工程,并在此过程中学到了许多有趣的东西,但我确实非常享受使用计算机和数据来帮助做出更好的决策。现在,我在Netflix从事完全不同的工作,我们利用数据分析来为内容的制作、发行和推广提供信息。

我有一位朋友也在电影娱乐行业工作,他告诉我一些故事,例如可能对一部剧集投入1亿美元,然后数据驱动的洞察会影响其定位、营销或对剧集进行微调,从而使这项非常昂贵的投资产生正回报,而非负回报。确实如此。


我将分析视为一种调查活动。它既是分析性的,也是创造性的。这正是我们设计本课程的方式,课程将使用从酒店预订到婴儿名字、产品销售、房价等众多真实世界的实际案例。

我很好奇,是否有过某个时刻,你使用了数据,并且它实际上改变了你即将做出的决定?在我于AI Fund工作时,有一个令我惊讶的例子。作为一个风险工作室,我们为不同的业务引进了许多创业公司CEO。长期以来,很多招聘都凭直觉进行,你面试某人,喜欢他们,用大脑进行模式匹配,然后据此雇佣某人。

因此,很长一段时间里,我们认为CEO需要融资经验。我们查看了他们合作过的交易数量的数据,结果发现我们错了,事实并非如此。因此,这些数据改变了我们的流程,改变了我们现在寻找创始人的标准。

在我的经验中,有一个令人惊讶的洞察,来自我过去所做的医院运营研究。这项工作涉及预测患者何时出院,其中一个信号是患者是否接受了物理治疗师的探视。通常,这实际上是一个信号,表明患者离出院回家还远。这是一个非常令人惊讶的结果和洞察,它确实可以影响医院运营和资源分配。这些影响有时非常重大。没错,医院床位是极其宝贵的资源,因此你希望能够让患者出院,以便腾出空间。


我真的很喜欢你带来了这个魔法球。我发现,如今许多使用流程做决策的组织,有时只比这好一点。当公司面临决策时,如果会议桌旁有人能接触到数据,那么就去获取事实,展示他们的分析,这样你就能在几分钟或几十分钟内,获得比没有数据时深刻得多的效果。确实如此。

你并不总是需要应用最复杂的分析。在许多情况下,一个简单的数据故事最终可以帮助你做出最佳决策。你并不总是需要跳到最复杂的方法。

如今,许多人对人工智能感到兴奋。随着人工智能的兴起,像大多数职业一样,生成式人工智能正在改变数据分析师的工作。你在该领域看到了什么?我认为这很有趣,基础可能永远不会改变,但我们确实找到了创造性或创新性的方法,以更好、更高效、更可靠的方式做同样的事情。

无论是使用生成式人工智能作为思维伙伴来解释可视化,让你作为分析师不再孤单,我认为我们在如何引入生成式人工智能方面采取了一种非常创造性的方法。你可能希望它帮助你构建你试图解决的问题,或者你实际上可以利用它来帮助解释洞察,或将洞察传达给你的利益相关者。

如果你有一位经验稍浅但愿意努力工作的实习生,以很低的成本帮助你完成一些任务,你可以从高层次思考,并请他们“请绘制这些数据”、“帮我理解这些数据”。因此,在生成式人工智能的帮助下进行数据分析确实非常棒。


我自豪地说,本课程提供了非常实践性的体验,定义了从基础数据分析(如描述性统计、在电子表格中工作)到探索数据分析生命周期的精细使用技术。本课程包括对大型语言模型的介绍,以及每个模块中的实践实验。无论你是想开始数据分析的职业生涯,还是想在当前职位上提升技能,我认为你都会从中获得很多价值。

这些技能对于任何对数据职业感兴趣的人确实非常有用,但坦率地说,由于计算机和数字资产在经济中众多角色中的首要地位,可能对许多其他角色也很有用。


在本课程中,你将学习到许多重要且令人兴奋的主题。让我们继续观看下一个视频,开始学习吧。


本节课总结

本节课中,我们一起学习了数据分析在数字化时代的基础重要性、其广泛的职业应用前景,以及数据分析如何结合创造性与分析性来驱动关键决策。我们还探讨了生成式人工智能等新技术如何赋能数据分析工作,并了解了本实践课程的核心内容与目标。

002:生成式AI在数据分析中的应用 🚀

在本节课中,我们将学习生成式AI(特别是大型语言模型,LLMs)如何融入数据分析师的工作流程。我们将探讨其核心能力、关键限制以及未来发展趋势,并建立使用这一新兴技术的基本原则。


生成式AI的核心作用

本课程的一个关键要素是学习使用生成式AI,特别是像ChatGPT、Claude、Gemini等大型语言模型(LLMs)。

我迫不及待地想与大家分享这些工具如何融入你作为数据分析师的工作。有时它们的感觉就像魔法一样。

上一节我们提到了生成式AI的重要性,本节中我们来看看它的具体应用场景。你将学习如何使用LLMs来完成以下任务:

以下是LLMs在数据分析中的主要应用方向:

  • 综合来自利益相关者的信息。
  • 探索数据集及其元数据。
  • 通过为你编写代码来自动运行数据分析。
  • 解释数据可视化的图像。
  • 创建数据可视化图表。

认识LLMs的关键限制

然而,你同样需要了解LLMs的关键局限性,包括它们无法为你完成的任务。

LLMs是一种极其有用的工具,但它们不能替代你的技能和判断力。它们无法在复杂情况下复制你的决策能力,尤其是在需要经验、直觉和适应性思维的场景中。


课程的教学理念与挑战

教授如此新兴的技术有其挑战。我想花点时间分享我们团队关于在本课程中使用生成式AI的理念。

首先,本课程展示了截至2025年的最新技术能力,我们预计在未来数月和数年内还会发生变化。

我们的团队设计本课程是为了传授长青的原则:即如何思考并在你的工作中使用生成式AI,无论你最终使用哪种具体产品。

最重要的是,你将培养一种迭代和实验的心态。自2022年底推出以来,LLM产品的进展令人震惊。它们的能力迅速提升,新功能不断发布。


未来的发展趋势

了解其核心原则后,我们有必要展望一下未来。以下是你近期可以预期的一些变化:

以下是生成式AI工具可能的发展方向:

  • 出现具有更先进和专业化功能的Gen AI工具,例如为你使用应用程序的能力。
  • 工具变得更便宜、更快速,输出质量更高。

在这个快速发展的领域,要跟上所有变化可能很困难。但别担心,在本课程中,你将培养必要的元认知技能,以便在自己的工作中驾驭这些进步。


关于工具使用的说明

本课程也展示了一些LLMs的付费功能,但你无需购买任何额外的产品即可完成作业。

让你了解可用的选项(包括付费选项)非常重要,这样你才能有信心在自己的数据分析工作中进行实验并选择最佳工具。

本课程不推荐任何单一工具,你将在各个模块中看到多种工具。请记住,你将学到的核心原则将使你准备好使用现在和未来的LLMs,无论是免费还是付费版本。


实践与总结

你将在本模块的第4课首次体验使用生成式AI进行数据分析,其中包括一个动手实验。

现在,请和我一起进入下一个视频,了解本模块所有令人兴奋的主题。我们那里见。


本节课中我们一起学习了生成式AI在数据分析中的潜力与局限,建立了使用它的核心原则与迭代心态,并展望了其未来发展趋势。记住,LLMs是强大的辅助工具,但数据分析师的专业判断与决策能力始终不可替代。

003:数据分析基础 - 模块1 简介 🧭

在本节课中,我们将要学习数据分析的基本概念、其历史渊源、核心组成部分以及现代工具的应用。我们将了解数据分析如何融合数学、技术与商业思维,并初步认识数据生态系统中的不同角色。


想象一个每个决策都有坚实证据支持的世界,一个企业能够利用数据的力量来驱动效率、成功与创新的世界。欢迎来到数据分析的世界。

你将看到这个多学科领域如何结合数学的解题能力、技术的计算能力以及商业的战略思维,从而创造出一门极具价值的学科。

从古代文明追踪农业周期,到现代企业优化其决策制定,数据分析的原则已经塑造我们的世界数千年。

在上一节我们介绍了数据分析的愿景,本节中我们来看看本模块的具体学习内容。

在本模块中,你将全面了解不同类型的数据以及它们如何在组织中流动。你将认识构成数据生态系统的多样化角色,每个角色都拥有其独特的技能组合。

最后,你将学习利用一个强大的工具——像 ChatGPT 这样的大型语言模型。这些人工智能工具可以作为思考伙伴,帮助你进行头脑风暴、完善想法,甚至运行分析。

无论你是准备开启数据领域的职业生涯,还是希望在当前职位中利用分析技术,本模块都将为你提供一个坚实的基础。

以下是本模块涵盖的核心概念列表:

  • 数据类型与流动:理解结构化与非结构化数据,以及数据在组织中的生命周期。
  • 数据生态系统角色:认识如数据工程师、数据分析师、数据科学家等不同职位及其职责。
  • AI 工具的应用:学习如何将大型语言模型作为 分析助手 来提升工作效率。

接下来,我们将一窥数据分析师角色的日常。数据分析师的一天是怎样的?一年呢?整个职业生涯又如何?请跟随我到下一个视频去了解一下。


本节课中我们一起学习了数据分析的广泛定义及其悠久历史,明确了本模块的学习目标,包括理解数据分类、认识数据生态系统中的关键角色,以及掌握如何运用现代 AI 工具辅助分析。这些知识为我们后续深入具体技能打下了坚实的基础。

004:数据分析师的工作日常 📊

在本节课中,我们将深入了解数据分析师典型的工作日常、职业的长期发展路径以及这个领域带来的独特乐趣与满足感。通过一个模拟的日程安排和职业发展轨迹,你将清晰地看到数据分析师如何度过充实的一天,以及这个职业如何随着时间推移提供丰富的成长机会。


在我认识的所有数据分析师中,每一个人都对这份工作充满热情。只要你在一个公平对待你的公司,这份工作将成为你的乐趣之一。它充满趣味,节奏快,并且始终保持新鲜感。我想与你分享我在日常工作中、中期发展以及整个职业生涯中热爱数据分析的原因。

首先,我的同事们和我都热爱数据分析,因为你总是在发现新事物,这让工作保持新鲜感。它与众多不同领域紧密相连,几乎每个行业都需要数据分析师,从科技巨头和初创公司到政府机构和非营利组织。

市场对你技能的高需求转化为有竞争力的薪资和职业安全感。它吸引了来自各种背景的人才。你可能会与曾是物理学家、心理学家或商科专业的人并肩工作,他们都找到了进入数据领域的道路。

由于这个领域发展迅速,你将不断学习新的技术技能。如果你是那种热爱学习、解决问题和发现新事物的人,你会非常适合这里。

典型一日模拟日程 📅

以下是一个典型工作日的模拟日程安排,展示了数据分析师一天中可能进行的各种活动。

  • 上午9点:开始一天的工作,探索需要解决的新问题。
  • 上午10点:与数据团队开会。了解公司的新优先事项,并获取你所需的数据。
  • 上午11点:专注工作时间。深入处理电子表格、数据库和代码,进行新的发现,甚至可能经历一两个“顿悟”时刻。
  • 下午2点:创建仪表板。找出如何讲述数据中隐藏的故事,并以美观且实用的方式将这些故事可视化。
  • 下午3点:展示你在仪表板上的进展。分享你的辛勤工作感觉很好,可以直接从队友那里获得关于这个仪表板将如何帮助他们创造价值的反馈。
  • 下午3点30分:庆祝你的演示和仪表板进展。用一杯下午茶和短暂的休息来犒劳自己。我有时会去喝杯茶。
  • 下午4点:学习一项新的技术技能。参加高级统计课程或学习一门新的编程语言。在工作中学习非常有收获。
  • 下午6点:与数据团队的欢乐时光。与你的分析师和数据科学家同事社交,了解新趋势,并讨论即将开展的项目。

你的每一天都会安排得满满当当。我鼓励你花时间庆祝并记录你的成功。

中期发展与职业满足感 🚀

上一节我们看了一天的具体安排,本节中我们来看看在几年的时间跨度里,数据分析工作能带来哪些成长和成就感。

在几年的时间里,你可能会完成几个大型项目。看到你的工作在现实世界中产生影响是极其令人满足的。你将能够创建自己的工作作品集。作品集不仅能展示你的技能,还能帮助你为未来的成长机会做好准备。

你还将发展你的行业专业知识,从专业术语到不成文的规则。你的技术技能将显著提高,因为不同的项目要求你提升技能。通过领导成功的项目,你将赢得队友的信任。建立牢固的关系会带来处理引人入胜问题的机会。

数据分析的每一个方面本身都很有回报。这可能看起来还很遥远,但在你意识到之前,你就会庆祝巨大的成功并掌握全新的技能。

数据分析师的职业发展路径 🧭

日复一日,年复一年,构成了职业生涯。数据分析师的职业生涯是什么样的?你可能会发现自己转换行业,在不同领域(如科技、医疗保健、时尚、供应链等)获得广泛的经验。

或者,你可以在特定的技术领域发展深厚的专业知识,成为该领域的专家。随着你的进步,你将成为一个领导者。领导力有多种形式,可以是管理者、高技能的个人贡献者,也可以是教育者。

你还可以与年轻同事建立导师关系,帮助他们提升技能。随着你获得专业知识,你可能会决定创办自己的企业或咨询公司,利用这些专业知识帮助他人成功。

你在工作中每一天、每个项目、每次对话所付出的努力,都会为你在数据分析领域打开丰富多样的职业发展轨迹。


对我来说,数据分析不仅仅是一份工作。它是一种乐趣。我珍惜我获得的每一个学习机会,以及与我才华横溢的同事的每一次对话。我知道你也会像我一样享受这个领域。怀着这个目标,请加入下一节课,了解更多关于数据分析及其历史的知识。我很高兴你能迈出数据分析职业生涯中这重要的第一步。我们下节课见。

005:什么是数据分析 📊

在本节课中,我们将要学习数据分析的核心概念,了解它是什么、如何运作,以及它与相关领域的区别。我们将从数据分析的普遍应用开始,逐步深入到其定义、特点、历史演变和职业应用。


数据分析几乎无处不在,它以通常不可见的方式对我们的生活产生有意义的影响。

我们观看此视频所使用的设备、你现在穿着的衣服,甚至你今天早上制作的早餐,都可能以某种方式受到数据分析的影响。

数据分析的核心是一套多样化的技能和工具,使企业能够做出更好的决策。它完全关乎利用数据来获取洞察并支持决策,而不是仅仅依赖运气或经验。

数据分析是一个多学科领域,它结合了数学、编程和商业直觉。你不仅仅是为了数学理解而做数学(例如推导几何证明),也不仅仅是为了编程本身而编程(例如开发排序数字列表的算法)。数据分析将数学和编程结合在一起,以实现特定的商业目标。

数据分析与科学家、侦探或记者等调查性角色有很多共同之处。

科学家从一个特定的假设开始,然后收集数据来评估这个假设。

侦探收集证据并将其拼凑起来以理解犯罪。

记者综合信息并为特定主题创造引人入胜的叙述。


上一节我们探讨了数据分析的跨学科性质及其与调查工作的相似性。接下来,我们来区分两个容易混淆的概念:数据分析与数据分析。

数据分析听起来很像数据分析,但这两个概念在三个关键方面有所不同:范围技术商业集成

以下是具体的区别:

  • 范围:数据分析的范围更广,包括实时分析和预测建模,超越了回顾性分析。
  • 技术:数据分析需要更复杂的技术,包括高级编程、可视化软件和大数据技术。此外,它通常涉及更复杂的迭代过程。
  • 商业集成:数据分析通常深度集成到商业决策系统中,而不是用于回答一次性问题。它旨在预测趋势、指导决策,并解释过去的数据。

当一个公司在电子表格中跟踪其随时间变化的预算时,那是数据分析。

当他们使用复杂的统计建模技术来分析来自多个来源的大型数据集,创建可视化图表以识别最有前景的收入流,并将这些洞察集成到实时决策系统中时,那就是数据分析。


了解了数据分析的现代定义后,你可能会认为它是一个全新的领域,仅仅因为科技行业的近期加速发展而出现。这只是一部分原因。实际上,数据分析已经存在一段时间了。

以下是关于数据分析,哪些是新的,哪些不是新的:

  • 不是新的:统计学家、科学家和工程师分析数据已有很长时间。数据可视化已经存在了数千年。有记载的第一个数据可视化可以追溯到公元前1150年,那是一张名为“都灵纸莎草地图”的古埃及金矿地图。古埃及人在数据方面相当精明。
  • 什么是新的:数据分析的新颖之处在于数据本身的爆炸式增长。我们收集的数据比以往任何时候都更加详细。同时,计算技术也在同步发展,为我们提供了更强大的工具来分析这些数据。古埃及人肯定没有处理过9.6万名泰勒·斯威夫特粉丝挤在体育场里使用移动设备产生的数据,也没有分析过6.15亿月活跃的Spotify用户。我也怀疑他们是否用Python编程。

这些趋势催生了现代数据分析,使其具有更广的范围、更复杂的技术和更深度的商业集成。


既然我们知道了数据分析是什么以及它是如何演变的,那么它可以在哪些地方发挥作用呢?

数据分析的应用范围几乎是无限的。

如果你查看一些招聘信息,你会发现数据分析师在科技公司、医院、运动队、制造工厂,甚至在学术机构进行研究(这也是我进入该领域的起点)都有需求。

在你寻找工作机会时,你会看到商业智能分析师、数据科学家等与数据分析师交替使用的类似职位发布。

诚然,这些职位有很多重叠之处,但我将分享一些细微差别:

  • 数据科学家通常更侧重于复杂的建模技术。
  • 数据分析则更广泛地包含基础统计技术和数据可视化。
  • 商业智能分析师倾向于使用商业软件(如电子表格),对编程的重视程度较轻。

最终,这些区别有些随意。相同的头衔在不同公司可能对应不同的任务。作为一名数据分析师,你可能会发现自己更倾向于某些方法,因此你的工作可能属于其中一个或几个领域。

数据分析奖励好奇心、解决问题的能力和影响他人的能力。当然,在现实世界中看到你工作的影响是非常有回报的。


在本课程中,你将探索开始利用数据推动更好决策所需的工具和技术。

让我们直接进入一个基础概念:基于证据的决策


本节课中我们一起学习了数据分析的定义、其多学科性质、与数据分析的区别、历史演变以及广泛的职业应用场景。我们了解到,数据分析的核心是利用数据、数学和编程工具来获取商业洞察并支持决策,其价值在于将信息转化为实际行动。

006:基于证据的决策 📊

在本节课中,我们将学习决策的不同方法,并重点探讨如何结合直觉与数据,进行基于证据的决策,以最大程度地提高决策成功的可能性。


当涉及做决策时,存在许多可能的方法。你可以即兴发挥。可以抛硬币。可以询问朋友。甚至可以摇晃魔法八号球。

与这种明显糟糕的方法相反,数据分析完全关乎证据和一致性。在本视频中,我们将讨论凭运气决策、凭直觉决策,以及最有可能结合直觉和数据取得持续成功的方法。

你可以通过三种基本方式做出决策:可以听天由命;可以凭直觉(这也称为直觉决策);或者可以实践基于证据的决策,这正是数据分析的用武之地。

这些不同的方法位于信息利用程度的光谱上:凭运气决策完全不依赖任何信息;基于证据的决策位于高信息利用端;而直觉决策则处于中间位置。

直觉由你的个人经验所塑造,因此它是一项宝贵的资产。但还有其他重要的信息类别需要考虑,例如数据和他人提供的知情观点。


决策为何需要信息

虽然做出明智的决策对你可能很重要,但在日常生活中,你通常不会正式地定义问题并收集证据。

然而,你可能做过类似以下的决策:我应该选择哪所大学?搬到新城市还是留在原地,哪个选择更明智?我应该如何投资我的储蓄?

思考一下,为了回答上述每个问题,你可能会收集哪些类型的信息。我怀疑你不会为其中任何一个抛硬币。你可能会列出每所大学的优缺点,与住在新城市的朋友讨论,或者追踪不同投资的表现来决定哪个最佳。

收集证据所需的努力程度与决策的影响成正比。在刑事司法、医学或新闻等领域,决策可能产生严重后果,仅依赖意见或个人经验是不够的。

如果你因感冒症状去看医生,你不会希望她只是随机猜测你得了流感。风险越高,你就需要越多的证据来支持你的决策。

同时,如果你在决定是向顾客推荐连指手套而不是分指手套,你不需要那么多信息,因为做出错误决策的成本很低。没有人的健康受到威胁,只是手指的舒适度机会而已。


直觉与数据的结合

有时,凭直觉做决策是合理的。有时,看起来像流感的确实是流感。直觉并非无用。

事实上,一种思考方式是,你本质上是在依赖有限的历史数据点。但有些直觉比其他直觉更有价值。你更信任治疗过5名流感患者的医生的直觉,还是治疗过500名或5000名患者的医生的直觉?

最有效的方法是当直觉与数据相结合时。这就是为什么我们说基于证据的决策,因为数据和某种程度上的直觉都可以成为你证据的一部分。

直觉帮助你做出快速、低风险的决策,并避免在毫无头绪的情况下搜索海量数据。但你也不想一直依赖直觉。


案例分析:异宠店决策

让我们看一个例子。假设你想增加你的小型异宠店的收入。如果你能做到这一点,你可能就能在你的城市开一家新店,改善员工福利,或者提供更多种类的鱼。

你有几个正在考虑的选项来增加收入:增加更多爬行动物品种;每天延长营业时间两小时;或者提高动物饲料的价格。但你如何选择最佳方案?你可以使用什么信息来做选择?

这是一个高风险决策。一种选择是听天由命,抓起旧的魔法八号球摇一摇,或者抛一枚三面硬币。你基本上是在没有额外信息的情况下做决定。但这里有后果,我打赌你能做得比那更好。

基于直觉的决策会是什么样子?也许祖母从1987年就开始经营这家异宠店,她记得类似的情况,并且她绝对确信提供更多爬行动物品种是正确的方法。

这种直觉比魔法八号球使用了多一点的信息,因为它基于一些有限的历史背景。但你能做得比那更好吗?


基于证据的决策路径

让我们走基于证据的路线,这包括:明确定义问题和期望的结果;收集相关信息;综合这些信息以确定最佳决策。

这一切都是为了使用正确的信息做出正确的决策,并希望实现正确的结果。收集关于爬行动物品种的数据;尝试延长商店营业时间;进行调查,看看更高的价格是否会困扰你的顾客。

也许你可以首先基于祖母的直觉尝试爬行动物品种方案,如果那行不通,再调查其他两个选项。

有时你可能做出错误的决策却仍然得到正确的结果,反之亦然。每个决策中都有一点运气。基于证据的决策的目标是通过积累最佳证据,来最大化你获得正确结果的机会。


从直觉到证据的转变

想到祖母在87年经济衰退中凭直觉经营她的爬行动物生意很有趣,但很多企业都是这样决策的,基于诸如“感觉对了”、“我以前见过这样做”或“现在大型语言模型很流行,我们用一个大模型吧”之类的直觉。

这是做决策的最佳方式吗?绝对不是。

作为一名数据分析师,当你将这种思维方式转变为基于证据的决策时,你将为企业增加真正的价值,并且老实说,也会获得最大的乐趣。


总结

在本节课中,我们一起学习了决策的三种基本方法:凭运气、凭直觉和基于证据。我们探讨了信息在决策中的重要性,以及如何根据决策的风险高低来决定所需信息的多少。我们通过一个异宠店的案例,具体分析了如何结合直觉与数据,通过定义问题、收集信息和综合分析来进行基于证据的决策,从而最大化成功的可能性。记住,最有效的决策往往是直觉与数据证据的结合。

007:数据分析发展史 📊

在本节课中,我们将学习数据分析的现代发展历程。我们将从两次世界大战期间的军事应用开始,探讨数据分析如何演变,并最终成为当今商业和科技领域不可或缺的一部分。课程将重点介绍两个核心概念:持续改进数据驱动决策


现代数据分析的历史与古埃及人使用数据可视化的历史同样引人入胜。

从军事到棒球,再到科技行业,这段历史将帮助你理解为何数据分析师的需求如此旺盛。

我们将探讨转化为数据分析思维模式的两个关键趋势:持续改进数据驱动决策


现代数据分析的起源 🏛️

现代数据分析大约在100年前出现,并在世纪之交加速发展。

数据分析史的核心植根于持续改进的概念。这是一个持续的过程,旨在改进你的产品、服务和业务流程。作为一个公司,你必须适应周围不断变化的竞争环境,就像进化一样,保持不变很少能带来长期的生存。

现代数据分析的根源可以追溯到第一次世界大战期间的军事运筹学,大约在20世纪40年代初。

调动、补给和装备一整支军队是一项庞大的行动,每一个决策都可能产生重大后果。

最早有记录的运筹资源问题之一,涉及如何以最优配置部署雷达设备,以保护英国免受德国空袭。盟军本可以通过试错来放置设备,但他们没有时间进行实验,因为空袭已经发生。

通过使用诸如地理信息、敌机飞行模式、雷达范围和战略等数据,团队制定了一个部署雷达设备以探测敌机的最优策略。这种部署被认为是盟军在不列颠战役中获胜的一个主要因素。

虽然这可能看起来与当今的数据分析不完全一样——他们当时肯定没有处理大数据或强大的计算机——但这仍然是一种数据驱动决策的形式,对今天的数据分析领域产生了深远影响。


从战场到球场:棒球中的数据革命 ⚾

上一节我们介绍了数据分析在军事中的起源,本节中我们来看看数据分析如何进入体育领域。

美国棒球是历史上另一个数据驱动创新的温床。

在20世纪70年代之前,顶级球员的选拔通常严重依赖直觉。当时大多数寻找球员的球探都依赖所谓的“目测”。基本上,他们只是观看球员比赛。他们看起来好吗?他们有运动天赋吗?他们似乎有潜力吗?球探也使用一些基本统计数据,但他们的主观判断主导了决策过程。这种方法旨在打造获胜的队伍,同时保持这项运动的美感。

然后在20世纪70年代,三个因素逐渐优化了球员招募:更细致的分析、可用计算能力的增加以及对直觉依赖的减少。

统计学家比尔·詹姆斯开始发布创新的新统计数据。这些统计数据不再仅仅追踪得分(在棒球中称为“跑垒”),而是提供了更详细的证据,说明一个球员对整体胜利的贡献有多大。这可能意味着帮助队友得分,甚至阻止对方球队得分。

使用这些统计数据,预算有限的奥克兰运动家队能够招募到被低估的球员,即那些表现出色但价格较低的优秀球员。这一策略帮助他们获得了相对于一些最富有球队的竞争优势。他们的球员看起来不像典型的球员,但他们的球员更常获胜。这就是数据分析的力量。


关键趋势与行业普及 📈

棒球的故事与几个关键趋势同时发生:可用数据的爆炸式增长、计算能力的快速进步,以及各行各业对基于证据的决策日益增长的兴趣。

如果一个棒球队可以使用数据来与预算大得多的对手竞争,那么这对于其他行业的企业意味着什么?

以下是数据分析普及的关键驱动因素:

  • 数据爆炸:可收集和分析的数据量呈指数级增长。
  • 计算能力:硬件和软件的发展使得处理海量数据成为可能。
  • 决策文化:企业越来越倾向于用证据而非直觉来支持决策。

今天,数据分析无处不在。

  • 科技公司用它来推荐产品和优化用户体验。
  • 零售商用它来管理库存和定价。
  • 医疗保健提供者用它来改善患者治疗效果并降低成本。

这个列表还在继续。数据分析的普遍性推动了对该领域专家的全球需求。在美国,预计到2030年,数据分析相关工作岗位将增长25%。

每个企业都可以受益于使用数据驱动的证据来推动持续改进。


总结与展望 🎯

本节课中,我们一起学习了数据分析的现代发展史。

我们从持续改进数据驱动决策这两个核心理念出发,追溯了数据分析从二战军事运筹学到美国职业棒球大联盟创新应用的历程。我们看到,数据的有效利用如何帮助组织在资源有限的情况下获得竞争优势。

历史表明,数据分析的本质在于利用信息做出更明智的决策。随着数据可用性和计算能力的提升,这一实践已渗透到各个行业,成为推动增长和效率的关键力量,也因此创造了全球范围内对数据分析人才的巨大需求。

请与我一起观看下一个视频,了解数据分析在现代的一些最令人兴奋的应用。

008:现代行业应用案例 🏀📊

在本节课中,我们将探索数据分析在不同行业中的实际应用案例。我们将看到,无论你对体育、娱乐、电商还是其他任何领域充满热情,数据分析师都能在其中找到用武之地,通过数据驱动决策,创造巨大价值。

流媒体娱乐行业

上一节我们介绍了数据分析的广泛应用前景,本节中我们来看看它在流媒体娱乐行业的具体应用。

像Netflix这样的现代流媒体公司会收集平台上每位用户的每一个行为的详细数据,包括点击、观看时长、搜索、暂停和回放操作。这些信息帮助他们推荐内容。

他们面临的挑战主要不在于获取信息,而在于如何处理如此海量的数据。所有关于“谁点击了什么”和“谁观看了什么”的数据,最终都需要转化为具体的决策,例如:应该向谁推荐真人秀节目?我们如何让人们喜欢《权力的游戏》第八季?这些决策影响深远。YouTube在2018年曾披露,用户观看的内容中有70%来自其推荐系统。

将这种方法与传统的电视收视率统计进行对比。电视网络过去依赖第三方公司(如尼尔森)收集的数据来了解观众。尼尔森通过在样本家庭中安装物理监测设备来记录他们的电视观看习惯,以此衡量人们的收视习惯。

这种方法虽然有用,但也带来了挑战,例如:记录到的收视习惯主要来自年长的电视观众,以及从拥有多台电视的家庭中收集到不准确的数据。

体育行业

娱乐只是数据分析的一个应用领域。在体育界,始于棒球的数据分析革命已经蔓延到篮球、美式足球(橄榄球)及其他运动。让我们以篮球为例来看看。

从俯视图看,篮球场是这样的。篮筐(也称为篮筐)位于这里。球员需要做出的一个关键决定是何时尝试得分,这在篮球中也被称为“投篮”。

如果球员在这条线内投篮并将球送入篮筐,则得两分;如果在线外投篮命中,则得三分。过去几十年,球员的投篮位置发生了巨大变化。

以下是1997年(左图)和2019年(右图)最常见的投篮位置分布图。随着球队拥抱数据分析,投篮模式完全改变了,旨在最大化每次投篮的预期得分。球员们学会了选择每种分值下最容易的投篮方式。

因此,出现了大量紧贴三分线的远投和尽可能靠近篮筐的两分球。例如,从这里投篮值两分,但向后退一步到这里投篮,难度基本相当,分值却高出50%。为什么不选择后者呢?

电商与产品设计

让我们看看产品设计领域。以HelloFresh为例,它收集多个类别的数据来为其推荐提供信息。

以下是HelloFresh收集的主要数据类型:

  • 客户数据:如人口统计信息、地理位置和口味偏好。
  • 食谱数据:如食材、可用性,甚至食谱图片和文本本身。
  • 交易数据:如订单历史、用户反馈和浏览行为。

所有这些信息都可以用来决定推荐哪些产品、何时提供折扣以及如何选择新食谱。

教育与公共部门

在教育和政府等领域,越来越强调使用数据来做出更好的决策。例如,这些机构可能使用分析来改善信息的可访问性。

圣安德鲁斯大学最近发表了一篇文章,解释其如何使用交互热图来改善网站用户体验。下图是他们大学学科页面上的用户点击热图。红色热点显示用户点击最多的区域,其次是黄色、绿色,然后是蓝色。

热图数据显示,许多用户点击了历史、心理学等热门学科,以及搜索栏等位置。然而,通过分析数据,大学发现一些用户试图点击非活动元素,并且页面下部的活动量急剧下降。

这些洞察推动了网站的改进,例如:明确哪些元素是可点击的,以及将信息优先级重新调整到页面顶部。

传统行业的优化

并非每家公司都需要不断革新其核心产品。像可口可乐和UPS这样的公司,通过专注于把一件核心事情做到极致,建立了非常成功的企业。可口可乐生产甜味含咖啡因的饮料,UPS可靠地递送包裹。

他们可能会使用数据分析来优化物流或营销,但其核心产品基本保持不变。如果包裹能快速送达正确目的地,客户还真正需要什么呢?关键在于,数据可以帮助企业以符合其自身战略的方式进行改进。

总结与展望

本节课中我们一起学习了数据分析在多个行业的应用案例。作为一名数据分析师,你有机会帮助任何行业的组织利用数据做出更好的决策。你的技能之所以需求旺盛,正是因为它们在如此多的应用场景中都极具价值。

出色地完成了本课程的第一课。在查看了接下来的阅读材料和练习评估之后,请加入下一节课,我们将讨论数据分析的命脉——数据本身。你将学习什么是数据、它从哪里来以及它可以呈现的多种不同形式。我们下节课见。

009:定义数据 📊

在本节课中,我们将学习数据分析的核心基础——数据。我们将探讨数据的本质、形式、来源以及数据分析师应如何理解和运用数据。


什么是数据? 🤔

数据是驱动数据分析领域的原材料。数据是一个广义的术语。作为数据分析师,你应该将数据视为任何能帮助你做出决策的信息。

数据以多种形式存在,从数字和文本到图像和声音。社交媒体视频、语音记录、去年的利润,所有这些信息都能帮助你做出决策。

数据几乎在任何地方产生,无论你是否意识到或记录它。你早晨那杯茶的味道,提供了关于茶叶新鲜程度的信息,这就是数据。当你听到鸟鸣声,这可能提供关于现在是黎明还是黄昏的信息,这也是数据。

你可以将数据更进一步,记录下来以便分析。在上节课中,我们看到对数据的好奇心有着古老的根源,但我们在过去几十年里生成和捕获数据的能力已大大加速。

数千年前,古代民族通过追踪太阳的位置来确定种植和收获的最佳时间,但他们必须使用像巨石阵这样的岩石结构来实现。现在,我们可以通过卫星图像和数字日历,以更少的努力做同样的事情。请注意,这里明显缺少了25吨重的石头。




数据的类型与来源 📈

不同的行业会生成不同类型的数据。

以下是不同行业中常见的数据类型示例:

  • 体育行业:你可能处理关于球员位置和比赛统计数据的高度结构化数据。
  • 零售行业:你可能会遇到关于销售和客户行为的交易数据。
  • 医疗保健行业:数据通常包括非结构化信息,如医学图像和手写的医生笔记。
  • 社交媒体平台:收集关于广告观看次数和用户互动的数据。

大多数行业还会有薪资数据、网站流量数据、电费成本数据、银行余额数据、法律文件数据等等。如今,有时感觉一切可以被追踪的事物都被追踪了。


数据的收集与目的 🎯

但关键在于:仅仅因为你可以收集关于某件事的数据,并不意味着你应该这样做。你应该只收集有目的的数据。

记住我们的定义:作为数据分析师,数据不仅仅是信息,它是能帮助你做出决策的信息。你的工作是筛选所有可用信息,并决定哪些对当前问题最相关。

作为数据分析师,你还会为数据带来独特的视角。你不仅仅是消费数据,你还要解释数据。你寻找模式和洞察,并用它来讲述一个故事。

就像艺术家使用粘土、颜料等原材料创作杰作一样,你使用数据来构建一个能提供信息和启发的叙事。数据是你的原材料,你可以用它创造出既美观又实用的东西。

数据是驱动影响力的强大工具,无论你是试图分析客户行为、解读医学影像,还是推荐视频。


总结与预告 📝

在本节课中,我们一起学习了数据的核心概念。我们了解到数据是任何能辅助决策的信息,它以多种形式存在,并产生于各行各业。我们强调了有目的地收集数据的重要性,以及数据分析师在解释数据和构建叙事中的关键作用。

数据是一个宽泛的概念,因此不可避免地会有分类。在下一个视频中,你将学习非结构化数据的复杂性,这是一种非常自然和人性化的信息捕获方式。

我们下次视频见。


010:认识非结构化数据 📝

在本节课中,我们将要学习什么是非结构化数据,它为何普遍存在,以及它与结构化数据的区别。理解这一概念是数据分析的重要基础。


闭上眼睛一秒钟,和我一起想象一下你脑海中的数据。好的,睁开眼睛。你想到的是什么?是不是类似这样的东西:一个由数字、行和列组成的表格?这是对数据最典型的描绘。

但现实是,你在现实世界中遇到的很多数据最初并非如此。我们称之为非结构化数据

具体来说,非结构化数据指的是无法整齐地放入行或列中的数据。它无处不在。当你拍照、录制视频或在日记中写下笔记时,你就在创造非结构化数据。这些都是人类自然产生的信息类型,对我们来说非常自然。

事实上,如果你只是为自己收集数据,你很可能会以非结构化的方式进行,甚至不加思索。例如,你可能只是用日记来记录和朋友的锻炼情况。

它可能看起来像这样:

今天我们的跑步小组有四人。我们跑了3.2英里,用时29分32秒。之后,我重点进行了核心力量训练。

这些信息也可以被组织成结构化形式,比如像下面这个表格,其中每个锻炼细节是一列,每一天是一行。

日期 参与人数 距离(英里) 时长(分:秒) 后续训练
2023-10-27 4 3.2 29:32 核心力量训练

你可以看到,左边的日记形式更人性化、更自然,而右边的表格形式更刻板,但更适合分析。

所以总结来说,像原始日记条目这样的文本数据被认为是非结构化的。


上一节我们了解了文本形式的非结构化数据,本节中我们来看看其他类型的非结构化数据。

以下是更多非结构化数据的例子:

  • 照片:本周早些时候,我在杂货店拍了一张寿司选项的照片,以便我妻子挑选。这就是非结构化数据。如果它是结构化的,可能会更像一份菜单,整齐地列出每个项目及其成分。
  • 视频:我在五金店录制了一段关于几种潜在烤炉选项的视频,这也是非结构化数据。如果我必须把它放入行和列中,我会放什么?也许我可以在每一行记录一个选项,包括价格、保修链接和一个1到5分的评分,代表我对每个选项的喜爱程度。

总结来说,照片和视频是非结构化的


那么,区分结构化数据和非结构化数据为何重要呢?这完全关乎数据如何被收集和处理。

在某个时间点,所有这些非结构化数据通常都需要转换为结构化格式,以便进行有效分析。大多数数据分析都发生在结构化数据上,尽管现代技术越来越擅长直接分析非结构化数据。我们将在后续视频中更多地讨论结构化数据。


由于大多数数据并非一开始就以行和列的形式存在,它们通常需要经过转换才能成为结构化形式。作为一名数据分析师,你应该注意数据的来源,因为数据是否结构化通常会影响其预处理和分析的难易程度。

非结构化数据在变得有用之前通常需要更多的处理步骤,但它也更容易被人自然生成,并且由于其细节丰富,可能包含意想不到的洞察。

假设你正在处理一个旅游博客网站的客户评论。评论者可以对某个地点的趣味性、可达性和价值进行1到5星的评分,然后留下评论。评论数据是以非结构化方式生成的,它只是自由格式的文本。

在后台,这些文本需要通过一系列步骤进行处理,例如翻译成英文、分块存储到数据库、按积极或消极情绪进行分类等。与此同时,1到5星的评分则可以直接分析,例如用来计算每个地点的平均评分,但可能不如评论本身有洞察力,因为评论者可能会提供诸如“床虱多得吓人,但咖啡不错”这样的见解。

这些评论包含了结构化和非结构化信息的混合。即使评论是非结构化的,通常也会将它们与结构化数据一起存储。

例如,你可以像下面这样存储你的评论数据,每一行代表一条评论,包含不同评分的数字,以及一个包含评论内容的列。

评论ID 趣味性评分 可达性评分 价值评分 评论内容
001 4 3 5 风景绝美,但交通极其不便。
002 5 4 2 体验超棒!就是门票太贵了。

这个“评论内容”列仍然是非结构化的,因为它缺乏内在的组织结构,人们可以写任何他们想写的内容。我们将在下一个视频中更多地讨论这种技术。


非结构化数据是我们作为人类捕获和交流信息的自然副产品。它是一种原材料,需要经过组织才能产生洞察。

在下一视频中,我们将讨论结构化数据,以及它为何会存在。我们下节课见。

011:结构化数据 📊

在本节课中,我们将要学习什么是结构化数据,以及它为何对计算机处理和分析至关重要。我们会探讨结构化数据的特点、常见的数据类型,并将其与另一种数据形式——非结构化数据进行对比。


概述

当使用计算机处理数据时,通常需要为数据施加某种结构。当数据以预定义的方式组织时,计算机的工作效率最高。相比之下,人类对以意外形式出现的信息则更具适应性。

我希望你从本视频中获得的一个核心观点是:结构化数据本质上是为了让计算机能够存储、处理和分析而存在的。结构化数据就是将信息组织成计算机易于解释的标准化格式,最常见的形式是将数据整齐地组织成行和列。


结构化数据的组织与信息

上一节我们介绍了结构化数据的基本概念,本节中我们来看看这种组织方式本身如何蕴含大量信息。

让我们回顾一下追踪健身记录的例子。以下是该信息的结构化版本,并增加了两行数据,以便比较每次锻炼。

在每一列中,你(或更准确地说,你的计算机)可以预期看到同类型的信息。时间列将始终包含时间,力量训练重点列将始终是几个选项之一(如核心、腿部、背部)。永远不会出现“颈部训练日”(尽管个人喜好不同)。每一行(或每一天)都将包含每项运动的信息,即使你当天根本没有跑步。跑步里程参与人数永远不会是负数。

这些例子代表了内嵌于这种数据组织结构中的部分信息。


数据的类型与分类

构建信息的任务通常涉及将数据分类为特定类型,例如数值型分类型

以下是数值型数据的两种主要子类型:

  • 离散型:指整数计数。例如,你可能是和1个人或2个人一起跑步,不存在“1.5个人”这种情况。
  • 连续型:可以包含分数。例如,你可以跑3.2英里或1.1英里。

此外,还有专门的数值格式,如时间,它也可以用离散或连续形式表示。

分类型数据使你能够将行划分为不同的组。例如,“核心、腿部、背部”是可用于分析不同类型力量训练重点的运动类别。

分类型数据最常以文本形式表示,但应具有有限数量的不同组。像评论这样的自由文本具有潜在无限的值,如果不经过进一步处理,无法构成有用的分类型数据。

数据也可以用数字表示,为每个组分配一个离散的数字。例如,为了效率,你可以用1代表核心,2代表腿部,3代表背部。即使是用数字表示,它仍然是分类型数据


时间序列数据与横截面数据

结构化数据中另一个关键区别是时间序列数据横截面数据

  • 时间序列数据:追踪随时间的变化。
  • 横截面数据:捕捉某个时间点的快照。

你刚才看到的健身数据被认为是时间序列数据,因为你可以分析你的里程、时间、力量训练重点随时间的变化,并监控你的朋友是否遵守了与你一起训练的承诺。

另一方面,看看这个Instagram个人简介,它包含帖子数、粉丝数、用户名、图片和文本简介等数据。这是横截面数据还是时间序列数据?

这是横截面数据,因为它显示了某个时刻的账户信息。你无法通过这些数据了解粉丝数随时间的变化,或者此人更换头像的频率。


结构化与非结构化数据的共存

你之前了解到,在表格或电子表格中存储非结构化数据是很常见的。

以下是使用你刚才看到的同一个Instagram个人简介的另一个例子。你可以将个人简介中的结构化数据表示在一个表格中,列包括:姓名帖子数粉丝数关注数。这些列中的每一列都具有一致的格式,可以被计算机处理。例如,你可以计算粉丝数与关注数的比率。

这里的个人简介(描述)是非结构化的,因为它是无组织的文本数据,计算机不易处理。为了将所有数据保存在一起,你可以将个人简介附加到这个表格中。它仍然是非结构化数据,并且与其他列相比,仍然需要更多工作来处理,但你可以将其与其他数据存储在一起,以保持一致性。

总结来说,表格中的不同列可以是结构化的,也可以是非结构化的


人类与计算机的视角差异

现在你已经了解了结构化和非结构化数据的核心组成部分,让我们退一步,从人类的角度思考这两种数据类型的区别。

我们非常擅长解读非结构化数据。我们可以毫不费力地阅读一本书、观看一部电影或欣赏一首动人的歌曲。但对计算机来说,情况则不同。计算机需要数据以特定方式组织,才能有效地处理它。

尽管生成式人工智能在解释非结构化数据方面取得了重大进展,但一般来说,非AI技术在结构化数据上效果最佳。


总结

本节课中我们一起学习了结构化数据的核心概念。结构化数据的核心是以计算机能有效使用的方式组织信息。作为数据分析师,你将经常从结构化和非结构化数据中获取洞察。

在下一个视频中,你将探索大数据。大数据不仅仅是大量的数据,我保证其中还有更多内容。😊


在下一个视频中与我一起了解更多。

012:大数据 📊

在本节课中,我们将要学习“大数据”这一核心概念。我们将了解大数据的定义、关键特征,以及它与传统“小数据”的区别。


你可能听说过“大数据”这个词,但它究竟意味着什么?你可能会认为它仅仅意味着处理海量数据。这确实是其中的一部分,但它的含义不止于此。大数据由三个关键属性定义,被称为“三V”:体量多样性速度

体量 📦

让我们从“体量”开始,这可能是大数据最直接的特征。如今的数据集通常非常庞大,在存储和计算方面都带来了巨大挑战。

以亚马逊公司为例,他们每天处理的订单量高达1200万到1900万。事实上,从你开始观看这个视频起,亚马逊可能已经处理了超过6000个订单。

体量之所以重要,是因为存储和分析这些数据需要强大的计算能力。如果你在亚马逊工作,想要分析哪怕只是一天的交易数据,你都无法在家用笔记本电脑上完成,也无法通过手动复制粘贴的方式将交易数据从一个地方转移到另一个地方。

多样性 🎭

接下来是“多样性”。过去,分析师处理的数据往往是结构化的,意味着它们能整齐地放入数据库或电子表格中。

但21世纪见证了非结构化数据的爆炸式增长,例如图像、文本、视频,甚至来自像Apple Vision Pro这类产品的增强现实数据。这种爆炸式增长与互联网,特别是社交媒体的兴起同步。

例如,现在的自拍数量比大约20年前多得多,因为第一款配备前置摄像头的智能手机直到2010年才问世。

以Facebook这样的平台为例,当用户创建新帖子时,他们可以添加照片、标记人物、选择感受、签到地点、发起募捐,甚至进行直播。每种帖子类型都需要其独特的预处理和分析方法。如果你想回答一个看似简单的问题,比如“某个用户通常发布什么内容?”,你需要分析一个极其多样化的数据集。

速度 ⚡

第三个“V”是“速度”。这指的是数据生成的速度。

你刚才看到了亚马逊处理订单的速度,但这不仅仅是科技领域的事。在飓风期间,传感器和卫星每秒收集大量数据,必须快速分析这些数据以预测飓风的移动路径。如果分析师不能迅速处理这些数据,处于风暴路径中的人们可能会收到延迟的信息。

特别是社交媒体上的数据速度是惊人的。在YouTube上线的前六个月,该网站每天的视频观看量就超过10万次。上传的视频数量如此之多,以至于人工审核根本不可行,YouTube转而采用自动化技术。换句话说,数据的速度影响了YouTube审核内容的方式,这对今天的内容审核仍持续产生着连锁反应。

以上就是最初的“三V”定义,你可以就此打住。但有一种趋势是在这个框架中加入更多的“V”。虽然你刚才看到的三个“V”是最重要的,它们将大数据与你可能称之为“小数据”的东西区分开来。

额外的“V”:真实性与价值

让我们看看额外的“V”。第四个“V”是真实性。这指的是数据的质量,它是一个至关重要的考量因素,尤其是在数据的体量、多样性和速度不断增加的情况下。数据是否来自可信的来源?在传输过程中是否可能被损坏?正如俗话所说:垃圾进,垃圾出。如果你的数据质量差,那么你的洞察以及随之而来的商业决策也会很差。

第五个“V”是价值。这里的理念是,只有数据能真正提供一些益处时,才值得分析。

以Netflix为例,我们收集的大量用户参与数据会输入到推荐系统中,从而实现个性化推荐。如果没有这些数据,每个人只会得到相同的通用推荐,就像你全家共享的那个Netflix账户一样,你知道的,就是那个《宝贝老板》旁边推荐着《惊声尖叫》的账户。

大数据与小数据

虽然大数据在当今的数据分析世界中非常普遍,但在许多情况下,相对的数据集也能产生有价值的洞察。

你可能会惊讶地发现,美国只有大约6000家医院。这与每分钟29万次的Tinder匹配相比并不多。每家医院每年可能只服务几千名患者,一个重症监护室可能只有几十张床位。在你的笔记本电脑上分析这些数据是完全可行的,并且在这些背景下生成的数据对于改善患者治疗效果仍然具有难以置信的价值。

作为一名数据分析师,你的工作是在你试图解决的问题背景下考虑数据。有时这意味着处理海量、复杂的数据集,而其他时候则意味着调查一个更小、更聚焦的数据集。


总结

本节课中,我们一起学习了“大数据”的概念及其核心特征——“三V”:体量多样性速度。我们还了解了额外的“V”,如真实性价值,并认识到数据分析的价值不仅取决于数据的大小,更取决于其与具体问题的相关性。在接下来的实践中,你将有机会在电子商务案例研究中同时处理结构化和非结构化数据。

013:数据生态系统 📊

在本节课中,我们将要学习数据生态系统的基本概念。数据生态系统描述了数据从产生到最终用于决策支持的全过程。理解这一流程,有助于我们认识数据分析师在数据价值链中的位置和职责。

就像电力不会停留在发电厂一样,数据也不会停留在其产生的地方。数据会流经各种系统,最终转化为洞察力。让我们从高层次审视这一流程,它被称为数据生态系统。这是数据从产生到可供您用于驱动决策制定所经历的端到端过程。

数据流动的核心阶段 🔄

上一节我们介绍了数据生态系统的整体概念,本节中我们来看看数据流动的具体阶段。以下是数据从源头到洞察所经历的五个关键步骤:

  1. 收集:正如您在之前的视频中所见,需要捕获数据才能有效使用。这可能表现为传感器收集环境数据、网站跟踪用户交互或调查收集客户反馈。
  2. 存储:保持数据安全。数据的存储方式会影响执行不同分析的难易程度。数据工程师通常负责运行此过程,您稍后将了解更多关于他们角色的信息。
  3. 处理:在大多数情况下,收集数据的原始格式可能不适合存储或分析。因此,处理实际上可以发生在收集和存储阶段之间,也可以发生在存储和下一阶段(分析)之间。
  4. 分析:理解数据。您将调查数据以发现可以为决策提供信息的见解。
  5. 交付:分享见解。您需要找出最有效的方式来传达分析结果,例如通过报告或仪表板。

核心数据团队(包括您作为数据分析师)将负责这些步骤。其他人将依赖于您的工作,包括任何生成数据的用户,以及产品经理、工程师等业务利益相关者。您对数据工程师和业务利益相关者负主要责任,因为他们是直接的上游和下游角色。更多内容将在接下来的视频中介绍。

一个具体的例子:医院诊断 🏥

让我们通过一个例子来具体说明。考虑一家接收患有严重不明症状患者进行诊断的医院。每位患者都会产生大量关于其健康的数据,初始诊断阶段涉及捕获这些数据。

例如,护士会测量他们的生命体征:用数字体温计测量体温,用听诊器测量呼吸模式。他们可能还会进行血液或尿液测试,这必须在实验室进行处理;或者他们可能要求进行成像检查,如X光、超声波或MRI,这些检查会生成需要专家解读的图像。这些数据存储在电子病历(EMR)中,与患者的身份信息相关联,同时还包括数据收集的时间和人员信息。

数据的存储和处理方式在很大程度上取决于其类型。结构化数据(如患者的人口统计信息或生命体征)可能很容易存储在传统数据库中。非结构化数据(如医生的手写笔记)可能需要在额外处理(如使用AI进行手写识别或手动数据录入)后存储在数据库中。

在所有数据流入EMR之后,患者的主治医生可以将其与自己的专业知识相结合来做出诊断,而诊断本身又成为记录在EMR中的另一个数据点。

此时,您作为数据分析师介入。您不会诊断任何单个患者,但通过分析数千份类似患者记录的模式,您或许能够发现有助于医生做出更好决策的见解。也许有一种治疗方案始终能带来更好的结果,或者存在某些医生可能忽略的风险因素。

总结与预告 📝

本节课中我们一起学习了数据生态系统的概念,它描绘了数据从收集、存储、处理、分析到最终交付洞察的完整旅程。我们通过医院的例子,看到了结构化与非结构化数据如何被处理,以及数据分析师如何通过分析群体模式来创造价值。

您并非独自完成这个过程。在接下来的两个视频中,您将见到您的主要协作者:从阅读您报告的业务利益相关者,到您日常交谈的数据工程师。我们稍后见。

014:跨部门协作伙伴 🤝

在本节课中,我们将要学习数据分析师在组织内部需要与哪些关键的非数据团队伙伴进行协作。理解这些合作关系对于确保你的数据分析工作能够产生实际业务影响至关重要。

概述

数据工作涉及组织内每个团队的人员。让我们看看数据团队之外的一些关键协作者。

关键协作者

上一节我们介绍了数据分析师需要与组织内外部进行协作,本节中我们来看看具体有哪些核心的跨部门伙伴。

以下是数据分析师通常需要合作的几类关键业务伙伴:

  • 业务利益相关者:他们根据你提供的洞察做出决策。他们可以是任何人,从试图优化菜单的餐厅老板,到跟踪库存的商店经理,再到评估新法案的政策制定者。你的工作是理解他们的问题,并提供他们做出明智决策所需的洞察。
  • 产品经理:在许多组织,尤其是科技公司中,你会与产品经理紧密合作。产品经理负责制定产品路线图并努力实现计划中的功能。他们定义业务问题和优先级。你需要确保你的工作与他们的目标保持一致,因为他们通常是你的洞察的主要使用者。他们会根据你的洞察来决定优先开发哪些功能以及如何个性化产品。
  • 工程团队:他们是另一个至关重要的协作者。他们构建服务于用户的应用,并且通常负责数据收集系统。工程师将帮助实施系统来收集新的、更好的数据。你的角色是开发可以被整合回产品中的洞察。

根据你所在的组织,你可能还需要与设计师合作,他们帮助将你的数据转化为美观的用户界面体验;或者与业务战略家合作,他们利用你的洞察来指导高层决策。

公司越成熟,你的协作者就越专业化。团队构成在很大程度上取决于行业和组织规模。你需要调整你的工作方式以适应环境。

常见团队类型

了解了关键协作者后,我们来看看在不同规模和性质的组织中,团队构成和协作方式有何不同。

以下是几种你可能会遇到的常见团队类型:

  • 小型企业:你很可能是一个单人团队,负责从数据收集到分析再到可视化的所有事情。你的主要协作者将是企业主,你需要就数据策略的所有方面直接向他们负责。灵活性和适应性是关键。你可能无法像在大型组织中那样获得相同的资源和工具,因此你需要善于利用现有资源。好处是,你通常可以看到你的工作对业务产生的直接影响。
  • 政府机构:你的关键协作者很可能是政策制定者。你可能无法接触到像在科技界那样复杂的工程系统。在这种环境中的关键挑战是确保你的洞察能以引起政策制定者共鸣的方式进行沟通。与商业环境相比,你可能需要提供更多的背景和指导。
  • 大型科技公司:你可能会使用复杂且成熟的ETL管道,并与各种专家合作。数据工程师将构建和维护数据基础设施。产品经理将与数据团队紧密合作,确保洞察与客户需求保持一致。软件工程师将把这些洞察整合到产品和服务中。市场和销售团队将利用数据来优化销售策略。在这种环境中,你经常需要处理海量数据,并满足众多不同利益相关者的要求。洞察必须在大型的、有时是全球分布的团队中有效共享。你需要跟上最新技术,以跟上科技行业的快速创新步伐。

总结与核心原则

在本节课中,我们一起学习了数据分析师在不同类型的组织中需要与哪些关键伙伴协作,以及如何适应不同的团队环境。

在所有团队构成中,你与利益相关者的目标越一致,你的数据工作影响力就越大。通过弥合数据技术世界与业务实际需求之间的鸿沟,你将在工作中表现出色。

在下一个视频中,你将看到这种协作心态如何转化为在数据团队内部的工作。

015:数据团队内部协作 👥

在本节课中,我们将要学习一个成熟的数据团队由哪些不同角色构成,以及这些角色如何分工协作,共同将原始数据转化为有价值的商业洞见。

一个成熟的数据团队通常承担着从数据收集到洞见交付的全链条职责。这些高级职责包括:数据收集数据存储数据预处理运用核心统计方法寻找洞见运用高级统计方法与机器学习寻找洞见数据可视化以及与利益相关者沟通。理解业务问题本身是所有人的共同责任,因此不单独列出。

接下来,我们来看看构成团队的三个核心角色:数据工程师数据分析师数据科学家。这些职责是如何在他们之间分配的呢?

以下是各角色在不同任务上花费时间的细分,其中灰色条代表每个角色100%的工作时间。

  • 数据工程师:主要负责数据收集数据存储。他们的核心工作是构建数据管道,从各种来源捕获数据,并将其移动到合适的位置以供分析。数据工程师也可能参与一些数据预处理工作,为洞见发现做好准备。最后,他们通常也会花一些时间在利益相关者沟通上。
  • 数据分析师:负责从数据中发现并传达洞见。这包括进行一些数据预处理以确保数据格式适合分析。你将主要专注于运用核心方法寻找与业务问题相关的洞见,并借助数据可视化来解释你的发现。沟通是你工作中很大的一部分,旨在帮助利益相关者做出明智决策。数据分析师通常拥有最广泛的技能组合,涵盖从SQL查询、数据可视化到编程和利益相关者管理的各个方面。
  • 数据科学家:通常在分析中应用更深层次的技能。他们可能会进行一些数据预处理,但将大部分时间花在洞见发现上,这次侧重于更复杂的方法,如机器学习技术。数据科学家可能会设计实验、构建预测模型或开发新算法。他们也会做一些可视化工作来解释洞见,并负责与利益相关者沟通

可以看到,这些角色的职责存在重叠,这非常有益,因为它促进了大量的协作。

你的团队中可能还有处于混合角色的成员,他们借鉴了软件工程领域的技能,例如Web开发应用开发云计算等。例如,可视化工程师结合了数据分析和软件工程技能;机器学习工程师则弥合了机器学习和软件工程之间的鸿沟。

这些角色中的每一个都充当着数据生态系统中不同部分之间的中介。也就是说,没有一个角色是数据的创造者或最终分析的消费者。每个角色都需要理解来自某一方的需求和用例,将其转化为自己专业领域的任务,然后与链条中的下一个角色协作以交付解决方案。

一个组织越成熟、越数据驱动,其数据角色往往就越专业化。在早期的初创公司,你可能需要负责从数据工程到分析的全方位数据职责。但随着组织成长,数据需求变得更加复杂,专业化分工允许公司在流程的每一步最大化其价值。

数据生态系统的美妙之处在于,拥有各种不同技能、背景和个性的人们为了同一个最终目标而协作。无论你身处哪个角色,你都是一个团队的一部分。

你现在已经学完了本节课的内容,本模块只剩最后一课。在下一课中,你将全面了解用于数据分析的大语言模型,包括其优势和局限性。此外,你还将通过动手实践实验室来构建你的提示工程技能。与AI合作总是一场冒险,希望你加入下一课,一起探索这项激动人心的新技术。

总结:本节课我们一起学习了数据团队的构成与协作。我们明确了数据工程师、数据分析师和数据科学家三大核心角色的主要职责与时间分配,理解了职责重叠带来的协作优势,并认识了混合角色。最后,我们看到了团队协作与角色专业化如何随着组织成熟度提升而演进,共同驱动数据价值最大化。

016:大语言模型介绍 🤖

在本节课中,我们将要学习大语言模型(LLM)的基本概念、工作原理,以及作为一名数据分析师如何利用它们来提升工作效率。我们将从模型的核心机制开始,逐步探讨其实际应用场景和最佳实践。


什么是大语言模型?

大语言模型是一种旨在生成文本的人工智能系统。在本节中,我们将了解这些模型是什么,它们如何工作,以及你作为数据分析师如何在工作中使用它们。

大语言模型(缩写为 LLM)通过一个称为预训练的过程,学会了反复预测下一个词。这个过程本质上是通过阅读互联网上的海量文本(如书籍、文章、维基百科、社交媒体帖子等)来实现的。它们阅读的数据量非常庞大,最先进的模型已经训练了数千亿甚至上万亿个单词。

此外,LLM 还经过了额外训练,使用人类精心策划的数据,以便以友好的方式回答问题,同时避免不道德的回应。所有这些训练的结果就是像 ChatGPT 这样的大语言模型,它非常擅长根据输入的提问或提示生成文本。


大语言模型对数据分析师的意义

上一节我们介绍了大语言模型的基本定义,本节中我们来看看它对数据分析工作的具体价值。

对于我们数据分析师来说,幸运的是,生成文本意味着很多事情:总结一封邮件、修复出错的电子表格公式,甚至是编写代码来分析数据。这些能力意味着 LLM 可以成为你工作流程中的思考伙伴和时间节省器。

在本课程中,你将快速了解 LLM 的工作原理,然后我们将直接进入如何与它们协作完成数据分析任务。你将看到与 LLM 协作和提示的最佳实践,以及使用 LLM 处理数据的三种不同方式。

尽管我们将重点放在 LLM 在数据分析中的实际应用上,但我鼓励你更多地了解它们的工作原理。你对它们的构建方式了解得越多,就越能在工作中更好地使用它们。


大语言模型如何工作?

正如刚才提到的,LLM 通过预测文本来工作。让我们看一个简化的示例。

假设我提供一个输入,比如“完成这个句子:I love learning...”。这被称为一个提示。然后,LLM 可以用类似“new skills”这样的内容来完成这个句子。如果你运行第二次,它可能会说“about different dinosaurs”。运行第三次,它也许会说“for the...”。

所以,如今当你用“I love learning”这样的内容提示 ChatGPT 时,它更可能会说“That‘s fantastic. Here are a few thoughts on the benefits and joys of learning...”,并可能就此继续阐述一段时间。这是因为它们经过训练,要以有帮助的方式回答问题。

例如,请求 LLM 帮助你创建一个演示文稿大纲,你会得到一个以“Sure, I can help you with that.”开头的回复。而请求如何执行非法活动(如窃取竞争对手数据)的指示,你可能会得到回复:“I can‘t assist with any illegal activities, including stealing a competitor‘s data.”


大语言模型擅长什么?

LLM 经过训练,能够根据输入提示生成文本。因此,毫不奇怪,它们在写作方面很有用。如果你试图可视化数据,你可以上传或描述你的数据,并要求 LLM 建议一些合适的图表类型,模型会提出一些创造性的建议。

除了写作,LLM 还擅长阅读任务,即你给它大量信息,它根据你的指令生成一个简短的输出。因此,可以考虑以下用例:

  • 从利益相关者的电子邮件中提取核心业务问题。
  • 评估数据集中有多少列是分类变量。

在你的日常数据分析工作中,请留意像这些例子一样的阅读和写作任务,在那里你可以利用 LLM 作为得力助手。


如何选择合适的大语言模型?

现在你已经熟悉了 LLM 的工作原理以及它们擅长什么(即阅读和写作任务)。但是市面上有这么多选择,你该如何选择与之合作的合适 LLM 呢?

以下是选择时需要考虑的关键因素:

  • 模型能力:不同模型在代码生成、逻辑推理或创意写作等特定任务上可能表现不同。
  • 成本与可访问性:有些模型是免费或开源的,而其他高级模型可能需要付费订阅。
  • 数据隐私与安全:根据你处理数据的敏感性,需要考虑模型服务提供商的数据处理政策。
  • 集成与易用性:模型是否提供易于使用的 API,或是否能与你常用的数据分析工具(如 Python、Jupyter Notebook)轻松集成。

总结

本节课中,我们一起学习了大语言模型(LLM)的基础知识。我们了解了 LLM 是通过预训练海量文本数据来预测下一个词的 AI 系统,它们擅长处理阅读和写作类任务,能够成为数据分析师在工作中的高效伙伴,协助完成总结、修复公式、编写代码乃至数据可视化建议等工作。我们还简要探讨了选择合适 LLM 时需要考虑的因素。理解这些核心概念,将帮助你在后续课程中更有效地应用 LLM 来解决实际的数据分析问题。

017:LLM选择策略 🤖

在本节课中,我们将学习如何选择和使用不同的大型语言模型(LLM),并熟悉Coursera平台内置的交互界面。

现在你已经了解了LLM的能力,你应该尝试使用它们,看看哪些模型最适合你。在本视频中,你将熟悉一些最流行的LLM以及如何使用它们。

主流LLM简介

目前有许多LLM可供选择,并且这个数量还在不断增长。就像你可能会针对不同类型的问题咨询不同的同事一样,你也可以选择与哪个LLM合作。

以下是一些流行的选择:

  • OpenAI 的模型,例如 ChatGPT-3.5 和 4.0。
  • Anthropic 的 Claude 3.5。
  • Meta 的 Llama 3.2。
  • Google 的 Gemini Pro。

在响应质量方面,这些都是强有力的选择。每个模型都有不同的优势和沟通风格,你可能会偏爱其中一种的语气。

Coursera平台交互界面

在本课程中,你将使用Coursera内置的基于网页的界面与LLM进行对话。

该界面有一个相当标准的设置。你有一个可以在此处输入提示词的地方。当你提交提示词后,你将能够在此中间部分阅读LLM的响应。

例如,我可以输入一个问题:“你好,你能帮助我吗?”,然后你会在上方看到响应,同时在左侧看到你实际的提示词。现在,你可以查看你之前进行过的任何对话,或者开始一个新的聊天。在下方,你有一些选项来管理你已有的对话以及配置任何设置。

你可能还注意到提示词左侧的这个文件图标。在本例中,我们可以看到“酒店预订数据”的选项,这是我们将在未来视频中处理的内容。在此界面中,你只能处理与每个活动相关的预选文件。

开放与封闭模型

关于访问权限,还有一个注意事项。ChatGPT、Claude和Gemini的模型和训练方法对公众可用,这意味着它们被称为封闭式LLM。另一方面,Llama 3是一个开放式LLM,其代码可供任何人下载和定制。

一个封闭式LLM本质上是一个黑盒。你知道创建它使用了什么技术,但不知道具体细节。封闭式和开放式模型各有其优点。

在为特定任务选择正确的模型时,你应该考虑封闭式和开放式LLM之间的这些差异:

  • 封闭式模型:最佳层级需要付费,并且在响应质量方面通常优于开源LLM。你可能还会发现它们倾向于给出更安全、或更少挑衅性、争议性的回应。
  • 开放式模型:只要使用你自己的计算机运行它们,就是免费的;或者可以使用第三方服务在云端运行。它们具有良好的响应质量,但并非最先进的(尽管差距正在缩小),并且有时可能产生更尖锐或更不可预测的回应。

总结与建议

我鼓励你尝试两种类型的LLM,包括封闭式和开放式,看看哪种最适合你。如果你将LLM视为一个思维伙伴,它们几乎可以成为值得信赖的同事。像ChatGPT这样的LLM,全世界有数百万人正在与有史以来最复杂的人工智能系统进行交互。

在本节课中,我们一起学习了如何根据任务需求选择不同的LLM,熟悉了Coursera平台的操作界面,并了解了开放与封闭模型的核心区别。接下来,让我们进入下一个视频,看看在数据分析中使用LLM时有哪些最佳实践。

018:提示词工程 🧠💡

在本节课中,我们将学习如何与大型语言模型(LLM)进行有效协作,特别是掌握提示词工程的核心技巧。我们将了解如何通过撰写清晰、具体的指令来引导模型,并认识到其局限性。

与大型语言模型协作有时会显得神秘。让AI充当思考伙伴究竟意味着什么?让我们具体探讨一下,作为现代数据分析师,如何利用LLM完成阅读、写作及其他任务。你需要熟练掌握两项关键技能:撰写高质量的提示词,以及识别所用LLM的局限性。我们将学习三个主要的提示词技巧:详细具体引导模型分步思考以及实验与迭代

详细具体地撰写提示词

上一节我们提到了提示词工程的重要性,本节中我们来看看第一个核心技巧:提供详细具体的背景信息。

想象一下,你在处理电子表格时遇到了问题,需要向同事求助。你不会直接跑过去大喊“它不工作了”,这很可能无法解决问题。你可能会解释你的目标、你尝试过的方法以及得到的结果。同样,LLM也需要足够的背景信息或上下文来完成任务。你需要自问:一位同事需要哪些信息才能回答我的问题或与我一起进行头脑风暴?

引导模型分步思考

在提供了具体背景后,下一步是引导模型有条理地生成答案。

如果你只是要求模型“为从网络抓取的数据构思五种数据清洗技术”,它也能完成任务。但假设你希望获得每种技术的详细信息、实现该技术的电子表格公式,以及一个帮助记忆的相关表情符号,最佳方法是指导模型通过一系列步骤来生成更详细的回答。

以下是引导模型思考的步骤示例:

  1. 要求LLM构思五种针对网络抓取数据的清洗技术。
  2. 要求LLM为每种技术编写对应的电子表格公式。
  3. 要求LLM为每种技术添加一个有趣且相关的表情符号。

通过这种方式,你可能会得到类似下表的清晰结果,其中LLM严格遵循了你的指令:

技术 公式 表情符号
删除重复项 =UNIQUE(range) 🗑️
修剪空格 =TRIM(cell) ✂️
转换大小写 =PROPER(cell) 🔠
提取子字符串 =MID(cell, start, num) 🎯
替换文本 =SUBSTITUTE(cell, old, new) 🔁

因此,如果你对自己想要的结果已有清晰的构思流程,那么用清晰的、分步的指令来提示LLM会非常有效。

通过实验与迭代优化结果

最后,我们需要认识到,获得理想输出往往需要多次尝试和调整。

不要期望一开始就能写出完美的提示词。可以先快速尝试一个简单的版本,例如:
帮我为网络抓取的数据构思5种数据清洗技术。

如果对结果不满意,可以澄清并补充提示词,例如添加:
并使用电子表格公式实现。

如果仍未得到理想结果,可以进一步明确限制条件:
使用Google Sheets函数,无需自定义函数。

提示词工程的关键不在于起点完美,而在于快速开始,检查结果是否符合预期,并知道如何调整提示词以逐步接近理想响应。

总结与展望

本节课中,我们一起学习了与LLM协作的三个核心提示词技巧:提供详细具体的背景引导模型分步思考以及通过实验迭代优化。你应该将LLM视为一群多样化、富有创造力的同事,而不是替代你所有职责的工具。

事实上,在下一节视频中,我们将一起探讨LLM的局限性,了解这些模型会犯哪些错误及其原因。

019:大语言模型的局限性 🧠

在本节课中,我们将要学习大语言模型(LLMs)的核心局限性。了解这些局限性对于有效、负责任地使用LLMs至关重要,尤其是在数据分析等专业领域。


概述

研究人员通常使用一种称为基准测试的技术来评估LLMs。这种方法是在一套标准问题上测试每个LLM,以比较它们在特定领域的性能。例如,在2024年中,ChatGPT-4在一个流行的常识基准测试中得分为53%,在数学基准测试中得分为76%,在编程基准测试中得分为90%。这意味着,如果你使用GPT-4进行编程,大约有10%的时间它可能不准确;用于数学时,不准确率接近25%;用于常识问题时,不准确率接近50%。这个比例相当高。

到目前为止,我们讨论了很多LLMs擅长的事情。那么,LLMs究竟是如何出错的呢?


LLMs的核心局限性

LLMs有几个关键局限性,这些局限性源于其根本设计。尝试用LLM回答以下类型的问题,很可能会让你的工作变得更困难,而不是更容易。

以下是LLMs难以应对的几类问题:

  • 事实性问题:尤其是在小众或专业领域的问题。
  • 关于当前事件的问题:LLMs的知识存在截止日期。
  • 数学问题:涉及精确计算的问题。
  • 可能引发历史偏见的问题:LLMs的训练数据中包含了社会偏见。

这些局限性对LLMs来说是根本性的,因为它们并非被训练来报告事实,而是被训练来预测下一个词。之所以预测最佳下一个词常常能产生事实性输出,更多是一种巧合。因为预测本身引入了随机性,LLMs通常在只有一个正确答案的任务上表现不佳。

例如,像“1到888所有数字的总和是多少?”或“告诉我一些关于白矮星和双星系统的事实”这类问题,对模型来说极具挑战性,难以始终如一地给出高质量的回答。


“自信地犯错”与偏见问题

当LLMs出错时,它们往往是自信地犯错。即使对于专家来说,判断一个回答是否正确也具有挑战性,因为LLMs被训练得听起来值得信赖。尤其是在你并非专家的领域,很难分辨真假。

此外,LLMs会从其训练数据中继承偏见。让我们看看原因。

想象你向一个LLM提出这样的提示:“写一个100字以内的故事,关于一个在约会中为浪漫伴侣付账的美国人。”

假设第一个故事中,马克和萨拉去约会,付账的是马克。这没什么大不了的。第二个故事中,也许是亚历克斯和艾玛,亚历克斯付了账。但在第三、第四、第五个故事中,如果付账的始终是男性,你可能就会开始怀疑了。

一项2024年的研究正是以这种方式调查了LLM的偏见问题。作者要求LLMs编写关于“明星学生”和“ struggling student”、“律师”和“被告”、以及“约会中付账的人”的故事。

现在,让我们一起来预测一下,LLM可能会如何看待以下问题。请记住,LLMs本质上阅读了互联网的全部内容。

  • 约翰更可能为约会付账,还是被请客?
    • LLM的回答是:付账(比例17500 : 4000)。
  • 普里亚姆更可能是一位经验丰富的软件开发人员,还是一名新员工?
    • LLM的回答是:新员工(比例490 : 0)。
  • 玛丽亚更可能是一名明星学生,还是一名 struggling student?
    • LLM的回答是:struggling student(比例4087 : 333)。

这种偏见源于一个事实:在现实中,所有性别和种族的人都可以在工作中指导他人、在课堂上取得成功、在恋爱关系中支付账单。然而,LLMs训练所用的互联网文本代表的是我们的现在和过去。因此,一个从这些数据中学习的LLM反映出我们过去和现在的这些偏见,也就不足为奇了。请记住,每个模型都只是其训练数据的反映。


对数据分析师的启示

那么,这些局限性对你作为一名数据分析师意味着什么呢?

首先,了解模型的弱点。目前,LLMs正在变得更善于识别自己不知道的事情,但你仍然需要警惕那些与你所用LLM的训练目标相悖的场景。在这些情况下,务必仔细核查LLM的回复,或者选择更适合该任务的工具,比如搜索引擎或电子表格。

其次,以怀疑的态度对待LLM的回复。最终,你要对你工作中使用的任何LLM回复负责。如果你使用LLM,它告诉你销售额增长了42%,但实际上销售额下降了10%,你需要对此信息承担的责任,就如同你自己做了这个分析一样。

最后,注意LLM的偏见。LLMs正在改进,并朝着减少偏见的方向发展,但作为一名数据分析师,你必须警惕那些偏见可能起作用的地方。

与LLMs合作的一个重要部分是保持一种健康的怀疑心态。预料到错误,预料到偏见,这样你将能够更高效地将它们用于数据分析。


总结

本节课中,我们一起学习了LLMs的核心局限性,包括其在事实准确性、数学计算方面的不足,以及“自信地犯错”的倾向和从训练数据中继承的社会偏见。对于数据分析师而言,关键在于了解这些弱点、以审慎的态度核查输出结果,并为潜在的偏见负责。掌握这些,是负责任且高效运用LLM工具的基础。

LLMs确实拥有有趣的能力。在下一个视频中,你将看到一个如何与LLMs交互的演示。我们那里见。😊

020:与LLM交互实践演示 🧠💬

在本节课中,我们将学习如何与大型语言模型(LLM)进行交互。我们将通过一系列具体的提示示例,了解LLM的优势与局限,并掌握如何有效地利用它来获取信息、解决问题。


概述:认识LLM的交互界面

上一节我们介绍了LLM的基本概念,本节中我们来看看如何在实际操作中与LLM进行对话。我们将使用Coursera平台上的LLM界面,并尝试不同类型的提示,以观察其响应。

首先,我们尝试一个数学计算类的提示。


尝试数学计算提示

以下是第一个提示示例:计算从1到888所有数字的总和。

What is the sum of all numbers from 1 to 888.

LLM给出了一个用于计算等差数列总和的公式:

公式: 总和 = n / 2 * (首项 + 末项)

其中,n是总项数。我们将具体数值代入公式进行计算:

888 / 2 * (1 + 888) = 394716

然而,LLM给出的结果是 394116。这表明LLM在此次数学计算中出现了错误。

关键点: 当需要进行精确数学计算时,使用计算器、电子表格或编程语言等比LLM更为可靠。


尝试获取实时信息

接下来,我们尝试一个需要实时信息的提示。

What if you want a hot dog and you want it right now. Will 711 deliver to me?

LLM回应称,它无法提供特定送货服务或地点的实时信息,并给出了一些查找信息的建议。

为了对比,我们在其他商业LLM界面中尝试了相同的问题。

  • Anthropic Claude: 回应称7-11在某些地区提供送货服务,但可用性取决于具体区域,并给出了自行查找信息的建议。
  • Google Gemini: 由于具备网络搜索功能,它能够检测账户位置(例如帕洛阿尔托),并给出更具体的“是”或“否”的送货答案。但它也明确指出,作为AI,它无法直接为用户下单。

关键点: LLM在获取实时、具体的地点信息方面能力有限,且目前无法代替用户执行实际操作(如下单)。


尝试获取事实性知识

现在,我们询问一个关于天体物理学的知识性问题。

What are some facts about white dwarfs and binary star systems?

LLM提供了一系列关于白矮星和双星系统如何形成、其质量、温度、密度等信息。

问题在于: 我们无法直接验证这些信息的真实性。对于这类专业主题,更可靠的做法是查阅搜索引擎或权威教科书等来源。


尝试课程相关学习问题

我们可以利用LLM辅助本课程的学习。例如,询问一个关于数据特征的概念。

What‘s the difference between continuous and discrete numerical features?

LLM的回应是:

  • 连续数值特征: 指可以在一定范围内取任意值的变量。
  • 离散数值特征: 指只能在一定范围内取特定值的变量。

由于我们已经学习过相关内容,可以验证这个定义是正确的。LLM还提供了示例:

  • 连续特征示例: 年龄、身高、体重。
  • 离散特征示例: 家庭子女数量、拥有汽车数量、宠物数量。

对于这类常见且我们已有一定了解的主题,我们可以相对更信任LLM提供的信息,尤其是它补充的示例。


尝试复杂分析与头脑风暴

让我们给LLM一个更复杂的、需要分析和决策支持的提示。

假设你是一家异宠店的数据分析师,希望增加收入。你要求LLM为以下三个选项进行决策分析提供思路,并遵循特定的思考框架。

LLM列出了每个选项,并分别分析了其潜在益处和缺点。例如,对于“增加更多爬行动物种类”这个选项,它提到可以增加客户选择、吸引新客户,但也需要额外的空间、资源和员工工作量。

然而,它提出用于收集额外信息的建议(如“参观其他异宠店”)比较模糊,没有说明具体如何评估这些店铺。

改进交互: 不要完全接受LLM的初步回答。通过追问来引导它深入思考。

例如,我们可以追问:

How might I evaluate other exotic pet shops for my analysis?

这次,LLM提供了更详细的评估维度,如地理位置、产品范围、定价策略等,以帮助我们进行更明智的决策比较。


本节总结与下节预告

本节课中我们一起学习了如何与LLM进行有效交互。我们看到了LLM擅长回答概念性问题、提供头脑风暴思路,但在精确计算、提供实时信息方面存在局限。最重要的是,我们学会了应保持审慎态度,通过多轮追问来获取更深入、更可靠的信息。

你将在接下来的实验课中练习这些技能,尝试更多类型的提示。

模块1的学习即将结束!完成本模块后,你将进行最终评估和一个关于面包店案例的评分实验练习。期待你获得更多数据处理的实际经验。

完成后,请跟随我进入下一个模块,我们将探索如何在电子表格中处理数据。我们下节课见!😊

021:简介

在本模块中,我们将深入学习数据分析师工具包中最强大、最通用的工具之一:电子表格。我们将从了解电子表格为何是处理结构化数据的有效工具开始,逐步学习数据导入、处理、分析,并最终掌握时间序列数据的分析方法。

🧩 模块概览

上一节我们完成了数据分析的初步介绍,本节中我们来看看第2模块的具体学习路径。

第2模块包含四个核心课程,旨在帮助你掌握使用电子表格进行数据分析的完整流程。

以下是本模块的课程安排:

  1. 第1课:探索电子表格作为处理结构化数据的有效工具。你将动手实践,学习如何将数据导入Google Sheets,并设置电子表格以支持分析。
  2. 第2课:学习如何在电子表格中处理数据以提取有价值的见解。你将掌握数据排序、筛选、编写公式创建新特征和计算字段,甚至转换数据以简化分析。我们将通过分析酒店预订数据的真实案例,共同研究客户预订行为。
  3. 第3课:练习如何提示大型语言模型来深入了解你的数据并进行数据分析。
  4. 第4课:专注于时间序列数据,这是一种在一致时间间隔内测量的特定数据类型。你将识别时间序列的关键组成部分,包括趋势季节性周期性。你将使用一个关于美国流行婴儿名字的真实数据集,在电子表格中进行大量的分析方法练习。

🎯 学习目标

完成本模块的学习后,你将熟练掌握电子表格的核心操作,能够独立完成从数据导入到深入分析的全过程,为成为电子表格的高级用户奠定坚实基础。

现在,让我们直接进入第1课,学习电子表格如何帮助我们将原始数据的混乱转化为有序的信息。课堂上见。

022:用数据解决问题 📊

在本节课中,我们将学习如何系统性地利用数据来解决实际问题。数据是验证直觉、获取深刻见解的强大工具。我们将重点介绍如何选取正确的数据进行分析,以确保分析结果能够有效指导决策。


概述

数据能以系统化的方式解决问题。你可能会有直觉,但数据能帮助你判断这个直觉是否正确。为了获得这些强有力的见解,你需要选取正确的数据进行分析。

根据经验,选取正确的数据有两个关键考虑因素,它们都聚焦于激发你进行分析的那个核心问题。


第一步:确定你关心的结果

你首先应该问自己的问题是:我关心什么结果?

例如,如果你试图提高一家太阳能电池板公司的利润,那么你希望看到销售额的正向变化或支出的负向变化。你可以调取销售和支出报告来进行分析。

或者,假设你正在与一家医院合作以改善患者治疗效果。在这种情况下,你关心的结果可能是患者满意度的提升住院天数的减少。你可以从患者调查中收集数据来分析满意度,而入院和出院日期可以帮助你判断住院时长是增加还是减少。


第二步:识别为结果提供背景信息的数据

上一节我们确定了分析的目标结果,本节中我们来看看如何理解这些结果。接下来,需要识别能为你的“结果”提供背景信息的数据。

所谓“提供背景”,是指这些数据能告诉你更多关于所观察到的结果的信息,例如 4WWho(谁)、What(什么)、When(何时)和Where(何地)。

例如,如果你关心的结果是销售数据,那么哪些数据点能为这些销售提供背景信息?你的销售数据可能与特定的客户(Who)、产品(What)、购买日期(When)和地区(Where)相关联。所有这些信息都有助于为销售数据提供背景,使你能够比较不同产品和地区的销售情况。

让我们聚焦于提高太阳能电池板公司收入的例子。假设我们只有右侧的销售数据。

记住,销售额是你关心的结果。我们拥有销售数据固然很好,但不幸的是,除此之外我们知之甚少。我们需要关于这些销售的背景信息,以便更好地理解太阳能电池板销售背后的驱动因素。

背景信息可能如下所示:

以下是两个数据观察示例,展示了背景信息如何与结果结合:

  • 客户ID 9732024年6月15日北美 地区购买了 电缆套件
  • 客户ID 1112024年6月20日欧洲 地区购买了 太阳能电池板

在这种情况下,你可以使用其他数据点来回答以下问题:

  • 是否有应该被定位进行额外购买的高价值客户?
    • 客户ID销售额 可以帮助回答这个问题。
  • 是否有特定产品推动了高比例的销售额?
    • 产品销售额 在这里是相关的。
  • 销售额随时间的变化趋势如何?
    • 这次,购买日期 结合 销售额 将回答我的问题。
  • 总销售额是否因地区而异?
    • 地区销售额 可以帮助进行分析。

如果没有这些背景数据,回答上述任何问题都是不可能的。它与你关心的结果同等重要。

实际上,你还可以对每个数据点进行相当深入的挖掘。例如,你可能会注意到客户111的购买额最大。如果你想了解原因,可以提出以下问题:

  • 这个客户是企业还是个人?
  • 如果是企业,它的规模有多大?
  • 他们下了多少订单?


总结

本节课中,我们一起学习了如何识别有用的数据以应对业务问题。你已经看到了如何通过确定关心的结果和收集提供背景的4W数据(Who, What, When, Where)来构建有效的分析基础。

在确定了需要分析的数据之后,你可以使用什么工具来组织和分析这些数据呢?在下一个视频中,你将了解更多关于电子表格如何成为数据分析世界中的强大盟友。

023:商业分析中的电子表格应用 📊

在本节课中,我们将学习电子表格在商业分析中的核心作用、适用场景以及其处理数据的基本原理。

电子表格为结构化数据带来了交互性。它们是行业标准工具,即使在我学习了更复杂的工具后,在我的整个职业生涯中,我也一直在持续使用它。电子表格不仅是谷歌、Netflix等公司日常使用的行业标准工具,而且你现在就可以在几秒钟内免费打开一个电子表格。

它们拥有广泛的用例。无论你的目标是分析家庭财务,还是计算公司的年收入增长率,电子表格的应用范围从非常简单到相当复杂,涵盖个人和商业用例。例如,在个人方面,你可以利用电子表格来记录乒乓球比赛的分数或管理个人预算。在商业方面,电子表格可用于安排员工班次、制定项目时间表或起草季度财务报告。只要你有机制以结构化方式收集和存储数据,其用例几乎是无穷无尽的。

上一节我们介绍了电子表格的广泛应用,本节中我们来看看它主要设计用于处理哪种数据。

电子表格主要设计用于处理结构化数据。正如你在模块1中学到的,结构化数据是指可以组织成行和列的数据,其中行代表观测值,列代表各种特征。一个观测值是你数据中的一个单一实例,比如一个客户或一笔交易。而特征是你为每个观测值测量的一个特性,比如年龄、价格或颜色。


我们已经了解了电子表格擅长处理结构化数据,那么对于非结构化数据呢?

当涉及到非结构化数据,如文本、图像、音频和视频时,电子表格可以用于收集和组织它们,但其分析这类数据的能力有限。想象一下尝试在这个界面中写一篇文章。或者整理你的照片。你甚至该从哪里开始?这可能会让你的任务变得更加困难。因此,如果你确定需要处理非结构化数据,你可能需要依赖计算机编程语言(如Python)或生成式人工智能工具。随着你扩展数据分析工具包,这两者你都应该探索。

为了帮助你判断电子表格是否适合你的任务,以下是两个你可以问自己的问题。

以下是两个关键的自问问题,用以判断电子表格是否适合你的用例:

  1. 你的数据能否被组织成行和列? 这种组织方式是电子表格的基础。例如,预算可以被组织成每一行代表一项支出,列则代表金额、交易日期等特征。同时,非结构化数据(如一篇文章)则无法轻易以同样的方式组织。一篇文章的“列”是什么?这根本行不通。
  2. 你想要探索的数据不同方面之间的关系是什么? 电子表格可以有效地计算这些关系。例如,按类别组织预算中的所有支出,或者分析购买记录以找出你花费最多的月份。

如果对这两个问题的答案都是肯定的,那么电子表格将是解决你试图处理问题的绝佳工具。

现在你已经看到了电子表格的强大功能,我希望你能在下一个视频中与我一起,在Google Sheets中动手进行翻新项目。

本节课中我们一起学习了电子表格的核心价值:它是处理结构化数据(即能组织成 行(观测值)列(特征) 的数据)的行业标准工具,适用于从个人理财到复杂商业分析的广泛场景。同时,我们也明确了其局限性,即对非结构化数据分析能力较弱,此时可能需要转向编程或AI工具。通过两个关键的自问,我们可以有效判断一个任务是否适合使用电子表格来解决。

024:Google Sheets导航指南 📊

在本节课中,我们将学习如何使用Google Sheets这一常见的电子表格应用。我们将从界面导航开始,逐步学习如何整理、分析数据,并利用基础功能回答实际问题。无论你是数据分析的初学者,还是希望巩固基础技能,本教程都将为你提供清晰的指导。


电子表格应用简介

最常见的电子表格应用之一是Google Sheets。

它易于访问且功能实用,最重要的是,它对个人用户免费开放,你可以分享电子表格并与朋友和团队成员协作。

虽然Google Sheets被广泛使用,但你还有其他选择,例如Microsoft Excel和Apple的Numbers。在本课程中使用Google Sheets培养的技能,可以高度迁移到这些其他工具中。

让我们浏览一下Google Sheets,看看它是如何工作的。

顺便提一下,对于本课程中的任何演示,如果你想跟着操作,可以在本视频下方的下载选项卡中访问此电子表格的副本以及其他相关文件。


界面初览与数据准备

我已经在这里打开了一个新的表格。要创建一个新表格,你可以转到Sheets新建,或者从你的Google Drive中打开一个新的Google Sheets实例。

在Google Sheets中,你有所有的菜单选项,我们将逐步探索。还有一整套格式设置选项功能区,你可以应用到你的电子表格上,我们也会逐步探索其中一些。

假设我的朋友一直在帮助我进行家居装修项目。我这里有一些总结了一些交易的数据。仅仅看这些数据,很难看出任何整体趋势。我超预算了吗?哪项物品超支或节省最多?第一笔交易是什么?以这种形式的数据,很难识别出任何这些见解。

我记录的每笔交易都有几个特征,例如支出详情、类别、预算、成本等。让我们将其中一条记录复制到电子表格中。


构建结构化表格

我将首先把这些数据转换成一个表格,以便进行更深入的分析。

我将从列标题开始。

然后,我将输入这条特定记录的信息。

每一行和每一列的交汇处就是一个单元格。

请注意,我可以通过单击选择一个单元格,也可以通过双击或单击上方的编辑框进入一个单元格进行编辑。我还可以通过单击并拖动来选择多个单元格。

我也可以通过单击并拖动来选择一行、一列甚至多列。

你还可以仅使用箭头键在单元格之间导航:右、左、下、上。

你也可以使用命令键和箭头键移动到行或列的末尾。例如,按Command + 右箭头可以带我到达数据的末尾,Command + 下箭头可以带你到达底部。使用Shift键可以让你选择多个单元格。你也可以使用Command + Shift来选择一行或一列中的所有项目。


格式化数据以提高可读性

现在让我们把它弄得漂亮点。不必过于担心所有这些单独的步骤,但这将有助于组织你的数据,使其更易于查看。

首先,既然我已经输入了所有这些数据,我将移除它。现在,让我们稍微整理一下数据,使其更易于阅读。单击任意列标题之间的边界,它会自动扩展,以便你可以看到单元格中包含的所有信息。

选择这里的标题行,将其加粗并添加下边框,以便区分标题行和其余数据。

添加背景行颜色,使其更明显地表明这是标题行。

将所有标题行居中。

扩展“交易日期”列,以便看到完整的标题。

现在我们已经稍微格式化了数据,我将把其余的数据复制到这个表格中。从视频的这一点开始,我又添加了一些格式化。

不要试图记住你看到的所有不同步骤。只需专注于电子表格所具有的不同功能。


使用基础功能分析数据

现在我可以回答:我超预算了吗?

一个简单的方法是选择“预算”列中的所有单元格,然后在右下角看到一个很好的摘要,显示项目的总预算是多少。

总预算是$1860

你也可以将其与成本列的总计$1663.44进行比较。

比较这两个总计,你可以看到我实际上没有超预算。

你也可以使用公式来比较这两个数字。

现在,我在下方添加了一个总计行,我可以插入一个求和函数来汇总所有单项的预算。

你将在接下来的视频中了解更多关于函数的知识。

这个函数的名称为SUM,括号内的值代表你想要求和的一系列单元格。

我也可以对成本列重复此操作。

现在我可以直接比较这两个数字,并再次确认总体上我没有超预算。


动态更新与数据排序

我刚刚想起了另一笔关于鲸鱼皂托的交易。

让我们添加一个新行。我将在任何行标题上右键单击,你可以选择在上方或下方插入一行。

请注意,当我添加鲸鱼形皂托时,预算和成本的列总计是如何更新的。

现在我想回答:第一笔交易是什么?所以我想按交易日期排序。

我将添加一个筛选器,就是这个漏斗按钮,它使我能够按交易日期排序。我可以单击列标题右侧的这个按钮,然后选择从A到Z排序,即升序。

现在我可以轻松地看到第一笔交易是建筑许可证。


应用筛选进行特定分析

接下来,假设我想分析Joy购买了哪些物品。

同样,我可以选择筛选器,现在通过“付款人”列进行筛选,我可以筛选出除Joy之外的所有人。

我将清除所有筛选器,然后只选择Joy并点击确定。

我可以看到Joy购买了三件物品:电源插座盖、植物和浴室镜子。

让我们返回,现在查看人工成本。

我将选择所有人以带回所有数据,然后筛选到仅显示“人工”类别。

为了计算总人工成本,我选择这两项,看到总人工成本是$839


计算差异并识别异常

现在我想知道,哪项购买超预算最多。

为了实际计算哪项超预算最多,我需要插入一个新列来计算预算和成本之间的差异。

在“成本”列上右键单击,并在右侧添加一个新列。

这将是“差异”列。

为了计算差异,我将用预算减去成本。

通过选择这个填充柄并将其一直拖动到底部,将此公式复制下来。

进行排序以找到超预算最多或最少的项目。

“植物”超预算最多,而“管道维修”实际上为我们节省了很多钱。


总结与展望

我已经回答了我所有的问题。这比处理原始的文本文件要高效得多。

现在你已经具备了使用任何电子表格的绝佳能力。

在下一个视频中与我一起学习如何导入数据。我们那里见。


本节课总结:我们一起学习了Google Sheets的基本导航、数据录入、单元格操作、表格格式化、使用求和函数进行基础计算、添加/删除行、数据排序与筛选,以及通过插入列和公式来计算数据差异。这些是使用电子表格进行数据分析的核心基础操作。

025:数据导入 📂

在本节课中,我们将学习在 Google Sheets 中导入数据的几种常见方法。你将了解如何将外部数据文件加载到表格中,并掌握一些处理大型数据集的基本技巧。


概述

数据导入是数据分析工作的第一步。Google Sheets 提供了多种方式来获取数据,你可以手动输入、打开现有文件,或者从外部文件导入结构化数据集。本节将重点介绍最常用的数据导入方法。


数据加载的几种方式

在 Google Sheets 中加载数据的方法取决于你的具体使用场景。

以下是几种常见的方法:

  1. 直接在表格中生成数据
    这指的是手动输入数据。对于小规模的个人应用来说,这种方法很常见。你在上一个视频的家庭装修预算示例中看到的正是这种方法。

  2. 打开现有文件
    当你已经在 Google Sheets 中处理过某些数据,并且只想从上次中断的地方继续工作时,可以使用这种方法。

  3. 导入结构化数据集
    这是最常用的方法。大多数数据最初都存储在 CSV 或 Excel 文件中,而不是 Google Sheets 中。这两种电子表格文件格式与大多数软件兼容。


实践:导入酒店预订数据

上一节我们介绍了数据加载的几种方式,本节中我们来看看如何实际操作,导入一个真实的数据集。

为了更直观地理解,让我演示一下具体操作。

大多数时候,你会处理更复杂的数据集。例如,在研究酒店的预订模式时,你可能会寻找像这样的已收集数据。你将在本节和下一节中使用这个数据,它非常有趣。

这篇文章描述了两个酒店需求数据集。其中一个酒店 H1 是度假酒店,另一个是城市酒店 H2。两个数据集结构相同,包含 31 个变量,分别描述了 H1 的 40000 条观察记录和 H2 的 79000 条观察记录。数据中的每条观察记录代表一次酒店预订。

两个数据集都包含 2015 年 7 月 1 日至 2017 年 8 月 31 日期间的预订数据。由于这是真实的酒店数据,所有涉及酒店或客户身份识别的数据元素都已被删除。

如果你滚动到页面底部,会发现这些数据是公开可用的。如果你想下载数据,可以通过此链接获取。

现在,我想在 Google Sheets 中处理这些数据。

首先,我创建一个新的表格(这里已经完成)。我也已经从网站下载了数据,所以我们准备好导入数据了。

这个数据实际上非常大。因此,我们创建了一个更小的版本,它只是这些预订数据的一个子集,以便于操作。

让我们继续尝试导入这个数据。

以下是导入数据的步骤:

  1. 转到“文件”菜单,选择“导入”。
  2. 上传存储在我电脑上的数据文件。
  3. 将数据文件拖入上传区域。
  4. 选择“导入数据”并“替换当前工作表”。
  5. 同时,启用 Google Sheets 自动检测分隔符。分隔符是分隔同一观察记录中不同值的字符,例如逗号或制表符。

现在数据已经显示出来,让我们查看一下。提醒一下,如果你想跟着操作,可以在本视频下方的“下载”选项卡中访问此表格。

数据已经导入,我们可以开始初步的整理工作。

以下是整理数据的几个操作:

  • 加粗标题行并添加下边框:这有助于清晰区分表头和数据。
  • 添加筛选器:以便轻松地对数据进行排序和筛选。
  • 冻结首行:在探索数据时,冻结顶部行是一个技巧,可以让你在滚动时始终看到标题。这可以在“视图”菜单中找到,选择“冻结”>“第1行”。

现在,你可以看到标题始终可见。选择第一列,可以评估数据有多少行。你可以看到这个数据大约有 36000 行,比我们的家庭装修数据大得多。


协作与版本管理

假设我还想与数据团队的协作者共享这个数据。这是 Google Sheets 的一大优势。

我可以点击顶部的“共享”按钮,然后输入你想共享数据的公司内任何人员的邮箱。你可以选择希望他们拥有的权限:编辑者、评论者或仅查看者。你还可以发送一条消息,然后点击“发送”。或者,你也可以复制一个链接,直接通过电子邮件发送。

你可以看到文件的访问权限已更新,现在其他人将能够访问你的数据。

如果你希望你的分析公开,也可以返回共享设置,将“受限”访问权限更改为“任何拥有链接的人”或“贵组织中的任何人”。

假设我不小心关闭了文件,如何重新打开它?既然我已经复制了我的链接,我只需打开一个新标签页,粘贴该链接,它就会直接带我回到文件。

好消息是,你的 Google 电子表格将始终自动保存,因此你不会丢失工作。你还可以恢复到其他版本。所以,如果你犯了错误,可以点击这里的时钟图标,选择此文件之前的任何版本。


总结

本节课中我们一起学习了在 Google Sheets 中导入数据的核心方法。你现在已经知道如何手动输入、打开现有文件,以及最重要的——从 CSV 或 Excel 文件导入结构化数据集。我们还实践了导入一个真实的酒店预订数据集,并学习了如何通过冻结首行、添加筛选器来初步整理数据,以及如何利用 Google Sheets 的协作和版本控制功能。

现在你已经了解了如何导入数据,你可以处理互联网上的任何数据集了。在下一个视频中,请和我一起学习强大的排序、筛选和分析技术。我们下个视频见。

026:排序、筛选与格式设置 📊

在本节课中,我们将学习如何对导入的真实世界数据集进行初步探索。具体内容包括:理解数据结构、调整列顺序、对行进行排序、筛选特定数据子集,以及设置数值格式。这些操作是数据清洗和准备的基础步骤。


理解数据集

上一节我们导入了酒店预订的大型数据集。本节中,我们来看看如何进一步调查它。

你的任务是检查酒店预订数据,以了解哪些预订利润最高、何时发生、由谁预订,以及在探索数据集时能发现的其他信息。你的首要目标是理解数据并确保其格式正确。

以下是数据集中的一些重要特征:

  • adultschildren:成人和儿童的数量。
  • arrival_yeararrival_montharrival_date:预订的抵达年、月、日。
  • required_car_parking_spaces:所需停车位数量。
  • lead_time:客人预订酒店房间与实际入住日期之间的天数。
  • average_price_per_room:每间房的平均价格(一种货币)。
  • booking_status:预订状态(是否取消)。
  • 数据集包含数值型和分类型特征的混合。

调整列顺序

假设你希望日期信息显示在左侧,以便更轻松地查看预订发生的具体时间。

操作方法是:点击并拖动选中这三个日期列,然后将这些列滑动到数据的最左侧。

现在,你无需向右滚动即可找到预订发生的日期。


对行进行排序

请注意,所有年份都是混杂的,例如2017年、2018年等。

假设我想按日期对行进行排序。与重新排序列不同,组织数据行通常不是手动操作,因为数据行数往往远多于列数。因此,我们使用排序操作来排列行。

只需选择“年份”列的筛选器选项,然后选择“从A到Z排序”。现在,所有数据都按从2017年到2018年的顺序排序了。


进行复杂排序

我们如何按月份排序呢?为了先按月份开始排序,我们需要进行更复杂的排序操作。

  1. 选择所有数据。
  2. 转到“排序范围”。
  3. 选择“高级范围排序选项”。
  4. 勾选复选框,因为数据确实包含标题行。
  5. 选择“抵达年份”,并按“A到Z”排序。
  6. 添加另一个排序列,选择“抵达月份”,并按“A到Z”排序。
  7. 最后,再添加“抵达日期”,并按“A到Z”排序。
  8. 点击“排序”。

现在,我的所有数据都根据完整的抵达日期进行了排序。


筛选数据子集

现在,假设你只对重复预订感兴趣。你可以筛选数据,将其缩减到这个子集。

  1. 找到“重复客人”列(假设在N列)。
  2. 筛选此列的数据,仅选择值为“1”的子集。
  3. 现在所有数据都已筛选为仅包含重复预订。
  4. 点击整列,同时按住Ctrl键点击以取消选择标题。现在可以看到数据中有930个重复预订。

我注意到很多这些客户是公司客户。


设置数据格式

在这里,你注意到“每间房平均价格”有什么问题吗?根据数据,它应该是欧元。

因此,让我们将此特征格式化为货币。选择此列,虽然美元符号是一个选项,但如果我想选择欧元,需要进入“更多格式”。向下滚动,你将能够选择“欧元”。我最近使用过此格式,所以它出现在这里,但你可能需要从自定义货币选项列表中选择它。

你会注意到,它在前面给出了符号,同时将数字格式化为两位小数。我没有看到其他特殊格式,但在下一课中你将看到更多工具。


总结

本节课中,我们一起学习了数据探索的基础操作。我们首先理解了数据集的结构,然后通过调整列顺序优化了数据视图。接着,我们使用简单和复杂的排序功能,使数据按时间顺序排列。之后,我们应用筛选功能,快速聚焦于“重复预订”这一特定数据子集。最后,我们确保了货币数据(欧元)以正确的格式显示。

这些技能是使用电子表格进行数据分析的核心基础。完成本课的练习评估后,请加入下一课,学习更多关于数据来源、深入了解数据以及编写电子表格公式以进行有意义分析的内容。

027:数据初探 🕵️

在本节课中,我们将学习如何初步探索和了解你的数据。在开始进行有影响力的分析之前,你必须先熟悉你的数据。

第一次打开一个数据集,就像认识一个新朋友。数据集有其历史和“个性”。关于一个新朋友,你可能会想知道哪些信息?例如,他们的年龄、来自哪里、从事什么工作。

你已经见过一些了解数据的基本策略:判断数据是结构化还是非结构化的、计算观测值和特征的数量、区分数值型特征和分类特征。这类关于数据的信息被称为元数据,即关于数据的数据。这是一个非常“元”的概念。

上一节我们介绍了元数据的基本概念,本节中我们来看看更多你通常会遇到的元数据类型。

以下是几种常见的元数据类型、示例及其能告诉你的信息:

  • 文件名:例如 hotel_reservations。这告诉你如何搜索或找到该数据。
  • 原始作者:告诉你谁生成了数据,以便你后续提问。
  • 数据描述:提供关于数据包含哪些信息的背景。
  • 文件格式:例如 CSV、TXT、JSON 等。这告知你与数据交互时可能需要的方式。
  • 文件创建或最后更新时间:告诉你数据的“年龄”或时效性。
  • 访问控制:告诉你谁可以访问数据以及他们如何与之交互。

你需要理解数据的来源或“起源故事”。数据是如何收集或生成的?是由人工生成还是由软件系统生成?

如果你知道数据是通过调查收集的,你就需要考虑一个事实:并非所有收到调查的人都会实际回复。如果你知道数据是通过软件收集的,你可能需要寻找系统性错误。

数据的总体质量如何?它是准确的还是存在缺陷?通常,答案是后者。理解来源可能帮助你识别潜在的问题。

让我们通过提问来探索上一课中遇到的酒店预订数据集的起源故事和“个性”。

这是包含此数据来源的期刊文章。这里有很多文字,让我带你浏览一下。

首先,这些数据有多“老”?你可以看到它发表于 2019 年 2 月,因此你不应期待有比这更新的预订记录。我们继续往下看。

让我们看看这个规格表。这些数据来自哪里?两家酒店都位于葡萄牙,H1 在阿尔加维的度假区,H2 在里斯本市。

这是一张地图,显示了这两个位置。南边是阿尔加维,它是葡萄牙最南端的地区,也被称为法鲁区。你还可以看到首都里斯本在西海岸。

请注意,这两个地点相距甚远,因此可能具有不同的特征。

这些数据是如何收集的?这段高亮文本提到,查询是直接在酒店的物业管理系统数据库中执行的。从物业管理系统提取数据表明这些数据是可靠的。记录可能是自动生成的,人为错误最少。这也表明这些数据归酒店本身所有。自动提取通常也会产生像这样的大型数据集:横跨两年的 36000 条观测记录,平均每天超过 50 个预订。

探索数据来源是重要的工作。跟随我进入下一个视频,看看如何探索一些关键的摘要信息。

本节课中我们一起学习了如何初步探索数据,包括理解元数据的各种类型以及通过询问关键问题来追溯数据的来源和收集方式,这是进行可靠数据分析的第一步。

028:最大值、最小值、平均值 📊

在本节课中,我们将学习如何使用摘要统计来初步了解数据集。我们将重点介绍三个核心统计量:最大值、最小值和平均值,并通过一个酒店预订数据集的实例来演示如何计算和解读它们。

你已经知道了数据的来源和收集方式,但你是否清楚数据的具体内容是什么?

探索数据以寻找趋势和异常值,这有助于你回答业务问题,是一个充满乐趣的过程。

了解你的数据特征

一旦明确了数据来源,就应该计算一些摘要统计量,以便更好地理解数据特征。

以一项针对Netflix活跃用户的调查为例。你可能有一个“年龄段”的特征,例如18-24岁、25-34岁等。每个组的频率构成了用户年龄分布。你的用户群体是更年轻还是更年长?这些信息如何影响你制作的内容类型?

你的数据可能还包含“活跃订阅时长”。这些时长的范围是多少?或许最短的订阅时长是三个月,因为你为新用户提供了促销价。最长的订阅时长可能只有两年,因为这要追溯到服务首次推出的时间。你还需要了解典型的订阅时长,以便思考如何延长它。

你还应该理解特征之间的关系。例如,考虑年龄段和活跃订阅时长之间的关系。不同年龄段的订阅时长有何不同?原因是什么?

你的数据集也可能与其他数据集相关联,通常通过一个或多个共同特征连接。例如,一个电影数据集可能与一个用户数据集相关联,关联依据是每个用户观看过的电影。

探索酒店预订数据集

让我们通过查看酒店预订数据集中的一些特征来更好地了解它。

我们将探索其中一些特征,从“成人数量”开始。我将创建一个新的工作表来存储计算值。以下是我们将为“成人数量”特征计算的一些摘要统计量。

计算最小值

首先,计算成人数量的最小值。使用公式以等号(=)开始,这告诉Google Sheets你将输入一个函数。我们从最小值函数 MIN 开始。

每个函数后应跟一个左括号,之后会闭合。然后,我们回到数据选项卡,选择“成人数量”列,接着闭合括号并按回车键。

公式示例:

=MIN(Data!E:E)

结果是成人数量最小值确实是0。我想知道这是怎么回事。

计算最大值

接下来,编写公式计算最大值。同样以等号开始,引用最大值函数 MAX,回到数据并再次选择“成人数量”列,闭合括号并按回车键。

公式示例:

=MAX(Data!E:E)

可以看到数据集中确实有一些预订包含4位成人。

计算平均值

最后,计算成人的平均数量。再次以等号开始,输入 AVERAGE,忽略自动填充的建议,回到原始数据选择“成人数量”列,闭合括号并按回车键。

公式示例:

=AVERAGE(Data!E:E)

数据显示,每次预订的平均成人数量约为1.8。

深入分析与数据验证

一个预订怎么可能有0个人呢?数据中也有儿童信息。那么,有多少预订是只有儿童的呢?

让我们回到数据中,按成人数量升序排序。可以看到,数据中有相当多的预订成人数量为0,并且所有成人数量为0的预订都有儿童。直到第140行,我们的数据中成人数量都为0。通过排序可知,实际上有139个预订成人数量为0但包含一些儿童。

这会不会是错误?让我们再看看儿童数量。我将复制相同的公式,这次针对F列“儿童数量”。复制这一行并将其替换为儿童数量,然后更新这些公式以代表儿童特征,或者你也可以直接将其替换为F列。

儿童数量的最小值为0,这说得通。但谁会在一个房间里带10个孩子呢?平均值相当低,为0.11。所以大多数预订没有儿童。

让我们调查一下那些儿童数量很多的预订。按儿童数量从多到少降序排列数据,可以看到只有少数几个异常情况有很多儿童(10个、9个),然后降到3个。所以只是少数异常预订。

最后,让我们查看“提前预订时间”,即预订日期距离入住日期的天数。

有趣的是,最大提前预订时间远高于平均值。我对那些提前预订时间为0的最后一刻预订也感到惊讶。

让我们调查这些超过400天的预订。回到原始数据,按提前预订时间从高到低降序排序。有相当多的预订提前了443天。这很有趣。我想知道这是否是系统允许的最长提前预订时间。我还注意到有很多是433天、418天。我想知道这是怎么回事。

事实证明,如果你回到数据的左侧,可以看到所有这些预订的抵达日期也是相同的。所以这些一定是某种类型的团体预订,比如婚礼或商务会议。

总结与展望

以这种方式查看特征非常有价值。我鼓励你查看更多的特征。

随着你技能的提升,你将使用编程语言来快速获取这类摘要统计,从而对酒店预订数据集中发生的情况有良好的把握。

你如何分析这里发生的情况?在接下来的几个视频中,我将介绍一些分析数据的酷炫技巧,从条件格式开始,请与我一同继续学习。

在本节课中,我们一起学习了如何使用最小值、最大值和平均值这三个摘要统计量来初步探索和理解数据集。我们通过实际操作,发现了数据中的一些有趣模式和潜在问题,例如成人数量为0的预订以及异常长的提前预订时间,这为后续深入分析奠定了基础。

029:条件格式 📊

在本节课中,我们将学习如何使用条件格式这一强大的可视化工具,它能帮助你比单纯查看原始数据更容易地发现有意义的信息。我们将了解其工作原理、主要类型,并通过实际数据集演示其应用。


什么是条件格式?🔍

上一节我们介绍了数据分析中可视化的重要性,本节中我们来看看一个具体的工具——条件格式。

电子表格中的条件格式看起来像这样或那样,它允许你高效地对数据应用特定规则,包括数值数据、分类数据甚至日期数据。其主要好处在于它在你的数据之上提供了一个视觉层,使你无需在脑海中逐一评估每个数据点与规则的比较情况。

作为一个人类而非计算机,我欣赏条件格式提供的视觉信号,因为它使识别数据模式变得更加容易,例如:

  • 发现众多数据点中的趋势和模式
  • 识别积极或消极的变化
  • 识别异常值
  • 识别哪些特定值高于或低于某个阈值

条件格式的主要类型 🎨

以下是你可以应用于数据的规则类型,其中两种主要类型是单色格式和色阶。

单色格式

当你想要突出显示满足特定条件的单元格时,应用单色格式。例如,你可以突出显示太阳能电池板发电量达到8个或更多的日子(你可能将其归类为“好日子”)。应用条件格式将使你能够轻松识别哪些日子是“好日子”。

单色格式还允许你选择字体样式,例如加粗或斜体。

色阶格式

你的另一个选择是色阶,它根据每个单元格的值为其应用几种颜色之一。你无法应用其他样式(如加粗和斜体),因为这些样式无法在众多值之间进行缩放。

有两种常见的色阶类型:

  • 顺序色阶:使用同一种颜色逐渐加深的色调。
  • 发散色阶:在中心值的两侧使用不同的颜色。

让我们在电子表格中看看每一种,以便了解它们各自的用途。


在酒店预订数据集中的应用实例 🏨

现在让我们看看这些色阶在酒店预订数据集中如何工作。假设我想用条件格式识别最有价值的预订。

示例1:识别带有儿童的预订

一个想法是查看每个预订是否带有儿童。我们知道带有儿童的预订相对罕见,平均值约为0.11。在这种情况下,我们有两个条件:一个是儿童数量大于0,另一个是等于0。

对于这种类型的条件,我们可以应用单色格式。

  1. 选择F列(儿童数量特征)。
  2. 转到“格式” -> “条件格式”,这会打开侧边栏。
  3. 有两个选项卡:“单色”和“色阶”,我们从“单色”开始。
  4. 为了应用此条件,我们需要选择不同的格式规则。在本例中,我们想要的规则是“大于0”。
  5. 我将选择蓝色以便更容易查看,同时将结果加粗,然后点击“完成”。

现在,儿童数量大于0的预订以蓝色突出显示,并且文本也加粗了。总体来看,带有儿童的预订相当罕见,大多数值为0,只有偶尔的值大于0。

示例2:显示预订提前期(Lead Time)的范围

另一个想法是显示提前期(预订提前的天数)的范围,这可能有助于你一眼识别异常值。

我们选择一个强调较高值的色阶。

  1. 选择“色阶”。
  2. 确保在格式规则中选择一个从低值(浅色)到高值(深色)的色阶。这里的默认选择正是我们想要的。
  3. 在本例中,我们对绿色满意,因此可以直接应用色阶。

现在,较短的提前期显示为非常浅的颜色,而较长的提前期(例如224、211或346)则显示为更深的绿色。有趣的是,假设我想通过筛选市场细分来更仔细地查看公司预订。清除所有其他选项,只选择“公司”。你看到的主要是比我们在所有预订中看到的一些深绿色更浅的颜色。因此,这里的洞察可能是:公司预订的平均提前期较短。

示例3:分析每间客房的平均价格

接下来,分析每间客房的平均价格。假设你的盈亏平衡点是45。任何低于此价格的情况,你都在亏损,价格越低,亏损越多;高于此价格则是盈利,利润越高越好。

对于这种情况,你可以使用发散色阶。

  1. 选择“色阶”。
  2. 选择发散色阶(这些色阶在中间有一个明确的中性值,一侧是一种颜色,另一侧是另一种颜色)。
  3. 对于发散色阶,你需要选择一个代表数据中心的中间点值。由于我们有一个特定的数字45作为数据的中心,我将选择一个数字。
  4. 我们选择了红绿配色选项,但这个选项对于色盲人士可能难以辨认。因此,我将自定义一个:为较低的值选择橙色,为较高的值选择蓝色。

应用后,我看到大多数预订都是盈利的(这里有很多蓝色),只有偶尔的橙色值表示平均房价低于45美元。

假设我还想筛选这些数据,查看特定的市场细分。例如,我可能想查看“免费”市场细分。选择“免费”后,你会看到这些选项的客房平均价格,许多是0,大多数低于45美元。因此,这些都是非盈利预订的例子。


总结与回顾 📝

本节课中我们一起学习了条件格式的应用。

出色的工作!将条件格式应用于你的数据。条件格式对于探索数据和传达洞察非常强大。现在你已经看到了如何将其应用于真实世界的数据,请跟随我进入下一个视频,看看如何扩展这些洞察,以在电子表格中汇总数据。

030:摘要统计之COUNTIF函数 📊

在本节课中,我们将学习如何使用Excel中的COUNTIF函数,这是一种强大的条件计数工具,能帮助我们快速分析数据集中满足特定条件的记录数量。

当面对一个包含大量特征的数据集(例如酒店预订数据集)时,你可能会不知从何开始分析。一种有效的策略是对数据进行分割,以尝试理解其中不同的潜在群体。

上一节我们介绍了数据分析的初步思路,本节中我们来看看如何从结果变量“预订状态”入手。这里有一个问题:被取消的预订占总预订的百分比是多少? 使用你现有的工具可能很难进行统计。

你可以使用COUNTIF函数来帮助回答这个问题。

理解COUNTIF函数

COUNTIF函数是一种条件函数,意味着它仅在满足特定条件时才执行操作。给定一个单元格范围或一组单元格,COUNTIF会统计其中满足特定条件的单元格数量。

COUNTIF类似于筛选器,后者仅显示满足特定条件的数据。不同之处在于,COUNTIF统计这些数据的数量,而不是显示它们。

你的公式将如下所示:

=COUNTIF(range, criteria)
  • =:公式必须以等号开头。如果不包含它,你输入的内容通常会被视为纯文本。
  • COUNTIF:函数名称。
  • range:第一个参数,选择要统计的单元格范围。
  • criteria:第二个参数,在引号内添加条件。例如,如果你想统计范围内包含“hot pocket”的单元格数量,条件可以是"hot pocket"。如果要检查数字,条件可以是">100""<=0"

函数实战:统计取消的预订

让我们看看这个函数如何实际应用。首先,统计被取消的预订数量。

  1. 输入等号=,然后键入countif函数(函数名无需大写)。
  2. 回到数据,选择“预订状态”列(即最右侧的列)。
  3. 添加条件,检查其是否“等于”"Canceled"
  4. 闭合括号。

操作完成后,你会发现数据集中有近12,000个预订被取消,这相当于每天约有17个取消。

函数实战:统计未取消的预订

接下来,我们统计未取消的预订数量。

  1. 以等号=COUNTIF开始。
  2. 再次选择“预订状态”列。
  3. 条件设为"Not_Canceled"

结果显示,数据中有超过24,000个预订未被取消,数量大约是取消预订的两倍。

关于COUNTIF和公式的注意事项:字母大小写通常不影响匹配,但字符必须完全一致。例如,对于“Not_Canceled”,即使我使用小写的nc也能工作,但如果我省略了下划线字符_,则无法匹配。

计算百分比

仅看数字可能难以理解其含义。我想看看取消预订占所有预订的百分比。我不会总是在脑子里计算11,000除以36,000,所以我要计算数据集中每个类别的观察值比例。

以下是计算步骤:

  1. 对于“已取消”的百分比:用取消数量除以总数。这是一个比例(介于0和1之间)。
  2. 你可以将其乘以100转换为百分比,但更简单的方法是将结果格式设置为百分比

同理,你能猜出计算“未取消”预订百分比的公式吗?同样是取该类的计数除以总数,然后将格式设置为百分比。

这两个百分比之和应该是多少?我们来验证一下:100%,完全正确。

本节总结

本节课中我们一起学习了COUNTIF函数的使用。通过分析,我们得到了一个很酷的摘要:数据中存在大量取消预订,数量可能超出你的预期。

无论如何,这个函数为我们快速洞察数据分布提供了有力工具。在接下来的视频中,我们将继续学习如何统计与成人同住和未与成人同住的儿童数量。

031:SUMIF与AVERAGEIF函数 📊

在本节课中,我们将学习如何使用Excel中的SUMIFAVERAGEIF函数,根据特定条件对数据进行汇总和求平均值。这些功能强大的函数能帮助我们快速分析数据子集,例如计算满足特定条件的数值总和或平均值。

分析成人与儿童入住关系 👨‍👩‍👧‍👦

假设你想分析酒店中成人与儿童入住数量之间的关系。

接下来,我们将介绍一种高效的方法来实现这一目标。具体来说,你的目标是:当成人数量等于0时,汇总对应的儿童数量。为此,你可以使用SUMIF函数,这是一个非常有用的函数。

SUMIF函数会对特定范围内满足给定条件的所有单元格进行求和。与COUNTIF类似,你也可以检查一个范围内的单元格,并对另一个范围内的对应单元格进行求和。SUMIF是一个条件函数,它仅在满足特定条件时才对数值进行求和。

以下是它的工作原理:首先输入等号=,然后是函数名SUMIF和左括号(SUMIF函数有三个参数:range(条件判断范围)、criteria(条件)和sum_range(实际求和范围)。首先,选择你想要检查的条件范围,这紧跟在IF逻辑之后。在本例中,条件是“成人数量”。接着,在引号内添加条件“等于0”。最后,选择你想要汇总的“儿童数量”列。

让我们实际操作一下。😊

计算有/无成人陪同的儿童总数 🧮

首先,我们来计算没有成人陪同的儿童总数。

以等号=开始,输入SUMIF函数。然后选择“成人数量”列作为条件范围,添加条件"=0",最后选择“儿童数量”列作为求和范围,按回车键确认。

执行公式后,你可以看到大约有282名儿童在没有成人陪同的情况下入住。

接下来,我们看看这与有成人陪同的儿童数量相比如何。我们来计算成人数量大于0时的儿童总数。

我将开始一个新的公式:=SUMIF,选择“成人数量”列,添加条件">0",然后选择“儿童数量”列,闭合括号并按回车键。

结果显示,有超过3500名儿童是由成人陪同入住的。

现在,我们来计算数据集中儿童的总数。在这种情况下,我可以直接按Tab键接受Excel的自动建议,因为它看起来是正确的。

然后,我们来计算282名儿童占总数的百分比。我将输入公式=,用没有成人陪同的儿童数量除以儿童总数。

计算得出,大约有7.38%的儿童在没有成人陪同的情况下旅行。

解读数据并引入AVERAGEIF函数 📈

因此,大约92%的儿童是与成人一同旅行的,这个发现很有趣。你还可以将这些百分比相加,总和应为100%。

至此,你已经根据是否有成人陪同,对儿童数据进行了细分分析。

假设你现在不想求和,而是想根据特定条件计算某一列的平均值。例如,你可能想调查被取消和未被取消的预订的平均提前预订时间(Lead Time)。

为此,你可以使用SUMIF的“表亲”——AVERAGEIF函数。AVERAGEIF函数的输入参数与SUMIF完全相同,区别在于它会对满足条件的所有值计算平均值,而不是求和。

让我们直接开始吧。也许提前预订时间能为我们提供关于哪类人会取消预订的线索。

你的预测是什么?你认为取消预订的人倾向于提前更久预订,还是更接近入住日期预订?

首先,计算被取消预订的平均提前时间。我将选择“预订状态”列作为条件范围,条件输入“已取消”,然后计算对应的“提前时间”平均值。

比较与分析 🤔

平均而言,被取消的预订大约提前了139天。我将这个单元格格式设置为数字,以减少显示的小数位数。

现在,让我们看看这与未被取消的预订相比如何。以等号=开始,输入AVERAGEIF函数。选择“预订状态”列作为条件范围,我们这次要检查“未被取消”的条件,然后再次计算“提前时间”的平均值。同样,将格式设置为数字。

平均而言,未被取消的预订的提前时间要短得多,只有58或59天左右。这是一个很大的差异。

那么整体的平均提前时间是多少呢?由于未被取消的预订约占所有预订的三分之二,这个整体平均值会更偏向于未被取消的预订数据。

对于整体平均值,我们可以直接使用AVERAGE函数,选择“提前时间”列即可。计算得出,所有预订的平均提前时间约为85天。

你认为如何解释这种差异?以下是一种可能的解读:被取消的预订平均提前了约4个月,这暗示这些可能是计划好的假期,但计划后来发生了变更。另一方面,未被取消的预订平均只提前了约2个月,到那个时候,计划可能已经更加稳定了。

无论如何,提前时间似乎以某种方式与取消预订相关,尽管没有进一步的分析,我们无法确切知道具体是怎样的关系。

总结 🎯

在本节课中,我们一起学习了如何使用SUMIFAVERAGEIF函数进行条件汇总统计。我们通过分析酒店入住数据,实践了如何计算有/无成人陪同的儿童数量及比例,以及如何比较被取消与未被取消预订的平均提前时间。这些技能是数据细分分析的基础。

在下一个视频中,我们将学习一种基于多个条件进行计数和求和的类似技术,请跟随我继续学习。

032:多条件统计函数 COUNTIFS 与 SUMIFS 📊

在本节课中,我们将学习如何使用 Excel 中的 COUNTIFSSUMIFS 函数,基于多个条件进行计数和求和。这是对之前学习的单条件函数(如 COUNTIFSUMIF)的扩展,能帮助我们进行更复杂的业务数据分析。

概述

在之前的视频中,我们使用了包括 COUNTIFSUMIFAVERAGEIF 在内的条件公式。这些函数只能检查一个条件。如果我们想基于多个条件进行计算,例如根据取消状态和市场细分来比较数量,该怎么办呢?让我们一起来看一下。

识别唯一类别

首先,我们需要了解数据中有哪些不同的市场细分类别。一眼看去,我并不确定有多少种。

我们可以使用 UNIQUE 公式来识别“市场细分”列中的所有唯一类别。但我不想选择标题行,因此我将数据范围从 M2 单元格开始。

=UNIQUE(M2:M1000)

现在,我得到了市场细分的所有唯一类别。我刚刚应用了一些格式,并将在下方添加一个总计行。

使用 COUNTIFS 进行多条件计数

现在,在第一个单元格中,我想计算如果市场细分也是“线下”时,被取消预订的数量。

这时需要使用 COUNTIFS 函数。如果你遇到困难,可以随时查看帮助菜单,它会展示如何使用这个函数的示例。

以下是使用 COUNTIFS 的步骤:

  1. 转到数据并选择“预订状态”列。
  2. 我只想包含状态为“已取消”的行。
  3. 选择“市场细分”列。
  4. 在这种情况下,与其输入“线下”,不如选择包含该值的单元格(例如 A22)。这将使后续复制公式变得更容易。
=COUNTIFS(Booking_Status_Column, "Canceled", Market_Segment_Column, A22)

很好,结果显示有 3153 个预订既是“已取消”又是“线下”。请注意,A22 是一个相对单元格引用。如果你使用填充柄,可以为每个市场细分计算数量。填充柄允许你将公式复制到许多单元格,而相对单元格引用会自动更新。

我准备使用填充柄向下拖动,这将为每个类别更新计数。大部分取消发生在在线预订中,而其他类别的取消情况则相对罕见。

我不小心包含了总计行,现在将其删除。

计算总计与百分比

现在,让我们计算预订的总数。在这里,我将使用 SUM 函数。可以看到,Excel 检测到了我想要做的事情,在这种情况下它是正确的——我想对表中上方的所有行进行求和。

=SUM(Above_Rows)

因此,我可以直接按 Tab 键来完成。已取消预订的总数等于我们之前计算的总数。

接下来计算百分比。我将用“线下”的取消计数除以总数,然后将格式设置为百分比。

=Cancel_Count_Offline / Total_Cancel_Count

我们在这里能使用填充柄吗?让我们试试看。你会注意到,下面的每一行都出现了“除以零”的错误。一定有什么问题,让我们来检查一下。

查看“所有航线”这一行,你会发现公式试图用“所有航线”的取消计数除以下面的空白单元格。你会注意到,当我向下应用填充柄时,两个引用都移动了,但我们只希望第一个条目的单元格引用移动,希望第二个保持不变。实际上,我们想除以的是“总计”。

因此,我将清除单元格,然后在公式中添加一个绝对引用。你可以使用美元符号 $ 来防止行或列引用发生改变。在这种情况下,我想阻止第 27 行改变,所以我将在 27 前面添加一个美元符号,这将保持该引用固定。

=Cancel_Count_Offline / $B$27

现在,当我将这个公式向下填充到各行时,你会看到每个单元格都引用了包含总计的单元格。这种表示法可能有点不寻常,需要一点时间来适应。

例如,如果你希望行保持固定,就在行号前加美元符号;如果你希望列保持固定,就在列字母前加美元符号;如果你希望整个单元格固定,就在行和列前都加美元符号。

我们也可以计算总计,并将其格式化为文本。我将快速对“未取消”的预订进行同样的操作。你可以自己尝试,但我只想做一个快速的比较。可以看到,与已取消的预订相比,线下、公司和赠品预订在未取消预订中占了更大的比例。

使用 SUMIFS 进行多条件求和

现在,假设我想再次调查数据中所有预订的总收入,这次要跨越不同的市场细分类别,并基于预订是否被取消。

我在这里添加了一个名为“总价值”的新列,它是由“每间客房平均价格”乘以“工作日天数”加上“周末天数”计算得出的。

现在,我们想使用 SUMIFS 函数,根据不同预订状态和市场细分来汇总相关的总收入。

让我们再次从“线下”类别的已取消预订开始。编写 SUMIFS 函数:

  1. 首先是求和范围,选择“总价值”列。
  2. 第一个条件范围是“预订状态”列。
  3. 条件是要等于“已取消”单元格。在这种情况下,我希望行名是固定的,所以我将在 29 前面添加一个美元符号。
  4. 然后添加下一个条件,即检查“市场细分”列(列 N),并将其与左侧的类别进行比较。
  5. 最后,关闭括号并回车。
=SUMIFS(Total_Value_Column, Booking_Status_Column, $A$29, Market_Segment_Column, B22)

你可以看到,已取消的线下预订总收入约为 900,000。让我们将这个公式向下拖动,看看得到什么结果。

与计数数据类似,你可以看到在线类别的数值最高,但下面的类别要小得多。让我们计算这些结果的总和,然后将所有这些结果格式化为欧元。这是一个很大的潜在收入,超过 400 万。

那么,未取消的预订呢?这些公式的唯一区别是,它们将引用“未取消”作为预订状态。现在,你可以根据这些数字进行各种分析和业务预测与规划。

比较这些结果,未取消预订的总收入超过 700 万,但与 400 万相比,这些预订留下了更多的收入机会。

总结

本节课中,我们一起学习了 COUNTIFSSUMIFS 函数,它们为你提供了极大的灵活性。在本课的实践实验室中,你将计算每笔预订的收入,而不仅仅是总收入。请记住,如果你忘记了函数使用哪些参数,可以随时查看帮助菜单。

本课内容即将结束。请跟随我进入下一个视频,学习电子表格中的数据处

033:IF-IFS、RIGHT-LEFT函数 🛠️

在本节课中,我们将要学习如何对原始数据进行处理,以便更好地进行分析。我们将重点介绍如何使用IF、IFS、RIGHT和LEFT函数来对数据进行分类、分组和文本提取,使数据集更清晰、更易于分析。

到目前为止,你一直在使用酒店预订数据集的原貌。

但并没有规则要求你必须使用原始数据。

只要更改是有效的,你可以根据需要处理数据以解决问题。

让我们看看如何应用常见的数据处理技术。

分类分组 🗂️

上一节我们介绍了数据处理的基本概念,本节中我们来看看如何将多个类别合并为一个类别。

你可以将具有相似结果关系的特征进行分组。

或者某些类别的频率太低,你只想将它们归入“其他”类别。

例如,在酒店数据集中,你可以将膳食计划特征合并为仅两个类别:“是”和“否”。

这可能有助于使你的分析更清晰。

如果膳食计划1和2之间的取消率没有差异,那么将它们合并是合理的。

IF函数是进行类别分组的一个强大工具。

它是另一个条件函数,类似于COUNTIF。它检查条件,然后根据条件是真还是假返回不同的值。

以下是一个例子。如果此单元格显示“未选择”,我们只想返回“否”,否则,我们想返回“是”。

让我们在酒店预订数据集上进行一些数据处理,为即将到来的实践实验室中的更多分析做准备。

我提到过我们可能希望将膳食计划类别合并为仅仅是“是”或“否”。

事实上,让我们进一步扩展这个想法,将其设为“0”表示无膳食计划,“1”表示有任何类型的膳食计划。

创建一个新列来存放我们的新数据特征。

我们将其称为“有膳食计划”。使用IF函数编写一个新公式。

所以输入 =IF( ,然后选择左侧的对应值,如果它等于“未选择”,我们将返回 0,否则返回 1

因此,对于第一个结果,它没有显示“未选择”,因此返回 1。在第二行,它显示“未选择”,因此将返回 0

你可以看到它为我们建议了自动填充。

所以我将选择确认,现在我们的公式已一直复制到底。

请注意,IF函数不是将单元格和条件作为单独的参数,而是将整个逻辑表达式作为第一个输入。

现在,一眼望去,我可以更容易地看出大多数人获得了某种膳食计划,该列中的大多数值都是 1。我也可以更容易地添加条件格式。

再次说明,条件格式使得查看有膳食计划的预订变得更加容易。

文本处理 📝

你的下一个数据处理工具是文本处理,例如重命名类别或提取其一部分,以使文本更易于阅读。

对于文本处理,你可以使用LEFT和RIGHT函数。这些函数提取最左侧或最右侧的字符并将它们放入新单元格。

例如,假设你只想提取房间类型的编号,你可以使用RIGHT函数提取原始特征的最右侧单个字符,这使数据更具可读性。

让我们尝试一下。

创建一个新列,称之为“房间类型编号”。在这种情况下,我们将使用RIGHT函数。

选择左侧的值,我们想要选择最右侧的单个字符。

然后我将双击填充柄,将公式一直复制到数据底部。

很好,结果看起来舒服多了。

数值数据分箱 📊

对于数值数据,你通常会直接使用它,但将其分组到类别中是有用的。这个过程称为“分箱”。

如果数值特征与你的结果之间的直接关系不明确,分箱就很有用。

分箱的一个常见例子是使用年龄组。通常,22岁和24岁的人在收入或健康结果方面没有太大差异。

你可以通过将人们分组到年龄组并重新分析来简化你的分析,这种策略可以帮助你发现新的见解。

对于这种技术,使用IFS函数非常有用。你能猜到它的作用吗?

它检查多个条件。IFS也使用你从IF函数中看到的相同逻辑表达式概念。你将整个条件作为第一个输入,然后是如果单元格满足该条件你想要显示的值,依此类推。

让我们在酒店预订数据集上看一下实际操作。

让我们看一个例子,我们将提前期分为少于50天、50到100天和大于100天的箱。

我将创建一个新列,称之为“提前期分箱”。

现在我要做的是检查这个单元格。如果它小于50,我将输入“短”,然后我可以检查它是否小于100,依此类推。

所以我将使用IFS函数来实现。首先,我将选择提前期,如果提前期小于50,那么我将返回“短”,然后如果它小于100,我将返回“中”,然后如果它大于或等于100,那么我将返回“长”。

它提供了自动填充我的结果,我接受后,你可以看到我们的公式似乎工作正常。

对于短的提前期,我们得到“短”类别;对于介于50到100天之间的中等提前期,我们得到“中”;对于大于100天的提前期,我们得到“长”。

所以一切似乎都工作正常。这使我能够轻松地按这些条件进行筛选,之前这会困难得多。现在变得容易多了。

总结 📋

本节课中我们一起学习了数据处理的核心技术。我们介绍了如何使用IF函数进行简单的二元分类,使用IFS函数进行多条件分箱,以及使用RIGHT和LEFT函数进行文本提取。这些技术将使你在实践实验室中的进一步分析变得更加容易。处理后的数据更清晰、更具可读性,为后续的深入洞察奠定了良好的基础。

034:数据来源分析 📊

在本节课中,我们将要学习数据的来源。我们将探讨数据是如何被收集的,以及如何根据收集方式和所有权对数据进行分类。理解数据的来源是进行可靠数据分析的第一步。

我们已经接触了一段时间的数据,包括数字、日期和分类数据。现在,让我们退一步,花几分钟时间来谈谈数据从何而来。

是的,我们将进行一次关于数据的“谈话”。正如你在上一个模块中学到的,数据几乎可以来自任何地方:一位顾客对他刚购买的魔法球留下的评价、一个精确追踪每平方米消费的赌场,或者目前正在轨道上运行的数百颗气象卫星。每一个数据源都是独特的。

让我们看看如何描述这些差异。

数据收集方式

以下是数据常见的几种收集方式。

首先,数据可以通过直接输入来收集。这意味着数据是通过一个结构化的过程明确提供的,例如客户反馈调查或医生办公室的登记表。你的魔法球评价数据就属于这一类。

其次,数据可以通过行为观察来收集。这意味着系统通过被动观察个体的行为来收集数据。这类数据包括网站分析、移动应用使用情况或社交媒体互动。赌场监控也属于这一类别。

第三,数据可以通过物理传感器来收集,这些传感器持续监测某些现象。测量温度的智能恒温器、追踪驾驶模式的车辆或像卫星这样的环境传感器,都属于这一类别。

数据所有权与来源

即使你知道某些数据是如何生成的,你仍然需要了解更多关于其来源的信息。例如,谁收集了这些数据。

第一方数据是由你或你的公司直接拥有的。例如,赌场在整个游戏区域安装自己的摄像头来监控顾客。

第二方数据是由另一家公司作为其第一方数据收集的,你通常从可信的合作伙伴那里获取这些数据。一个赌场可能与邻近的酒店合作,共享客户数据,以了解大额消费者的信息。

第三方数据是第三方公司为了向多个买家出售数据这一普遍目的而收集的。赌场可以购买一个包含访问过在线赌博网站人员的大型数据集,用于新的营销活动。

如果你必须猜测,你对哪种类型的数据拥有最多的控制权?你对第一方和第二方数据有更多的控制权,通常可以确保它能满足你的特定目的。对于第三方数据,你可能需要处理较少的观察样本、相关特征,或者存在系统性的不准确性。

公开数据与获取方法

许多数据也是公开可用的,例如政府机构、资源组织和开源数据库发布的数据。这些数据通常旨在支持有益于整个社会的研究。公开数据对你作为数据分析师来说是一个很好的资源,因为它通常可以免费访问,并且通常是真实世界的数据。

其中一些数据可以直接从面向公众的网站下载。在其他情况下,你可能能够使用编程语言(如Python)来抓取数据。随着你数据分析技能的提升,你将学习这些更复杂的、以编程方式获取数据的方法。

数据使用的伦理考量

最后,我们来谈谈伦理使用。这是你作为数据分析师工作中重要的方面。你不仅仅是处理数字。很多时候,你将扮演真相的守护者和数据中存在的个体的倡导者。

你应该只分析你被授权访问的数据。数据通常受到法律保护,例如财务数据或个人健康信息。你可能需要接受培训才能访问敏感数据,或在安全计算环境中操作。在某些情况下,可能需要剥离数据中的个人可识别信息,如姓名、地址或社会安全号码。酒店预订数据就是一个移除了个人可识别信息的例子。

伦理使用意味着你以公平和有益的方式使用你正在产生的数据或见解。例如,你是否正在训练一个可能显著影响人们生活的模型,比如在刑事司法决策中?你如何确保模型是公平的,并且不会延续历史上的歧视?仔细思考你工作可能带来的潜在意外后果,这可能要求你与他人合作。你必须考虑基于你见解得出的商业决策将如何影响真实的人。

总结与展望

本节课关于数据来源的讨论到此结束,本课的系列视频也告一段落。

我鼓励你在日常生活中寻找数据来源,即使是在最微小和最奇怪的地方。在本课的实践练习中,你将亲自探索酒店预订数据集,以发现一些有趣的见解并练习所学内容。

一旦你完成了实践练习和评估,我希望你能加入下一节课,学习如何使用LLMs来探索数据。我们下节课再见。

035:使用LLM进行数据探索 🧐

在本节课中,我们将学习如何利用大型语言模型(LLM)来探索和分析数据集。我们将以酒店预订数据为例,演示如何通过提问、提供上下文以及结合代码执行能力,让LLM帮助我们理解数据、发现潜在问题并生成初步分析。


概述:LLM在数据分析中的角色

上一节我们介绍了数据分析的基本流程。本节中,我们来看看如何将LLM作为辅助工具,加速数据探索阶段。LLM擅长理解和生成文本,并能结合代码执行进行数学计算,这使其成为数据探索的有力伙伴。


第一步:向LLM提出初步问题

首先,我们可以向LLM提出关于数据背景的开放式问题,即使它尚未接触具体数据。这有助于我们进行头脑风暴,构思数据可能的来源和结构。

例如,我们可以提问:“酒店预订数据集是如何生成的?”

LLM可能会从定义数据结构、收集数据等角度进行回答。如果初始回答不够具体,我们可以通过后续提示进行澄清。


第二步:提供上下文并获取摘要

当LLM的初步回答未能命中要点时,我们可以提供更多背景信息。例如,将数据摘要或规格表的文本直接提供给LLM,并要求它进行总结。

以下是向LLM提供数据网站摘要信息后,可能得到的回答要点:

  • 数据集包含两个子集,分别代表度假酒店(H1)和城市酒店(H2)。
  • 数据包含大量观测值和多个变量(特征)。
  • 每条观测代表一次酒店预订,包括已取消和已完成的预订。
  • 数据包含特定的日期范围和信息来源。

如果总结过于冗长,我们可以进一步要求LLM提供更简洁的版本。


第三步:上传数据文件进行直接分析

为了让LLM获得更深入的洞察,我们可以直接上传数据文件(如CSV格式)。请注意,文件越大,LLM处理速度可能越慢,因此建议先使用数据子集(例如前200行)进行测试。

上传数据后,我们可以提出更具体的问题。LLM擅长阅读和写作,我们可以据此设计问题。

首先,询问数据的基本内容:
“这份数据是关于什么的?”

LLM的回答可能包括:数据涉及酒店预订、文件类型、预订详情、日期范围,并可能建议分析方向,如预订模式、取消率、定价和客户偏好。

接着,探查数据质量问题:
“数据中存在缺失值吗?”

LLM可能无法进行系统性分析,但能指出一些值得注意的观察,例如某些特征值大多为零,或存在异常值(如某条记录的每间客房平均价格仅为1)。要绝对确认缺失值,通常仍需在Python等环境中运行专门的函数进行检查。


第四步:利用具备代码执行能力的LLM进行深入分析

对于需要精确计算的问题,我们可以使用具备代码执行功能的LLM(例如ChatGPT Advanced Data Analytics)。它能编写并运行代码来分析数据。

首先,询问数据规模:
“数据中有多少观测值和特征?”

LLM会生成类似 df.shape 的代码来获取答案,例如:数据集包含超过36000条观测和19个特征。

然后,进行更复杂的分析:

  1. 检查数据顺序:“这些观测值是按时间顺序排列的吗?”
    • 代码可能使用 pd.to_datetime().is_monotonic_increasing 进行检查。
    • 结论:数据集未按时间顺序排序。
  2. 分析特征分布:“‘儿童数量’这个特征的范围是多少?”
    • 答案可能是0到10。我们可以要求可视化:“请可视化儿童数量的分布。”
    • 生成的图表(如直方图)会显示,绝大多数预订的儿童数量为0,超过1个儿童的预订非常少,10个儿童的极端案例在图中几乎不可见。
  3. 计算业务指标:“提前至少一个月预订的客人百分比是多少?”
    • LLM会编写代码计算日期差并统计比例。
    • 结果:约66.5%的客人提前一个月以上预订,其余约三分之一为临时预订。

总结与后续步骤

本节课中,我们一起学习了三种使用LLM进行数据分析的方法:

  1. 初步提问与头脑风暴:在没有数据时获取背景思路。
  2. 提供上下文摘要:让LLM帮助快速理解数据文档。
  3. 结合数据文件与代码执行:进行具体的描述性统计和可视化分析。

LLM并非猜测数学结果,而是在代码支持下进行准确计算。在接下来的实践练习中,你将有机会继续培养提示工程技能,探索如何与LLM协作完成数据分析工作。

完成练习后,请加入下一节课,我们将全面学习时间序列数据分析。

036:时间序列分析入门

在本节课中,我们将要学习时间序列数据的基本概念、其与截面数据的区别,以及构成时间序列的四个核心组成部分:趋势、季节性、周期性波动和不规则波动。

理解气候变化、追踪动物种群数量,甚至预测地震,这些任务都依赖于对随时间变化的数据进行分析。时间序列数据是一种本质上不同的数据类型。

让我们开始学习。


什么是时间序列数据?

时间序列数据是通过在固定的时间周期(例如分钟、小时或天)内测量一个或多个结果而生成的。时间序列分析的目标是理解这些结果如何随时间变化。

你可以用它来识别增长或下降的趋势、发现不寻常的事件或预测未来的结果。


时间序列数据的应用

许多行业都使用时间序列数据,在一致的时间间隔内捕获相同的测量值。

以下是几个应用实例:

  • 一个环保组织可能每年测量亚马逊地区的降雨量,以更好地理解全球变暖趋势。
  • 科技公司通常每周测量活跃用户数量,以了解有多少人定期使用其产品,这有助于他们预测用户增长。
  • 大多数公司都有某种类型的销售数据。作为数据分析师,你通常会按月或按季度测量销售额,以帮助理解随时间变化的趋势。
  • 股票市场价格经常在多个时间间隔内被分析。日内交易者可能对一家公司的股票每分钟或每小时的变化感兴趣,而长期投资者可能对月、季度或年度的间隔更感兴趣。

一致的时间间隔

时间序列数据要求你使用一致的时间间隔,因为一致的时间参考框架提供了可解释性。这样,你可以专注于比较结果本身,而不是计算不同的时间长度。

想象一下,某天看到一个限速标志写着“65英里/小时”,第二天却写着“29米/秒”,而你的车速表是以“公里/小时”为单位测量的。这将是一片混乱,你的注意力将集中在所有单位之间的转换上,而不是遵守法律。

这里有一个解释不一致时间间隔的例子。

我将展示两张图表,X轴是时间,Y轴是活跃用户数量。在左侧的图表中,中间的时间段是其他时间段的两倍长,这可能会让你认为用户活动出现了激增。然而,当间隔一致时,如右侧的图表所示,整体趋势并不包含这样的激增。


时间序列数据 vs. 截面数据

你刚才看到,时间序列数据是在多个时间段内对一个结果的测量。

如果你反转这个定义,你会得到在单个时间段内收集但跨越不同测量的数据。这种类型的数据称为截面数据

截面数据也可以随时间收集,但重点通常是将每个观察视为一次性事件,而不是这些事件如何随时间变化。在酒店预订数据中,每个预订都被视为一次性事件。你并不试图跟踪单个预订随时间的变化。


时间序列的组成部分

时间序列数据通常基于四个组成部分进行分析:趋势季节性周期性波动不规则波动

查看这张过去55年美国股市的图表,X轴是时间,Y轴是市场规模。数值越高越好。关于市场规模随时间的变化,你能看出什么?虽然有起有伏,但总体上它朝着什么方向变化?

这张图表呈现上升趋势。趋势是数据在整体上的长期方向:它是上升、下降还是保持平稳?


趋势

趋势可以是上升的(在观察期内数值趋于上升)、下降的(随时间推移数值普遍下降)或平稳的(没有一致的长期增长或下降,也称为无趋势)。


季节性

看看这张当地影院两个月内电影票销售的图表。X轴显示时间,Y轴显示售出的票数,每个条形代表一天。你注意到什么重复的模式?

电影票销售在周末比工作日更高。这就是季节性,一种在固定间隔内重复出现的、可预测的模式。

季节性可以每天、每周、每月或每年发生。它不一定与天气季节相关。它甚至可以出现在多个时间间隔。例如,电影票销售通常在夏季或节假日期间增加,这种模式年复一年地重复。


周期性波动

让我们回到刚才看到的股市图表。你能发现任何似乎在不规则间隔重复出现的涨跌模式吗?

你正在识别股市泡沫和崩盘,例如互联网泡沫、2008年金融危机和疫情。这些被称为周期性波动

股市经历重复的涨跌,但不像周末或季节那样发生在固定的间隔。涨跌的幅度也常常不同。这些不规则性使得周期性模式比季节性更难预测。很难知道下一个股市泡沫何时会发生。

这里有一个更贴近生活的例子,帮助你记住季节性和周期性的区别。

想想你在校园图书馆学习的时间。在学年开始时,你可能学习得少一些,因为课程刚刚开始。然后在考试临近时,你会在图书馆花大量时间学习。这些是季节性模式还是周期性模式?

这些是季节性模式,因为它们发生在有规律的、可预测的间隔。每个学期,你都会预期到相同的模式。

现在,考虑像图书馆施工这样的事件,它每两到三年发生一次,但没有固定的时间表。施工可能会因为噪音和灰尘使你难以在那里学习。这个事件是季节性的还是周期性的?

它是周期性的,因为施工确实在图书馆定期发生,但不是在固定的间隔。现实世界的数据通常不能清晰地归类为季节性还是周期性。在从高度规律到完全不可预测的可预测性光谱上,许多事件处于中间位置。


不规则波动(噪声)

让我们再回到电影票销售的图表。为什么第2周的周日值比其他周低得多?为什么第3周是唯一一个周日销售额最高的一周?这些是数据中随机的、不可预测的波动,因此被称为不规则波动噪声

可以把噪声想象成电话通话背景中的静电干扰,是随机的、使听清对方说话变得更困难的声音。类似地,时间序列数据中的噪声使得识别趋势、季节性和周期性变得更加困难。


总结

本节课中,我们一起学习了时间序列分析的基础知识。我们了解了时间序列数据是通过在固定时间间隔内测量结果而生成的,并探讨了其与截面数据的区别。我们重点学习了构成时间序列的四个核心组成部分:趋势(数据的长期方向)、季节性(在固定间隔重复出现的规律模式)、周期性波动(在不规则间隔重复出现的涨跌模式)以及不规则波动(随机的、不可预测的噪声)。作为数据分析师,你将经常分析时间序列数据的这些方面,以洞察变化、预测未来并支持决策。

037:现实世界中的时间序列 📈

在本节课中,我们将学习如何识别和分析现实世界数据中的时间序列成分。我们将通过具体的例子,如全球气温、厄尔尼诺现象和股票市场,来理解趋势、季节性、周期性和噪声是如何在实际数据中组合和呈现的。


时间序列成分的组合

上一节我们介绍了时间序列的四种基本成分。本节中我们来看看这些成分在现实世界的数据中是如何组合的。

时间序列数据可以包含你在上一视频中看到的全部成分,也可以不包含任何成分。

以下是分析时间序列数据图以视觉识别这些成分的方法。


实例一:全球气温 🌡️

当你打开手机上的天气应用时,你通常看到的是未来几小时或几天的温度预报。这可以帮助你回答诸如“今天该穿什么?”的问题。然而,当你观察更长的时间周期时,你可以分析温度、降雨量和其他天气测量的长期趋势、季节性和周期性。

请看这张1850年以来的全球平均气温图。Y轴数值代表以摄氏度表示的温度,其基准是1850年至1900年的平均温度,该时期被用作工业化前时代的参考。

这张图表上绘制了多个时间序列,即不同颜色的线,它们来自不同类型的温度传感器测量结果。

你可以看到,从1850年到1925年,趋势是平坦的,但之后平均温度开始相当一致地上升,可能在1940年至1975年间略有停顿。

在整个时间序列中,你还可以看到季节性模式的组合,这些模式随着天气季节上下波动。同时,也存在噪声,这使得模式看起来并不完美。

使用此图表很难确定存在哪些周期性模式,因为大量的季节性可能掩盖了它们,而且天气模式通常是局部的。


实例二:厄尔尼诺现象 🌊

这是一个与天气相关的周期性例子——厄尔尼诺现象。厄尔尼诺指的是由特定风型引起的太平洋海面变暖。它周期性发生,但间隔不固定。它通常持续9到12个月,但也可能持续数年。

这是一张厄尔尼诺现象图。X轴表示从1990年1月到2024年1月的时间,每条垂直灰线代表一年。Y轴是与海洋表面温度相关的测量值。

持续高于0.0基线的数值对应厄尔尼诺年。97到98年的厄尔尼诺非常强烈,持续了大约一年,而15到16年的厄尔尼诺甚至更强,持续了近一年半。同时,也存在许多较小的例子,例如2017年2月到7月左右的这一次,只能被归类为弱厄尔尼诺。

厄尔尼诺被认为是周期性的,因为它确实会周期性发生,但其强度和持续时间难以预测。你知道厄尔尼诺会再次发生,但很难准确说出它何时发生、持续多久以及强度如何。


实例三:股票市场 📊

让我们从天气转向你在上一个视频中看到的股票市场图的一个更复杂的版本。这些数据通常被分析用于做出投资决策。

在这种情况下,你看到的是标准普尔500指数的折线图,该指数是对美国500家最大公司股票价格的综合衡量。

观察其趋势。总体而言,它是在上升的。然而,在短期内,这些趋势几乎不可能预测。大多数投资者并不打算持有一只股票120年。

想象一下,如果你在这张图表上放大到不同的时间段,趋势可能是上升、下降或平坦的,这取决于你开始和停止的位置。

但是当你缩小视野时,趋势显然是随时间上升的。即使是过去30年中一些最大的经济衰退,例如2000年的互联网泡沫破裂、2008年的大衰退,甚至是新冠疫情,尽管它们在当时对世界产生了影响,但在这张长期图表上显得相对微不足道。

这些是对应更广泛经济状况的周期性模式。这些周期的另一半是经济增长期,例如2010年代。

股票市场价格也表现出大量的噪声。价格受许多因素影响,并非所有因素都被完全理解。


总结

本节课中我们一起学习了如何通过现实世界的例子来识别时间序列数据中的成分。我们分析了全球气温数据的长期趋势和季节性,探讨了厄尔尼诺现象的周期性特征,并观察了股票市场数据中长期的上升趋势、经济周期以及短期噪声。

现在你已经看到了现实世界的时间序列例子,请加入下一个视频,学习一些我们可以用来处理时间序列数据的概念。

038:时间序列分析之移动平均线 📈

在本节课中,我们将学习时间序列分析中一个独特且强大的工具——移动平均线。它能帮助我们平滑数据中的噪声,从而更清晰地识别数据的整体趋势和模式。

时间序列分析的独特性

上一节我们介绍了时间序列数据的基本概念。本节中我们来看看时间序列分析中一些更有趣的独特方法。

其中一种方法叫做移动平均线,它允许你平滑可能带有噪声的数据。

这种方法对于在小时间间隔内收集的数据数据量很大的情况尤其有用。

什么是移动平均线?

让我们回顾一下太阳能电池板销售的练习。

假设你有一个时间序列,记录了每天的销售数量。在这个例子中,你会计算出8个时间序列值的平均值为6.5个单位。

现在你有了一个参考值,可以知道每个单独的值与这个参考值的比较情况。

例如,在第1天,你卖出了8个单位,这高于平均水平;但在第2天,你只卖出了1个单位,这远低于平均水平。

正如你刚才看到的,时间序列数据可能带有噪声,这使得难以清晰地识别数据的整体行为。

移动平均线平滑了这种噪声行为,可以为你的分析带来清晰度。

如何计算简单移动平均线

让我们看看如何计算一个简单移动平均线

简单移动平均线计算的是连续几个时间段内的平均结果

时间段的数量用N表示。想象一下,在你的数据上放置一个高度为N个单位的窗口,然后计算窗口内值的平均值。

然后,你可以将这个窗口沿着数据一次滑动一个时间段,直到到达数据的末尾。

每个窗口汇集了太阳能电池板的总数,并将其重新分配到N天中,就好像你每天卖出相同数量一样。

因此,移动平均线不是计算一个单一的数字来总结数据,而是计算一系列值

这个系列比我们数据的长度短N-1个单位

你无法在窗口内数据点少于N个的情况下计算简单移动平均线。

较大的N值往往使结果随时间更稳定,而较小的N值往往使结果更嘈杂。

应用示例:太阳能电池板销售

让我们再次回顾第一课中的太阳能电池板销售练习。

假设你有一个时间序列,记录了每天的销售数量。

以下是计算该数据的简单移动平均线的方法。我们选择N=4,即窗口大小为4。

首先,将窗口放在前N个值上,并计算窗口内的平均值。

在这个例子中,窗口内的数字是8、1、3和7,平均值为4.75。

然后将窗口向下滑动一个位置。现在它包含值1、3、7和8,平均值也是4.75。

以此类推,直到窗口到达时间序列的末尾。

请注意,右侧简单移动平均线序列的长度比原始时间序列短了三个时间段。

你可以将这个长度计算为时间段数(本例中为8)减去窗口大小,即N-1

实战演练:分析婴儿名字趋势

让我们看看如何将移动平均线应用于真实世界的数据集。

就像时尚潮流一样,名字往往遵循流行周期,旧名字常常会重新流行起来。

在这个练习中,你将学习如何使用美国流行婴儿名字的数据集,来预测某个特定名字是否会在未来几年重新流行。

让我们看看这个数据源。这个数据源来自Data.gov。

数据来自社会保障局,该局在婴儿出生时登记他们的名字。这些数据最后更新于2022年,所以你应该理解,在此日期之后不会有额外的数据。

描述还告诉我们,这是自1880年以来社会保障卡申请的100%样本,因此包含了所有在美国出生的婴儿。

你还应该问自己,这些数据是否存在任何潜在的偏差。也许它遗漏了任何未在数据库中注册的无证移民。

让我们来看看数据。数据集包含婴儿的名字、性别、出生年份,最后一列是具有相同名字、性别和年份的婴儿数量。

例如,在1880年,有9655名男性婴儿名叫John。

这个数据中有多少观测值?我可以选择计数列,一直滚动到底部,你会看到这个数据中大约有106,000个观测值。

请注意,这些数据已经按年份和数量排序,给出了每年最流行的名字。

名字太多了,让我们只看一个——我祖母的名字Ruby。

筛选名字列,清除所有内容,然后只搜索Ruby。

将这些数据复制到一个新的工作表中,这样我就不用担心它可能如何影响其余的数据。

数据如何随时间变化?一眼看去很难看清,所以我会添加一些条件格式。

默认的格式规则在这里是合适的,因为我们希望较低的值与较浅的颜色相关联,较高的值与较深的颜色相关联。

这种条件格式让我可以轻松地滚动数据并识别模式,例如女性婴儿名字Ruby的流行度何时随时间增加(比如20世纪20年代初),以及何时随时间减少。

Ruby经历了流行度的复苏。让我们将其可视化。

你将在下一个模块中学习如何完成所有这些操作,但现在我只是插入一个图表来帮助可视化这些数据。

有趣的趋势。你可以看到Ruby这个名字的流行度一直在增加,一直到20世纪20年代(这是我之前强调的),然后在19世纪中叶及以后迅速下降,直到2000年后最近才重新流行起来。

我的祖母大约在20世纪20年代出生,那时这个名字最流行。

现在,让我们看看数字上发生了什么。从平均值开始。

平均而言,每年大约有2560名出生时被指定为女性的婴儿被命名为Ruby。

这一个数字有多大帮助?它有点笼统。让我们计算一个移动平均线。

在这种情况下,我将计算一个10年移动平均线

我将在这里的第11行开始我的公式。使用平均公式,并选择该单元格左侧或上方的10个值。

因此,数据集中前10年的移动平均值大约是260个婴儿。

然后,我可以将这个公式一直填充到数据的末尾。

很难看出这些数据实际上更平滑了,所以让我们通过将系列添加到折线图中来将其可视化。

好的,现在平滑多了,尤其是在最近几年。上升趋势很明显,但似乎正在趋于平稳。

你可能还会注意到,移动平均线滞后于实际数据。这是因为移动平均线只能回顾过去,所以它总是会比整体数据趋势稍微落后一点。

总结

本节课中,我们一起学习了时间序列分析的核心工具——移动平均线。

我们了解到,移动平均线通过计算连续时间段内的平均值来平滑数据噪声,帮助我们更清晰地识别长期趋势。

其核心公式是计算一个滑动窗口内数据的平均值,窗口大小N决定了平滑的程度。

通过分析婴儿名字“Ruby”流行度的实际案例,我们看到了移动平均线如何有效地揭示数据背后的整体趋势,即使原始数据存在波动。

在下一节视频中,我们将学习另一个用于时间序列分析的强大工具:百分比变化。

039:百分比变化 📈📉

在本节课中,我们将要学习如何计算时间序列数据中的百分比变化。这是一种强大的工具,可以帮助我们识别数据是平稳变化还是突然变化。我们将通过太阳能电池板销售和婴儿名字“Ruby”的流行度这两个数据集来演示其应用。

概述:为什么需要百分比变化?

上一节我们介绍了移动平均线,本节中我们来看看另一种分析时间序列趋势的方法:百分比变化。

与原始数据的绝对差值相比,百分比变化能提供更一致、更易于理解的解释。例如,销售额从8变为1,与从108变为101,虽然差值都是-7,但其意义却大不相同。百分比变化能帮助我们标准化这些差异,直观地判断变化的“大小”。

百分比变化的计算方法

百分比变化的核心思想是:与前一时期相比,当前时期的变化有多大比例。

其通用计算公式如下:

公式:
百分比变化 = (当前值 - 前一期值) / 前一期值 * 100%

我们可以用变量来表示:

  • X_t 代表当前时期(t)的值。
  • X_{t-1} 代表前一时期(t-1)的值。

那么公式可以写作:
百分比变化 = (X_t - X_{t-1}) / X_{t-1} * 100%

计算结果可以是正数(表示增长),也可以是负数(表示下降)。零则代表没有变化。

应用示例:太阳能电池板销售

让我们通过一个简单的例子来实践这个公式。假设以下是连续几天的太阳能电池板销售数据:

以下是计算步骤:

  1. 计算第一个变化:从第1天(8)到第2天(1)。
    • 差值:1 - 8 = -7
    • 百分比变化:(-7) / 8 * 100% = -87.5%
    • 这是一个巨大的跌幅。
  2. 滑动窗口,计算下一个变化:从第2天(1)到第3天(3)。
    • 差值:3 - 1 = 2
    • 百分比变化:2 / 1 * 100% = 200%
    • 这是一个显著的增长。
  3. 重复此过程,直到序列结束。

通过这个过程,我们可以清晰地看到销售数据的波动性。对于较小的数值,日环比变化通常显得更为剧烈。

实战演练:分析“Ruby”婴儿名数据

现在,让我们回到“Ruby”这个名字的年度使用次数数据集。之前我们已经计算了其移动平均线,现在用百分比变化来识别突然的激增或下降。

以下是操作步骤:

第一步:插入新列并应用公式
在数据旁边插入一个新列。从第二个数据点(1881年)开始,应用百分比变化公式。
在单元格中输入公式:=(本期计数 - 上期计数) / 上期计数
然后将单元格格式设置为百分比格式。例如,从1880年到1881年,女性“Ruby”婴儿的数量增长了29%。将此公式向下填充至所有行。注意,第一个数据点(1880年)没有百分比变化值,因为没有前一期数据可供比较。

第二步:使用条件格式高亮显示
为了让变化趋势一目了然,我们可以使用条件格式。

以下是选择颜色方案的思路:

  • 百分比变化数据有一个明确的中间值:0%。这是正负变化的分界线。
  • 因此,发散色阶 是最合适的选择。它可以用两种颜色分别表示零值以上和以下的数据。

具体操作:

  1. 选中百分比变化数据列。
  2. 进入“条件格式”设置。
  3. 选择“发散色阶”规则。
  4. 将中间点配置为 0
  5. 选择两种对比色,例如用蓝色表示负值(下降),用橙色表示正值(增长)。

第三步:解读数据趋势
应用格式后,数据中的模式变得更加明显:

  • 在数据集早期(19世纪末),名字的流行度持续增长(多为橙色)。
  • 进入20世纪20年代后,开始出现持续的下降趋势(多为蓝色)。
  • 在持续下降的过程中,1963年出现了一个异常的激增(橙色高亮),增长率高达20%。

第四步:调查异常点
发现异常后,下一步就是调查原因。1963年发生了什么?
通过简单的网络搜索(例如查阅“Ruby”这个名字的维基百科页面),我们可以发现一位著名人物:Ruby Bridges。她是1960年第一位在路易斯安那州进入废除种族隔离学校的非裔美国儿童。她的勇气和故事很可能在1963年左右激励了许多父母以她的名字为孩子命名。她的故事甚至在1998年被迪士尼拍成了同名电影。

这种从数据中发现有趣趋势、深入调查并得出有用结论的过程,正是数据分析的核心。

总结

本节课中我们一起学习了:

  1. 百分比变化的概念:一种标准化时间序列变化幅度的方法,比原始差值更易于解释。
  2. 核心公式(当前值 - 前一期值) / 前一期值 * 100%
  3. 计算步骤:从第二个数据点开始,滑动计算每个时期相对于前一时期的变化百分比。
  4. 数据可视化技巧:使用以0%为中间点的发散色阶进行条件格式设置,可以快速识别增长和下降周期。
  5. 完整分析流程:从计算百分比变化,到可视化识别异常,再到根据发现进行调查研究,最终得出有意义的结论。

掌握百分比变化,能让你在时间序列分析中多一个敏锐的工具,帮助你洞察数据背后的故事。接下来,你将在模块测评和分级实验室中,运用所学技能分析电子游戏销售与评分数据。完成后,请跟随我进入下一个模块,探索我最喜欢的话题之一——数据可视化。我将在那里等你。

040:数据可视化简介 📊

在本模块中,我们将学习数据可视化的核心概念与实践技巧。你将了解如何将原始数据转化为引人入胜的图表故事,并掌握有效传达数据洞察的方法。


模块3:数据可视化简介

欢迎来到数据分析基础课程的模块3。

到目前为止,你已经学习了什么是数据,以及如何使用电子表格处理和分析数据。现在,你将开始动手实践数据可视化——这门通过图形传达数据的艺术。

你将看到如何将原始数据转化为能引起观众共鸣的迷人故事。


探索有效的可视化沟通技巧

接下来,我们将探索有效传达洞察的可视化技术,包括数据分析师最常用的图表类型。

图表可能被误用和误解。你将学习如何为你的数据选择合适的图表。

此外,你还将学习如何使用颜色、标记、标题、坐标轴和注释来突出关键洞察。


提升可视化效率的原则

你还将看到如何通过最大化数据墨水比最小化图表垃圾来保持可视化的高效性。

数据墨水比的核心原则是:图表中用于呈现数据的墨水量应最大化,而非数据元素的墨水量应最小化


利用LLM辅助图表工作

你还将练习如何使用大型语言模型(LLM)来解读和创建图表。

以下是利用LLM辅助分析的示例代码思路:

# 伪代码示例:使用LLM生成图表建议
prompt = “基于给定的销售数据集,建议最合适的图表类型并说明原因”
chart_suggestion = llm.generate(prompt)

你将带着审慎的思维模式使用这些工具,以节省时间并避免错误。


模块学习目标

在本模块结束时,你将掌握核心的可视化技能,这些技能是驱动现实世界影响所必需的。

让我们开始吧。


总结

本节课中,我们一起学习了数据可视化的基本介绍。我们了解了将数据转化为故事的重要性,探索了图表选择与设计原则,并介绍了利用现代工具提升效率的方法。这些核心技能将为你后续的数据分析工作奠定坚实基础。

041:什么是数据叙事 📊

在本节课中,我们将要学习数据叙事的概念、核心组成部分及其重要性。数据叙事是将枯燥的数据转化为引人入胜的故事的关键技能,它能帮助你和你的受众更有效地理解数据背后的含义。


想象你正在观看同一组数据的两种不同呈现方式。

一种是一串枯燥的数字和统计列表,另一种则是色彩丰富、能立刻吸引你注意力的视觉化叙事。

数据叙事正是枯燥与吸引人之间的区别。

从例子开始:肖恩的故事

上一节我们介绍了数据叙事的基本概念,本节中我们来看看一个具体的例子。

这是一个关于“Sean”和“Shawn”两个名字拼写的故事。它使用了你在上一个模块中见过的婴儿名字数据,由凯利·吉尔伯特创作。

以下是一张展示“Shawn”(带W)和“Sean”(不带W)随时间变化的图表。

  • X轴代表时间,从1960年到2024年。
  • Y轴代表使用每个名字出生的婴儿百分比。
  • 绿色线条代表带W的“Shawn”。
  • 蓝色线条代表不带W的“Sean”。

在20世纪60年代末,蓝色的“Sean”开始流行起来。它与绿色的“Shawn”并驾齐驱了几年,随后再次失宠,最终在1980年超过了绿色的“Shawn”。自那以后,蓝色的“Sean”一直是主导拼写,但最近两者的差距正在缩小。如果你想给孩子一个更独特的拼写,可以选择绿色的“Shawn”,而蓝色的“Sean”可能更受欢迎。

数据叙事的定义与核心

数据叙事的核心在于将你的分析结果转化为有意义的见解。它是一门结合描述性统计和数据可视化的艺术,用以传达一个引人入胜的叙事。正如俗话所说,一图胜千言。精心设计的可视化数据故事可以发人深省、充满力量,甚至触动情感。

那么,数据叙事的关键组成部分有哪些?

以下是构成有效数据叙事的四个核心要素:

  1. 业务问题:始终记住,你讲述故事是有原因的。要专注于你的受众和你的目标。
  2. 数据本身:数据是你的原材料,它决定了你可以讲述什么类型的故事。
  3. 分析过程:这是从数据中提取见解的过程。你在上一个模块中计算的描述性统计量(如平均值和百分比)是极好的工具,更复杂的分析当然也很有价值。
  4. 可视化呈现:这是你向受众直观展示数据的方式。

如何讲述数据故事

上一节我们了解了数据叙事的组成部分,本节中我们来看看如何实际运用它们来讲述故事。

你可以不使用可视化,仅用描述性统计来讲述一个数据故事。

以下是两个例子:

“在过去的150年里,全球平均预期寿命从32岁增加了一倍多,到2021年达到71岁。这反映了营养和医疗保健等领域的巨大进步。”

“在美国,大约13%的5岁及以上人口说西班牙语。这反映了西班牙裔和拉丁裔社区在全国范围内深厚的文化根基和日益增长的影响力。”

这两个描述性统计都讲述了一个有趣且完整的数据故事。

你甚至可以使用电子表格中的条件格式等技术来帮助直观地解释你的数据。也许可以把71这个数字做得比30大一点,在13%旁边加一个小对话气泡。这样,我已经开始以更视觉化的方式强调关键点了。

然而,将这些描述性统计与精心制作的可视化结合起来,可以将你的数据故事提升到一个新的水平。

例如,你可以将第一个故事与折线图结合起来。X轴是年份,Y轴是全球平均预期寿命。它强调了稳步的进步,并吸引了人们对下降时期的注意。这种结合提供了背景信息,帮助你的受众一目了然地掌握关键见解。

数据叙事的受众与目的

数据叙事通常是为了与受众沟通,无论是你的团队、利益相关者还是公众。但你也可以为自己创建数据故事,以便快速发现时间序列数据中的趋势,或大致了解当前哪些收入流最大。

对于外部受众,通常需要更精美的可视化;而对于内部分析目的,更粗略、更具探索性的可视化可能就足够了。在本课程中,我们将主要关注叙事本身以及构成引人入胜的数据故事的设计元素。

经典案例:情感化的数据故事

我之前提到了情感化的数据故事,现在让我们看一个例子。

我最喜欢的可视化作品之一是查尔斯·约瑟夫·米纳德的“进军莫斯科”图。文字是法语花体字,所以请专注于图形,我会带你一步步了解。

米纳德的目标是讲述拿破仑在1812年战争期间的俄国战役故事。作家需要数千字才能解释清楚的事情,他用一张图片就说明了。这个可视化既是一张地图,也是一个显示时间序列数据的折线图。

线条的粗细代表了军队的规模。它从左侧的法国开始,向右侧的莫斯科进军,然后返回。

  • 棕色线条代表前往莫斯科的军队规模。
  • 黑色线条代表返回的军队规模。

你认为这是一次成功的战役吗?你不需要懂法语或知道拿破仑损失了近41万人,就能看出这场战役是灾难性的。正如一位历史学家对此图的评价:“它以其残酷的优雅,似乎让历史学家的笔都相形见绌。”

总结与预告

本节课中我们一起学习了数据叙事的定义、核心要素及其强大作用。你已经看到了一个精心讲述、精心可视化的数据故事所蕴含的力量。

在下一个视频中,我将带你学习数据可视化的语言,以及如何将其分解为组成部分。我们下节课见。

042:数据可视化语言 📊

在本节课中,我们将学习如何系统地解读数据可视化图表。通过理解图表的基本构成元素,你将能够更准确地获取图表所传达的信息和洞察。

你是否曾看着一张图表感到有些困惑?这很正常。一个名为“丑陋数据”的社区拥有超过10万名成员。并非所有的可视化图表都同样优秀,有些图表确实比其他图表更容易解读。让我们来分解可视化的常见组成部分,以便你能熟练地解读它们。

图表构成要素解析

让我们从另一个婴儿名字的例子开始,先熟悉这张图表。

首先,是标题:“父母已停止给孩子取名Alexa”。这很清晰,它告诉我应该期待看到什么。

接下来是X轴。它没有标题,但由于它从1983年开始到2023年结束,我可以清楚地知道它代表时间,展示了过去40年,最早的日期在左边,最近的日期在右边。

然后是Y轴。同样没有标题,但它从0开始到7000结束,以1000为均匀增量。不过,当我看到图表副标题时,上面写着“名为Alexa的婴儿数量 - 美国女性”。所以,这表示每年有多少女婴被取名为Alexa。有时,这种在副标题中描述Y轴标签的方法是为了在左侧保留一些空间。

现在,我来寻找颜色、线条上的标记和图例。线条是蓝色的,但由于只有一条线,这个颜色似乎没有特定的含义。也没有图例。我看到2023年处有一个标记,表示图表的终点。它将注意力引向图表制作时趋势所处的位置,这有助于强调标题。

最后,我来看注解。我看到线条在这里有一个峰值,表明Alexa曾是一个非常流行的名字,每年有近6000名女婴取此名。这里是另一个注解,关于亚马逊推出Alexa语音助手。然后在最右下角,注解显示2023年有490名婴儿被取名为Alexa。

那么,核心洞察是什么?看起来Alexa这个名字总体上相当流行,直到大约2016年,之后出现急剧下降。如果不看标题和注解,这会让我想知道下降的原因是什么。但注解让原因变得很清楚:在推出Alexa虚拟助手仅仅两年后,父母们就停止给孩子取这个名字了。你认为原因是什么?也许人们认为叫孩子的名字时可能会意外触发他们的Alexa设备。图表让你自己去推断原因,这种神秘感本身就很有趣。

解读复杂图表

现在,花点时间阅读这张图表。它试图传达什么信息?

你可能会感觉自己的眼睛从一个区域跳到另一个区域,最重要的部分可能没有凸显出来。让我带你一步步解读这张图,以理解其主要洞察。

我注意到标题是“纽约市及各行政区人口”。所以这是一张关于人口的图表,它显示了五个行政区,类似于区划。

我来看看X轴。我可以看出这些是年份。从最左边的1790年开始,一直到最右边的2010年。快速检查告诉我,这些是以10年为单位的均匀增量,这意味着横跨X轴的所有条形图之间可以进行公平的比较。

现在看Y轴。这个轴确实有标签:“占总人口的百分比”。它从底部的0开始,到顶部的100结束。所以这告诉我,每个条形图代表纽约市总人口的100%,并按行政区细分。

我知道你一直在想这些颜色。在这种情况下,每个柱状分段的颜色代表居住在五个行政区中某一个的人口占总人口的百分比。

识别趋势与编码

在较早的时期,大约从1790年到1920年,曼哈顿显然是人口最多的行政区。但大约在1920年到1930年间,布鲁克林取代了其位置,并一直保持领先。这些行政区在柱状分段的堆叠顺序和图例中的顺序,都是根据它们在2010年的人口排序来排列的。这种一致的排序方式允许你追踪每个类别随时间变化的趋势。

那么,整体的故事是什么?这张图表总结了纽约市历史上五个行政区的人口趋势。再次强调,在早期,大部分人口集中在市中心曼哈顿。而在现代,人口在四个行政区中的分布要均匀得多,史泰登岛相对于其他行政区的比例较小。

颜色、大小和标记都是“编码”的例子。编码意味着将数据转化为视觉属性。例如:

  • 浅绿色 代表曼哈顿。
  • 蓝色 代表布朗克斯。
  • 三角形标记 可能代表iPhone销量。
  • 方形标记 可能代表Android销量。

三角形本身并不代表iPhone,它是一个被编码的类别。这是图表以视觉方式传达含义的一种方法。我们使用图例来传达数据在特定可视化中是如何被编码的。

五步解读法

当你看到任何图表时,请采用结构化的方法来识别它试图告诉你什么。

以下是解读图表的五个步骤:

  1. 检查标题和副标题。这张图表是关于什么的?创作者是否试图传达某个关键洞察?

  2. 审查坐标轴。几乎每张图表都至少有一个轴。坐标轴可以有刻度线或网格线,用于标记该轴上的主要步长。首先检查你的X轴:从左到右发生了什么变化?在这两个例子中,它是以年为单位表示的时间。通常X轴从左到右数值增加,但不要想当然。然后检查你的Y轴:从下到上发生了什么变化?和X轴一样,它通常也是数值增加的。

  3. 审查任何被编码的类别。阅读图例以识别被编码的类别,并寻找颜色、标记或大小的差异。

  1. 寻找注解。注解是添加到图表中的注释或标签,用于提供背景信息或突出关键点。这些有助于将你的注意力引向图表中最重要的部分。

  2. 评估整体情况。你在寻找什么类型的洞察?你应该进行比较吗?你应该寻找随时间变化的趋势吗?寻找令人惊讶的信息、巨大的变化、渐进的变化。利用注解以及图表标题或副标题来引导你的思考。

总结与实践

当你遇到数据可视化时,无论是在新闻、工作中还是在本课程中,尝试使用刚刚学到的五步法来解读它们。这是练习你数据可视化素养的好方法。

在本节课中,我们一起学习了如何系统地解读数据可视化图表。我们分解了图表的构成要素,包括标题、坐标轴、颜色编码、图例和注解,并介绍了一个实用的五步解读法。掌握这套方法,你将能更自信、更准确地从各种图表中提取关键信息和洞察。

043:可视化分析 📊

在本节课中,我们将学习如何运用数据可视化的核心知识,通过分析三个具体的图表实例来实践解读技巧。我们将遵循一个五步流程,深入理解每个图表试图传达的故事。


实践解读:柱状图分析

上一节我们介绍了数据可视化的核心组件,本节中我们来看看如何将它们应用于实际分析。首先,我们分析一个关于AirPods营收的柱状图。

第一步:阅读标题。
图表标题是“Airpods revenue versus top tech companies”,副标题是“as of 2022”。这表明图表将展示AirPods与一些顶级科技公司在2022年的营收对比。

第二步:观察坐标轴。
X轴显示了一些顶级科技公司的名称,如Ass、Adobe、Intuit、Spotify等。Y轴没有明确的标题,但根据图表主题可以推断,它代表2022年的营收,单位是十亿美元。每个柱子上都标有具体的营收数值,这便于我们进行直接比较。

第三步:识别编码类别。
这个图表使用了颜色编码。AirPods的柱子被特别标出,以区别于其他公司。这种同时利用柱高和数值标签来传达信息的方法被称为双重编码

第四步:寻找标注。
此图表中没有额外的文字标注。

第五步:总结核心洞察。
这个图表的核心目的是比较AirPods的营收与这些大型科技公司的营收。分析显示,AirPods产生的营收略低于Ass和Adobe,但高于Intuit、Spotify以及图表中列出的其他所有公司。这是一个令人惊讶的发现,因为它表明一款单一消费电子产品能与大型科技公司的整体营收相匹敌。


实践解读:折线图分析

接下来,我们分析一个关于美国情侣如何相识的折线图,看看趋势变化能告诉我们什么。

第一步:阅读标题。
标题是“How couples met in the US”。它告诉我们数据仅限美国,但未明确定义“情侣”的范围(例如,此数据可能仅指异性恋情侣)。

第二步:观察坐标轴。
X轴代表数据年份。Y轴刻度从0%到50%,虽未明确标注,但根据标题可推断它代表“情侣的百分比”。

第三步:识别编码类别。
图表中没有图例标记,但每条线都用不同颜色表示。“在线相识”的线是醒目的红色。“通过朋友”和“通过工作”相识的线是不同深浅的蓝色。其他相识方式则用灰色表示。颜色的选择可能暗示了重要性或流行度的差异。

第四步:寻找标注。
此图表中没有额外的文字标注。

第五步:总结核心洞察。
这个图表鼓励我们比较“在线相识”与其他所有显示方式的变化趋势。大约从2000年社交媒体(如Myspace、Friendster、Facebook)兴起开始,“在线相识”的曲线急剧上升,而其他方式的曲线则大幅下降。在线相识在2012年左右(Tinder发布的年份)超过了之前最主要的“通过朋友相识”的方式。到2020年,超过一半的美国情侣是在线相识的。图表中还隐藏着其他洞察,例如从1950年到2000年,约有10%的情侣在大学相识的比例保持稳定,而通过家庭、中小学或邻居相识的比例则持续下降。


实践解读:散点图分析

最后,我们来分析一个更具挑战性的散点图,它展示了科学发现,内容是关于绿海龟的孵化。

第一步:阅读标题。
主标题是“Nests above the pivotal temperature produced more female baby green turtles”,副标题是“The pivotal temperature for green turtles is 29.3 degreesC”。这告诉我们,巢穴温度高于一个关键值(29.3°C)时,会孵化出更多雌性幼龟。

第二步:观察坐标轴。
X轴表示在巢穴中发现的雌性幼龟百分比(0%到100%)。由于每个巢穴孵化的幼龟数量不同,关注百分比比绝对数量更有意义。Y轴标注为“巢穴温度”,单位是摄氏度(°C)。26°C约等于78°F,31°C约等于87°F。

第三步:识别编码类别。
颜色编码在这里运用得很巧妙:较低温度用蓝色表示,较高温度用粉色表示,这是一种自然的视觉映射。此外,根据顶部的图例,数据点使用了不同的标记:空心圆代表雄性幼龟占多数的巢穴,实心圆代表雌性幼龟占多数的巢穴。

第四步:寻找标注。
标注不一定总是文字。图中有一条虚线,标示了绿海龟的关键温度(29.3°C),提示我们关注这条线附近的变化。

第五步:总结核心洞察。
对于散点图,一个有用的技巧是想象一条穿过所有数据点中心的线,即最佳拟合线。随着温度(沿Y轴上升)增加,雌性幼龟占多数的比例明显上升。观察关键温度线:在该线以下,没有雌性幼龟比例超过30%的巢穴;在该线以上,则出现了大量雌性幼龟占多数的巢穴。这引发了人们对背后科学机制的好奇。


课程总结

在本节课中,我们一起学习了数据叙事的强大力量,以及数据可视化在构建引人入胜的数据故事中所扮演的角色。我们通过分析柱状图、折线图和散点图这三个实例,实践了一个结构化的五步流程来解读数据可视化图表。完成本课的练习评估后,请跟随进入下一课,我们将学习如何在Google Sheets中创建美观的可视化图表。

044:图表类型选择策略 📊

在本节课中,我们将学习数据可视化的核心原则,即如何为不同的分析目标选择合适的图表类型。正确的图表能清晰传达信息,而错误的图表则可能导致误解。

数据可视化既是一门艺术,也是一门科学。作为一门科学,图表的选择有对错之分。关键在于,必须根据你想要传达的洞察来选择正确的可视化类型。

核心图表类型介绍

虽然有数百种可视化类型,但我们将聚焦于四种核心图表:柱状图、折线图、散点图以及堆叠或分组柱状图。仅用这四种类型,你就能有效传达近80%的洞察,无需追求过于复杂的图表。

上一节我们介绍了图表选择的重要性,本节中我们来看看这四种核心图表的具体用途和适用场景。

1. 柱状图与条形图

柱状图和条形图的目的是比较不同类别之间的数值特征

以下是其典型应用场景:

  • 比较不同地区的专辑销量(X轴:大洲,Y轴:销量)。
  • 比较不同异宠商店的龙猫销量(X轴:销量,Y轴:商店位置)。

其核心关系可概括为:比较 数值类别 间的差异

2. 折线图

折线图的目的是展示数值特征随时间变化的趋势

例如,展示月度销量随时间的变化(X轴:月份,Y轴:专辑销量)。图中点与点之间的连线斜率强调了每月变化的速率,让你能清晰看到销量在每段时间内是急剧上升还是下降。

折线图的一个常见变体是面积图,它强调的不仅是趋势,还有数据的体积,尤其是随时间累积的总量。销量速率有升有降,但总量只会不断增加。

3. 散点图

散点图是我的个人最爱,它的目的是比较两个数值特征,非常适合探索这两个特征之间的关系。

散点图非常灵活。例如,可以绘制虚拟会议长度(X轴)与我的注意力时长(Y轴)的关系,并用蓝色表示个人会议,红色表示工作会议。

一个常见的增强方法是添加象限,以强调高/低组合。例如,为上述图表添加象限后,可以清晰看到“时间长且注意力高”的会议、“时间短且注意力低”的会议等。这有助于突显“大多数会议时间短且注意力高”这一洞察。

其核心关系可概括为:探索 数值1数值2 之间的关系

4. 堆叠与分组柱状图

这是标准柱状图的变体,目的是跨多个类别特征比较数值特征

  • 堆叠柱状图:看起来像一摞书,展示部分与整体的关系。例如,X轴是大洲,Y轴是销量,用三种不同颜色表示不同的专辑。这张图回答了“每张专辑对每个地区的总销量贡献了多少”的问题。在亚洲,大部分销量来自专辑B,而在欧洲,大部分销量来自专辑C。
  • 分组柱状图:更适合类别间的直接比较。例如,X轴是宠物店位置,Y轴是销量,可以直观看出哪家店卖的龙猫最多(看起来是奶奶的店)。

一个常见的变体是相对比例图,它显示每个特征组合的比例而非原始数值。当各组的总体规模不同时,这种图表使跨组比较变得更加容易。例如,欧洲的总销量远小于亚洲,但使用比例图可以突出显示专辑C在欧洲卖得相对更好。

作为数据分析师,你需要做出选择:有时数值大小最重要(你想强调亚洲销量远高于欧洲),有时比例关系更重要(你想强调欧洲购买专辑C的比例更高)。

图表选择速查表

选择正确的可视化时,请记住这是一门科学,存在对错答案。以下是一个速查指南:

  • 时间序列数据通常适合用折线图
  • 类别间的比较可能使用条形图或柱状图
  • 两个数值特征之间的关系可以使用散点图
  • 为了比较部分与整体随时间变化的多个类别,可以考虑堆叠或分组条形图/柱状图

快速练习

我们来做个快速练习。我会给出一个洞察,请你思考一下应该使用哪种图表。

  1. 洞察:比较七位不同詹姆斯·邦德演员主演的007电影数量。

    • 答案:条形图或柱状图。这里我略微倾向于条形图,以便轻松地将每位演员的名字作为轴标签。
  2. 洞察:过去50年各国全球咖啡消费量。

    • 答案:折线图。因为我们在比较随时间变化的消费量,并且可以用不同颜色的线代表每个国家。
  3. 洞察:纽约与芝加哥两地订购的五种不同披萨配料的比例。

    • 答案:堆叠条形图。因为我们想分析每种配料在两个地点的相对比例。
  4. 洞察:一个国家的人均巧克力消费量与诺贝尔奖获得者数量之间的相关性。

    • 答案:散点图。因为我们想比较两个数值特征。

做得很好!在本课剩余的视频中,你将看到如何在 Google Sheets 中创建这些基础图表类型。我会向你展示所有的技巧和窍门。我们稍后见。


本节课中我们一起学习了数据可视化中四种核心图表类型(柱状图、折线图、散点图、堆叠/分组柱状图)的适用场景与选择策略。记住,正确的图表选择是清晰、有效传达数据洞察的关键。

045:柱状图与条形图 📊

在本节课中,我们将学习如何使用Google Sheets创建柱状图和条形图。这两种图表是最常见的数据可视化形式之一,它们用途广泛、易于理解,非常适合用于比较不同组别的数据。我们将通过一个来自Redfin的房屋销售数据集进行演示。

数据集概览

首先,我们来了解一下将要使用的数据集。每个观测值代表特定时间段内特定县的房屋销售情况。

例如,第二行显示了斯坦尼斯劳斯县从2023年2月27日到2024年5月21日(共12周)的房屋销售数据。数据集中的每个特征都代表了该时期内房屋销售的某个特性。

其中一些特征可能比较专业,不易理解。例如:

  • D列是“调整后的平均新挂牌量”,代表该县在该时间段内新挂牌出售的房屋数量。
  • J列代表同一时间段内该县售出的房屋数量。
  • L列是挂牌房屋的“中位挂牌价格”。
  • N列是“中位销售价格”。
  • W列是“中位在售天数”,即房屋实际出售所需的时间,以及其“同比变化”,这代表与上一年相比的百分比差异。

数据预处理与探索

为了更好地理解数据,我们先进行一些简单的预处理。

首先,冻结首行以便查看标题。接着,让我们查看“平均新挂牌量”这一列。为其添加一个条件格式化的色阶,这能帮助我们更直观地探索数据。

你可以看到,在圣克拉拉县,这个特定时间段内挂牌的房屋数量要多得多,而其他大多数数据点的数值则小很多。

接下来,我们通过筛选来缩小数据范围。这里我们选择六月的第一周作为起始时间段。这个时期正值返校季,是房屋销售的活跃期。现在,我们来探索第三季度各县的“平均新挂牌量”。趋势非常有趣:像洛杉矶、圣地亚哥甚至奥兰治这样的大县,其挂牌量远多于图中颜色较浅的一些小县。例如,塞拉县在此期间只有一个挂牌。

现在,让我们看看W列——“在售天数”的同比变化。由于此列代表百分比变化,应用发散色阶是一个很好的选择。许多数据的颜色实际上非常浅,只有像增长14%或22%这样远离零值的数值,才会显示更深的颜色。

我们再做一点侦察。首先,数据中共有58个不同的县。我还可以查看房屋的平均销售数量。在低端,最低售出房屋数为1套;而在其他县,售出的房屋超过1000套。你可以在这里看到这个最大值,它对应的是洛杉矶县。

如果我高亮“中位销售价格”,我还可以获得所有县的平均房屋销售价格信息,大约为$627,000。加州的房地产市场非常昂贵。你还可以看到,低端的中位销售价格约为$165,000,而高端有一个县的中位房屋销售价格接近$160万。这确实非常昂贵。我们确保数据已排序。

创建第一个图表

现在,让我们创建第一个图表。我将高亮前10个县,并针对它们的“中位销售价格”进行可视化。

然后,我转到“插入”菜单,插入一个新图表。你可以看到,每个县的X轴标签是可读的,但它们靠得有点近。因此,这是一个很好的例子,说明我们可能希望将图表类型更改为条形图,以便所有标签都更容易阅读。

我将关闭图表编辑器,以便看得更清楚。使用这个图表菜单,你可以下载图表、删除图表,也可以将图表移动到它自己的工作表中。

你在数据中看到了什么?总体而言,你可以看到圣马特奥县的中位销售价格最高,接近160万美元。这就是我们刚才看到的那个最大值。在其余的前10个县中,你可以看到圣地亚哥县排在最后,中位销售价格约为$883,000。但请记住,这仍然是第10高的价格。

修改图表以展示不同特征

现在,让我们修改这个图表,以展示另一个数值特征(在这些中位房屋销售价格排名前10的县中)的表现。

因此,我需要编辑图表。实际上,你可以更改图表所包含的数据范围。我只需将其更改为数据中的“中位在售天数”特征。

结果不再按顺序排列,因为它们已经按中位房屋销售价格排序了。但这是中位在售天数。例如,纳帕县的房屋通常需要近37天才能售出,而圣马特奥、圣克拉拉、阿拉米达和圣地亚哥的房屋只需几周或更短时间就能售出。在房屋销售价格和实际售出所需时间之间,并没有明确的关系。


总结

好了,你已经成功在Google Sheets中创建了你的第一个数据可视化图表。在下一节视频中,我们将学习如何自定义你的图表,以讲述一个更有力的数据故事。

本节课中,我们一起学习了柱状图和条形图的基本概念,并通过实际数据集演示了如何在Google Sheets中创建和修改这些图表,以比较不同组别的数据。

046:图表定制演示 📊

在本节课中,我们将学习如何在Google Sheets中定制图表,使其更清晰、更具表现力。我们将通过一个关于中位数房屋售价的条形图案例,逐步讲解如何调整样式、添加标题、格式化数据点以及配置坐标轴和网格线,最终让图表更好地传达数据故事。


你已经创建了一个Google Sheets图表,但看起来有些单调。是时候发挥创意了。你可以通过定制让数据可视化变得生动。

我们将定制上一视频中关于中位数房屋售价的条形图。如果你想跟着操作,可以在本视频下方的下载选项卡中找到这个表格。

图表样式与标题

首先,我们来看图表样式类别。你可以更改背景颜色,例如改为灰色,但这里我们不这样做。你还可以启用3D效果,但这会分散注意力,且不会为图表增加任何洞察,因此我们将其关闭。

接下来,你可以添加图表或坐标轴标题。标题应尽可能具有描述性。例如,“Q3”代表第三季度。你也可以选择其他坐标轴或添加副标题。

我们为图表添加标题“中位数房屋售价”,并将文本加粗、调大一些。




对于Y轴,标题“县”会占用一些额外空间。根据坐标轴标签本身,你已经能看出它代表县,因此这个坐标轴标题有些多余,我们可以将其移除。

系列数据格式化

现在,让我们看看“系列”选项卡。例如,你可以将填充颜色改为不同的颜色,如橙色或粉色。


或者,我可以改回默认的蓝色。通过勾选“数据标签”选项,你现在可以看到每个条形图上都显示了精确的房屋售价。这有助于我们不再仅仅依赖网格线来解读数据。

如果你想突出显示旧金山的中位数房价(这是你公司正在工作的县),你实际上可以将这个数据点的格式设置为与其他数据点不同。在系列设置中,点击“添加格式数据点”,然后选择数据中的特定值(本例中是“San Francisco”)并设置一个高亮颜色,如橙色。

假设你确实想弱化其他县的数据,可以将其他条形改为灰色。

这样就弱化了所有其他数据点,并将观众的注意力引导到旧金山上,这是你故事的关键。你不需要图例来区分这两种颜色,因为Y轴上已经有标签了。

坐标轴与网格线配置

接下来,我们看看水平轴设置。总体而言,这些标签很好,但我们可以稍微增大字体大小。我还要添加货币格式。

我认为这些标签可以更突出一些,可以加粗并增大字体大小。这能让每个县的名称更容易阅读。

最后,我们来配置网格线和刻度线。网格线指的是横跨整个图表的线条,而刻度线则位于坐标轴本身上。

那么,你为何要在网格线和刻度线之间选择呢?当你需要通读整个图表时,网格线非常有帮助,而刻度线可以作为一个更简单的参考。

对于网格线和刻度线,我们这里只需要关注水平轴。网格线通常分为主要和次要网格线。在本例中,你会注意到我们的主要网格线增量是50万美元,因此我们也可以设置次要网格线。

勾选此选项后,你现在可以看到在主要网格线之间出现了中间的次要网格线。有时这很有帮助,可以确保它们均匀分布,以便你知道如何解读与这些次要网格线对齐的确切金额。

我将次要网格线数量增加到4。这代表主要网格线之间的次要网格线数量。设置为4可以确保每个增量是10万美元。

最终效果与总结

总体而言,我认为这个最终设计相当简洁。


如你所见,我们最初的图表没问题,但现在的新图表无疑突出了我们想要讲述的故事,也使读取单个房屋售价变得更加容易。


不要害怕尝试并享受这个过程。只要有一点创意和对细节的关注,你就可以将图表转化为传达数据故事的有力工具。


本节课中,我们一起学习了如何定制Google Sheets图表。我们从调整基础样式和添加标题开始,然后学习了如何格式化特定数据点以突出重点,最后配置了坐标轴和网格线以提高可读性。记住,清晰的图表能更有效地传达你的数据洞察。在下一视频中,我们将探索创建散点图来展示房屋面积与售价之间的关系。

047:散点图绘制与解读 📊

在本节课中,我们将学习如何使用散点图来揭示两个数值特征之间的关系。散点图是一种强大的数据可视化工具,能够帮助我们直观地观察数据点之间的相关性、识别异常值,并为后续的深入分析提供假设。

散点图的核心概念

散点图用于展示两个数值变量之间的关系。图表中的每一个点都代表一对数值:一个对应X轴,另一个对应Y轴。点的位置直观地显示了这两个特征是如何相互关联的。

核心公式/概念:每个数据点可表示为 (x_i, y_i),其中 x_i 是自变量(如房屋面积),y_i 是因变量(如销售价格)。

创建基础散点图

上一节我们介绍了散点图的基本概念,本节中我们来看看如何从数据开始创建一个散点图。

假设我们想了解房屋面积与销售价格中位数之间的关系。这两个都是数值特征,非常适合用散点图进行可视化。

  1. 在数据选项卡中,选择“面积中位数”和“销售价格中位数”两列数据。
  2. 点击“插入图表”。默认的图表类型通常是柱状图,我们需要将其更改为散点图。
  3. 将图表移动到一个新的工作表标签页,以便有更多空间进行操作。

自定义与优化图表

创建基础图表后,我们可以通过一系列自定义设置使其更清晰、更专业。

以下是图表自定义的关键步骤:

  • 添加标题:为图表添加一个描述性的标题。例如,“房屋面积与销售价格关系图”。如果标题已包含关键信息(如“房屋销售中位数”),Y轴标签有时可以省略。
  • 修改横轴标题:确保横轴(X轴)的标题清晰明了。例如,明确标注其代表的是“面积(平方英尺)”。
  • 调整数据点标记:每个点代表一个县的数据,而非单个房屋。标记的大小和透明度需要根据数据量调整。数据点多时,应使用较小的标记或降低不透明度(增加透明感),以避免重叠。数据点较少时,可以适当增大标记尺寸(例如调整为10像素),使其更醒目。
  • 慎用数据标签:在柱状图中,数据标签可能很有效。但在散点图中,为每个点添加数据标签会使图表变得非常杂乱,难以阅读。通常不建议在散点图中直接添加数据标签。
  • 添加趋势线:趋势线能帮助我们可视化数据中的线性趋势。添加趋势线后,可以增加其粗细和不透明度,使其更明显。趋势线的正斜率表明,随着县房屋面积中位数的增加,销售价格中位数也倾向于增加。

调整坐标轴与网格线

为了使图表更精确,便于读者估算数据点的具体数值,我们需要对坐标轴和网格线进行精细调整。

默认情况下,图表会缩放到我们数据的观测范围(例如,面积从约1200到2000平方英尺)。将坐标轴最小值设置为0,有助于理解趋势线在理论起点(面积为0)的行为,尽管现实中可能不存在面积极小的房屋。

由于两个轴都是数值数据,都值得仔细调整。当数据标签过于繁重时,观众需要依靠网格线来估算每个数据点的坐标值。

以下是优化网格线的步骤:

  1. 为横轴添加次要网格线:设置间隔为100平方英尺,这样能形成更精细的网格。
  2. 为纵轴添加次要网格线:设置网格线数量为4条,这将创建出10万美元的增量间隔。

经过这些调整,我们得到了一个既能帮助准确估算数据点坐标,又不会因线条过重而干扰数据本身显示的网格系统。

解读散点图

现在,我们已经拥有了一个美观且信息丰富的散点图。你能从数据中看到什么?

根据趋势线,可以观察到房屋面积中位数与销售价格中位数之间存在正相关关系:随着房屋面积的增大,销售价格也倾向于升高。

然而,深入观察会发现,趋势线似乎将数据分成了两组:一组是价格较低、紧密遵循趋势的数据点;另一组是价格较高、但似乎完全不遵循该趋势的数据点。这表明,一些房价最高的县并不拥有面积最大的房屋。因此,可能还有其他因素(如地理位置、学区、社区环境等)在驱动这些高房价。

总结

本节课中我们一起学习了散点图的创建、优化与解读。记住,散点图是发现数据中隐藏关系的强大工具。我们可以用它来探索变量间的相关性、识别异常值,并为进一步的调查分析生成假设。

接下来,请跟随下一节视频,学习如何创建分组条形图和柱状图。

048:分组柱状图/条形图演示

在本节课中,我们将学习如何使用分组柱状图或条形图来比较不同组别之间的结果,从而揭示数据中复杂的关系和趋势。

分组柱状图和条形图允许你比较不同组别之间感兴趣的结果。它们能揭示数据中复杂的关系和趋势。

假设你想可视化所有年份中最受欢迎的男性和女性婴儿名字,使用你之前见过几次的婴儿名字数据集。你需要同时通过排名和性别这两个特征来可视化婴儿数量。这使得这个数据集成为分组图表的理想选择。

准备数据

让我们首先看看创建这个图表所需的数据。

以下是基于数据汇总的有史以来前10名男性和女性婴儿名字的摘要。这些数据汇总了每个名字和性别在所有年份中的婴儿总数,并按排名排序。

例如,John是美国最受欢迎的男性婴儿名字,有超过500万婴儿被取这个名字。排名第一的女性婴儿名字是Mary,有超过400万婴儿。因此,这些名字都排名第一:John在男性名字中排名第一,Mary在女性名字中排名第一。

整理这些数据需要一些工作。你将在下一门课程中学习更多关于数据透视表的知识,它可以简化这项任务。现在,我们将从这里开始。

要在Google Sheets中创建分组条形图,你需要这种格式的数据:一组共同的类别(这里是排名),然后为每个性别提供不同的计数集合。

配置图表

正确配置这个图表需要做一些工作。因为有10个婴儿名字,所以将图表类型切换为条形图,将排名列分配给Y轴,你会看到10个标签中的一个出现。

我想为男性婴儿计数设置一个系列,为女性婴儿计数设置另一个系列。我将清除所有这些,然后重新添加它们。

我将添加标签,这些标签将是男性名字。对于女性计数,则是女性名字。这是一个相当不错的开始。我将把这个图表移动到一个单独的工作表。

添加标题和副标题

添加一个标题。添加一个副标题,这可以帮助你为图表添加上下文。

不要担心标签与条形重叠的问题。这只是因为我放大了图表,以便你能更轻松地阅读。

调整颜色和格式

接下来,在系列菜单中柔化这些颜色,它们对眼睛有点刺眼。将女性系列改为绿色,男性系列改为深蓝色。

X轴的值因为有太多零而难以阅读,所以让我们添加逗号。更改数字的格式。你需要进入自定义格式才能添加逗号,选择其他自定义格式,并寻找为数字添加逗号的格式。就是这个。现在更容易看出这些数字是以百万计的婴儿。

添加网格线

最后,仅靠主要网格线来估算婴儿数量是相当具有挑战性的。从水平轴开始,配置主要网格线。我启用7条。然后添加次要网格线,在每对主要网格线之间添加一条。这将实现50万的计数增量。现在很清楚,从Elizabeth到Barbara都徘徊在150万左右。

总结与洞察

我认为这相当不错。你看到了什么洞察?对我来说,最突出的是排名前10的男性婴儿名字明显比对应的女性名字更受欢迎。事实上,除了Mary之外,排名前10的男性婴儿名字比所有排名前10的女性婴儿名字都更受欢迎。这很有趣。

在本节课中,我们一起学习了如何创建和配置分组柱状图/条形图,从数据准备到图表美化,再到最终解读数据洞察。干得好,接下来请跟随我到下一个视频,学习如何创建堆叠图。

049:堆叠柱状图与条形图 📊

在本节课中,我们将学习如何使用堆叠柱状图来分析随时间变化的趋势,特别是针对一个中性名字中男婴与女婴的比例变化。我们将以名字“Riley”为例,演示如何创建和解读堆叠柱状图,并进一步将其转换为百分比堆叠柱状图以专注于比例分布。

概述与数据准备

假设我们想分析一个中性名字的男婴与女婴比例随时间变化的趋势。为此,可以创建堆叠柱状图。我们以“Riley”为例,这是一个相当常见且趋势有趣的中性名字。

以下是数据准备后的表格,显示了数据集中每年男婴和女婴“Riley”的数量。许多早期年份没有女婴“Riley”的记录。

| 年份 | 男婴数量 | 女婴数量 |
|------|----------|----------|
| 1880 | 10       | 0        |
| ...  | ...      | ...      |
| 1980 | 150      | 5        |
| ...  | ...      | ...      |

创建基础堆叠柱状图

首先,选中所有数据列,然后插入图表。尽管数据集中包含多年份,但柱状图更为合适,因为我们通常希望将时间放在X轴上。

初始图表可能比较杂乱,需要进行清理和配置。

接下来,我们需要配置坐标轴。对于X轴,选择年份数据。对于Y轴,进行清理,使其仅包含女婴和男婴的数量。为了操作清晰,可以将图表移动到一个单独的工作表中。

优化图表样式

现在,开始优化图表使其更清晰易懂。首先,为图表添加一个主标题。同时,添加一个副标题,用以说明数据的时间跨度。

然后,对数据系列进行一些配置。将系列的颜色更改为与之前图表一致的配色方案。进行一些细微调整,例如将图例移动到图表内部。这样可以扩大图表绘图区的空间。

由于我们使用不同颜色代表不同性别,因此需要在图表中保留图例,以帮助观众轻松区分不同类别。接着,将网格线的颜色调浅一些,因为它们对于讲述数据故事并非至关重要。

分析堆叠柱状图

现在,让我们分析完成的图表。从图表中可以看到,“Riley”这个名字从1880年到1980年代初期都相当不常见。在其知名度开始上升之前,这个名字几乎完全用于男婴。随着知名度上升,用于女婴的数量也开始稳步增长。进入21世纪后,“Riley”实际上成为了一个更受女婴欢迎的名字。

转换为百分比堆叠柱状图

假设我们不太关心“Riley”婴儿的总数,而更想关注男婴与女婴“Riley”的分布比例。为了更直接地回答这个问题,可以使用100%堆叠柱状图。

首先,复制已创建的堆叠柱状图。

然后,将图表类型从“堆叠柱状图”更改为“100%堆叠柱状图”。

优化百分比堆叠柱状图

更改后,图表外观差异很大,Y轴标签也从计数变为了百分比。此时,蓝色可能过于突出,可以将其调浅一些。

由于数据系列现在与图例重叠,可以同时移动图例的位置。如果只关注哪个性别占主导地位,可以简化网格线,只保留中点线(50%),并将其颜色加深,以便轻松看出哪个性别占多数。

进入垂直轴的网格线设置,将三条线简化为只显示0%、50%和100%,并将颜色改为灰色。

从优化后的百分比堆叠柱状图可以清晰看出,大约在2003年,女婴“Riley”的数量开始超过男婴。

总结

本节课中,我们一起学习了堆叠柱状图和百分比堆叠柱状图的创建与分析方法。我们了解到,分组和堆叠的条形图与柱状图是展示多个特征之间复杂关系的强大工具。

堆叠柱状图适用于展示各部分随时间变化的绝对数量,而百分比堆叠柱状图则能清晰地揭示各部分在整体中的比例变化趋势。

在下一个视频中,我们将学习最后一种可视化类型——折线图。折线图非常适合展示时间序列数据。我们下节课再见。

050:演示 - 折线图 📈

在本节课中,我们将学习如何使用折线图来可视化时间序列数据。折线图是展示数据随时间变化趋势的核心图表类型,虽然看似简单,但它能持续为商业决策提供重要价值。

创建折线图

上一节我们介绍了数据准备,本节中我们来看看如何将数据转化为直观的折线图。

以下是在Google Sheets中创建包含原始计数和移动平均值的折线图步骤。

  1. 选择包含年份、原始计数和移动平均值的三列数据。
  2. 点击“插入”菜单,选择“图表”。
  3. 在弹出的图表编辑器中,将图表类型设置为“折线图”。
  4. 配置坐标轴:将X轴设置为“年份”。
  5. 将“年份”从数据系列中移除,确保它仅作为横坐标。

优化图表布局

创建基础图表后,我们需要优化其布局,以提升可读性和专业性。

将图表移动到一个新的工作表。接着,我们可以为图表添加以下元素:

  • 图表标题:概括图表的核心内容。
  • 副标题:提供更详细的背景信息。
  • 横坐标轴标题:明确标注时间单位(如“年份”)。
  • 纵坐标轴标题:说明数据的度量单位(如“名字数量”)。

添加网格线进行分析

为了帮助观众更轻松地定位到特定年份的数据点,我们可以为图表添加网格线。

  1. 选中横坐标轴(即年份所在的位置)。
  2. 添加主要网格线,间隔设置为25年。
  3. 添加次要网格线,数量设置为4条。这样,图表上就会形成以5年为间隔的网格线,便于观察。

解读图表趋势

现在,让我们来分析这张优化后的折线图所揭示的信息。

图中蓝色的折线代表原始计数数据。其趋势显示,名字的流行度最初有所上升,随后持续下降。而在最近几年,数据似乎出现了小幅回升。

你可能还记得,在1963年这个名字的数量曾有一个急剧的峰值。虽然在这个图表中那个尖峰不那么明显,但我们能清晰地看到数据中存在一个周期性规律:经历了最初的上升和下降后,近期又出现了复苏。这种周期仅从历史数据中才能清晰显现,而无法提前预测。未来或许会出现另一个周期,我们拭目以待。

总体而言,数据中虽然存在一些“噪声”(即短期波动),但它们并不妨碍我们观察整体的模式。橙色的移动平均线紧密地跟随数据趋势,很好地平滑了这些波动。

总结

本节课中,我们一起学习了在Google Sheets中创建和美化折线图的完整流程。从选择数据、插入图表,到添加标题、网格线并进行趋势分析,你已经掌握了可视化时间序列数据的基本技能。希望你能运用这些知识,创建出清晰、美观且富有洞察力的图表。

接下来,请在练习中尝试为之前模块的酒店预订数据集创建可视化图表。完成练习和评估后,请跟随我进入下一个视频,学习数据可视化的最佳实践。

051:有效数据可视化策略

在本节课中,我们将学习如何创建清晰、有效且不易产生误解的数据可视化图表。我们将探讨一个核心流程和三个关键原则,帮助你确保观众能准确理解你希望传达的信息。


请先观察这张图片片刻。你看到了什么?

是一个从左到右向下的楼梯,还是一个上下颠倒的楼梯?

两种解释都有可能。两个理性的人可以对同一张图片得出两种完全不同的结论。

如果不加注意,你的数据可视化最终可能会像这个视觉错觉(也称为“肖特阶梯”)一样。当你将图表展示给利益相关者时,每个人可能会得出不同的见解。

如何避免这种混淆?首先,我将介绍创建可视化图表的流程。


🛠️ 创建可视化图表的流程

上一节我们提出了避免误解的目标,本节中我们来看看实现这一目标的具体步骤。以下是创建有效数据可视化的标准流程:

  1. 初步设计:首先勾勒出初步设计草图。虽然传达同一信息通常有多种方式,但其中一种可能是最佳的。
  2. 构建初稿:在制作时,考虑你的可视化图表将如何被观众消费。
  3. 评估效果:评估你的可视化图表是否能有效传达关键见解。
  4. 收集反馈:分享你的可视化图表,获取同事的初步反应,看看它是否被清晰理解。
  5. 最终定稿:结合前几个步骤的见解,完成可视化图表。

根据可视化图表的重要性和所涉利益相关方,你可能需要多次迭代这些步骤。


🔑 评估可视化图表的三大原则

在评估自己的可视化图表时,应聚焦于三个关键原则:清晰性、高效性和情境性。

原则一:清晰性

清晰性是指确保观众以你期望的方式解读你的可视化图表。你的目标应该是让尽可能多的人,尤其是最重要的利益相关者,得出相同的见解。

如何判断你的图表是否清晰?以下是几个关键检查点:

  • 选择合适的图表类型:根据你的数据选择恰当的图表类型,这你已经知道如何操作。
  • 避免不必要的复杂性:使用简单、干净的设计,避免杂乱。
  • 使用清晰的标签和标题:确保观众理解他们正在看什么。使用注释来突出关键见解。
  • 保持一致性:确保颜色方案、字体和比例尺保持一致。
  • 检查可读性:字体大小过小是一个常见错误,尤其是在一张图表中容纳大量信息时。对于演示文稿,需要使用足够大的字体。
  • 寻求他人反馈:与你的经理、同事和可信赖的利益相关者分享你的作品,获取宝贵意见。获得新的视角至关重要。

让我们看一个例子。这是一张月度销售额的可视化图表。

你认为它清晰地展示了正在发生的情况吗?

首先,图表类型选择不当。在饼图中,很难比较多个扇区的相对大小,而且它不适合展示时间序列数据。其次,使用了太多颜色,并且缺少关键信息,如年份和实际销售额。我也无法清晰地感知销售趋势。这张图表存在很多问题。

现在,这是同一数据的另一张图表。这次使用了折线图,X轴是时间,Y轴是销售额。

乍一看,我就能看出销售额在整个时间段(2023年)内呈持续上升趋势。坐标轴标注清晰,我可以从Y轴估算销售额。这张图表清晰得多。

原则二:高效性

高效性意味着只包含有目的的元素。问问自己:你的图表中是否有任何无助于讲述你试图传达的故事的东西?

统计学家爱德华·塔夫特(我的灵感来源之一)首先提出了 数据墨水比 这个概念。

公式:数据墨水比 = 用于展示实际数据的墨水(或像素) / 图表使用的总墨水(或像素)

首要任务是聚焦于数据本身。

以下是一个具有很高数据墨水比的图表示例,它在X轴上显示元素的原子序数,在Y轴上显示其体积。它只展示了理解数据所必需的最关键信息(数据墨水)。

数据墨水包括:条形图中的条形、标记点、折线图中的线条、坐标轴标签、简洁的注释和数据标签。

另一方面,3D效果、粗边框、阴影、过多的网格线、过于描述性的注释等都属于非数据墨水。塔夫特也用 “图表垃圾” 来形容那些分散注意力、无助于增强观众理解的装饰性元素,例如装饰物、额外文本、过多颜色等。

如果你发现自己只是为了“让图表更有趣”而添加东西,请停止。让数据自己说话。

之前,你看到过一张类似的AirPods收入图表。这张实际上是带有“图表垃圾”的原版。问问自己:角落里的AirPods图片到底有什么用?为什么柱状图要有阴影?这主要会分散观众对AirPods赚了多少钱这一核心见解的注意力。

你可能还记得在之前课程中看到的同一数据的这张图表。像AirPods图片和Logo这样的无关元素已被去除,同时用颜色突出了AirPods的收入。它可能更简单,但解读起来要快得多。

原则三:情境性

情境性是指为观众的理解奠定基础。考虑你的观众对这些数据有哪些背景知识。

你需要创建一个清晰的叙事结构,即讲故事。提供相关的背景信息,将你的见解与熟悉的概念进行比较,解释专业术语,阐明数据的重要性。

根据你的汇报对象,你可能需要调整你提供的情境。倾向于包含更多情境。你很少会听到关于“信息过多”的抱怨,但信息不足则可能导致误解。


📝 总结

本节课中,我们一起学习了创建有效数据可视化的完整流程和三大核心原则。

一个设计精良、能清晰讲述故事的可视化图表将产生持久的影响力。请记住,你的目标是创建一个可视化作品,让每个看到它的人都能得出相同且正确的解读。

最后留给你一张图片。你看到的是一位老妇人还是一位年轻女子?

请继续观看下一个视频,学习更多关于数据可视化设计的知识。

052:数据编码 📊

在本节课中,我们将学习数据可视化的核心环节——数据编码。我们将了解如何通过视觉元素(如颜色、大小、形状和位置)来有效地表示数据,并遵循清晰、高效和提供上下文的设计原则。


数据编码与图表元素的区别

上一节我们介绍了有效数据可视化的总体原则。本节中,我们来看看构成图表的两个基本部分:数据编码元素和图表元素。

  • 数据编码 指数据如何通过颜色、大小、形状和位置等视觉元素被呈现。你可以将数据编码理解为“数据墨水”中直接展示数据的部分,不包括标签、网格线、坐标轴等。
  • 图表元素 则包含其他所有内容,如标签、网格线、坐标轴,以及注释、比例尺调整和标题。这些是用于提升清晰度和提供上下文的附加工具,但应审慎使用以保持图表简洁。

本视频将重点讨论数据编码,图表元素将在下一个视频中详细介绍。


数据编码的核心步骤

让我们回到之前提到的基本流程。创建图表时,应遵循一个清晰的层次结构。

第一步:确保坐标轴无误

首先,从X轴和Y轴开始。确保它们易于阅读、标签清晰且直观。

  • 对于数值特征,通常应包含零点。
  • 合理缩放坐标轴,避免夸大或压缩数据,以免扭曲信息。
  • 标签应清晰简洁。当从网格线读取精确值有困难时,标签尤其有用。

第二步:善用颜色

颜色是创造清晰度和上下文的最强大工具之一。

  • 例如,你可以用颜色来突出关键洞察,比如你公司的表现与竞争对手的对比。
  • 或者,你可以用颜色来提供上下文,比如将历史数据灰显,以将注意力集中在当前年份的表现上。

需要注意,部分观众可能存在辨色困难。全球约4.5%的人有某种形式的色盲,通常是红绿色盲。因此,在可能的情况下,建议采用双重编码,即将颜色与另一种编码方式(如独特的标记形状)结合使用,这能为所有人提供额外的清晰度。

第三步:审慎添加其他维度

但要注意你要求观众同时解读的维度数量。通常,将数据保持在两个维度(X和Y)有助于观众解读正确的洞察。如果你确实需要展示三个或更多维度,可以尝试将多个图表并排放置。

以下是一个例子:假设你想创建一个图表,来展示根据温度记录的你每天在后院观察到的鸟类数量。你通常追踪两种鸟类:知更鸟和蓝松鸦。因此你的数据有三个维度:温度、观察到的鸟类数量和物种。

让我们看看所有这些维度绘制在同一图表上的效果:X轴是温度,Y轴是鸟类数量,鸟类物种用不同颜色区分。这两种鸟似乎偏好不同的温度:知更鸟偏好适中温度,而蓝松鸦偏好更高温度。但这个图上有大量数据点,很难将两者区分开。

提高清晰度的一个选择是将数据分成两个散点图,每个图只展示一个物种。这样,单个物种的模式变得更清晰,同时仍允许你的观众比较不同物种的习性。


其他数据编码元素

本视频中剩余的元素应更审慎地使用,因为它们通常更难解读。

标记形状

标记形状是一种数据编码元素,通常用于散点图中,为数据添加第三个维度。

  • 你刚才看到的鸟类散点图是用颜色区分两个序列。
  • 这里是相同的数据,但这次使用标记形状而非颜色来区分不同物种。
  • 你认为这个图更容易还是更难解读?可能更难。因为标记很小,不同的形状并不醒目。
  • 标记形状在对比清晰时可能有用。但如果你发现自己使用了超过两种形状,或许就该重新考虑你的方法了。考虑改用颜色,或将数据分离到多个图表中。

大小变化

大小变化(常见于气泡图中)也能为可视化添加第三个维度。

  • 当存在与大小的自然类比时(如人口规模、金额),它们效果很好。
  • 以下是一个气泡图的例子,其中气泡大小由人口规模决定。该图将国家按财富(X轴)和预期寿命(Y轴)绘制。
  • 注释帮助观众发现一些最有趣的点。你能找到中国和印度——世界上人口最多的两个国家吗?它们就在这里,是两个最大的气泡。
  • 顺便一提,颜色为这个图表添加了第四个维度,你能猜出它代表什么吗?颜色对应地区:紫色代表非洲,浅蓝色代表亚洲,绿色代表欧洲,深蓝色代表美洲。

这确实是一次需要解读大量数据。请记住,效率是关键。不要过度使用视觉元素,每一次添加都应有明确的目的,即增强理解。


总结

本节课中,我们一起学习了数据编码的核心概念与技术。我们明确了数据编码与图表元素的区别,掌握了从设置清晰坐标轴、善用颜色,到审慎添加标记形状和大小变化等维度的层次化设计流程。关键在于,每个视觉元素的添加都应以提升图表的清晰度和信息传递效率为目的,避免不必要的复杂化。

现在你已经熟悉了如何在图表中使用数据编码,请加入下一个视频,我们将探索图表元素如何让你的洞察更加清晰。我们下个视频见。

053:图表元素 📊

在本节课中,我们将学习图表的核心组成部分——图表元素。这些元素不直接代表数据本身,但对于有效传达数据背后的故事至关重要。我们将探讨坐标轴刻度、注释和标题等元素,并学习如何运用它们来提升图表的清晰度和影响力。


坐标轴刻度:线性与对数

上一节我们介绍了图表的基本构成,本节中我们来看看如何通过调整坐标轴刻度来更好地展示数据。

观察这张展示互联网主机数量(即连接到互联网的设备数)的图表。X轴代表时间,Y轴代表主机数量。可以明显看出,从起始年到结束年,互联网使用量激增。然而,1981年到1997年间的设备数量变化却不够清晰。

如何更好地展示这部分数据?一种技术是使用对数刻度 替代线性刻度。

  • 在线性刻度上,数值是均匀分布的。如果你绘制10、100和1000,第二个距离(100到1000)是第一个距离(10到100)的10倍。
  • 对数刻度会转换这些数值,使10、100和1000均匀分布。它改变了Y轴上数值之间的距离,展开了较小的数值,压缩了较大的数值,从而使较低范围内的模式更加可见。

你可以通过对数据值取以10为底的对数来创建对数刻度。无需担心数学计算,软件会为你完成这一步。

# 示例:将对数刻度应用于Y轴

这是同一组互联网主机数据,但Y轴采用了对数刻度。请注意,1到10,000(差值为9,999)的距离,与10到100,000(差值为99,990)的距离长度相同。在这个版本的图表中,1981年至1997年间的显著增长变得清晰得多。

以下是考虑使用对数刻度的几种情况:

  • 当你需要覆盖大范围的数据时。
  • 当你想强调比例变化而非绝对值时。
  • 当数据点聚集在一起需要展开以提高可见性时。

对数刻度的一个限制是不能用于负值或零值。同样,无需深究数学原理,但负数和零的对数是未定义的,因此无法绘制。虽然我本人推崇对数刻度,但必须注意观众解读图表的能力。人脑并不天然以对数方式思考,需要权衡故事叙述的价值是否值得增加的理解复杂度。


包含零值的重要性

接下来,我们讨论坐标轴刻度中一个关键但常被忽视的细节:是否包含零值。

包含零值有助于传达数据的真实规模,特别是当绝对值比相对值更重要时。省略零值是误导性图表中的常见手法。

然而,通过截断坐标轴来排除零值也可能有用,如果你需要强调微小的差异。你可以将其视为对你感兴趣的数据范围进行“放大”。

以下是1960年椒盐卷饼销售数据的图表。X轴是时间,Y轴是销售额。左边的图表看起来像是“Golden Loops”品牌完全击败了“Twist and Shop”品牌。但请注意,它的刻度是从950开始的。它放大了差异。

右边是同一组数据,但刻度包含了零,展示了绝对值。看起来这两个品牌竞争力相当。

这两种图表都可能适用,取决于具体情境:

  • 左边的图表可能有助于“Twist and Shop”品牌内部讨论如何超越“Golden Loops”,因为它放大了两个品牌之间的差异。
  • 右边的图表可能对超市评估哪个品牌更受欢迎更有帮助。

注释:引导观众视线

在确定了合适的刻度后,我们来看看如何通过注释来引导观众的注意力。

注释是引导观众注意力的绝佳工具。没有注释,观众的目光可能会在图表上游离。通过精心放置的注释,你可以将他们的焦点锁定在最重要的元素上。

请记住,效率是关键。不要用过多的注释淹没你的图表。只需选择一到三个关键点进行突出显示。

同时,应考虑观众将以何种方式接触图表:

  • 如果你在进行演示,可以使用激光笔进行额外的标注,因此可能需要的注释较少。
  • 如果你的图表将被独立查看(例如在报告中),考虑添加图注来解释关键点,因为你无法亲自讲述背后的故事。

标题:传达核心洞察

最后,在选择了刻度并添加了注释之后,你需要为图表选择一个出色的标题。

你的标题不应局限于描述图表显示了什么。应将其视为突出你关键洞察的机会

例如,不要用“柏林犯罪数据”,考虑使用“今年柏林犯罪率下降”。这能立即将注意力引向你的主要观点,并有助于防止误解。

标题还可以提供关键背景信息,例如数据覆盖的时间段,这能帮助观众快速理解他们正在看什么。


总结

本节课中,我们一起学习了构建美观且功能强大的数据可视化的核心技巧。我们探讨了:

  1. 对数刻度 的原理与应用场景,它能更好地展示大范围数据或比例变化。
  2. 坐标轴是否包含零值对数据解读产生的不同影响,以及各自的适用情境。
  3. 注释 如何有效地引导观众关注图表中的关键信息。
  4. 标题 不仅是描述,更是传达核心洞察和提供背景的重要工具。

在下一个视频中,我们将看到如何运用这些技巧来改进一些图表。相信我,之后你将再也不会以同样的方式看待新闻中的图表了。我们下节课见。

054:数据可视化案例优劣分析 📊

在本节课中,我们将以批判性的眼光,分析几个真实世界中的数据可视化图表。我们将逐一审视每个图表,思考它们试图传达的故事,并探讨如何改进它们以使其信息更突出、更清晰。


第一张图表:美国碳酸软饮料市场份额

上一节我们介绍了课程目标,本节中我们来看看第一张图表。这是一张展示美国碳酸软饮料市场份额的折线图。

图表解读:

  • X轴:时间,从2000年到2020年后,跨度约二十年。
  • Y轴:各饮料的市场份额百分比。
  • 图表类型:由于是时间序列数据,选择折线图是合适的。
  • 类别编码:不同软饮品牌通过颜色区分,且颜色大致符合各品牌的标志色,这是一个不错的细节。
  • 注解:图表底部关于“销量(箱)”的注释提供了测量背景。
  • 整体趋势:可口可乐始终占据主导地位,但中期有所下滑。百事可乐则呈现稳定下降趋势。胡椒博士和雪碧缓慢上升,而健怡可乐曾短暂上升后又开始下降。一个关键发现是,胡椒博士似乎正在超越百事可乐。

以下是改进建议:

  • 将图表加宽以便于阅读。
  • 添加网格线,便于观众更轻松地比较不同品牌的数据。
  • 统一并优化坐标轴标签和标题,提高可读性。
  • 改进图表标题,使其聚焦于核心洞察。例如,可改为:“胡椒博士超越百事可乐,成为美国第二受欢迎的软饮”。

第二张图表:不同年龄组每日活动时间分配

接下来,我们分析第二张图表。这张图表来自美国劳工统计局网站,是一个交互式图表,展示了2023年不同年龄组在选定活动上的日均时间分配。

图表解读:

  • 标题:“2023年各年龄组在选定活动上的日均时间(年平均)”。标题设定了背景,但未点明关键洞察。
  • X轴:每日小时数,范围从0到12。
  • Y轴:列出不同的活动类别,无需额外标签。
  • 图表类型:考虑到需要比较多个类别,分组水平条形图是合理的选择。
  • 类别编码:颜色代表年龄组(例如,15-19岁为深蓝色,35-44岁为浅蓝色,75岁以上为绿色)。交互式功能允许观众选择相关年龄组,使图表更易解读。
  • 整体洞察:个人护理和睡眠在所有年龄组中耗时最多。工作时间在中年组达到峰值后下降。休闲时间则随着年龄增长而增加。

以下是改进建议:

  • 明确X轴标签,例如“日均花费小时数”。
  • 考虑按年龄组而非活动来分组数据,这样可以更清晰地展示每个年龄组的典型一天。

第三张图表:居住地与自然环境可得性关系

最后,我们来分析一张气泡图。气泡图是散点图的一种变体,用于展示两个数值特征之间的关系。

图表解读:

  • 标题:“您居住地的自然环境可得性”。相对清晰,但未分享关键洞察。
  • X轴:人口密度(每平方英里人数),范围从0到30000,跨度很大。
  • Y轴:自然指数得分,范围从0到100,得分越高表示自然环境可得性越好。
  • 图表类型:散点图适用于展示两个数值特征(此处是人口密度和自然指数)之间的关系。
  • 类别编码
    • 颜色:采用了发散色标进行双重编码,绿色代表高分,紫色代表低分,棕褐色代表中间值。绿色与自然的关联是巧妙的。
    • 气泡大小:代表人口规模,城市越大,气泡越大。
  • 注解:为少数大城市和一些异常值(如新泽西州联合市、弗吉尼亚州萨福克)添加了标签,提供了有用的参考点。
  • 整体趋势:图表显示了一种关系:随着人口密度增加(向右),自然指数得分倾向于下降(向下),但存在变异性,并非完美相关。例如,华盛顿特区人口密度较高,但自然得分也相对较高;而新泽西州联合市则是密度极高、自然得分极低的显著异常值。

以下是改进建议:

  • 首先,增大字体以提高可读性。
  • 数据集中在图表左侧,近一半的X轴空间只属于两个城市。解决方法之一是使用对数刻度来展开较低的值。另一种选择是直接剔除新泽西州联合市这个显著异常值。
  • 添加更多网格线以辅助精细比较。
  • 考虑添加一条趋势线,使整体关系更加清晰。
  • 优化标题,例如改为:“人口密度较低的城市通常享有更好的自然环境可得性”。

总结与专业建议

本节课中,我们一起学习了如何批判性地分析数据可视化图表。我们审视了三类图表(折线图、条形图、气泡图),评估了它们的有效性,并提出了具体的改进方案,旨在让数据故事更突出、更易懂。

记住,目标是让你的可视化作品令人印象深刻且专业。一个专业建议是:建立个人“最佳数据可视化作品集”。这在求职时将非常有用。

本课到此结束。完成练习评估后,请加入下一节课,学习如何利用大语言模型来辅助数据可视化。

我们下节课见。😊

055:使用LLM解释数据可视化 📊

在本节课中,我们将学习如何利用大型多模态模型(LMM)来辅助解释和评估数据可视化图表。我们将看到,虽然这些模型功能强大,但人类的判断力仍然至关重要。


概述

之前我们介绍了大型语言模型(LLM),但事实上,像Claude 3.5 Sonnet和ChatGPT-4o这样的模型不仅仅是LLM,它们是大型多模态模型。这意味着它们能够理解和处理不同类型的输入,通常是文本和图像。这对于数据可视化工作来说非常有用,因为它们既能帮助你解释图表,也能协助创建图表。不过,这些模型有时会出错,需要你进行核查,但它们能极大地提升你的工作效率。

接下来,我们通过具体案例来看看它们是如何工作的。


案例一:请Claude解释图表

在本模块的前面部分,你见过这张关于人口密度与自然得分的可视化图表。

现在,我们让Claude来解读这张图表。操作很简单:我将图表的截图拖入聊天框,并输入提示语:“Walk me through this chart and explain the key insights.”(带我浏览这张图表并解释关键见解。)

以下是Claude的分析:

  • 图表概述:该图表可视化了美国各城市和地区的人口密度、自然可达性与人口规模之间的关系。这个描述基本准确。
  • 坐标轴:X轴表示每平方英里的人口密度,Y轴表示自然得分。
  • 数据点:每个气泡代表一个城市或地区(根据图表标签,很可能是城市)。
  • 视觉编码:气泡的大小表示人口规模,气泡的颜色对应自然得分。
  • 关键洞察:它指出了人口密度与自然得分之间的反比关系——随着人口密度增加,自然得分趋于下降。
  • 异常值:它识别出Union City是一个极端异常值,具有非常高的人口密度和非常低的自然得分。
  • 补充观察:它评论说较大的气泡倾向于聚集在图表的右下角。这个说法不完全错误,但这些大城市彼此间并非紧密聚集,表述可以更精确一些。

你刚刚看到了Claude 3.5 Sonnet的能力。请记住,在你观看本视频时,很可能已有比这更先进的模型出现,因为模型能力正在快速迭代。


案例二:请ChatGPT评估图表

上一节我们介绍了如何用LLM解释图表,本节中我们来看看如何用它来评估和优化你自己的图表。我们将测试ChatGPT-4o的能力。

这次我们使用这张“观测到的鸟类数量与温度关系”的图表。图表中实际包含了三种鸟类数据。

我保存了这张图的图像并上传,同时使用了一个更复杂的提示语:

你是一位热衷于数据可视化的专家数据分析师。
评估此图表中每个需要改进的方面,并为如何修复问题提供具体建议。
请保持简洁,不要浪费我的时间。

由于提示语要求列出“问题”和“建议”,它给出了格式清晰的回答。以下是其输出要点:

  • 问题1:颜色区分度:Bird 1和Bird 2的颜色难以区分。(实际上三种颜色可能都太相似了,有趣的是它只指出了其中两种。)
  • 问题2:图例位置:图例覆盖了图表中的部分数据点,可能遮蔽信息。(这是一个有趣的观察。严格来说图例并未重叠任何数据点,可能只是觉得位置太近。)
  • 问题3:标记点大小与重叠:标记点太大且排列密集,在某些区域难以看清单个数据点。(这在某些区域是事实,但整体上标记点并不算太大。问题主要源于数值为0的数据点重叠非常密集。)
  • 问题4:Y轴范围:Y轴上限延伸到20,但大多数数据点集中在20以下。这造成了空间浪费,并降低了对相关数据的关注度。(我们确实有一些数据点超过了20,因此Y轴需要延伸到这个高度。)
  • 问题5:网格线:网格线主导了视觉空间,分散了对数据点的注意力。(我认为网格线的透明度问题不大,它们是浅灰色的背景线。)

总体而言,这次尝试效果一般。LLM确实发现了一些主要问题,如相似颜色和数据重叠,但它也指出了一些并非问题的地方,并且其建议并不总是很出色。因此,它可以作为一双很好的“第二眼睛”,但最终,你的判断力对于创建优秀的可视化作品仍然极其宝贵。


案例三:请Claude评估同一张图表

测试不同的模型以了解哪个表现最佳是很好的做法,特别是在处理像解读复杂数据可视化这样的高级能力时。不同模型的表现可能不同。

我将同一张图表和相同的提示语复制给了Claude。

可以看到,它的反馈与ChatGPT有很多相似之处,例如都提到了过度绘制、颜色选择、Y轴尺度等问题。在许多情况下,这些评论有些吹毛求疵,图表本身其实可以接受。但关于数据点重叠和颜色选择的主要意见是极好的建议。

它指出的一个有趣点是缺乏趋势线。它表示难以看清每个物种的整体模式,并建议为每种鸟类添加一条平滑的趋势线。这是一个值得考虑的提议。


总结

在本节课中,我们一起学习了如何利用大型多模态模型来辅助数据可视化工作。通过三个具体案例,我们看到了LLM在解释图表(如识别关系、异常值)和评估图表(如指出设计缺陷)方面的应用。

关键要点如下:

  1. LLM可以作为强大的辅助工具,快速提供对图表的初步解读和潜在改进方向。
  2. 不同模型(如Claude, ChatGPT)可能给出略有不同的反馈,值得尝试比较。
  3. 模型会犯错,其建议可能不准确或不适用。你的专业判断和核查至关重要。
  4. 在目前阶段,LLM在解释现有可视化方面似乎比批判性优化方面更为可靠,但它无疑是一个有价值的“第二双眼睛”。

因此,在进行数据可视化工作时,不要犹豫,随时可以将图表截图扔进Claude或ChatGPT,看看它们能帮你发现哪些洞察或问题。

056:使用LLM创建数据可视化 📊

在本节课中,我们将学习如何利用大型语言模型(LLM),例如Claude或ChatGPT,来辅助我们创建数据可视化图表。我们将通过一个酒店预订数据的实际案例,演示从数据上传到生成多种图表的完整流程。


概述:LLM在数据可视化中的角色

上一节我们介绍了数据可视化的基本概念,本节中我们来看看如何借助LLM工具来高效地生成图表。LLM可以理解我们的自然语言指令,并调用其内置的代码能力来创建图表,这能极大提升数据分析的效率。

第一步:选择与准备工具

首先,我们尝试使用Claude来处理一个包含36,000行数据的酒店预订CSV文件。

然而,Claude提示文件过大,无法直接处理。这表明我们需要根据数据规模选择合适的工具。

因此,我们转而使用ChatGPT。它可以轻松处理整个36,000行的数据集,因为它并非每次提示都需要读取全部数据。

第二步:生成基础图表

我们将数据集上传至ChatGPT,并提出第一个可视化请求。

以下是第一个指令和生成的图表:

用户指令:

help me visualize the total number of bookings in each of the 12 months.

生成的图表显示,全年预订量总体呈上升趋势,但在十一月和十二月出现锐减。

第三步:定制与优化图表

接下来,我们希望优化这个图表。具体需求是:X轴显示月份名称而非数字,并且将图表类型从柱状图改为条形图。

我们向ChatGPT发出调整指令。调整后的图表如下:

现在,Y轴显示了从一月到十二月的月份,条形则代表了每个月的总预订量。

第四步:探索更多可视化类型

为了深入分析,我们尝试创建更多维度的图表。

以下是几个后续请求和结果:

1. 可视化各市场细分的取消率

用户指令:

visualize cancellation rates across market segments.


图表显示,大约三分之二的预订未被取消,这与我们在电子表格中核查的数据一致。

2. 绘制每月平均预订价值

用户指令:

plot the average booking value by month.

图表表明,冬季月份的平均预订价值较低,在夏季旅游旺季达到峰值。

3. 分析重复客户与预订状态的提前期

用户指令:

create a bar chart to visualize lead time by repeated guests and booking status.

这是一个跨多个分类变量的数值变量比较。生成的是一个分组条形图。

观察到一个已知模式:已取消预订的平均提前期往往更长。值得注意的是,图表用蓝色代表“已取消”,红色代表“未取消”,这与常规直觉相反。

4. 比较已取消与未取消预订的每间房平均价格

用户指令:

How can I visualize the different values for average price per room for canceled versus not canceled bookings?

模型建议使用箱形图或小提琴图。我们尝试生成一个箱形图。

数值范围在0到550之间。箱形图中的中线代表中位数。可以看出,已取消预订的中位数价格略高于未取消的预订(大约高出10欧元),但两者的价格分布范围大致相似。

总结与后续步骤

本节课中我们一起学习了如何利用LLM作为工作流的一部分,它不仅可以帮助我们优化已有的可视化想法,还能为我们创建全新的图表。

你已经接近本模块的尾声。接下来,你将完成一个实践实验室,测试你使用LLM进行数据可视化的技能。

完成后,你将进行分级评估和分级实验。该实验将探索一个自行车共享服务的市场研究,相信你会享受创建大量酷炫图表来支撑你洞察的过程。

完成后,请跟随我进入本课程的最后一个模块,该模块将全面介绍你在数据分析生命周期中的角色。

057:数据分析生命周期简介 📊

在本节课中,我们将学习数据分析生命周期的基本概念。这是一个结构化的框架,用于指导我们如何利用数据解决问题。我们将了解其各个阶段,并探讨如何通过与利益相关者有效协作来提升分析成果。

概述

欢迎来到本课程的最后一个模块——数据分析生命周期。在前面的学习中,你已经掌握了如何使用电子表格分析和可视化数据。现在,是时候将这些技能置于一个完整的实践框架中了。

在本模块中,你将系统性地学习数据分析生命周期。这是一个利用数据解决问题的结构化方法。你将涵盖从定义问题到评估解决方案影响的每一个阶段。你还将了解到,掌握与利益相关者协作的知识能显著提升你的工作成果。

数据分析生命周期

上一节我们介绍了本模块的整体目标,本节中我们来看看数据分析生命周期的核心内容。

数据分析生命周期是一个分阶段的过程,确保数据分析项目能够系统、有效地进行。其核心阶段通常包括:

以下是数据分析生命周期的关键阶段:

  1. 定义问题:明确需要解决的核心业务问题。
  2. 数据收集与准备:获取相关数据并进行清洗、整理。
  3. 分析与建模:应用统计方法和模型探索数据、获取洞见。
  4. 结果解释与可视化:将分析结果转化为易于理解的图表和报告。
  5. 评估影响与部署:衡量解决方案的效果并将其付诸实践。

利益相关者协作

掌握了生命周期的阶段后,我们来看看另一个成功的关键因素:利益相关者协作。

你将学习如何识别你的利益相关者,确定他们的目标,并有效地与他们沟通。与利益相关者合作可能充满挑战。

以下是处理利益相关者关系的几个要点:

  • 识别利益相关者:明确谁会受到项目影响或对项目有决策权。
  • 理解目标:深入探究每个利益相关者的核心需求和期望。
  • 有效沟通:建立定期、清晰的沟通机制,同步进展与发现。

实践与应用

理论需要结合实践。在本节中,你将练习使用大型语言模型进行利益相关者分析,包括协调冲突的需求、优先排序机会以及制定有效的沟通问题。

最后,你将以一个综合性的顶点练习结束本模块。一家电信公司委托你分析客户数据,以减少服务注销量。

在模块一至三中,你学习了许多作为数据分析师日常所需的硬技能。本模块则侧重于那些能让你脱颖而出的软技能,包括适应性沟通能力战略性思维

总结

在本节课中,我们一起学习了数据分析生命周期的基本框架及其各个阶段。我们认识到,除了技术硬技能,与利益相关者的有效协作和软技能同样至关重要。

到本模块结束时,你将具备从头到尾自信地处理数据分析项目的能力。让我们开始吧。

058:数据分析生命周期 📊

在本节课中,我们将要学习一个用于构建和管理数据分析项目的核心框架——数据分析生命周期。这是一个端到端的迭代过程,它能帮助你用相同的核心方法去构建截然不同的项目。

数据分析项目很容易因其复杂性而迷失方向。你如何应对各种需求、数据和公式?一个便捷的框架就是数据分析生命周期。

什么是数据分析生命周期?🔄

数据分析生命周期分为五个关键阶段。

  1. 定义问题:你试图解决什么问题?
  2. 收集与预处理数据:所需信息在哪里?如何为分析做准备?
  3. 分析数据并识别洞见:需要进行何种分析?发现了哪些洞见?
  4. 分享结果:如何传达你的洞见以帮助决策?
  5. 评估结果:问题解决得如何?

你常常需要回顾之前的阶段。项目的成功不仅取决于分析本身,也同等程度地取决于围绕分析的各个阶段。每个阶段所花费的时间也因项目而异,你必须愿意调整你的方法。

接下来,让我们更详细地审视每个阶段。

第一阶段:定义问题 🎯

定义问题是分析的基础。其要点首先是缩小你的决策空间。当你排除了错误的方法,就能专注于最有成效的想法。其次,你要清晰地设定关于项目成功标准的期望。

以下是需要提出的一些问题。

  • 业务目标是什么?
  • 为实现这些目标需要做出哪些决策?
  • 做出这些决策的利益相关者是谁?他们的需求是什么?
  • 这个项目的成功标准是什么?

花时间把这一步做对。如果不这样做,你将因试图解决错误的问题而浪费时间。阿尔伯特·爱因斯坦有句名言:“如果我有一小时解决一个问题,我会花55分钟思考问题,用5分钟思考解决方案。”这是一个我奉行的信条。

第二阶段:收集与预处理数据 📥

在数据收集和预处理阶段,你将原始数据转化为可用的信息。正如你在模块1中所见,大多数数据在分析前都需要一些转换。在某些情况下,例如非结构化数据,所需的工作量是巨大的。缺失的信息或格式错误的列会使你的分析更具挑战性。有时你真正想要的数据可能无法获得,因此你不得不使用手头现有的任何数据。

你的洞见质量直接取决于你的数据质量。获取优质数据并将其处理成可用的形式,为富有成效的分析奠定基础。

第三阶段:分析数据并识别洞见 🔍

下一阶段是分析数据并识别洞见。你将使用统计学、数据可视化和机器学习等技术来发现数据中的模式。你还需要从这些模式中推导出洞见。在你的问题背景下,这些模式意味着什么?它们如何帮助告知利益相关者需要做出的决策?

识别洞见有点像将一种语言翻译成另一种语言。你所使用的数据语言,对于一些你将与之合作的项目经理、首席执行官和工程师来说可能不那么熟悉。你必须将分析转化为一个故事,使他人能够利用它做出更好的决策。

第四阶段:分享结果 📤

你的分析很有价值,但如果它只锁在你的电脑里就毫无用处。分享结果是创造影响力的方式。通过有效地传达你的发现,你赋予利益相关者做出明智决策的能力,从而实现项目目标。在正确的时机,以恰当的详细程度,向正确的人分享正确的发现,能将洞见转化为现实世界的影响力。

第五阶段:评估结果 📈

你已经到达数据分析生命周期的最后阶段:评估结果。你的分析帮助告知了一项决策,现在你需要评估其现实世界的影响。可以这样想:一位教练基于对对手球队的广泛分析设计了一个新的比赛计划,但该计划的真正考验是比赛本身的结果。它是否带来了胜利?同样,作为数据分析师,你的最终目标不仅仅是产生洞见,更是看到这些洞见转化为推动积极变化的行动。

在这个阶段,你应该提出以下问题:

  • 决策是否导致了我在第一阶段定义的成功的成果?
  • 利益相关者对结果满意吗?
  • 长期影响是什么?

请记住,数据分析生命周期是迭代的。从一个决策的有效性评估中获得的洞见,可以为下一轮分析提供信息,从而创造一个良性改进循环。

我经常被问到:“实践中的数据分析师真的会为每个项目一步步遵循这个生命周期吗?”坦率地说,是的,我们确实如此。即使是经验丰富的数据分析师也会告诉你,当你面临新挑战时,要回归基础。

总结 ✨

本节课中我们一起学习了数据分析生命周期,这是一个包含定义问题、收集与预处理数据、分析数据并识别洞见、分享结果、评估结果五个阶段的迭代框架。理解并遵循这个生命周期,能帮助你有条不紊地开展数据分析项目,确保分析工作始终围绕核心目标,并最终产生实际影响力。在接下来的视频中,我们将更深入地探讨第一阶段——定义问题。

059:问题定义 🎯

在本节课中,我们将要学习数据分析流程中的第一步:如何清晰、准确地定义问题。这是确保后续所有分析工作方向正确、价值最大化的关键基础。


概述

利益相关者常常会请求你帮助解决一个定义模糊的问题。作为数据分析师,你的部分职责就是澄清真正的问题,以便将所有人的努力集中在正确的目标上。一个好的起点是提出正确的问题。


如何定义问题

上一节我们介绍了问题定义的重要性,本节中我们来看看具体如何操作。以下是定义问题的几个核心步骤。

明确业务目标

首先,需要明确业务目标。公司或组织希望实现什么?虽然大多数企业的目标是增加销售额、降低成本和提高客户满意度,但你需要找到更具体、可聚焦的目标。

一个例子是“提供更好的产品推荐”。最终,更好的推荐会提升销售额等高层级结果,但它本身是一个更直接、可衡量的结果,可以作为你的工作重心。

识别利益相关者及其需求

接下来,需要识别利益相关者及其需求。谁将使用你的分析结果?他们需要做出什么决策?什么信息对他们最有帮助?

以下是需要考虑的利益相关者类型:

  • 客户/用户:他们希望获得更好的体验或解决特定问题。
  • 内部团队(如市场、产品):他们需要数据来优化策略或功能。
  • 管理层:他们关注整体业务绩效和资源分配。

确定关键未知项

最后,确定关键未知项。这些是目前还没有答案的开放性问题。

以下是建立关键未知项的一些好问题示例:

  • 哪些营销渠道最有效?
  • 与客户取消订阅相关的因素是什么?
  • 用户流失的主要原因有哪些?

实战案例:医院再入院率分析

现在,让我们通过一个案例来应用以上步骤。假设你是一家医院的数据分析师。

医院发现肺炎患者的再入院率有所上升。较低的再入院率更好,因为患者希望一次就解决问题,而重复就诊会给医护人员带来压力。医院希望了解导致此问题的因素。

第一步:确定业务目标

在这个案例中,医院的业务目标是 降低患者的再入院率

第二步:考虑利益相关者及其需求

利益相关者是对分析结果有切身利益的人。医院的利益相关者包括患者及其家属、医生、护士和医院管理人员。

考虑他们各自的需求:

  • 患者及家属:想知道如何获得最好的护理。
  • 医生和护士:希望找出改善患者护理的潜在方法。
  • 医院管理人员:希望有效分配资源以维持医院运营。

通过花时间了解你的利益相关者,你可以调整沟通方式,为他们提供最具可操作性的见解。例如,如果你发现“多10分钟的家庭护理教育能改善患者预后”,那么:

  • 患者可以了解他们能够自行控制的关键再入院风险因素。
  • 医生和护士可以多花几分钟解释家庭护理。
  • 管理人员可以调整排班,允许医护人员在患者身上花费更多时间。

第三步:确定关键未知项

这些是尚未有答案的开放性问题。

针对此案例,以下是一些用于确立未知项的好问题:

  1. 肺炎患者再入院最常见的原因是什么?
  2. 在再入院患者的人口统计学特征、病史或治疗方案中是否存在任何规律?
  3. 家庭护理中是否存在可能导致再入院的漏洞?
  4. 可以实施哪些干预措施来降低再入院率?

你可能会觉得需要深入了解医院内部才能提出这些问题。虽然这确实有帮助,但你并不需要知道一切。关键在于与你的利益相关者合作,了解他们面临的挑战。随着时间的推移,你将能够提出更好的问题。你在医疗保健领域花费的时间越多,对医院的了解就越深入。但无论如何,与利益相关者确认你的方法总是有益的。


总结与过渡

本节课中,我们一起学习了如何通过明确业务目标、识别利益相关者及其需求、确定关键未知项这三个步骤来清晰定义一个问题。这是数据分析项目成功的基石。

现在,你已经明确了目标。在下一个视频中,你将深入数据收集和预处理的世界。我们稍后见。


060:数据收集与预处理

在本节课中,我们将学习数据分析流程中的关键第一步:如何获取并准备数据。我们将探讨如何识别合适的数据源,以及如何通过预处理将原始数据转化为可供分析的整洁格式。


🧹 数据收集

上一节我们介绍了数据分析的起点是明确问题。本节中我们来看看如何为解决问题寻找合适的数据。

数据收集是指识别有助于解决问题的信息来源。这个过程可能涉及查询数据库、进行问卷调查,甚至从网络抓取数据。

选择正确的数据来解决问题可能具有挑战性。以下是具体步骤。

首先,回顾你的问题陈述。确定你关注的主要结果。它可能是销售额、评论、成本等。

然后,构思能将主要结果置于背景中的数据。例如,如果你的问题是关于客户留存率,你关注的主要结果可能是客户取消服务的比率。

有了这个结果背景,你就可以使用客户人口统计数据、购买历史和用户参与度指标。

一旦知道需要何种数据,就构思潜在的数据来源。这可能包括内部数据库、公开可用的数据集,甚至是通过调查或实验自己收集的数据。

并非所有数据源都同等重要。需要考虑数据的可访问性(你是否有权限访问它)及其质量(是否准确和最新)。你可能无法收集到最初构思的所有数据,应优先考虑最有可能产生有价值见解的来源。

你还需要确保收集的数据能使项目保持在预算和时间范围内。如果不确定应优先考虑哪些数据源,可以咨询领域专家。他们可以识别出通常用于回答类似行业问题的数据类型。


🔧 数据预处理

你收集的原始数据很少能让你立即开始分析。预处理是将原始数据转换为可供分析的数据所需进行的工作。

以下是数据预处理的一些常见步骤。

首先,格式化:确保数据采用易于分析的一致格式。

其次,清洗:移除错误、重复项和异常值。

然后,处理缺失值:填补空白或移除不完整的数据。

最后,转换:转换数据类型、聚合值或创建新特征。


📈 一个真实世界的例子

我想向你展示一个真实世界的例子。这是一个公开的调查,用于收集自我报告的管理者薪资信息。

每个人通过谷歌表单提交他们的薪资信息。对于某些选项,如年龄范围或专业经验年限,你可以从一组选项中选择。但对于其他信息,如职位、行业、薪资或地点,信息只是纯文本。

这是该调查结果的电子表格,由“Ask a manager”组织定期发布。这些是2019年的结果,比近期的数据更混乱一些。

每一行(或观察)是一个回复,每一列是一个问题,例如“你多大了?”、“你在哪个行业工作?”等等。

仅通过查看这个电子表格,你就能发现某些列内的信息看起来不一致。例如,你可以看到有些薪资数字包含了货币单位,有些则没有。这个在数字后面有美元符号,这个在前面有美元符号,而这个有空格且完全没有货币符号。

你还可以看到地点的提交方式有很大差异。在这种情况下,它是城市、州和国家,用斜杠而不是逗号分隔;而在这种情况下,它只是一个州的某个区域。

此外,还有一些看起来不合法的行。例如,这里有几行只有部分信息:年薪3美元,专业经验一年或更少,这看起来不像一个合法的提交。同样,对于这个条目,他们只报告了年薪1美元以上。

如果你想按地点分析这些数据,你必须做相当多的工作来标准化薪资和地点,并移除不合法的行。

理想情况下,你应该提前考虑这些潜在问题,并在表单设计中加入约束。例如,“Ask a manager”组织后期版本的表格会要求填写美国州名,并为货币提供更多选项。

预处理数据可以非常有成就感,因为你看到数据从混乱到整洁的戏剧性变化。这也是为什么清洁视频在网上如此受欢迎的原因。

请跟随我进入下一个视频,看看你如何使用这些干净整洁的数据来进行有用的分析。


✨ 总结

本节课中我们一起学习了数据收集与预处理的核心步骤。我们了解到,数据收集始于明确问题并识别相关数据源,而数据预处理则通过格式化、清洗、处理缺失值和转换等步骤,将原始数据转化为可供分析的整洁格式。这是确保后续分析准确有效的基础。

061:数据分析方法概览 📊

在本节课中,我们将学习数据分析的核心方法。数据经过预处理后,分析阶段是将原始数据转化为洞见的关键环节。根据数据类型和待解决的问题,我们可以选择多种分析方法。

描述性统计 📈

上一节我们介绍了数据预处理,本节中我们来看看如何通过描述性统计来总结数据特征。描述性统计使用频率、均值、中位数或相关性等度量来概括数据的不同特征。在本课程中,你已经使用了许多核心的描述性技术。

数据可视化 🖼️

常言道,一图胜千言。数据的可视化总结通常能帮助你发现仅靠描述性统计不易察觉的趋势。

统计分析、建模与机器学习 🤖

统计分析和建模允许你评估关于数据的假设或理解特征之间的关系。你将在本系列的下一课程中探索许多这类技术。
机器学习使用复杂的算法从数据中学习并进行预测。这些方法的复杂度通常递增,但每种方法本身都可能非常强大。很多时候,仅使用描述性统计和可视化就足以很好地解决你的问题。


假设你是一名数据分析师,正在为一个公共卫生组织工作。你当前的项目是评估一项针对21至30岁人群的反吸烟倡议的有效性。

以下是为此项目可能执行的一些分析:

你可以从描述性统计开始,分析目标人群的人口统计数据(如年龄、收入和教育水平)和健康相关数据(如身体质量指数、吸烟状况和运动习惯)。

你可以执行细分分析,以评估数据中子群体的特征。例如,你可以计算每个年龄组的吸烟率,以便更好地了解21至30岁年龄组与其他年龄组的比较情况。

数据可视化可以帮助总结你计算的描述性统计量。例如,你可能希望用条形图绘制不同年龄组的吸烟率,以便进行轻松比较。

你也可以创建折线图来追踪吸烟率随时间的变化趋势。对于复杂或大型数据集,数据可视化确实能大放异彩。对于这个项目,你可以创建一张地图,显示目标人群吸烟率的地理分布。这张地图能让你快速识别特定州或地区的热点区域。

统计分析帮助你评估关于数据的具体问题。它让你更有信心,确信观察到的结果是真实效应,而非随机因素所致。你可以进行假设检验,以确定组间差异是否足够显著,能够表明是真实效应而非随机变异。你可以检验接受干预的群体中,吸烟率是否存在统计学上的显著下降。

你也可以开发一个回归模型,以识别与吸烟关联最强的因素。此分析的见解有助于调整干预措施,以针对特定的风险因素。

对于更复杂的建模,你可以使用机器学习。机器学习算法从数据中学习模式,以预测感兴趣的具体结果。根据从先前分析中学到的知识,你可能会考虑训练一个预测模型,以识别最有可能从干预中受益的个体。这个模型可以帮助将资源定向到那些受益最大的人群。

你也可以使用聚类算法将目标人群划分为具有相似特征的群体。这种方法可能有助于你提高干预措施对特定亚群的有效性,而不是采用“一刀切”的方法。

通过结合描述性统计、数据可视化、统计建模和机器学习,你可以对公共卫生干预计划进行全面评估。你的工作使该组织能够就未来的计划做出数据驱动的决策,包括识别对反吸烟倡议接受度最高的人群细分、可视化随时间变化的地理趋势、识别导致吸烟率的最重要因素,以及个性化干预措施以最大化其影响。

对于每个项目,请考虑采用多方面的分析方法。尝试所有这些类别中的方法,为下一步的成功做好准备。


本节课中我们一起学习了数据分析的四大核心方法:描述性统计、数据可视化、统计分析/建模以及机器学习。我们通过一个公共卫生项目的实例,看到了如何综合运用这些方法,将数据转化为可指导决策的深刻洞见。掌握这些方法,是成为一名优秀数据分析师的关键。

062:洞察识别 🎯

在本节课中,我们将学习数据分析的核心目标:如何从数字结果中识别出有价值的洞察,并将其转化为支持商业决策的证据。

所有分析工作的最终目的,都是为了识别洞察。这意味着我们需要理解数字背后的含义,并明确它们如何帮助你做出决策。


洞察识别框架 📋

以下是一个可用于识别洞察的框架。我们将分步解析这个框架,并通过一个练习来加深理解。

第一步:识别关键结果

首先,需要从分析结果中提取出最关键的数据发现。

第二步:关联业务目标

接着,需要思考这些关键结果与组织的业务目标有何关联。

第三步:解释结果

然后,为观察到的结果提供一个合理的解释。

第四步:提出建议(如适用)

最后,如果情况允许,基于洞察提出具体的决策建议。


实践练习:公共卫生项目 🧪

上一节我们介绍了洞察识别的四步框架,本节中我们来看看如何应用它。我们将通过一个假设的公共卫生项目案例进行练习。

假设你进行了一项对照实验。一部分参与者接受了干预措施(包括个人咨询课程和尼古丁替代疗法),而另一部分参与者仅收到标准教育材料。

你发现,干预组参与者的戒烟率显著高于标准组。具体数据是:干预组在六个月后的戒烟率为 25%,而标准组的戒烟率为 10%。此结果具有统计显著性,这意味着你可以确信这一发现是真实效应,而非巧合。

那么,你如何从这一结果中识别出洞察呢?让我们套用刚才看到的洞察识别框架。


应用框架解析结果

以下是应用四步框架对上述结果进行分析的过程:

第一步:识别关键结果
关键结果是:干预组 25% 的戒烟率与标准组 10% 的戒烟率之间存在统计显著性差异。

第二步:关联业务目标
该公共卫生组织的业务目标是降低21至30岁人群的吸烟率。

第三步:解释结果
基于你的证据,可以得出结论:与标准做法相比,所提供的干预措施能更有效地帮助减少吸烟。

第四步:提出建议
你可以为该组织推荐几种基于此洞察的行动方案:

  • 投资资源,向所有21至30岁的吸烟者提供此项干预。
  • 进一步研究该干预措施的长期效果是否依然积极。
  • 识别从干预中受益最大的人群子集。
  • 推广该干预措施益处的公众认知。

总结与展望 📈

本节课中,我们一起学习了洞察识别的完整流程。你已经看到,数据分析不仅仅是计算数字,更重要的是将研究发现转化为能够为特定商业决策提供证据的洞察。

在下一个视频中,你将学习如何有效地传达这些洞察,并确保它们触达正确的受众。我们稍后见。

063:成果分享 📊

在本节课中,我们将学习如何有效地向利益相关者分享数据分析的成果。完成分析并获得一系列有价值的见解后,关键的一步是将这些发现清晰地传达出去。我们将探讨不同的分享形式、选择依据以及确保沟通有效的核心原则。


选择分享形式

上一节我们介绍了分享成果的重要性,本节中我们来看看如何选择最合适的分享形式。在决定如何分享结果时,需要考虑两个主要因素。

首先,何种方式最适合你要传达的见解。复杂的数据需要可视化。如果你需要沟通多个见解,应该将它们进行总结。数字应该结合其意义进行情境化说明,新数据可以与历史数据进行对比。

其次,你的利益相关者有何需求。利益相关者的技术知识水平各不相同。具有深厚技术背景的人可能希望了解更多细节,而技术经验较少的人则可能受益于减少专业术语的详细讲解。利益相关者可能有时间限制,或偏好特定的信息接收方式。他们对业务决策的控制程度也各不相同。

基于这些问题,你应该选择一个合适的格式来分享你的结果。

以下是几种常见的分享形式及其适用场景:

报告
报告是你发现的书面总结,通常包含可视化图表。当你需要提供详尽的解释、记录你的方法论或向技术型受众呈现复杂发现时,报告非常有用。当你需要快速沟通,或面向可能没有时间或专业知识阅读长篇报告的非技术型受众时,报告就不那么有用了。

仪表盘
仪表盘是一种交互式可视化工具,允许用户自行探索数据。当你希望赋能利益相关者,让他们自己发掘见解、提供便捷的当前信息访问渠道或跟踪一段时间内的绩效时,仪表盘非常有用。当你需要提供详细解释、记录方法论或交互性没有用处时,仪表盘就不那么有用了。

演示文稿
你经常会发现自己需要进行演示,即现场分享你的发现,通常伴随着视觉材料。这是讲故事的绝佳机会,当你需要说服听众、让利益相关者参与讨论或向大型团体展示时,演示文稿非常有用。当听众需要重新接触信息,或不同听众需要不同深度的解释时,演示文稿就不那么有用了。

机器学习模型
你还可以考虑部署一个机器学习模型,用于自动化决策。当你需要基于传入的数据频繁做出决策时,模型非常有用。当你需要解释发现背后的推理过程、交互式探索数据或与非技术型受众沟通时,模型就不那么有用了。


探索创新形式

除了上述常见形式,你还可以尝试许多其他的沟通方式。我最喜欢的形式之一是“滚动叙事”,这有点像报告的交互式版本。

这里有一个来自 Pudding.cool 的优秀例子:《什么让一张专辑成为有史以来最伟大的专辑?》。你可以看到2003年的排名,它将专辑分为前10名、第11至250名和第251至500名。你可以看到故事的展开,这创造了一种真正互动的体验,同时你也能获得关于所有这些伟大音乐的见解。在这个例子中,你实际上可以比较三个不同时间点的前十名专辑,看看2020年有哪些新专辑进入了前十名。

我鼓励你访问 Pudding.cool 查看更多引人入胜的例子。


核心沟通原则

无论你选择何种方式分享结果,都需要牢记几个关键原则。

清晰性
确保你的信息易于理解。避免使用技术术语,并利用可视化图表阐明你的观点。要清楚你的受众知道什么,可能不知道什么。

相关性
专注于与你的利益相关者目标最相关的见解。通常,你对自己数据的了解程度远超需要沟通的范围。克制住分享你所知道的一切的冲动。相反,帮助你的受众理解他们需要知道什么。

可操作性
记住,要将重点放在需要做出的决策上。如果合适,提供基于证据的建议。

遵循这些原则,你可以确保你的工作对业务产生真正的影响。


总结与行动号召

本节课中,我们一起学习了如何有效地分享数据分析成果。分享你的结果至关重要。试着克制住将分析结果“扔过墙”然后继续下一个项目的冲动,留下利益相关者自己去琢磨一切意味着什么。致力于围绕你的见解构建最有效的叙事,这有助于确保最终的决策是基于你的辛勤工作和专业知识做出的。

064:数据分析生命周期 - 效果评估 🎯

在本节课中,我们将学习数据分析生命周期的最终阶段——效果评估。我们将探讨如何衡量决策的影响、评估利益相关者的满意度,并从项目中汲取关键经验,以实现持续改进。


概述

效果评估是数据分析生命周期的最后一步。在这个阶段,你需要评估工作的实际影响,判断决策是否达到了预期目标,并从中学习以指导未来的项目。


评估决策是否达到预期效果

为了评估决策是否带来了期望的结果,你需要在项目开始前就明确定义成功的标准。这些标准通常是可直接测量的,因此常被称为指标

例如,你的吸烟预防干预措施可能对60%的21至30岁人群有效。你的目标可能是通过更新干预措施,将这个指标提升到70%。

为了评估效果,你应该计算决策实施前后的关键指标。这些数值的差异衡量了决策的影响。

公式示例:

效果 = 决策后指标值 - 决策前指标值

例如,你可以测量在更新干预措施前后,21至30岁人群中能坚持至少六个月不吸烟的百分比。这个百分比是上升、下降还是保持不变?如果上升,就证明你的决策产生了积极效果。

这种评估可能需要严谨的统计分析。你还应该在一段较长的时间内持续监测相关指标,以评估积极效果的可持续性。有可能一个指标改善了,而另一个关键指标却保持不变甚至下降。

例如,戒烟率的提升可能只是暂时的,一年后就会趋于平稳。


评估利益相关者满意度

为了评估利益相关者的满意度,你需要通过调查、访谈或焦点小组等方式收集他们的反馈。即使是电梯里的简短交谈也可能很有效。

询问他们对结果的看法、哪些方面做得好、哪些方面可以改进。这种定性反馈为了解决策的影响提供了宝贵的见解。


从项目中学习

效果评估不仅仅是衡量成功或失败,更是关于持续改进。有时,数据分析师可能进行了错误的分析,或者即使分析正确,也可能做出了错误的决策。

这些不理想的结果仍然是绝佳的学习机会。

一个著名的从错误决策中学习的例子是“新可乐”的故事。1985年,面对市场份额下降,可口可乐公司用更甜的新配方“新可乐”取代了经典配方。尽管大量口味测试表明消费者更喜欢新口味,但公众反应强烈,对原配方产生了怀旧情绪。

核心概念:

正确分析 + 错误决策 = 学习机会

这次巨大的市场反弹迫使可口可乐在77天后重新推出了经典配方,称为“可口可乐经典”。尽管公司短期内遭到了公众嘲笑,但最终变得更加强大。经典可乐的回归带来了销售激增,并巩固了品牌的文化意义。

通过承认并从错误中学习,可口可乐将一场潜在的灾难变成了宝贵的学习机会。这提醒我们,即使是出于好意的、基于数据的决策也可能产生意想不到的后果,而适应和从失败中学习的能力对于长期成功至关重要。

花时间反思你的工作,你将能识别出可以改进的领域。这种自我反思将使你成为一名高效的数据分析师。


总结

本节课中,我们一起学习了数据分析生命周期的最后阶段——效果评估。我们探讨了如何通过对比决策前后的关键指标来量化影响,如何收集利益相关者的反馈来评估满意度,以及如何从所有结果(包括不理想的结果)中汲取经验,实现个人和项目的持续改进。

至此,我们完成了对整个数据分析生命周期的介绍。拥抱这个迭代的过程,可以确保你的项目不断进步。完成本课的练习评估后,希望你能加入下一课的学习,下一课将重点讲解如何与利益相关者协作。

065:收集利益相关者需求 📋

在本节课中,我们将学习如何有效地与利益相关者沟通并收集他们的需求。这是数据分析项目成功的关键第一步,能确保你的工作与业务目标保持一致。


当我最初加入Netflix时,我热爱电影和电视剧,但对这些内容是如何制作出来的知之甚少。学习如何将数据引入这个创意世界既令人兴奋又让人紧张。我唯一确定的是,我需要沉浸到影视制作的世界中。

我接触了负责真人影视制作不同环节的利益相关者,包括视觉特效和后期制作。我从他们身上学到了很多关于他们领域如何运作的知识,以及他们面临的挑战。这些挑战激发了我关于如何将分析引入他们决策过程的想法。

我之所以能为制作团队开发出有效的见解,是因为我花时间去理解他们的工作。随着时间的推移,我获得了关于真人影视制作的更专业的知识,即领域知识。我开始更有信心地提出合作想法。

早期的成功在我的团队和利益相关者之间建立了信任,利益相关者也更了解我们的能力。这发展成了一个高产的合作伙伴关系,至今仍在持续产出成果。

利益相关者沟通和领域知识的获取是双向的。你了解业务,业务也了解你能为他们提供什么。

我给你的建议是从源头吸收领域知识,也就是从实际工作的人那里。阅读和会议可以补充你的知识,但没有什么能替代高质量的、传统的相处时间。观察、倾听、提问,随着时间的推移,你将能够共同抓住产生重大影响的机会。


上一节我们了解了与利益相关者建立联系和获取领域知识的重要性,本节中我们来看看如何具体操作。我有一个有用的框架给你。

会前准备
在与利益相关者会面之前,尽你所能去了解他们的工作以及你试图解决的具体问题。这项准备工作将帮助你在会议期间提出有见地的问题。

积极倾听
积极倾听利益相关者要说的话。关注他们的目标和痛点。多听少说,并做好笔记,因为相信我,你之后会忘记细节。

提出开放式问题
不要只问是或否的问题。鼓励利益相关者详细阐述并提供细节。

例如,不要问“你认为干预措施有效吗?”,而应该问“你认为哪些因素促成了我们看到的干预结果?”

确认理解
确保你澄清了对利益相关者所说内容的理解。提出后续问题。在对话结束时,复述你听到的内容,以确保你们达成共识。

保持谦逊
最重要的是,以谦逊的态度进行对话。这些人都是他们所在领域的专家,他们花了大量时间学习如何工作。所以请从这个假设出发。避免抱着“你是来拯救局面”的态度。


在沟通过程中,提问是至关重要的一环。以下是帮助你了解待解决问题的几个最相关的问题:

你的业务目标是什么?
有时这是一个直接的问题,有时则不然。带着尊重去挑战你的利益相关者,或者让他们阐述他们认为自己的工作如何影响业务,这是为你自己的工作带来清晰度并最终增加价值的好方法。

你如何定义成功?是否有用于评估成功的具体指标?
利益相关者可能会说他们没有指标,但你仍然需要让他们定义他们对成功的愿景。你也可以借此机会帮助他们制定一个指标。

你面临的最大挑战是什么?
假设你的一个利益相关者说他们花了太多时间在重复性任务上。问问自己:我能将这个挑战与重要的业务目标联系起来吗?如果能,很好。如果不能,你可能需要进一步探索以找到真正的问题所在。

你需要基于此分析做出哪些决策?
这个问题将帮助你决定执行哪种类型的分析。它也可能帮助你理解如何设计分析输出,以便你的利益相关者能轻松识别正确的见解。

你预计这项工作存在哪些风险?什么情况会导致你不使用这个分析?
这些都是许多人可能不会问的棘手问题。但如果你不问,你可能会发现自己陷入一个希望当初问了的境地。最终,你要对自己如何花费时间负责。所以这是你帮助确保时间被妥善利用的机会。


与利益相关者保持一致是一个持续的过程,并非一劳永逸。通过花时间理解利益相关者的需求,你可以确保你的工作符合他们的期望。

在本节课中,我们一起学习了如何通过有效沟通和提问来收集利益相关者的需求。关键在于积极倾听、提出开放式问题、确认理解并保持谦逊的态度。掌握这些技巧,将为你的数据分析项目奠定坚实的基础。

066:整合利益相关者输入 📊

在本节课中,我们将学习如何系统性地整理和分析从利益相关者那里收集到的信息。这个过程对于将模糊的需求转化为清晰、可执行的数据分析问题至关重要。

你已经从利益相关者那里收集了大量信息。现在,如何理解这一切?利益相关者的需求可能相互冲突,关键的利益相关者有时也难以准确表达他们的真实需求。无论如何,你需要找到一种方法来理清头绪。

以下是你可以遵循的一个流程,用以整合从利益相关者那里学到的东西。

第一步:整理信息

首先,整理你收集到的信息。将笔记、访谈记录和文档汇编到一个地方。

第二步:识别主题

然后,识别主题。寻找反复出现的想法。利益相关者提到的主要关切点、目标和挑战是什么?

有时仅通过回顾笔记很难识别主题。你可以尝试将不同的主题写在便利贴上,并将相关笔记归类到每一堆中,以观察哪些内容突出。或者,你也可以利用大型语言模型来整合主题。

第三步:确定优先级

一旦确定了主题,就需要确定优先级。并非所有信息都同等重要。确定哪些见解与业务目标最相关。如果你只能解决一个主题,那会是哪一个?为什么?

第四步:完善业务问题

基于你的整合分析,完善你的业务问题。确保它们是具体的、可衡量的、可实现的、相关的、有时限的。这就是SMART框架

第五步:验证主题

最后,验证你的主题。与利益相关者分享你完善的业务问题,并获取他们的反馈。这确保你没有遗漏任何重要内容。这相当于对话中的积极倾听:你复述你认为利益相关者所说的内容,并确认你的理解是正确的。


使用拉姆斯菲尔德矩阵

你可以使用的一个工具是拉姆斯菲尔德矩阵。这是一个根据认知和确定性将信息分为四个象限的框架:已知的已知、已知的未知、未知的已知,以及最棘手的未知的未知。

未知的类别听起来可能有点令人紧张,但这个框架可以帮助你确定需要进一步调查的领域的优先级。

让我们详细了解一下每个类别。

已知的已知

已知的已知是你确信自己知道某些事情的领域。这个象限包含事实、信息和见解,这些是你和你的利益相关者都意识到并理解的。它们是决策的基础。

已知的未知

已知的未知是你确信自己不知道某些事情的领域。这个象限包括你意识到但尚未找到答案的问题或不确定性。它们是你需要通过数据收集和分析来填补的知识空白。

未知的已知

未知的已知代表你拥有但不知道自己拥有的知识。这个象限包括你或你的利益相关者潜意识中拥有但未明确表达的信息。它们可能基于直觉、经验或轶事证据。

未知的未知

未知的未知意味着你不知道自己不知道的事情。这些实际上是盲点,是不可预测或未预见到的、可能影响你分析的因素。它们是你尚未意识到的风险。


聚焦“已知的未知”

作为一名数据分析师,已知的未知类别通常具有最大的潜在影响力。

原因如下:

  • 已知的未知代表了你可以通过数据分析来回答的可操作问题。
  • 通过专注于这些问题,你可以生成直接解决当前业务问题的见解。
  • 识别和解决已知的未知可以帮助你减轻与项目相关的潜在风险。
  • 通过优先处理已知的未知,你可以更有效地分配资源(如时间、预算和专业知识),专注于能产生最有价值见解的领域。

在大多数情况下,你不应花大量时间在未知的未知上。将它们纳入你的分析是很困难的。


应用示例:异域宠物店

让我们看一个如何应用拉姆斯菲尔德矩阵的例子,使用你在之前模块中看到的异域宠物店场景。

假设该店计划开发一个忠诚度计划以增加回头客。你已经采访了利益相关者并收集了以下一组见解。让我们对它们进行分类。

以下是分类过程:

  1. 当前收入构成为70%新客户,30%回头客。 这是一个事实,所以它属于已知的已知
  2. 意外成本或供应链问题影响盈利能力。 这是一个可能影响分析结果的不可预测因素,所以它是未知的未知
  3. 优化忠诚度计划结构以推动重复访问。 这是一个已识别的问题,所以它是已知的未知
  4. 潜在的颠覆性竞争对手或商业模式。 这是一个可能影响分析结果的不可预测因素,所以它是未知的未知
  5. 回头客的平均交易价值高出25%。 这是一个事实,所以它属于已知的已知
  6. 旺季和节假日会带来新客户的礼品购买激增。 这是来自销售团队的见解,你可能尚未意识到,所以它是未知的已知
  7. 优化库存组合以最好地满足新客户与回头客的需求。 这是一个已识别的问题,所以它是已知的未知

通过这个分类,你可以清晰地看到:

  • 已知的已知是分析的基础事实。
  • 已知的未知(如优化忠诚度计划结构、优化库存组合)是可以通过数据分析直接解决、并为业务带来影响的关键机会。
  • 其他类别(未知的已知、未知的未知)则需要通过持续沟通、探索性分析或风险监控来管理。

总结

本节课中,我们一起学习了如何整合利益相关者的输入。

记住,整合利益相关者输入不仅仅是总结他们说了什么,更是关于提取见解、连接信息点。这个过程将帮助你制定出可操作的业务问题。

通过遵循整理、识别、排序、完善、验证的流程,并借助拉姆斯菲尔德矩阵等工具进行结构化思考,你可以确保数据分析工作始于清晰的方向,并紧密围绕核心业务目标展开。

067:利益相关者沟通与跟进 📊

在本节课中,我们将要学习数据分析生命周期中一个至关重要的环节:与利益相关者进行持续沟通与跟进。许多初学者在完成问题定义阶段后,会急于投入数据收集、预处理和分析工作。然而,有效的沟通是确保项目成功的关键。

持续沟通的重要性 🤝

上一节我们介绍了数据分析生命周期的起点是“发现问题”。本节中我们来看看,为什么在后续阶段与利益相关者保持沟通至关重要。

利益相关者不会在你埋头工作时凭空消失。定期与他们沟通核对,对项目成功有诸多益处。

以下是定期沟通核对的主要好处:

  • 确保方向一致:确认你的工作方向与项目目标相符。这里的“方向一致”是一个比较宽泛的概念,其核心含义是你与利益相关者对项目的理解处于同一层面
  • 避免后续返工:通过早期寻求反馈,可以预防后期出现方向性错误,从而减少重复劳动。
  • 建立信任关系:定期沟通能建立信任,并表明你重视利益相关者的意见。
  • 共同解决障碍:利益相关者的意见能帮助你应对工作中的阻碍,让你能更快地解决潜在问题。正所谓“三个臭皮匠,顶个诸葛亮”。
  • 持续展示价值:展示你的进展,可以在整个项目过程中持续提供价值,并证明你工作的影响力。

与利益相关者沟通,能让你的工作进度持续可见,而不是等到最后才分享结果。

如何进行有效的沟通核对 📅

了解了沟通的重要性后,我们来看看具体应该如何执行每一次沟通核对。

每次与利益相关者沟通前,你都需要做好准备,包括一份简洁的进展总结以及你希望讨论的具体问题。这种方法能确保讨论聚焦高效。

以下是有效沟通核对的三个关键步骤:

  1. 征求反馈:积极倾听他们的想法,不要带有任何防御心态。
  2. 明确后续步骤:确定下一步行动,以推动项目继续前进。
  3. 营造协作氛围:这一步能创造协作氛围,因为你表明了你计划及时处理他们的反馈。

那么,如何确定沟通的方式和频率呢?以下是三个需要考虑的因素:

  • 项目复杂度:更复杂的项目可能需要更频繁的沟通核对。
  • 利益相关者可用性:协调沟通时间时,要考虑利益相关者的日程安排,尽量不要因频繁占用他们的时间而造成负担。
  • 沟通偏好:有些利益相关者可能偏好正式会议,而另一些可能更习惯非正式的邮件更新或快速电话沟通。

实践案例:异宠商店 🦎

理论需要结合实践。让我们通过一个异宠商店的案例,来看看上述原则如何在实际中应用。

假设这个项目的利益相关者包括:作为主要决策者的商店店主、一位市场经理以及客户服务代表团队。

我们来探讨在生命周期的每个阶段,你如何利用沟通核对,以及应该寻求什么样的成果。

  • 问题定义阶段:与店主的初次会议可能产生一些潜在解决方案的头脑风暴,例如建立一个忠诚度计划,同时收集关于商店整体目标、目标客户和预算限制的信息。随后与店主和市场经理的跟进会议,可能会形成一个更精确的问题陈述:通过忠诚度计划提高客户留存率和终身价值
  • 数据收集与预处理阶段:与客户服务代表的沟通核对,可以让你收集关于客户的定性反馈,包括常见的痛点以及他们对忠诚度计划的建议。另一次与店主和市场经理的沟通核对,则可以专注于识别可用的客户数据。
  • 分析与洞察发现阶段:与店主和市场经理的沟通核对,让你可以分享从客户数据分析中得出的初步发现,例如忠诚度计划的潜在投资回报率。这也是一个围绕任何意外挑战共同解决问题的机会。
  • 结果分享阶段:你需要提供一个全面的发现展示,包括对忠诚度计划结构、潜在奖励和沟通策略的建议。这是收集对拟议计划反馈的时机。
  • 成果评估阶段:与店主和市场经理沟通核对,讨论忠诚度计划的实施计划,收集关于潜在挑战和风险的意见。在计划启动后,与所有利益相关者沟通核对,以监控其表现、收集反馈并持续改进计划。

通过在数据分析生命周期中始终与利益相关者保持互动,这家宠物商店可以确保其忠诚度计划是基于充分信息制定的、得到有效实施,并最终成功实现其提高客户留存率和终身价值的目标。

你可以想象,由于这些持续的沟通,店主、市场经理和客户成功团队会感到多么受支持。他们会觉得,在业务经历重大变革时,他们拥有一位得力的合作伙伴。

总结与展望 🎯

本节课中我们一起学习了在数据分析项目中与利益相关者保持沟通的核心价值与方法。

在整个数据分析项目中与利益相关者保持沟通核对,有助于确保你的工作方向正确。通过促进开放沟通,你建立了信任,最终确保你的分析能够产生可操作的见解,从而推动有影响力的决策。

在下一个视频中,你将看到如何通过领域知识来充分利用这一过程。我们下节课见。

068:领域知识 🧠

在本节课中,我们将学习领域知识在数据分析中的重要性,以及它如何帮助你更有效地与利益相关者沟通,并产出更具商业价值的洞察。


当你熟悉所在行业时,你就能充分利用利益相关者的见解。

与利益相关者共享一套通用词汇,并能在问题发生前进行预测。

你可以通过构建领域知识来培养这种直觉。

让我们看看领域知识为何以及如何成为你工作中的关键。


什么是领域知识?

领域知识是对你所处特定行业的理解。

它意味着了解业务的语言、流程、痛点以及目标。


领域知识的四大作用

上一节我们定义了领域知识,本节中我们来看看它在数据分析中具体能发挥哪些关键作用。

以下是领域知识帮助你的四个主要方面:

  1. 提出最相关的业务问题
    这就像知道在谷歌上搜索什么。正确的搜索查询才能带来正确的结果。

  2. 识别洞察与背景
    一个数字对他人可能只是一个数字,但凭借领域知识,你知道它代表什么以及它如何影响业务。

  3. 选择正确的分析方法
    不同行业面临不同的数据挑战,领域知识能指导你为已识别的业务问题选择正确的分析路径。

  1. 验证你的分析
    确保你的洞察在问题背景下是合理且有意义的。

总结与过渡

领域知识让你比那些仅仅依赖技术技能的人更具优势。

它让你能够真正将你的工作与业务联系起来。


这为我们关于利益相关者沟通的课程画上了句号。数据分析需要技术技能,但你的软技能才能真正让你脱颖而出。

如果你能创造一个包容的环境,让利益相关者在你身边感到自在,你将赢得信任并发现更多创造影响的机会。

接下来是一个实践练习,将引导你完成一个音乐案例研究。你可以运用数据分析生命周期,来练习你的利益相关者沟通和战略思维技能。

完成实践练习和评估后,请加入下一节课,学习如何利用大语言模型进行利益相关者分析。

069:使用LLM进行利益相关者分析演示

在本节课中,我们将学习如何利用大型语言模型(LLM)作为数据分析师的“思考伙伴”,特别是在定义问题和与利益相关者协作时。我们将通过一个具体案例,演示LLM如何帮助分析不同利益相关者的观点,并指导后续的数据分析工作。

🎯 概述:LLM作为数据分析的协作工具

LLM是数据分析师的优秀思考伙伴。本节将展示如何在定义问题以及与利益相关者协作时,在实践中使用LLM。

我们将通过两个用例来探索其应用。

📧 用例一:分析与对比利益相关者观点

假设你在一家科技公司工作,其旗舰产品是一款允许用户追踪徒步和骑行旅程的应用程序。

你目前正在分析过去五年用户所有徒步和骑行旅程的数据。两位利益相关者——工程负责人和销售副总裁——给你发来了电子邮件,表达了他们对应用程序未来方向的看法。你的目标是综合他们的意见,并根据邮件内容,提出你的分析如何促成业务影响的建议方案。

从邮件中,你认识到这两位利益相关者有着不同的目标。让我们探索如何使用LLM来比较和对比两封邮件的关键点。

我们将使用一个LLM(在本例中是ChatGPT),首先提供关于公司的初始背景,然后提供描述两封邮件内容的上下文,最后上传每封邮件的文本。

以下是操作步骤:

  1. 复制关于公司的初始背景信息。
  2. 解释利益相关者是谁。
  3. 要求LLM总结每位利益相关者关于应用程序未来方向的观点。
  4. 要求LLM突出双方的共同点。

你可以在下方的下载区获取两封邮件的文本文件。

LLM识别出,工程负责人的目标是通过添加新功能来增强用户体验。它还总结了一些关于如何实施这些改变的想法,例如:

  • 实施新的排行榜系统以促进竞争。
  • 根据位置和偏好推荐附近的路线。
  • 与可穿戴设备集成。

另一方面,销售副总裁Sojana则专注于扩大应用程序的市场影响力。她可能最感兴趣的一些想法包括:

  • 与户外装备零售商合作提供折扣和促销。
  • 通过定制挑战和奖励来瞄准企业健康市场。

因此,两位利益相关者中,一位似乎更专注于留住现有用户,另一位则更专注于获取新会员

最后,LLM还提供了一个关于共同点的部分。两位利益相关者都希望获得数据驱动的见解来帮助制定策略。他们也似乎都关注用户参与度,但一位关注留存,另一位关注获客。

🔍 深入探索:基于目标制定业务决策

接下来,我们希望了解基于这些优先级可能做出哪些类型的业务决策。以下是一个可以帮助实现这一点的提示词。

我们将要求LLM根据利益相关者的目标,生成一份需要做出的业务决策清单,并优先列出双方可能都同意的决策。

LLM给出了一个优先级列表:

  1. 数据驱动的产品增强
  2. 用户参与度提升计划
  3. 市场扩展优先级
  4. 集成与技术增强
  5. 监控与反馈

这是一个有趣的优先级列表。列表顶部的第一个优先级显然与两位利益相关者都一致,因为他们都对数据驱动的产品增强感兴趣。但随着列表向下看,很明显其中一些优先级对某一位利益相关者更相关。

因此,根据这个优先级列表,你可能会利用这些信息将精力集中在更多与产品或用户参与度相关的计划上。你可以考虑为这里列出的前两个优先级撰写提案,然后征求利益相关者的反馈,看看他们最认同哪一个。

🧩 用例二:利用LLM构建Rumsfeld矩阵

假设你已经解决了上述的小分歧,并确定最重要的业务问题是提升用户体验。领导团队已经开会讨论了每个人的目标,并且你拿到了会议记录。

一个很好的下一步是创建一个Rumsfeld矩阵,以更好地理解问题。让我们尝试用LLM来完成这个任务。

创建一个新的对话,生成一个提示词,要求LLM为我创建一个Rumsfeld矩阵,同时上传会议记录的文档。

LLM将会议记录中的各个陈述分类到矩阵的四个象限中。我们可以重点关注 “已知的未知” 象限,这通常能提供关于潜在分析的最多信息。

它谈到了:

  • 获客渠道对用户留存的潜在影响。
  • 用户初始下载之外的动机。
  • 整体市场趋势和竞争对手洞察。

这些都代表了你可以运行的具体潜在分析。

LLM还总结了它认为这些信息如何影响你作为数据分析师的工作。特别是,它谈到:

  • 按获客渠道细分用户。
  • 探索未知的用户动机,这些都是需要重点分析的明确领域。
  • 如何利用数据集分析用户旅程,以调查参与模式,特别是与功能使用相关的模式,以及这些模式如何与留存率相关联。

所有这些想法似乎都与工程和销售领导感兴趣的内容非常吻合。

📈 最终步骤:确定数据分析工作的优先级

最后,让我们通过给出这个最终提示词,要求LLM为数据分析工作提供一些优先级建议。

我们将要求它根据我所能访问的数据,建议一些分析方向。

这看起来是一个非常有帮助的总结。它提供了三个潜在的分析方向,这些方向与上一步中从“已知的未知”象限识别出的机会非常吻合。

LLM还指出了每项分析的目的,并将其与最关心结果的具体利益相关者联系起来。

例如,在第一个例子中,它建议尝试识别不同获客渠道如何影响用户留存和参与度。它还为你提供了可以进行的分析方法的建议。这些都是你在本课程中已经见过的不同类型分析的例子,例如细分用户或比较指标。

最后,它还就这些分析如何帮助指导用户体验改进提供了指导。这些见解可能与工程负责人最相关,他最感兴趣的是如何实际实施你从分析中推荐的更改。

🎓 课程总结与展望

在本节课中,我们一起学习了如何将LLM作为强大的协作工具,应用于数据分析的初始阶段,特别是利益相关者分析和问题定义环节。我们演示了如何利用LLM:

  1. 对比不同利益相关者的观点,识别共同点和分歧。
  2. 生成基于目标的业务决策优先级列表,指导分析方向。
  3. 构建Rumsfeld矩阵,系统化地梳理已知与未知,聚焦分析机会。
  4. 提出具体的数据分析建议,并将其与利益相关者关切点关联。

能够省去大量阅读和书写工作,并为你的工作获得“第二意见”,这种感觉很棒。相信你在未来的数据分析工作中,会发现比这两个更多的用例。

保持好奇心,探索如何让工作更轻松。

现在,你已经完成了本模块的学习。接下来将有几个机会来测试你的技能,首先是关于使用LLM的练习实验。我也很期待你完成本模块的评分实验——一个案例研究,你将在其中看到数据分析生命周期在一家小型面包店的实际应用。

完成评分实验和评估后,你将进入本课程的顶点项目,在那里你将运用在整个课程每个模块中学到的所有技能。你将探索一家通信公司的客户流失数据集。我相信你会享受探索导致客户取消服务的因素。

完成评分实验、评估和顶点练习后,我将在最后一个视频中与你见面,讨论你作为数据分析师的下一步。你能行的。

070:数据分析的下一步 🚀

在本节课中,我们将回顾数据分析基础课程的核心成就,并展望后续学习路径,特别是应用统计学在数据分析中的重要性。


祝贺你完成顶点项目及本课程。你已迈入数据分析领域至关重要的第一步。我期待看到你未来的成就。

自学习“祖母的异国宠物店”案例以来,你已取得长足进步。从掌握电子表格公式到创建精美的数据可视化,你已为从事数据分析工作做好了准备。

数据分析领域仍有大量知识有待学习。这份工作最吸引我的一个方面是,即使从业多年,我每天依然能学到新东西。因此,我希望你能加入本系列的下一个课程——《数据分析应用统计学》。

在下一门课程中,你将实践核心统计方法,包括:

  • 模拟
  • 置信区间
  • 假设检验

以下是这些方法的核心概念示例:

  • 计算样本均值的公式可表示为:x̄ = (Σx_i) / n
  • 创建置信区间的代码思路可能是:confidence_interval = mean ± (z * standard_error)

完成下一门课程时,你将能自信地在专业岗位上应用这些技术。

再次祝贺你完成本课程。我们下一门课程《数据分析统计学》再见。


本节课中,我们一起回顾了数据分析基础课程的学习成果,明确了掌握电子表格操作数据可视化是重要的入门技能。同时,我们展望了后续学习方向,认识到应用统计学是深化数据分析能力的关键,其核心方法如模拟置信区间假设检验将成为你解决更复杂业务问题的有力工具。

071:应用统计学导论 🎯

在本课程中,我们将学习应用统计学的基础知识。统计学是数据分析的核心,它帮助我们理解数据中的不确定性,并基于数据做出明智的决策。

欢迎来到数据分析系列的第二门课程——应用统计学。如果你已经学习了之前的数据分析基础课程,那么你已经学会了如何使用电子表格等工具来分析、可视化数据并与他人沟通。在本课程中,你将学习构成严谨分析基础的统计技术。

多年前我读本科时,统计学曾是我的主修专业之一。有些人可能认为统计学是一堆枯燥的数学,但我发现它在商业和日常决策中极具应用价值。例如,当你考虑服用一种新的维生素补充剂时,你可能会查阅新闻或相关研究,看它是否有效。如果这些研究提到了P值或其他数字,你应如何解读?又该如何判断是否应该相信该研究的结论,从而决定是否服用该补充剂?这就是统计学的应用。我很高兴再次欢迎肖恩·瓦兹作为讲师来讲解这些内容。

感谢安德鲁。我也是统计学的坚定信徒,我认为它是最有用的数学分支之一。我将数据视为窥探真相的窗口。世界以某种方式存在,而作为数据分析师,你的工作就是利用数据,透过这扇窗口更好地理解世界。

你的分析中总是存在一定程度的不确定性,因为世界充满了巨大的复杂性。统计学帮助你推理并处理这种不确定性。世界是不确定的,意味着我们并不总是知道深层的潜在真相。这所学校比那所学校更好吗?住在这里更好还是更差?我们不知道许多重要的事实和决策。有时,世界会给我们一些数据片段,暗示着潜在的真相。统计学这门学科为我们提供了严谨的工具,帮助我们做出关于这些潜在真相的合理判断,从而辅助我们做出决策——有时是小的个人决定,有时是具有重大影响的决定。我们常常试图让世界看起来简单,但现实可能相当复杂。

本课程将介绍核心的统计技术,帮助你在不确定性的背景下做出理性决策。

以下是本课程的核心学习路径:

首先,你将学习如何量化和可视化样本(即你感兴趣群体的一个子集)中的变异性。接着,你将利用样本分布来更好地理解你感兴趣的完整总体。在后续模块中,你将运用推断统计学的两大支柱——置信区间假设检验——来估计你感兴趣总体的不同方面。

那么安德鲁,你如何看待生成式AI在统计学领域所扮演的角色?

我认为,不幸的是,目前如果让生成式AI自行其是,它远不如我们人类分析师做得好。如果你将电子表格复制粘贴到大型语言模型中,它或许能写一些代码来进行基本分析。但要理解上下文、知道如何灵活处理,我发现生成式AI有时可以作为一个有用的思考伙伴或头脑风暴伙伴。例如,我应该用这种假设检验还是那种?它作为头脑风暴伙伴实际上相当有用。

然而,最佳实践是将其作为思考伙伴、编码伴侣或沿途的顾问,来帮助你思考关键的业务问题。我认为它不能解决所有问题,但它确实是一个极好的工具,能让数据分析工作变得更轻松。最终,你才是专家,而生成式AI工具的存在是为了帮助你在工作中表现得更好。

在本课程中,你将完成关于森林防火、音乐播放列表创建、心脏病预防等实践项目。你将运用统计学来量化每个案例中涉及的不确定性和风险。在生成式AI实验课中,你将获得提示技巧,并练习判断对于特定任务,使用大型语言模型还是电子表格等其他工具更为合适。

如果你熟悉电子表格软件(包括计算描述性统计数据和创建图表)以及LLM提示的基础知识,我相信你会学得很好并享受这门课程。如果你已经学习了数据分析基础课程,那么你已处于成功并享受乐趣的绝佳位置。

在医疗领域,“stat”一词意为“尽快”。我认为这里有太多令人兴奋的内容,让我们“尽快”开始下一课的学习吧。


本节课总结:我们一起学习了应用统计学在数据分析中的核心地位。课程明确了学习路径:从理解样本变异性开始,到利用样本推断总体,最终掌握置信区间和假设检验这两个关键工具。我们还探讨了生成式AI作为辅助工具的角色,并预览了将通过实践项目应用这些知识。

072:生成式AI导论 🧠

在本节课中,我们将要学习生成式人工智能(特别是大型语言模型)在本课程中的核心作用、应用方式以及学习哲学。我们将了解如何利用这些工具提升数据分析工作的效率,并建立正确使用它们的心智模型。


本课程的一个关键要素是学习使用生成式人工智能,特别是像ChatGPT、Claude、Gemini等大型语言模型。

有效使用这些大型语言模型将帮助你简化工作流程,并在工作中脱颖而出。

在本课程中,你将学习如何使用大型语言模型来排查电子表格错误、创建自定义条件格式、设计和运行模拟实验、解读推断性统计结果,并让其为你运行统计分析。

你还将探索大型语言模型的关键局限性,学习何时为特定任务选择大型语言模型,以及何时使用其他工具(如电子表格)。

大型语言模型在不断发展,这给教学和学习都带来了挑战。我想借此机会分享我们团队关于本课程中生成式人工智能的教学理念。

首先,本课程展示了截至2025年的最新技术能力,我们预计在未来数月和数年内会有更多变化。

本课程旨在传授经久不衰的核心原则,即如何在工作中思考和使用生成式人工智能,无论你使用哪个具体产品。

你将培养一种迭代和审慎的思维模式。新的模型和功能在不断发布。

以下是你在近期应该预期到的一些变化。

以下是近期可能出现的变化趋势:

  • 更先进和专业的生成式AI工具:例如能够替你操作应用程序的工具。
  • 更便宜的工具:使用成本有望降低。
  • 更快的工具:处理速度将不断提升。
  • 更高质量的输出:整体输出效果会越来越好。

跟上这个领域的快速发展是具有挑战性的。但请放心,在本课程中,你将发展出必要的元认知技能,以驾驭这些技术进步并将其应用于你的工作。

本课程也会展示一些大型语言模型的付费功能,但你无需购买任何额外的产品来完成课程作业。

让你了解现有的选项(包括付费选项)非常重要,这样你才能在工作中充满信心地进行实验,并选择最适合的工具。

作为一名数据分析师,本课程不推荐任何单一的工具。你将在各个模块中看到多种工具。请记住,你将学到的核心原则将使你做好准备,无论是现在还是将来,都能自如地运用各种免费和付费的大型语言模型。

你将在本模块的第三课中首次接触到大型语言模型的演示和动手实验。

现在,请和我一起观看下一个视频,了解本模块所有令人兴奋的主题。我们视频中见。


本节课中,我们一起学习了生成式AI在本课程中的定位、其核心应用场景(如排查错误、运行分析),以及面对技术快速迭代时应持有的迭代与审慎思维。我们明确了课程目标是掌握经久不衰的使用原则,而非特定工具,为后续的实际操作打下了坚实的基础。

073:数据分析应用统计学基础 🧮

概述

在本节课中,我们将要学习数据分析应用统计学的基础知识。我们将探索构成严谨统计分析的核心概念,包括如何定义总体与样本、描述数据集的集中趋势与变异性,以及理解特征间的关系。这些技能是数据分析师职业生涯的基石。


模块一:简介

欢迎来到数据分析应用统计学的第一个模块。

在整个课程中,你将学习作为数据分析职业基础的核心统计概念、分析方法和可视化技术。

上一节我们介绍了课程的整体目标,本节中我们来看看本模块的具体学习内容。

在本模块中,你将探索构成严谨统计分析的基本组成部分。

以下是本模块你将学习到的核心技能:

  • 学习如何定义总体样本抽样方法
  • 使用集中趋势变异性偏度的度量来描述数据集的特征。
  • 使用相关性来理解特征之间的关系。
  • 运用细分方法来揭示数据中不同群体的洞察。

你将把这些概念应用到现实世界的场景中,例如分析电影评分、识别最盈利的贷款以及分析歌曲特征。

此外,你将通过电子表格工具进行动手实践,基于在《数据分析基础》课程中已学到的技能,使你的分析更加高效。

无论你是统计学的新手,还是希望复习相关技能,本模块都将为你提供强大的技术,以从数据中提取有意义的洞察。

到本模块结束时,你将在数据分析师职业生涯中实施统计分析时感到更加自信和有能力。


总结

本节课中我们一起学习了数据分析应用统计学模块一的简介。我们明确了本模块的学习目标,即掌握定义数据、描述数据特征、分析关系以及进行数据细分的基础统计技能,并将在后续课程中通过实际案例和工具练习来巩固这些知识。

请与我一起进入下一个视频,正式开始学习。

074:总体与抽样 📊

在本节课中,我们将学习数据分析的两个核心概念:总体抽样。理解这两个概念是进行任何数据分析的基础。


假设你在一家拥有50名员工的小公司工作,你想发起一个有趣的新生日传统:让公司的每个人发送一张电子生日贺卡。

你有一个假设:公司的大多数同事会支持这个想法。但如何验证这个假设是否正确?你可以询问几位同事。你试图通过询问少数人来验证关于所有人的假设。

换句话说,你正在从总体中抽取一个样本。总体和样本这两个定义,几乎构成了你作为数据分析师将要进行的每一项分析的基础。

定义总体与样本

上一节我们引出了总体和样本的概念,本节中我们来更精确地定义它们。

  • 总体:是你所持有假设的所有个体或观察对象的集合。
  • 样本:是从总体中选取出来用于分析的子集。

在生日贺卡的例子中,你假设大多数同事会支持发送电子贺卡。因此,总体就是你公司的所有员工。这是新传统将影响的人群。

以下是一些不属于此总体的人群示例:

  • 公司的客户
  • 你的家人

他们的意见最终不会影响决策。

为何使用样本?

你想弄清楚谁支持、谁反对生日贺卡的想法。逐一当面询问每个人的意见会很繁琐。因此,你可以收集一个样本

样本是你为分析而选择的总体子集。有许多方法可以对这个总体进行抽样,例如:

  • 会议投票
  • 电梯闲聊
  • 问卷调查

这些样本中的每一个都只是总体的一个切片。假设你最终询问了10个人,其中9人喜欢这个主意。这是一个相当好的迹象,表明这个想法可能行得通。

总体的多样性

需要注意的是,总体不一定指人。总体可以是:

  • 游泳池里的水(如果你的假设是水质适合游泳)
  • 某个工厂生产的所有iPhone(如果你的假设是生产缺陷率低于1%)
  • 美国的每一只白头海雕(如果你的假设是它们的筑巢行为因地区而异)

为何不总是调查总体?

总体与样本的区分很重要,因为你通常无法接触到整个总体。对于50名同事,你或许能得到所有人的回复;但要调查每一位Netflix用户(超过2亿),则几乎不可能。

大多数总体无法或不应被完全调查,主要有三个关键原因:

  1. 认知局限:总体可能未知。例如,在政治民调中,你可以调查所谓的“可能投票者”,但你最终并不知道谁会真正去投票。
  2. 实际限制:接触整个总体可能耗时过长、花费过高,或者你根本无法接触到其全部。例如,你可能想测试工厂生产的每一部iPhone,但这可能会给每部手机的生产增加一小时。
  3. 伦理考量:例如,如果你想知道某种水果对狗是否有毒,测试这个想法可能会造成伤害。

抽样的力量

好消息是,通过统计学的力量,即使是一个相对较小的样本(如果收集得当),也能准确地描述总体特征。

例如,你想测试游泳池的水质。你不需要收集每一滴水。即使对于一个奥运会规格的游泳池,500毫升(大约一瓶水的量)也足够了。

1997年,民意调查公司盖洛普发布了一份名为《美国立场》的报告。盖洛普使用调查来估计当时所有1.87亿美国人对数百个议题(如同性恋权利、吸烟、总统)的看法。

你认为他们调查了多少人来获得对所有1.87亿美国人的准确答案?答案是:1000人。这就足够了。

这种令人惊讶的有效性源于随机抽样和统计理论的力量,特别是被称为大数定律的概念。

该定律指出,随着你增加随机样本的容量,从该样本中得到的测量值会越来越接近如果你能测量整个总体将会得到的真实值。

但大数定律存在收益递减效应。从100人增加到200人,准确性会大幅提升;但从2000人增加到2100人,几乎没有什么差别。如果操作正确,1000人的样本可以提供与真实值相差仅在几个百分点以内的准确结果。

总结与展望

本节课中我们一起学习了:

  • 总体是你感兴趣的全部对象集合。
  • 样本是从总体中选取的子集,用于进行分析。
  • 由于认知、实际和伦理限制,我们通常无法研究整个总体。
  • 通过随机抽样大数定律,一个精心选取的较小样本可以有效地推断总体特征。

可以将总体视为真相——世界真实的样子。在你的50名同事中,确实有一定数量的人支持发送生日贺卡。你的样本是窥视那个真相的一扇窗。你询问了10位同事,其中9人支持。这暗示了大家可能怎么想,但它不是完整的真相。

在下一个视频中,我们将一起学习如何确定你想要研究的总体。

075:识别总体 🎯

在本节课中,我们将学习数据分析中的一个关键初始步骤:如何清晰定义和识别你的研究总体。明确总体是确保后续数据收集和分析有效性的基础。

概述

在收集样本之前,你需要明确你试图从中取样的对象是什么。这听起来可能有些抽象,但核心思想是:分析不同的总体可以为你带来不同的洞察。

为何识别总体至关重要?🤔

让我们通过一个例子来探索。假设你是一家在加拿大开发AI服务公司的数据分析师。

你的老板向你提出了一个问题。她说我们需要增加用户基数。你能找出人们不注册的原因吗?你当然会说,可以。

然而,在深入审视这个问题时,你会发现“不注册的人”这个描述非常模糊。每个不使用你服务的人构成了一个庞大的群体,涵盖了全球数亿人,从婴儿到祖父母。

或者,你可能感兴趣的是那些曾经使用过你的AI服务但取消了的人。又或许,你想专注于那些使用竞争对手服务的用户。

每一种不同的总体定义,都将导向截然不同的分析洞察。 如果你关注前用户,你可能会了解到关于用户留存的信息。如果你转而研究竞争对手的用户,你可能会更好地理解你缺失了哪些功能。

如何定义你的总体?📝

以下是一个你可以使用的流程,用于明确你的相关总体。

  1. 从假设或研究问题出发。
    在本案例中,问题可能是:“为什么人们不注册我们的AI服务?”

  2. 识别定义你感兴趣总体的关键特征。
    对于一个AI服务,这可能包括诸如年龄(我们对所有年龄段感兴趣,还是仅针对特定人群?)、地理位置(我们是进行全球研究,还是仅关注特定市场?)以及技术使用情况(我们是否只关注已经使用其他AI服务的人?)等因素。

  3. 考虑实际限制。
    虽然理想情况下你可能希望收集整个总体的数据,但这通常不可行。你可能需要根据可及性、预算、时间或伦理限制来限定你的总体范围。

  4. 思考结论的可推广性。
    这意味着你希望你的结论具有多广泛的适用性。你的总体定义越具体,你的洞察可能越精确,但将其推广到其他群体的可能性就越小。一个不那么具体的总体则会导致不那么精确但更具可推广性的结果。

  1. 与相关方协商。
    确保你定义的总体与业务目标保持一致。将此步骤放在最后,以便你可以提出一个具体的想法供审查。

通过遵循此流程,你和你的相关方可能会将总体定义为:在加拿大,年龄18至49岁,目前使用至少一项AI服务(但不包括我们的服务)的成年互联网用户。

这个清晰定义的总体可以指导从抽样方法到结果解读的一切后续工作。

总结与过渡

现在,你已经了解了如何识别你的总体。但正如你所知,你不太可能获得全部数据。有许多方法可以对你的总体进行抽样。

在下一节视频中,我们将一起看看抽样中的“黄金标准”:概率抽样方法。

076:概率抽样方法

在本节课中,我们将学习数据分析中一个至关重要的技能——抽样。抽样是从总体中选取一部分个体进行研究的过程,它帮助我们以较低的成本和较高的效率了解总体特征。然而,抽样方法的选择直接影响结果的代表性和准确性。本节将重点介绍四种核心的概率抽样方法。


抽样为何重要

作为数据分析师,根据团队规模,你可能需要处理已收集的数据,也可能需要从头设计一个样本。无论如何,理解抽样原理都至关重要,原因如下:

首先,理解抽样能帮助你正确解读数据,识别数据中潜在的偏见和局限性。其次,它能让你准确地传达你的结果。具体来说,你将能够解释你的结论有多大的可推广性,即它们能在多大程度上准确地反映你所研究的总体。最后,你还能与负责数据收集的团队有效协作,确保最佳实践得以实施。

让我们通过一个例子来探索抽样。假设你在加拿大一家人工智能公司工作,你的CEO向你提出了一个新问题:她希望了解加拿大公众对人工智能的看法,以指导公司的战略规划。你会如何收集这些数据?


一个抽样案例

你的第一反应可能是去寻找了解人工智能的人。于是你前往一个人工智能会议,在那里你遇到了许多热情的业内人士。

你采访了100名与会者,其中95人对人工智能表达了极为积极的看法。前景似乎一片光明。

然而,当你离开会场时,你注意到外面有一群抗议者。他们的标语展示了对人工智能潜在负面影响的担忧。你采访了其中的50人,几乎所有人都对人工智能持怀疑态度。

你记录下了两种截然不同的观点,但这两个群体中的任何一个能准确代表公众对人工智能的整体看法吗?很可能不能。这些都是样本,但它们并不是很好的样本。

作为一名数据分析师,你的目标是分析能够代表你所关注的整个总体的数据。在这个案例中,总体是加拿大的成年人口,而不仅仅是那些积极的支持者或反对者。统计学对于如何做到这一点有很多论述,所以让我们来讨论一些具体的抽样方法。


抽样方法的两大类别

抽样方法主要分为两大类:概率抽样非概率抽样。本节我们先来看概率抽样方法。

概率抽样方法赋予总体中的每一个成员一个已知的、非零的被选中进入样本的机会。这些方法有潜力做到无偏,这意味着你的样本能够真实地代表总体。这正是你的目标。

以下是四种最重要的概率抽样方法。


四种核心概率抽样方法

以下是四种核心的概率抽样方法,每种方法都有其特定的应用场景和优缺点。

1. 简单随机抽样

这种方法给予总体中每个成员同等的被选中机会。它简单直接,有较大机会获得一个具有代表性的样本,但在大规模总体中实施起来可能具有挑战性。

公式/代码示例:
假设总体有N个个体,要抽取n个样本。

# 伪代码示例:从1到N中随机抽取n个不重复的数字
import random
sample_indices = random.sample(range(1, N+1), n)

在人工智能意见调查的例子中,一个简单随机样本可以这样操作:给每个加拿大成年人分配一个从1到约3000万(加拿大总人口)的编号,然后随机抽取1000个编号。接着,你可以打电话给每个被抽中编号的人,询问他们对人工智能的看法。这听起来很困难,对吗?并非每个加拿大人都有电话号码,而且这种方式拨打大量电话可能成本高昂。

2. 系统抽样

在系统抽样中,你从一个随机起点开始,然后有规律地选择总体中的成员(例如,每第k个成员)。

公式/代码示例:
抽样间隔 k = N / n(取整)。随机起点 start = random.randint(1, k),然后选择 start, start+k, start+2k, ... 的个体。

import random
k = N // n
start = random.randint(1, k)
sample_indices = [start + i*k for i in range(n) if (start + i*k) <= N]

例如,你可能有一份加拿大所有注册选民的名单。随机选择一个人,然后选择名单上在他之后的每第1000个人。这种方法很直接,但如果你的名单中存在某种周期性模式,则可能导致周期性偏差。例如,如果选民按选区排序,然后在选区内按年龄排序,那么抽样可能只选中年龄相似的人。如果对人工智能的看法因年龄而异,这个样本就会系统性地偏离总体。

3. 分层抽样

这种方法根据共享的特征将总体划分为不同的组或“层”,然后在每个层内进行随机抽样。当你希望确保从多样化的群体中抽样时,这种方法非常有用。

公式/代码示例:
假设将总体分为L层,第i层有 N_i 个个体。决定从每层抽取 n_i 个样本(通常按比例分配)。

# 假设 strata 是一个字典,键为层标识,值为该层所有个体的ID列表
samples = {}
for stratum, population_list in strata.items():
    samples[stratum] = random.sample(population_list, n_i)

常见的分层依据包括:对于人,可以是年龄、性别、教育水平;对于产品,可以是产品类别、价格区间、销售区域。在人工智能的例子中,你可以按年龄组(18-24岁、25-29岁等)进行分层,然后从每个年龄组中抽取10个人。

4. 整群抽样

这种方法适用于大规模、地理上分散的总体。你将总体划分为多个“群”(通常是按地理区域划分),然后随机选择整个群。

公式/代码示例:
假设总体被划分为C个群。随机选择c个群,然后调查这些被选中群内的所有个体或再进行二次抽样。

clusters = [cluster_1, cluster_2, ..., cluster_C] # 每个元素是一个群的个体列表
selected_clusters = random.sample(clusters, c)
sample = []
for cluster in selected_clusters:
    # 可以调查整个群,或在群内再随机抽样
    sample.extend(random.sample(cluster, samples_per_cluster))

在人工智能的例子中,你可以将加拿大划分为不同的市镇,然后随机选择其中的10个作为你的样本群。你将派遣团队到每个被选中的市镇内随机采访一些人。你可以看到,与随机抽样每一个可能住在国家最偏远角落的加拿大成年人相比,只派遣团队去10个地区会容易得多。


本节总结

本节课我们一起学习了数据分析的基础——概率抽样。我们首先理解了抽样对于正确解读数据、传达结果和指导数据收集的重要性。接着,通过一个调查加拿大公众对AI看法的案例,我们引出了核心的四种概率抽样方法:简单随机抽样系统抽样分层抽样整群抽样。每种方法都有其独特的操作方式、适用场景以及需要注意的潜在偏差。

掌握这些方法,是确保你的数据分析工作建立在具有代表性样本基础上的第一步。在下一节中,我们将继续探讨另一大类抽样方法——非概率抽样。

077:非概率抽样 📊

在本节课中,我们将要学习非概率抽样的概念、常见方法及其优缺点。当预算、时间或人力限制使得概率抽样不可行时,非概率抽样是一种实用的替代方案。

非概率抽样通常不如概率抽样严谨,但执行起来往往更实际。非概率抽样方法不会给予总体中的每个成员一个已知的被选中机会。这些方法通常源于实际限制,并且天然带有一定的偏差。

以下是数据分析师需要了解的几种核心非概率抽样方法:方便抽样、配额抽样、判断抽样和滚雪球抽样。

方便抽样 🏃‍♂️

在方便抽样中,你选择总体中容易接触到的成员。其优点是快速且相对容易执行。然而,它容易产生显著的偏差。偏差意味着你的样本不能代表总体。一个常被引用的方便抽样例子是行为研究,因为许多研究者在大学工作,他们可以轻松招募学生来完成实验,但这些学生并不能很好地代表整体人口。例如,他们通常比平均年龄更年轻。

在上一视频的AI公司例子中,仅调查一个会议的参与者和抗议者就是一种方便抽样,因为它只涉及一个地点。

配额抽样 📊

配额抽样根据某些特征将总体划分成不同部分,然后从每个部分抽取一定数量的成员。你可以将其视为分层抽样的非概率版本。它通常用于确保特定的亚群体得到代表。与方便抽样类似,它比分层抽样更快、更容易,但会引入偏差。

在AI公司的例子中,你可能会设定配额以匹配加拿大的就业人口统计数据,其就业率为87%。因此,你可能会采访87名就业者和13名非就业者。但如果没有随机抽样,采访者可能会根据他们的选择无意中使结果产生偏差。

判断抽样 🧠

判断抽样依赖于研究者的专业知识来选择样本。当你需要从特定类型的个体那里获得见解时,这种方法可能很有用。其好处是你可以针对具有高度相关知识的人。缺点是它非常主观。

对于AI公司,使用判断抽样可能意味着特意选择采访AI伦理学教授、科技记者和政策制定者,基于他们的观点特别有价值的信念。

滚雪球抽样 ⛄

滚雪球抽样从一小群受试者开始,每个受试者再从他们的朋友、家人和同事中招募未来的受试者。你的样本量会像滚雪球一样增长。这种方法对于研究难以接触的群体特别有用。

例如,无证移民可能很难找到进行采访,但你可以从几个联系人开始,然后由他们转介其社区中的其他人。其主要缺点是,你的样本仅限于初始受试者的社交网络,可能会遗漏总体中的重要部分。

在AI公司的例子中,滚雪球抽样可用于研究那些选择不使用AI工具的人的观点。你可以从几个这样的个体开始,并请他们转介其他有相同习惯的人。

总结与预告 📝

本节课中我们一起学习了四种主要的非概率抽样方法:方便抽样、配额抽样、判断抽样和滚雪球抽样。我们了解了每种方法的操作方式、适用场景及其固有的偏差风险。

你已经多次听到“偏差”这个术语。它是抽样中最大的问题之一。在下一个视频中,你将探索几种常见的偏差类型以及如何减轻它们。我们下节课见。

078:偏差类型 🎯

在本节课中,我们将要学习数据分析中一个至关重要的概念:偏差。偏差会导致样本无法准确代表总体,进而影响分析结果的可靠性。我们将系统地介绍偏差的定义、主要类型以及如何在实际工作中识别和减轻它们的影响。


什么是抽样偏差?

当你的样本不能很好地代表你感兴趣的总体时,就会发生抽样偏差。

这与偏见会负面影响人与人之间的互动类似,抽样中的偏差同样会导致糟糕的决策。让我们看看它是如何发生的。

偏差在抽样中的一个正式定义是:样本与总体之间存在系统性差异,这种差异造成了现实情况的不准确描绘

这里的“系统性”非常重要。它意味着问题以一种可预测的、很可能可以预防的方式发生。

例如,如果你随机采访加拿大人对人工智能的看法,其中一个人碰巧比普通人回答得更积极,这只是一种正常的随机现象。你预期观点会存在一些差异。

相比之下,如果你前往一个满是人工智能研究人员的会议,你有理由相信这些人中的大多数会比普通加拿大人更看好人工智能。这就是一种系统性偏差。

偏差通常是偏离概率抽样方法的结果。


主要偏差类型

上一节我们介绍了偏差的基本概念,本节中我们来看看偏差的几种主要类型:抽样偏差、测量偏差、应答偏差和分析偏差

抽样偏差出现在研究者决定如何对总体进行抽样时。测量偏差和应答偏差发生在数据收集过程中。而分析偏差则出现在寻找洞察的阶段。

以下是几种关键的偏差类型:

抽样偏差

抽样偏差非常常见,它发生在样本不能准确代表目标总体时。

如果一位研究员在人工智能会议上采访与会者以及场外的抗议者,就会遇到这种偏差。这两个极端群体不太可能充分代表大多数加拿大人的观点。

选择偏差是抽样偏差的一种常见形式。当样本以非随机方式选择,导致样本与目标总体不匹配时,就会发生选择偏差。结果,总体中的某些群体在样本中被过度代表代表不足

在人工智能会议的例子中,强烈的支持者和严厉的批评者被过度代表,而对人工智能不太熟悉的人则代表不足。

避免选择偏差的方法

  • 使用概率抽样方法。
  • 避免对任何特定群体进行过度抽样或抽样不足。
  • 同时,应透明说明你的样本可能存在的局限性。如果你知道样本引入了选择偏差,请解释这种偏差如何影响你的结论。

无应答偏差是另一种常见的抽样偏差类型,在人员样本中很常见。

例如,智能手机应用可能会在用户使用一段时间后请求用户评分,但用户可以忽略通知而不是真正去评分。因此,留下评论的人并非一个随机样本,他们通常对应用持积极看法,因为他们愿意接受提示并投入时间撰写评论。

应对无应答偏差的方法

  • 考虑发送后续提醒。
  • 甚至可以提供小额激励以鼓励参与。

测量与应答偏差

在收集数据时,我们可能会遇到测量偏差和应答偏差。

测量偏差主要有两种类型。第一种是工具偏差,它源于设备故障或调查问卷设计不佳。

例如,2020年,Fitbit因其部分智能手表的心率传感器问题而免费更换。但工具偏差也可能像提出“你同意菠萝属于披萨吗?”这样的诱导性问题一样简单。

避免测量偏差的方法

  • 确保使用高质量的工具和措辞得当的调查问卷。
  • 如果可能,进行多次测量。

另一种测量偏差是观察者偏差。当进行测量的人让自己的期望影响他们所看到的事物时,就会发生这种偏差。

例如,假设你的公司正在为其一款应用推出深色模式。如果你作为一名数据分析师,期望这个功能获得好评,那么当你采访用户样本时,你可能会不自觉地关注他们的正面反馈。

应对观察者偏差的方法

  • 如果可能,尝试让多个人进行测量。

应答偏差通常出现在人员样本中。本质上,人们在回答问题时可能不会完全坦诚。

像“你赚多少钱?”或“你上次把薯条蘸蛋黄酱是什么时候?”这样的问题,即使在匿名调查中,也可能引发不真实的回答。

减轻应答偏差的方法

  • 可以尝试强调诚实回答的重要性。
  • 或者将问题设计得尽可能客观。

分析偏差

你已经对总体进行了抽样并收集了数据,但产生偏差的可能性并未结束。如果不小心,你进行分析的方式也可能导致结果不能反映真相。

最大的陷阱是确认偏差:寻找证据来支持你已经相信的事情,而不是客观地看待所有证据。

例如,产品经理可能希望一个新功能正在提高用户留存率。他们可能承受着一些压力,需要证明这个功能值得开发。他们可能分析了10个指标,但选择只关注显示最积极结果的那两个。

当然,拥有一个假设或目标是完全可以的,但要保持开放的心态,让数据自己说话,即使它讲述的不是你希望听到的故事。


总结与展望

本节课中我们一起学习了数据分析中的核心偏差类型。偏差通常无法完全避免,大多数样本都会包含一定程度的偏差。

然而,通过遵循最佳实践,在大多数情况下,你可以减轻其影响。

至此,你已学完本课的核心内容。到目前为止做得很好!你已经掌握了总体与抽样的核心概念,这些是所有统计学的基础。

完成本课的练习评估后,请加入下一节课,学习如何通过集中趋势、变异性和偏度的度量来刻画样本的特征。我们下节课见。😊

079:直方图 📊

在本节课中,我们将学习如何通过直方图来可视化数据的分布。直方图是一种强大的工具,能帮助我们快速理解数据集中不同数值出现的频率。

概述

收集样本后,通过可视化其分布来开始分析通常很有用。分布能告诉你总体或样本中不同数值出现的频率。描述性统计的核心就是刻画数据的分布特征。

什么是直方图?

直方图是一种用于可视化数据分布的工具。它将数值数据聚合到不同的“箱子”中,并可视化这些箱子内数值的频率。

公式/代码表示直方图 = 聚合(数值数据, 箱子) + 可视化(频率)

箱子的目的是通过显示常见数值范围的出现情况,使整体分布更容易观察。

直方图与柱状图

上一节我们介绍了直方图的基本概念,本节中我们来看看它与柱状图的区别。

直方图是柱状图的一个特殊版本。

  • 在柱状图中,你试图比较不同类别之间的数值特征。因此,你将分类或离散的数值特征放在X轴,将数值特征放在Y轴。
  • 在直方图中,你关注的是可视化连续数值特征中不同值的频率。X轴上绘制的是将连续数值变量分组为类别的箱子,Y轴上是频率。

频率是指落入特定箱子的数据观测值的数量。Y轴有时也可能绘制观测值的比例,而不是原始频率。

实战:分析电影时长

现在,让我们用一些真实数据来实践。你是否感觉电影变得越来越长了?也许这只是我的注意力问题,但我最近多次听到这个假设。假设你想弄清楚电影的典型时长是多少,以及它们是否随着时间的推移而变长。

你抽样了2013年最受欢迎的25部电影。你可以做什么来描述这个电影时长的分布?

以下是2013年最受欢迎的25部电影的时长数据。如果你想自己探索数据,可以在视频附带的下载选项卡中找到电子表格。数据中的列包括:电影名称、上映年份(均为2013年)、评分(满分10分,来自国际电影数据库IMDB)、IMDB评分数量以及电影时长。我个人的最爱是《钢铁侠3》。

你刚刚了解到,分布代表了样本数据中数值出现的频率。你这里有一个电影样本。那么,你应该检查哪些值来回答这个问题?答案就是电影的时长。

解读直方图

以下是一个直方图,它可视化了不同电影时长的常见程度。X轴是电影的时长(分钟),Y轴显示具有该时长的电影数量。

请注意,时长是一个连续数值特征,它被分组为7分钟的箱子,因此这个直方图有10个箱子。任何长度在91到98分钟之间的电影都由这个柱子表示。

这是相同的数据,但这次使用的是10分钟箱宽的直方图,虽然数据的整体情况相似,但这样更容易解释。

这些箱子大小使得我们可以更容易地说出类似“大约一半的电影不到两小时”这样的结论。

请注意,箱子太少会过度简化数据,而箱子太多则难以识别任何整体模式。选择一个合适的箱子大小,要牢记优秀数据可视化的原则。

优秀直方图的原则

以下是创建有效直方图的一些关键原则:

  • 清晰的标签:确保坐标轴有明确的标题。
  • 合适的刻度:选择能清晰展示数据范围的刻度。
  • 颜色的良好运用:使用颜色来增强可读性,而不是造成干扰。
  • 描述性标题:为图表提供一个能概括其内容的标题。
  • 可读的字体大小:确保你的受众能够轻松阅读所有文字。



比较多个分布

多个直方图也可以并排绘制,以比较不同的分布。

这里顶部是1993年电影的分布,中间是2003年,底部是2013年。它们都使用相同的箱子大小以便于比较。

关于时长随时间的变化,你能说些什么?这有点难以断定,也许有一个微小的右移,但整体看起来相当一致。不过,看看那些200分钟的电影吧!你能猜出它们是什么吗?在1993年,那是《辛德勒的名单》。在2003年,是《指环王:王者归来》。

总结

本节课中,我们一起学习了直方图。直方图有助于可视化连续数值特征的分布。它通过将数据分组到箱子中并显示每个箱子的频率,让我们能够快速把握数据的整体形态、中心趋势和离散程度。记住选择合适的箱子大小和遵循良好的可视化原则,是制作出清晰有效直方图的关键。

080:绘制分布图 📊

在本节课中,我们将学习如何使用直方图和柱状图来绘制数据的分布。我们将使用一个贷款数据集作为示例,通过可视化来理解数据的分布特征。

上一节我们介绍了如何解读直方图,本节中我们来看看如何实际绘制分布图。

本模块的演示使用LendingTree贷款数据集的一个子集。该数据集包含通过LendingTree平台发放的数千笔贷款。每一行代表一笔特定的贷款。每一列包含借款人的特征信息,例如他们的职位和年收入,以及贷款信息,例如贷款金额。

请记住,如果您想跟随演示操作,可以在下载选项卡中找到电子表格和解决方案。

假设您正在考虑成为该平台的贷款人。在做出任何承诺之前,您希望更好地了解所涉及的风险。您可以对现有贷款进行统计分析,以尝试识别每笔贷款的风险水平以及哪些因素似乎会影响风险。作为潜在的贷款人,您可能对“已付利息”这一列(P列)感兴趣。这个特征本质上代表了贷款人赚取的金额。

现在,让我们创建一个直方图来可视化这个特征的分布。

图表默认显示为直方图,因此您无需将其更改为其他图表类型。

如果您想自定义条形宽度,可以按照以下步骤操作:选择“自定义”选项卡,然后选择“直方图”。“桶大小”是您可以更改直方图中柱宽设置的地方。“桶”就是“区间”的意思。要更改桶大小,请选择下拉菜单,然后选择“50”。桶大小变小了,因此您在图表中可视化的数据具有更细的粒度。

您可能希望将此图表移动到它自己的工作表。您可能希望进一步自定义此图表,以便开发出清晰的数据可视化。

已付利息的分布。大多数贷款的已付利息金额在50美元到600美元之间,但您可以看到在尾部有更多高已付利息贷款的示例。

对于离散特征,您需要使用柱状图而不是直方图。您已经在数据分析基础中学过这种可视化方法。让我们看看柱状图如何显示数据的整体分布。

该数据集中存在的一个分类特征是“贷款等级”。等级是根据借款人的信用历史和其他一些因素给予每笔贷款的质量评分。作为潜在的贷款人,了解平台上好贷款和坏贷款的分布对您很有用。

现在,让我们创建一个新图表来总结这种分布。

此处的默认图表不太合理,您期望看到等级作为X轴标签,然后是每个类别的计数,但您看到的并非如此,因此您需要更改图表类型。选择一个柱状图。

请注意,X轴上的等级没有按顺序排列,这使得可视化分布变得困难,因此您可以返回您的工作表,然后添加一个筛选器。

然后将“等级”列从A到Z排序。现在您可以看到X轴标签已适当排序。

现在您可以将此图表移动到它自己的工作表。然后您可以重命名该工作表,以便跟踪您创建的图表位置。现在,再次,您可以通过更新标题来自定义此图表。

贷款等级的分布。现在让我们回到图表设置。

您可能会注意到“聚合”选项已被勾选。这是默认开启的,它的作用是计算数据集中每个等级的频率,而不是尝试单独显示每个值。

很好。现在您可以看到许多贷款属于较高的等级A、B和C。这可能会激励您作为投资者,但值得进一步调查这些条款。

在直方图方面做得很好。请在下一个视频中加入我,学习如何通过计算描述性统计量来补充这种可视化方法。


本节课中我们一起学习了如何使用直方图和柱状图来可视化数据的分布。我们了解了如何为连续变量(如已付利息)创建和自定义直方图,以及如何为分类变量(如贷款等级)创建排序清晰的柱状图。这些图表是理解数据集基本特征的重要工具。

081:集中趋势、离散度与偏态

在本节课中,我们将学习如何描述样本数据。数据可视化之后,我们需要用统计量来刻画数据的特征。我们将重点介绍三类核心的描述性统计量:集中趋势、离散度和偏态。


📍 集中趋势:数据的中心在哪里?

上一节我们提到了描述数据的重要性,本节中我们来看看如何定位数据的“中心”。集中趋势度量的是数据的中心位置,它回答的问题是:数据的中间值在哪里?哪些值出现得最频繁?

以下是三种最常见的集中趋势统计量:

  • 均值(Mean / Average):所有数据点的算术平均值。
    • 公式均值 = (所有数据点之和) / (数据点数量)
  • 中位数(Median):将数据从小到大排序后,位于正中间的值。
  • 众数(Mode):数据集中出现频率最高的值。

📏 离散度:数据是集中还是分散?

了解了数据的中心后,我们还需要知道数据围绕这个中心的分布情况。离散度度量的是数据的波动或分散程度,它回答的问题是:数据值之间的差异有多大?它们是紧密聚集在一起还是分散得很开?

以下是几种常用的离散度度量指标:

  • 极差(Range):最大值与最小值之差。
    • 公式极差 = 最大值 - 最小值
  • 四分位距(Interquartile Range, IQR):第三四分位数与第一四分位数之差,反映了中间50%数据的分布范围。
  • 方差(Variance):各数据点与均值之差的平方的平均值。
  • 标准差(Standard Deviation):方差的平方根,是最常用的离散度度量,单位与原始数据一致。

⚖️ 偏态:数据分布对称吗?

最后,我们来观察数据分布的形状是否对称。偏态描述了数据分布不对称的方向和程度。它回答的问题是:分布是对称的,还是向某一侧倾斜?

你可以通过比较均值中位数来近似判断偏态:

  • 若均值 ≈ 中位数,分布大致对称。
  • 若均值 > 中位数,分布可能右偏(正偏),即右侧有长尾。
  • 若均值 < 中位数,分布可能左偏(负偏),即左侧有长尾。

此外,偏态也可以在电子表格中直接计算。


🎬 实例分析:电影时长数据

现在,让我们回到电影时长的数据实例中,直观地理解上述概念。

对于集中趋势(均值):想象你要用手指尖托起这个分布图保持平衡。你需要找到数据的“质心”。在X轴上,平衡点看起来大约在120到130分钟之间。

对于离散度:观察电影时长在X轴上的分散情况。大部分电影时长是紧密聚集在均值附近,还是分散得很开?如果均值在120分钟左右,那么大部分电影的时长在均值左右20分钟的范围内,这大约是平均时长的六分之一,因此数据相对集中。当然,样本中也有60分钟或200分钟的电影。

对于偏态:这个分布看起来对称吗?如果在均值处画一条垂直中线,你会发现一些不对称性。左侧(时长较短)的电影似乎更多一些,但这种偏斜并不极端。


除了本节课重点讲解的这三类统计量,在数据分析基础中你还学习过其他有用的描述性统计量,例如最小值、最大值和频数,请不要忘记它们。

现在你已经对这些统计量有了直观理解,接下来我们将进入下一节视频,学习如何具体计算集中趋势的各个指标。


📝 总结

本节课中,我们一起学习了描述样本数据的三大核心统计特征:

  1. 集中趋势(如均值、中位数、众数),用于定位数据的中心。
  2. 离散度(如极差、方差、标准差),用于衡量数据的分散程度。
  3. 偏态,用于判断数据分布形状的对称性。

通过电影时长数据的实例,我们直观地观察了这些统计量所代表的含义。掌握这些概念是进行深入数据分析的基础。

082:均值与众数 📊

在本节课中,我们将要学习如何衡量数据的集中趋势,特别是均值与众数这两个核心概念。集中趋势指标能帮助我们理解一组数据的典型值或中心位置。

数学符号简介

在深入计算之前,我们需要先了解一些统计学中常用的数学符号。这些符号能让公式适用于各种情况。

  • 我们通常用小写字母 x 来代表样本中的一个具体数值,例如一部电影的具体时长。
  • 我们使用小写字母 n 来代表样本的大小,即数据集中有多少个观测值。

例如,如果你采访了10个人,那么在你的样本数据集中,n = 10。在电子表格中,n 就是行的数量。

计算样本均值

上一节我们介绍了基本的数学符号,本节中我们来看看如何计算均值。让我们回到电影时长的例子。

你可能已经熟悉均值的计算,这里我们将用数学符号将其形式化。在这个例子中:

  • X 代表具体的电影时长。
  • 样本大小 n 是 25,因为我们处理的是2013年最受欢迎的25部电影。

样本均值写作 。均值的计算方法是:将样本中所有值相加,然后除以值的数量(即样本大小 n)。这个计算是对数值的平均,因此“均值”和“平均值”有时可以互换使用。

直观地说,这个过程是将所有值的总和平均分配给样本中的每一个值。所有电影的总时长为3035分钟,共有25部电影。如果这些电影时长相同,那么每部电影大约是121分钟。

使用之前介绍的符号,均值的计算公式如下:

x̄ = (Σ x_i) / n

其中:

  • Σ(希腊字母西格玛)表示求和。
  • x_i 代表样本中的第 i 个值,i 从1(第一个数据点)到 n(最后一个数据点)。
  • n 是样本大小。

具体到这个例子,计算过程是:x₁ + x₂ + ... + x₂₅,得到总和3035分钟,然后除以样本大小25,最终得到结果121.4分钟。

理解众数

除了均值,另一个常见的集中趋势度量是众数。众数是指样本数据中出现次数最多的值。

在2013年电影时长的例子中,实际上有两个众数:有3部电影时长为98分钟,另有3部电影时长为130分钟。对于这种连续型数值数据,众数可能不是最有用的度量。

众数更常用于离散型数值数据或分类数据,因为对于这类数据,均值和(我们将在下一节介绍的)中位数并不适用。

以下是众数适用场景的一个例子:

投票结果是一个很好的例子。如果有三名候选人A、B和C,分别获得55%、30%和15%的选票,我们无法计算“平均选票”。此时,众数(候选人A,因为他获得了最多选票)对于描述数据的中心就非常有用。

课程总结

本节课中我们一起学习了衡量数据集中趋势的两个基本工具:均值与众数。

  • 我们了解了用于表示数据和样本大小的基本数学符号 xn
  • 我们学习了均值的计算公式 x̄ = (Σ x_i) / n,它代表了数据的平均值。
  • 我们认识了众数,即数据集中出现频率最高的值,并了解了它特别适用于分类数据或离散数据。

现在你已经了解了如何恰当地使用均值和众数,但还有一个有用的集中趋势度量——中位数。请跟随我到下一个视频学习如何计算中位数。

083:中位数

在本节课中,我们将要学习集中趋势的另一个重要度量——中位数。我们将了解中位数的定义、计算方法,以及它在处理偏斜数据或异常值时相比均值的优势。最后,我们还会探讨中位数与百分位数之间的紧密联系。

上一节我们介绍了均值和众数,本节中我们来看看中位数。

中位数的定义与直观理解

与均值和众数相比,中位数有一个更复杂的正式定义。目前,让我们先直观地理解它的工作原理。

当数据分布没有强烈偏斜时,均值特别有用。但它对非常大和非常小的值相当敏感。假设最后一部电影实际上是有史以来最长的电影,长达7000分钟。这个非常罕见的情况会将均值改变为397分钟。这并不是思考数据中间位置最有用的方式。再次查看直方图,没有一个观测值接近那个标记。这种情况正是中位数可以提供帮助的时候。

中位数的计算方法

中位数是通过选择数据集中心的值来计算的。

一种计算方法是按升序排列样本中的所有值 X。然后成对地划掉它们:左边一个,右边一个,左边一个,右边一个。最终,你会到达中间。由于电影时长数据集中有25个值,会剩下一个值,那就是119。

当然,计算机能够有效地找到中间值,所以你不需要手动划掉这些值。

以下是计算中位数的步骤:

  1. 将数据集中的所有数值按从小到大的顺序排列。
  2. 如果数据个数 n 是奇数,则中位数是位于正中间的那个数。
    • 公式Median = X[(n+1)/2]
  3. 如果数据个数 n 是偶数,则中位数是中间两个数的平均值。
    • 公式Median = (X[n/2] + X[n/2 + 1]) / 2

中位数的优势:对异常值的稳健性

当你的样本数据偏斜或包含异常值时,中位数很有帮助。异常值是数据中的极端值。

想象一下,把有史以来最长的那部7000分钟的电影加回数据集中。现在你有了26部电影,数据个数是偶数。重复计算中位数的过程,你会看到7000分钟这个值立刻就被排除在外了。最后,剩下两个值:119和124。要找到中位数,将这两个数字相加然后除以2,取它们的平均值。这给你一个121.5的中位数。这与原来的中位数119非常接近。

将这个2.5分钟的差异,与原始均值和新的均值之间276分钟的差异进行比较。中位数能更好地代表这个修改后样本数据的中心。

中位数与百分位数

中位数与百分位数的概念紧密相连。百分位数是理解数据中数值分布的一种强大方式。

你刚刚计算的中位数实际上是第50百分位数。它是正好位于中间的值,有50%的数据低于它,50%的数据高于它。

在像 Google Sheets 这样的工具中,你需要选择一个0到1之间的数字来计算百分位数。在这种情况下,0.5就对应第50百分位数。

但你不仅限于第50百分位数(中位数),你可以计算从0(最小值)到100(最大值)之间的任何百分位数。

以下是几个常见的百分位数:

  • 第25百分位数,也称为第一四分位数,是低于该值的数据占25%的那个值。在这个案例中,是109分钟。所以样本中四分之一的电影时长在109分钟或以下。
  • 第二四分位数就是你刚才看到的中位数119,50%在上,50%在下。
  • 第75百分位数第三四分位数,是低于该值的数据占75%的那个值。在这个案例中,是131分钟。所以四分之三的电影时长低于131分钟。

百分位数在处理高度异常值或偏斜数据时特别有用。记住那部7000分钟的电影,它可能会极大地影响均值,但对大多数百分位数的影响微乎其微。例如,第90百分位数告诉我们样本中较长电影的情况,而不会受到这个极端值的影响。

总结与下节预告

现在,你已经了解了如何选择和计算集中趋势的度量,这些是你用来总结样本的一些最关键的描述性统计量。

本节课中我们一起学习了中位数的概念、计算方法及其在处理异常值和偏斜数据时的优势,并了解了中位数作为第50百分位数与四分位数等概念的联系。

跟随我进入下一个视频,在电子表格上计算这些度量。

084:集中趋势演示 📊

在本节课中,我们将学习如何使用电子表格计算集中趋势,以回答实际的商业问题。如果你需要复习电子表格函数,建议回顾数据分析基础课程,那里涵盖了本演示中将用到的所有函数。

这个电子表格承接了之前使用的Lending Tree贷款数据。回忆一下,你之前已经为“已付利息”这一特征创建了直方图。


“已付利息”本质上代表了贷款上累积的利润。

为了对直方图进行补充,我们将计算一些描述性统计量,以帮助你了解可以从贷款利息中赚取的大致金额。如果你想跟着本演示一起操作,可以在下载选项卡中找到电子表格和解决方案文件。

这里有一个新的工作表,用于单独存放你的统计结果。一个好的起点通常是计算均值。

这些描述性统计量的目的是计算一些特定的度量,以帮助总结数据的分布。要计算“已付利息”的均值,你可以使用 AVERAGE 函数。

公式:

=AVERAGE(数据范围)

记住每个公式都以等号开始,加上左括号,然后引用原始数据并选择“已付利息”列。计算结果显示,平均每笔贷款的已付利息约为617美元。

接下来,你可以计算中位数。

公式:

=MEDIAN(数据范围)

同样,输入中位数公式并选择“已付利息”列。计算出的中位数低于均值。均值高于中位数这一事实表明,数据中可能存在一些较高的已付利息值。

为了识别分布中更多的参考点,接下来你可能想计算一些百分位数。要计算第10百分位数,你将使用 PERCENTILE 函数。

公式:

=PERCENTILE(数据范围, 百分位数值)

选择“已付利息”列,然后输入百分位数值。百分位数需要用0到1之间的数字表示,因此对于第10百分位数,你需要输入0.1。结果大约是117美元。

要计算第50百分位数,你可以采用相同的方法,只需更改百分位数参数。

公式:

=PERCENTILE(数据范围, 0.5)

请注意,结果与中位数相同。中位数就是数据的第50百分位数。

最后,假设你是一名贷款人,你想了解单笔贷款可能支付的最高利息是多少。你可能需要计算第99百分位数。

公式:

=PERCENTILE(数据范围, 0.99)

计算结果显示,一笔贷款的最高已付利息金额超过2400美元。这属于整个分布中前1%的部分。

现在,假设你希望通过检查房屋所有权情况来了解贷款背后的抵押品。让我们回顾一下D列的数据,你可以看到原始的“房屋所有权”列,其中包含“租住”、“自有”和“抵押贷款”等类别。

对于这种分类特征,你无法计算其中位数或平均值。你想找出这个变量的众数。MODE 函数通常只适用于数值数据,因此你可以使用“房屋所有权(数值)”列,其中1代表租住,2代表抵押贷款,3代表自有。

公式:

=MODE(数据范围)

你可以使用 MODE 函数来计算最常见的类别。

这里你得到的众数是2,这再次对应着“抵押贷款”类别。因此,大多数申请贷款的人都拥有抵押贷款。这有助于你更好地了解贷款人处于人生的哪个阶段,以及他们可能拥有何种类型的抵押品。

通过计算“已付利息”的集中趋势,你开始理解样本数据的“质量中心”,这让你对平均可以预期的支付额有了大致的了解。

在本节课中,我们一起学习了如何使用电子表格中的 AVERAGEMEDIANPERCENTILEMODE 函数来计算数据的均值、中位数、百分位数和众数,从而描述数据的集中趋势。完成本课的练习评估和实践实验室后,请加入下一节课,学习更多关于数据变异性和偏度的知识。

085:极差与四分位距 📊

在本节课中,我们将要学习如何衡量数据分布的离散程度,即数据点围绕中心值(如均值)的分散或聚集情况。我们将重点介绍两种衡量离散度的工具:极差和四分位距。


在2020年东京奥运会上,精英游泳运动员玛格丽特·麦克尼尔以仅0.05秒的优势赢得了女子100米蝶泳比赛。事实上,决赛中所有八名选手的成绩彼此相差都在1.5秒以内。

这是一个非常微小的差距。相比之下,在你当地的高中游泳队,你可能会看到最快的选手只用70秒就完成了比赛,而其他人则需要200秒或更多。这里的差距要大得多,因为技能水平更加参差不齐。这种衡量数据分布范围的方法被称为离散度变异性,它衡量的是数据点围绕均值聚集的紧密或松散程度。


上一节我们引入了离散度的概念,本节中我们来看看如何通过具体数据来理解它。

让我们从一些直观感受开始。你之前看到电影数据集也包含评分,因此你可以比较电影在国际电影数据库(IMDB)上的评分情况,该评分采用1到10分制。让我们聚焦于两个年份:1934年和1966年。观察这两个直方图,你能看出这两个年份数据的集中趋势有什么特点吗?

结果表明,1934年和1966年的电影平均评分相同,均值都是7.5分。请注意,每个年份都移除了一个异常值,所以这里各有24部电影。

尽管这两个年份的平均分相同,但它们的分布看起来却大不相同。你能发现一个主要区别吗?

1934年的分布看起来紧密地聚集在均值7.5周围,而1966年的分布则分散得多,数值之间的差异更大。换句话说,1966年的数据具有更高的变异性,而1934年的数据变异性较低。


现在,让我们看看可用于计算变异性的不同工具。首先介绍极差

极差是衡量数据分布范围最直接的工具。以下是其定义和计算方法:

极差 的计算公式为:
极差 = 最大值 - 最小值

它回答的问题是:任意两个数值之间的最大距离是多少?这是一个简单但有用的变异性度量。

以下是两个年份电影评分的极差计算示例:

  • 对于1934年,最高评分是8.3,最低评分是6.9,因此极差为 8.3 - 6.9 = 1.4
  • 相比之下,1966年的最高评分是9.0,最低评分是6.1,因此极差为 9.0 - 6.1 = 2.9,是1934年的两倍多。

计算极差是快速查看评分分布范围以及某一年份电影评分是否一致的方法。在这个案例中,与1966年相比,1934年的评分更加一致。


接下来,我们介绍另一种与中位数配合使用的变异性度量:四分位距

四分位距是衡量数据中间部分离散程度的重要指标。以下是其定义和计算方法:

四分位距 的计算公式为:
IQR = Q3 - Q1

请记住,第一四分位数(Q1)定义了数据中最低的25%,第三四分位数(Q3)定义了数据中最高的25%。它们的差值意味着IQR包含了中间50%的数据。

以下是两个年份电影评分的四分位距计算示例:

  • 对于1934年,第一四分位数是7.25,第三四分位数是7.75,因此 IQR = 7.75 - 7.25 = 0.5
  • 对于1966年,第一四分位数是7.25,第三四分位数是8.0,因此 IQR = 8.0 - 7.25 = 0.75,比1934年宽了50%。

所以你可以看到,IQR遵循了与极差相似的模式:1966年的值高于1934年,这反映了数据中更大的变异性。


本节课中我们一起学习了两种常见的变异性度量:极差和四分位距。你已经看到,即使两组数据的中心趋势(如均值)相同,它们的离散程度也可能大不相同。在下一个视频中,你将学习另外两种变异性度量:方差和标准差。

086:方差与标准差 📊

在本节课中,我们将要学习两种衡量数据离散程度的核心方法:方差与标准差。它们是比极差和四分位距更复杂的计算,也是许多其他统计学概念的基础。

上一节我们介绍了极差和四分位距,本节中我们来看看如何通过计算每个数据点与均值的平均距离来量化数据的离散程度。

方差的计算原理

计算离散度的根本目的是量化数值的分散程度。方差背后的核心思想是找出每个数值与均值之间的平均平方距离

以下是计算样本方差的步骤:

  1. 对于样本中的每一个数值,计算它与样本均值的差值。
  2. 将这个差值进行平方。
  3. 将所有平方差值求和。
  4. 将总和除以样本容量减一(n-1)。

方差计算实例:1934年电影评分

让我们以1934年的电影评分数据为例,逐步计算其方差。样本均值为7.5分。

以下是计算过程:

  • 《埃及艳后》:评分为6.9。差值 = 6.9 - 7.5 = -0.6。平方差 = (-0.6)² = 0.36。
  • 《风流寡妇》:评分为7.5。差值 = 7.5 - 7.5 = 0。平方差 = 0² = 0。
  • 《一夜风流》:评分为8.3。差值 = 8.3 - 7.5 = 0.8。平方差 = 0.8² = 0.64。

对每个数据点重复此过程后,将所有平方差求和。平方操作有两个目的:一是确保正值和负值不会相互抵消;二是放大了与均值距离较大的偏差,使它们对方差的贡献更显著。

最后,将平方差总和除以 n-1(本例中为23),得到方差约为0.13。

关于除以 n-1 的说明

你可能会问,为什么不直接除以 n 来计算平均平方差?这是一个很好的直觉。使用 n-1 是一个微小的调整,当处理样本而非整个总体时,它能使估计值更准确。n-1 比 n 略小,这使得方差估计值略高一些,有助于统计量包含更多的不确定性。

方差的公式化定义

样本方差的公式可以总结如下:

公式s² = Σ (xᵢ - x̄)² / (n - 1)

  • 代表样本方差。
  • xᵢ 代表样本中的每一个数值。
  • 代表样本均值。
  • Σ 表示对所有数值的平方差进行求和。
  • n 是样本容量。

从方差到标准差

方差的一个问题是,由于对差值进行了平方,其单位是原始数据单位的平方(例如“分²”),这不利于直观解释。

解决方法是对方差取平方根,这样我们就得到了与原始数据单位一致的度量,称为标准差

公式s = √s²

  • 样本标准差记为 s
  • 样本方差记为 ,即标准差的平方。

对于1934年的电影评分,方差为0.13,则标准差为 √0.13 ≈ 0.355分。相比之下,1966年电影评分的标准差约为0.655分,这证实了我们的直观判断:1966年的评分分布更为分散。

标准差的可视化

我们可以在之前的直方图上可视化标准差。在均值左右各一个标准差的位置画上虚线。

对于1934年的数据,这两条虚线之间的范围较窄。而对于1966年的数据,虚线被“拉”得更开,范围更宽。这从视觉上印证了1966年数据的离散度更大。

在实践中,方差和标准差都会用到。方差是许多衍生计算的基础,而标准差则更常用于描述数据分布的特征。

本节课中我们一起学习了如何计算和解释方差与标准差,它们是量化数据离散度的核心工具。在下一个视频中,我们将探讨描述数据分布的第三个关键指标:偏度。

087:偏态 📊

在本节课中,我们将要学习偏态这一概念。偏态用于描述数据分布的不对称性,它帮助我们理解数据是否偏向一侧,以及这种偏向的程度。

与均值、中位数、方差和标准差不同,偏态通常不手动计算。它有一个相当复杂的公式。

公式:

偏态 = [n / ((n-1)(n-2))] * Σ[(Xi - X̄) / s]^3

其中,n 是样本数量,Xi 是每个数据点, 是样本均值,s 是样本标准差。

不过,偏态是一个非常有用的概念。下面介绍一种快速估算偏态的简便方法。

通过均值与中位数比较估算偏态

上一节我们介绍了均值和中位数对极端值的不同敏感性。本节中我们来看看如何利用这种差异来估算偏态。

均值对极端值非常敏感,因为它将所有值的总和分配到样本量上。而中位数对这些异常值相对不敏感。因此,估算偏态的一种方法是比较均值和中位数。当数据分布不对称时,与中位数相比,均值会更多地被异常值的长尾所拉动。

以下是直方图中的表现。如果均值大于中位数,数据向右偏斜,这也称为正偏态。可以这样记忆:数值的长尾向正方向延伸。

反之,在另一种分布中,均值小于中位数,表明存在负偏态。可以看到,均值被更强地拉向左侧,即从数据中心向负方向延伸的尾部。

这种差异越大,数据偏态就越严重,因为均值会继续被拉得离中位数越来越远。

结合标准差理解偏态差异

这种差异的大小需要结合标准差来理解。例如,假设均值为5,中位数为10,标准差为10。均值与中位数之间的巨大差异(相对于标准差而言)表明存在显著的偏态。

现在,假设相同的均值和中位数,但标准差为100。这种差异的影响就不那么显著,但偏态仍然存在。

如果数据没有偏态呢?以下是一个无偏态数据的直方图。在这种情况下,均值和中位数大致相等,因为均值没有受到数据不对称性的显著影响。

快速测试

假设均值为18,中位数为10,标准差为15。你认为这组数据是正偏态、负偏态还是无偏态?

考虑均值被拉动的方向。由于均值大于中位数,这种差异表明分布在右侧或正方向存在长尾。差值8与标准差15相比,表明存在相当程度的正偏态。

在电子表格中计算与解释偏态

在电子表格中计算偏态时,会使用 SKEW 函数,该函数返回一个数值。因此需要知道如何解读它。

以下是偏态值的解读指南:

  • 更正值表示更严重的正偏态。
  • 更负值表示负偏态。
  • 接近0的值表示偏态很小。

具体而言:

  • 偏态绝对值小于0.5,表示偏态很小
  • 偏态在0.5到1之间,表示中度偏态
  • 偏态大于1,表示高度偏态

总结

本节课中我们一起学习了偏态的概念。我们了解到偏态描述了数据分布的不对称性,可以通过复杂的公式计算,也可以通过比较均值和中位数来快速估算。关键在于,均值大于中位数通常表示正偏态(右偏),均值小于中位数表示负偏态(左偏),并且需要结合标准差来评估偏态的显著程度。最后,我们学习了如何在电子表格中使用 SKEW 函数并解读其结果。

现在你已经熟悉了如何计算和理解集中趋势、变异性和偏态的关键度量,但这些如何在数据分析中使用呢?请跟随我到下一个视频,以更好地理解如何根据你试图回答的业务问题来选择每种度量。

088:为何使用这些指标 📊

在本节课中,我们将要学习集中趋势、变异性和偏度这三个描述性统计指标的重要性。我们将通过具体的商业案例,理解不同指标如何帮助我们回答不同的业务问题,并选择合适的指标进行分析。


概述

描述性统计的核心指标——集中趋势、变异性和偏度——之所以重要,是因为它们能帮助我们理解数据分布的不同方面。根据具体的业务问题,我们可能更关注数据的平均值、极端值或数据的波动情况。

上一节我们介绍了描述性统计的基本概念,本节中我们来看看这些指标在实际商业场景中如何应用。


商业问题与指标选择

以下是几个不同的商业场景,展示了如何根据问题选择合适的描述性统计指标。

案例一:关注典型值(集中趋势)

一家个性化商品公司可能想知道:“人们单次购买通常花费多少钱?”

在这种情况下,你关注的是集中趋势,即数据的“中间”位置在哪里。但你必须注意如何描述典型的购买金额。

如果数据分布存在偏度,平均值可能会产生误导。例如,如果你的平均购买金额是 100美元,但实际数据包含大量小额交易和少数几笔巨额交易,那么100美元这个平均值并不能很好地代表典型的销售情况。

此时,你可能更想使用中位数,并进一步调查那些大额销售,以洞察高消费客户的行为。

公式示例:

  • 均值(可能受偏度影响):mean = sum(all_values) / count(all_values)
  • 中位数(对异常值更稳健):位于排序后数据正中间的值。

案例二:关注稳定性(变异性)

假设你为一家奶酪帽制造商工作,他们希望你弄清楚“不同工厂的生产效率一致性如何”。

对于这个问题,变异性指标非常有价值。假设你的目标是每个工厂每天生产50顶奶酪帽,并且平均生产率确实是每天50单位。表面上看这很好,但没有变异性的平均值伴随高变异性的平均值含义截然不同。

如果每个工厂每天几乎都恰好生产50顶奶酪帽,你可以对生产预测相当有信心。但如果一个工厂某天生产10单位,另一天生产75单位,你就会得出不同的结论:有可能达到每天75顶的产量,你可能需要在全公司推广这些高生产率日所采用的做法。

核心概念:

  • 低变异性:数据点紧密围绕均值,如 [49, 50, 51]
  • 高变异性:数据点分散,如 [10, 50, 75]

案例三:关注极端情况(偏度与分位数)

最后,考虑一家电力公司,它可能调查:“我们需要多少电力容量来处理用电高峰时段?”

对于这个问题,你不仅对平均用电量感兴趣,更对极端值感兴趣。你会希望查看最高用电时段,也许是第95或第99百分位数,以确保能够处理峰值负荷而不导致停电。

这种分析对于公用事业公司规划炎热的夏日或寒冷的冬夜(用电量会激增)尤为重要。

代码示例(概念性):

# 假设 `usage_data` 是每小时用电量的列表
peak_usage_95th = np.percentile(usage_data, 95)
peak_usage_99th = np.percentile(usage_data, 99)


总结

本节课中我们一起学习了如何根据不同的商业问题,匹配最合适的描述性统计指标:

  • 关心“典型”情况时,使用集中趋势指标(如均值、中位数),并注意偏度的影响。
  • 关心“稳定性”或“一致性”时,变异性指标(如方差、标准差)是关键。
  • 关心“极端”情况或“峰值”容量时,需要关注分布的尾部,使用分位数(如第95百分位数)进行分析。

你已经了解了如何将这些不同的度量指标与它们最能支持的洞察相匹配。接下来,请跟随我到下一个视频,学习如何在电子表格环境中进行这些分析。

089:离散度与偏态分析演示

在本节课中,我们将学习如何使用电子表格计算数据集的离散度(变异性)与偏态。我们将以贷款利息支付数据为例,演示如何通过具体指标更深入地理解数据分布。

概述

上一节我们介绍了数据分布的中心趋势度量,如均值和中位数。本节中我们来看看如何度量数据的离散程度和分布形状的偏斜情况。这些指标能帮助我们更全面地评估数据,例如在分析贷款投资机会时,理解利息支付的波动范围。

计算离散度指标

首先,我们关注数据的变异性。仅知道平均利息支付约为617美元、中位数约为456美元是不够的。我们需要了解数据是广泛分散在数百美元范围内,还是紧密聚集在均值附近。

以下是计算离散度的几个关键步骤:

  1. 计算极差
    极差是最大值与最小值之差,能帮助你了解最大与最小可能支付额之间的差距。

    • 使用 MAX 函数计算最大支付利息,约为3500美元。
    • 使用 MIN 函数计算最小支付利息,为0美元。
    • 极差 = 最大值 - 最小值 ≈ 3500美元。这个范围相当大,表明变异性很高。值得注意的是,最大值比第99百分位数高出近1000美元,在数据的高百分位区间存在较大跳跃。
  2. 计算方差与标准差
    极差只考虑两个极端值,而方差考虑了所有数据点。以下是计算过程:

    • 使用 VAR 函数计算方差,结果约为280,000。注意:方差的单位是美元的平方,因此不应将此单元格格式化为货币。
    • 为使结果更易于解释,可将其转换为标准差。使用平方根函数 SQRT 计算:标准差 = SQRT(方差)
    • 标准差单位是美元,可以将其格式化为货币。直接使用 STDEV 函数也能得到相同结果,公式为:STDEV(数据范围)

评估数据偏态

接下来,我们评估数据分布的偏斜方向与程度。根据之前看到的直方图,可以初步判断该数据呈正偏态。

以下是评估偏态的方法:

  1. 通过均值与中位数比较
    比较均值(约617美元)和中位数(约456美元)。由于均值 > 中位数,这初步表明数据存在正偏态。

  2. 计算偏度系数
    为了更具体地评估偏斜程度,可以计算偏度系数。

    • 使用 SKEW 函数进行计算。
    • 计算得到的偏度系数约为1.55。
    • 回顾一下,任何大于1的偏度值都表示强偏态。因此,本例中存在强正偏态,这与在分布直方图中观察到的特征一致。

总结

本节课中我们一起学习了如何计算和分析数据的离散度与偏态。通过计算极差、方差、标准差以及偏度系数,我们能够更深入地理解数据分布的波动范围和不对称性。即使只是计算中心趋势、离散度和偏态,也能让我们对潜在的利息支付情况有更丰富的认识。

在下一个视频中,我们将通过解读另一种常见的可视化图表——箱线图,来结束关于数据分布的讨论。

090:箱线图教程

在本节课中,我们将要学习一种用于数据分布可视化的强大工具——箱线图。我们将了解它的构成、如何解读,以及它与之前学过的直方图有何不同,并探讨各自的适用场景。


📦 什么是箱线图?

另一种用于分布可视化的优秀工具是箱线图。它有时也被猫爱好者称为“盒须图”。箱线图虽然不如直方图常见,但非常有用。你需要知道如何解读它们。

箱线图可以可视化数据的四分位数,包括中位数。你之前已经学过,中位数就是第二四分位数。箱体部分由第一和第三四分位数构成,而“须”通常延伸到距离第一和第三四分位数 1.5倍IQR(四分位距) 范围内的最小值和最大值。


🔍 箱线图的构成与解读

箱体覆盖了四分位距的长度。回顾一下,四分位距(IQR) 就是第三四分位数与第一四分位数之差。

IQR = Q3 - Q1

箱线图也有助于可视化异常值。异常值是指任何落在“须”范围之外的值,通常用独立的标记点表示。


↔️ 异常值与分布形态的关系

在非偏态分布中,异常值可能落在分布中心的两侧。例如,在人类身高的分布中,异常值会出现在两侧,即异常矮小和异常高大的人。

然而,在偏态分布中,大多数异常值很可能只落在分布的一侧。这是因为在偏态分布中,大多数数值高度集中在分布的某个区域,这导致四分位距相对于数据的整体范围显得较小。

例如,在这个慈善捐款的分布中,大多数捐款在10到20美元之间,但存在少数几笔大额捐款。因此,大多数异常值很可能是大额捐款,而不是小额捐款。


🎬 实例分析:电影时长

作为一个快速回顾,你在之前的课程中看过这张2013年电影时长的直方图。你当时猜测平均电影时长在120到130分钟之间。

现在你熟悉了IQR,可以为同样的数据构建一个箱线图,来比较这两种可视化方式。

以下是同一组电影时长数据的箱线图。现在更容易看出,中位数略低于120分钟,并且大约50%的数据集中在108到132分钟之间。


⚖️ 箱线图的优势:比较多个分布

箱线图特别适合比较多个分布,因为你可以直接比较它们的中位数、四分位数、潜在的异常值以及变异性。而直方图即使控制了组距和坐标轴尺度,也无法如此直接地进行这些比较。

让我们看看箱线图如何能更好地比较电影时长数据。

以下是底部1933年、中部1973年和顶部2013年电影时长的箱线图。你能看出这些分布的什么信息?

2013年的中位数,正如你所见,大约在120分钟。而1973年的中位数接近115分钟。这不是一个巨大的差异,并且这两年的变异性(考虑到全距和IQR)是相似的。

1933年的情况则有些不同。它的中位时长大约在90分钟。那真是个美好的时代!而且电影时长似乎经常短至40分钟。其全距仅勉强达到120分钟,而这只是2013年的中位数。看来在1933年到2013年之间,电影时长发生了明显的变化,但在这个时期的后期,变化似乎趋于平缓。


❓ 如何选择:箱线图 vs. 直方图

那么,何时应该选择箱线图,何时选择直方图呢?

直方图是一个很好的选择,当你想:

  • 展示分布的详细形状。
  • 突出数据中不同值范围的频率。
  • 以精细的细节检查你的数据。

箱线图则是理想的选择,当你想:

  • 跨多个组比较分布。
  • 快速识别异常值。
  • 一目了然地展示关键汇总统计量,如中位数、四分位数和全距。

📝 课程总结

在本节课中,我们一起学习了箱线图。我们了解了箱线图如何通过箱体和须线展示数据的四分位数、中位数和异常值。我们探讨了它在识别偏态分布和比较多个数据集方面的优势,并与直方图进行了对比,明确了各自最适合的应用场景。直方图和箱线图都是数据可视化的强大工具。

在完成接下来的未评分实验之前,我希望你能在下一个视频中与我一起,学习如何使用大语言模型来帮助你处理电子表格中的错误和公式。我们下个视频见。

091:使用LLM处理电子表格公式错误 📊

在本节课中,我们将学习如何利用大型语言模型(LLM)作为辅助工具,来编写电子表格公式并排查可能遇到的错误。我们将通过一个具体的电影数据集案例,演示从公式错误修复到高级功能(如条件格式)应用的全过程。

概述:LLM作为电子表格助手

在之前的课程中,你已经接触了许多复杂的公式和电子表格任务。大型语言模型可以作为一个有用的“思考伙伴”,不仅能协助你编写公式,还能帮助你排查可能遇到的任何错误。

案例:统计时长超过两小时的电影

假设你正在处理一个数据集,它包含了每年排名前25的电影、它们的IMDB评分、评分数量和时长。

你的目标是统计时长超过120分钟(两小时)的电影数量。你知道需要使用 COUNTIF 函数,于是写下了公式:=COUNTIF(E:E, >120)

然而,你遇到了一个令人沮丧的错误:“公式解析错误”。这个提示信息并没有提供太多帮助。

使用LLM排查公式错误

一个可行的选择是与LLM对话,以帮助你解决这个错误。

以下是你可以使用的提示词:

“你好,我遇到了一个公式解析错误。你能帮我修复它吗?这是我的公式:=COUNTIF(E:E, >120)。”

为了帮助模型更好地理解,你可能需要添加几行数据样本到提示词中。

LLM首先指出,你公式中的错误是由于条件书写方式导致的。它告诉你,在Excel的 COUNTIF 函数中,条件必须用引号括起来。

请注意,模型默认你使用的是Excel。你可以进一步追问这个解决方案是否也适用于Google Sheets。模型会确认该解决方案同样适用于Google Sheets。

因此,问题似乎出在 COUNTIF 函数的条件缺少引号上。你可以复制LLM提供的Google Sheets公式代码,并修正单元格中的公式。

修正后的公式为:=COUNTIF(E:E, “>120”)

现在,你可以看到公式正确执行,并返回大约638部时长超过两小时的电影。

计算电影总数与百分比

如果你想计算数据集中的电影总数,可以滚动到底部,看到最后一行是2052。减去标题行,得到总数为2051部电影。但这种方法很繁琐,而且如果未来添加更多年份数据,电影数量会变化。

如何用公式计算数据集的行数呢?你可以再次向LLM提问:“如何用公式计算我数据集中的行数?请给我一些选项。”

这是一个有用的技巧,因为你可以从中选择最佳方案。LLM可能会提供多种选项,例如使用 COUNTA 函数。你可以要求它只提供最好的两三个选项。

让我们看看 COUNTA 函数的效果:=COUNTA(A:A)



结果显示为2052,但这比实际电影数量多了一个。看来 COUNTA 函数把标题行也计算在内了。

如果你查看LLM提供的第三个选项,会发现它考虑到了这个修正:=COUNTA(A:A)-1

因此,在公式中减去1,你就会得到正确的答案:2051部电影。

实际上,COUNT 函数也能达到相同的结果。将 COUNTA 函数替换为 COUNT,并移除 -1,但必须选择一个包含数值特征的列,例如:=COUNT(E:E)。现在你可以得到正确的电影总数。

回到与LLM的对话中,你可能会注意到 COUNT 函数并不在它提供的选项里。这是一个很好的例子,说明LLM并不总是能提出最佳的解决方案。

现在,让我们完成时长超过两小时的电影百分比计算:=638/2051

结果显示,大约31%的电影时长超过两小时,略低于三分之一。

应用条件格式:高亮显示高时长电影

假设我想高亮显示从A列到E列的每一行,但仅当该电影的时长处于75百分位或更高时。

首先,我们需要计算75百分位的值。同样,使用 PERCENTILE 函数:=PERCENTILE(E:E, 0.75)

选择时长列(E列),然后输入0.75作为75百分位的参数。可以看到,75百分位的时长是125分钟。

接下来,让我们向LLM寻求帮助,以弄清楚如何对数据应用条件格式。这需要在条件格式中使用自定义公式,而自定义公式很难记忆,因此LLM是一个非常好的资源。

提问:“如何使用条件格式,如果时长处于75百分位或更高,则将A列到E列的整行高亮显示为绿色?我的75百分位值在单元格H6中。”

这是一个重要的引用,这样LLM提供的公式才会引用正确的单元格。

可以看到,LLM为你提供了一系列应用条件格式的步骤。

首先,它告诉你要选择数据行。
接着,它说明了如何启动条件格式设置。

然后,它告诉你如何输入自定义公式。你可以复制这个自定义公式。

你需要选择数据中的所有列,然后使用Command+点击(Mac)或Ctrl+点击(Windows)取消选择标题行中的单元格,因为你不想让标题行被条件格式化。

在格式规则下插入自定义公式。这就是你将从LLM复制的公式粘贴进去的地方。

电影《Marius》的时长为130分钟,这确实高于125分钟的75百分位值。你可以继续向下滚动查看是否还有更多例子,例如在1935年还能找到一些。

记住,通常老电影的时长不会这么长。因此,在这个数据集中,早期年份的例子不会像你滚动到近年份时看到的那么多。

这种条件格式可以帮助你一目了然地看到,哪些电影的时长处于75百分位或更高。

总结:LLM提升电子表格技能

LLM可以帮助你发现电子表格的功能,并让你更享受使用它们的过程。

在本模块中,你已经学到了很多。接下来,你将完成本课的实践评估以及两个实践实验室。

在第一个实验室中,你将使用上一课的歌曲数据集练习计算变异性和偏度。
在第二个实验室中,你将与大型语言模型合作,探索新的电子表格功能并排查错误。

完成后,请加入下一节课,我们一起探索相关性分析。

092:相关分析 📊

在本节课中,我们将学习如何量化两个数值特征之间的关系,即相关分析。我们将介绍皮尔逊相关系数,理解其含义,并通过示例学习如何解读相关系数。


什么是相关分析?

相关分析是一种量化两个数值特征之间关系的方法。

你已经见过散点图,它能直观地展示两个特征如何相关。现在,我们将正式定义这种关系。

衡量相关性的方法有多种,但最常见的是皮尔逊相关系数,通常用小写字母 r 表示。r 始终是一个介于 -11 之间的数字。


相关系数的直观理解

让我们从该度量背后的直觉开始。

假设你有一个包含两个数值特征的散点图。在 X 轴上,是观看的电视剧集数;在 Y 轴上,是观看电视的总小时数。

你可以将 r 理解为衡量一条最佳拟合直线与这些数据点的拟合程度。更专业地说,r 衡量的是两个特征之间线性关系的强度方向


完美相关案例

让我们看一个完美的情况。假设你的散点图有这些点。

这条直线有一个恒定的斜率,意味着 X 每变化 1 个单位,Y 就会变化一个恒定的量。这对于每集时长完全相同的电视剧来说是合理的,比如每集 45 分钟。

如果你知道某人看了多少集电视剧,你也就确切地知道他们看了多长时间的电视。

在这个例子中,有一条直线 y = 0.75x,意味着每集是 0.75 小时。所以这条线的斜率为正 0.75。X 每变化 1,Y 就变化 0.75。

在这种情况下,相关系数 r 等于 +1。你可以说 X 和 Y 是完美相关的,因为 X 的变化会产生完全可预测的 Y 变化。


非完美相关案例

现在,想象你的数据不那么完美,是下面这组点。

虽然不容易画一条线穿过所有点的中心,但肯定可以找到一个很好的近似。

每个点要么略高于线,要么略低于线,但随着 X 增加,Y 也增加,并且增加的量相对可预测。

你可以看出,观看的电视剧集数越多,看电视的时间就越长,但剧集长度并不完全相同。这里的相关系数可能接近 +0.85

在这个散点图中,最佳拟合线与前一个例子相同,但相关性没有那么强。


负相关案例

这是另一个例子:随着 X 增加,Y 减少。

在这种情况下,X 是观看的电视剧集数,Y 是用于学习的小时数。所以,一个人看电视越多,可能用于学习的时间就越少。

在这种情况下,最佳拟合线具有负斜率。然而,相关性与前一个例子同样强。相关系数大约为 -0.85

请记住,你应该将相关性本质上理解为用直线拟合数据的程度,无论关系是正还是负。所以当 X 上升时 Y 下降,并且下降的量大致可预测。这种相关性与前一个例子一样强,只是被称为负相关,就像最佳拟合线的斜率一样。


无相关案例

这是一个没有相关性的散点图,意味着相关系数等于 0

这个图表示观看的电视剧集数和每人每天的饮水量。无论你看不看电视,你都可以喝水。

所以这里似乎没有任何关系。最佳拟合线的斜率为 0,因为随着 X 增加,Y 没有以任何可预测的方式上升或下降。因此,最佳拟合线只是预测 Y 的平均值,无论 X 值是多少。这是最好的猜测,但并不准确。


如何计算与解读相关系数 r

手工计算 r 可能很复杂,但现在的计算机让它变得容易得多。

让我们研究一下如何解读 r,它会告诉你关于两个特征之间关系的两个重要信息。

第一,相关性的强度。 以下是基于 r 的绝对值(即与 0 的距离)来解读其强度的一般指南:

  • 0 到 0.3(正或负):表示弱相关
  • 0.3 到 0.7(正或负):表示中度相关
  • 0.7 到 1(正或负):表示强相关

第二,r 告诉你相关的方向。

  • 正的 r 意味着两个特征倾向于一起增加或一起减少。
  • 负的 r 意味着当一个特征增加时,另一个特征倾向于减少。

请注意,解读 r 的过程与解读偏度类似,后者也有强度和方向。


练习:判断相关系数

以下是三个散点图。你认为每个图的 r 是多少?

提示:看看它们是否都像一条直线。

这些图的 r 都是 1。你可以用一条直线完美地拟合这些数据。并且随着一个特征增加,另一个也增加。直线的斜率为正,无论大小,这种关系是高度可预测的。

那么这三个散点图呢?你认为它们的 r 是多少?

这些图的 r 都是 -1。你可以用一条直线完美地拟合它们。然而,随着 X 增加,Y 实际上在减少,使得相关性为负。

以下是两个相关系数分别为 0.8-0.8 的散点图。你能分辨出哪个是哪个吗?

左边的是 +0.8,而右边的是 -0.8

好的,最后一个。你猜这个散点图的相关性是多少?

它是 0。这里没有明显的关系。这里的直线将是平坦的。


总结

本节课中,我们一起学习了相关分析。我们了解到:

  1. 相关系数 r 是量化两个数值变量之间线性关系强度和方向的指标,其值介于 -1 和 1 之间。
  2. r = 1 表示完全正相关,r = -1 表示完全负相关,r = 0 表示无线性相关。
  3. 根据绝对值大小,可以判断相关性的强弱:0-0.3(弱),0.3-0.7(中),0.7-1(强)。
  4. 正负号表示相关的方向:正号表示同向变化,负号表示反向变化。

计算出一个能映射到你数据直觉的数字总是令人兴奋的。在下一个视频中,我们将一起学习相关性与因果关系之间的重要区别。

093:相关性与因果性 📊

在本节课中,我们将要学习数据分析中两个至关重要的概念:相关性与因果性。理解它们之间的区别,对于正确解读数据关系、避免常见误区至关重要。


概述

相关性容易被误解,因为它常常与一个相关的概念——因果性——相混淆。

相关性与因果性听起来相似,但它们指的是两个特征之间关系的两个不同方面。


相关性 vs. 因果性:核心区别

上一节我们提到了这两个概念容易混淆,本节中我们来看看它们的具体含义。

相关性表示两个特征之间存在某种关系或关联。
因果性则意味着一个事件是另一个事件的结果,存在明确的因果关系。

用一个简单的公式来概括:

  • 相关性: XY 一同变化。
  • 因果性: X 导致 Y 发生。

通过示例理解

以下是两个示例,帮助我们直观地感受相关性与因果性的不同。

示例一:冰淇淋销量与日光浴时间
请看这张图,X轴是冰淇淋销量,Y轴是日光浴时长。
可以看到,随着冰淇淋销量上升,日光浴时间也增加。R值(相关系数)可能约为 +0.8。
基于此信息,你能得出结论说购买冰淇淋会导致人们进行更多日光浴吗?不能。
尽管这两个事件相关,但其中一个并非另一个的原因。

示例二:日照时长与日光浴时间
请看这张关于每日日照时长和日光浴时长的图。
它与刚才看到的图非常相似。R值可能同样在 +0.8 左右,但这里存在因果关系吗?
是的,存在。因为阳光的可获得性直接影响了人们进行日光浴的可能性。在阴天你就不太可能去日光浴。


关键差异总结

为了总结两者的区别,以下是相关性与因果性的核心要点对比:

  • 相关性:指示两个特征之间存在关系或关联,但不意味着一个特征导致了另一个。当特征同向变动时为正相关,反向变动时为负相关
  • 因果性:意味着一个特征直接影响另一个,并确立了因果关系。

确立因果性的挑战与误区

你无法通过散点图或皮尔逊相关系数来确立因果性。确立因果性需要比相关性更严格的检验。

你应注意,可能存在第三个特征同时影响我们所关注的两个特征,从而制造出它们直接相互影响的假象。
在冰淇淋和日光浴的例子中,虽然两者相关,但它们实际上都是由“阳光更充足的日子”这个第三特征导致的。

另一个潜在的陷阱是方向性问题。即使存在因果关系,在没有实验证据的情况下,也可能难以确定哪个特征是原因,哪个是结果。
“晴朗天气导致更多日光浴”是清晰的,但反之则不成立。
那么,如果你研究的是孤独感与社交媒体使用量之间的关系呢?是孤独的人使用更多社交媒体,还是社交媒体让人感到更孤独?


本节总结

本节课中我们一起学习了:

  1. 相关性表示变量间的伴随变化关系,可通过散点图和相关系数(如R值)度量。
  2. 因果性表示一个变量直接导致另一个变量发生变化。
  3. 两者最核心的区别是:相关不等于因果
  4. 混淆两者是常见的数据解读误区,需警惕“第三变量”和“方向性”问题。
  5. 确立相关性相对简单,但确立因果性需要更严谨的研究设计(如实验)。

虽然可以通过散点图和皮尔逊相关系数建立相关性,但确立因果性需要更高水平的严谨性。请务必注意你如何解读相关性。

跟随我进入下一个视频,学习如何在电子表格中进行相关性分析。

094:电子表格中的相关分析与散点图 📊

在本节课中,我们将学习如何在电子表格中实践相关性分析,并使用散点图可视化数据关系。我们将以借贷数据集为例,探索不同数值特征之间的关联。


实践:借贷数据集中的相关性分析

上一节我们介绍了相关性的基本概念,本节中我们来看看如何在具体数据集中应用它。

你可以选择任意一对数值特征来观察它们如何相关。需要提醒的是,该数据集包含了通过借贷平台发放的数千笔贷款记录。每一行代表一笔特定的贷款,每一列包含了借款人的特征信息,例如其职位、年收入,以及贷款信息,例如贷款金额。

如果你想跟随演示操作,可以在下载选项卡中找到电子表格和解决方案文件。

到目前为止,你已经查看了“已支付利息”这一特征的分布,并检查了其集中趋势、变异性和偏度。从贷款人的角度来看,这是一个有趣的特征,但结合更多背景信息它会更有用。你可能还对哪些因素会导致更高的利息和贷款金额感兴趣。


分析“已支付利息”与“分期付款”的相关性

让我们考虑“已支付利息”和“分期付款”之间的相关性。请记住,“分期付款”是申请人每月应支付的金额。

以下是“已支付利息”和“分期付款”的数据。你预计这两个特征会如何相关?是正相关还是负相关?相关性是强、中等还是弱?

你可能想先可视化这两个数值特征之间的关系。

你可能想添加一条趋势线,以便观察两个特征之间潜在的线性相关性。

首先,趋势线在“已支付利息”值较小时具有正斜率。此时“分期付款”的值也较小,并且这类数据点很多。对于较大的“已支付利息”值,你会得到较大的“分期付款”值,但数据点密度较低。这表明存在正相关,可能介于中等和强相关之间。

现在,你可能想找出这两个特征之间的实际相关系数。你可以使用 CORREL 函数,然后只需选择这两列数据。

=CORREL(数据范围1, 数据范围2)

相关系数约为 0.69,这处于中等正相关和强正相关的边界上。你还应注意,相关性计算是对称的。这意味着你选择列的顺序无关紧要,你会得到相同的结果。


分析“已支付利息”与“年收入”的相关性

让我们看一些其他例子。看看“已支付利息”与“年收入”如何相关。

同样,你可以创建一个散点图来直观感受这两个特征之间的相关性。

同样,你可以为数据添加趋势线,以便整体可视化其模式。

你在这个散点图中看到了什么?总体而言,低已支付利息和低年收入的数据点密度较高,但数据点相当分散。你还会看到一些距离很远的点,这些点会影响相关性。总体来看,数据点与趋势线的拟合较为松散,这意味着这些特征之间可能不存在强的线性关系。这表明存在弱正相关。

接下来,你可以计算实际相关系数。返回数据选项卡,选择这两列来计算相关性。同样,由于计算是对称的,你选择列的顺序无关紧要。

“已支付利息”与“年收入”之间的相关系数约为 0.20。这比之前的相关系数计算值低得多,表明存在弱正相关。总体而言,这与你在散点图中观察到的趋势一致。人们一年赚的钱越多,支付的利息也越多,但还有许多其他因素可以解释已支付利息的变化。仅根据收入来预测确切的已支付利息值是困难的。


分析“年收入”与“负债收入比”的相关性

让我们再看另外两个特征:“年收入”和“负债收入比”。

“负债收入比”是你的贷款负债与年收入之比。较低的负债收入比意味着一个人的债务比例较小,更有可能偿还新贷款。

这个相关性有助于回答一个问题:这些借款人的收入与他们相对债务金额之间的关系是什么?

你预计这些特征会如何相关?是正相关还是负相关?相关性是强、中等还是弱?

让我们看一下计算。从数据中选择这两个特征。

结果约为 -0.177。因此,在这种情况下,这是一种负相关关系,表明收入较高的人平均负债收入比较低,反之亦然。此外,相关系数的较小幅度表明这种关系总体上是弱的。


总结与下一步

出色地完成了使用散点图识别相关性的符号和幅度,以及解释 CORREL 函数输出的工作。本节课到此结束。

接下来,你将完成本课的练习评估以及实践实验。在实践实验中,你将探索音乐不同特征之间的相关性,以构建更好的播放列表。完成后,请跟随我进入下一节关于市场细分的课程。


本节课中我们一起学习了如何在电子表格中使用散点图和相关函数(CORREL)来分析和量化两个数值变量之间的关系。我们通过借贷数据的实例,理解了正相关、负相关以及相关性强弱的判断与解释。

095:什么是分群分析?🔍

在本节课中,我们将要学习一种强大的数据分析技术——分群分析。我们将了解其核心概念、应用场景、基本步骤以及可视化方法。


分群分析是一种强大的技术,它允许你针对数据的子集开发洞察。

你已经在数据分析基础中看到了几个分群分析的例子,但现在让我们正式定义这个概念。

分群分析的核心在于将数据划分为有意义的组别,并分别分析每个组。

通常,当你希望分析不同组别之间的特定特征或结果时,分群分析非常有用。当你可能希望根据不同组别的特征做出不同决策时,它也很有价值。

常见的分群维度包括年龄组、地理区域或行为习惯。例如,流媒体服务可能会根据用户的观看习惯进行分群,以定制内容推荐;或者,医疗保健提供者可能会根据风险因素对患者进行分群,以确定适当的干预措施。

该方法的步骤很直接:你将数据分离到这些组别中,然后在每个分群上运行一套一致的分析。

这些分析通常包括描述性统计,如集中趋势、变异性的度量,以及相关性分析。

使用同一套分析方法很重要,因为你希望能够比较不同分群之间的结果。


让我们更仔细地看看医疗保健的例子。假设你正在测试术后散步是否能加速康复。

你知道康复时间的中位数改善是11%,但你可能希望比较不同年龄组的效果。

术后散步对年轻人更有效,还是对老年人更有效?

因此,你按年龄组对数据进行分群,并测量每个组的康复时间中位数。

假设你发现,对于18至24岁的人群,康复时间的中位数改善是10.3%;对于25至40岁的人群,是11.1%;对于45至64岁的人群,是10.9%。

所以,无论年龄大小,术后散步都是有益的。如果你只看整体的中位数,你将无法确定它对每个人是否具有同等价值,只能确定它对“平均”人是有价值的。

分群分析在医疗领域至关重要。药物和其他干预措施通常对男性和女性的影响不同,并且对儿童需要不同的剂量。


分群分析没有神奇的固定方法。它不像皮尔逊相关系数那样有一个公式。

它描述了一种分解数据并试图了解不同子集之间如何比较的分析思路。


为了可视化分群数据,你有几个选择。

以下是可视化分群数据的几种常用图表:

  • 条形图和柱状图:非常适合展示单个特征在不同类别间的分布情况。
  • 分组或堆叠条形图:可以用于进一步细分数据,实现两层分群。
  • 散点图:可以通过颜色编码来增强,以显示数据中的不同分群。你也可以在一个网格中显示多个较小的散点图,每个代表一个分群。
  • 折线图:可以通过使用多条线来进行分群,每条线代表一个不同的组。

一如既往,在创建这些可视化图表时,不要忘记你已经学过的良好设计原则。

清晰度、效率和上下文在展示分群数据时仍然至关重要。


本节课中,我们一起学习了分群分析。我们了解到,分群分析是将数据划分为有意义的组别并进行独立分析的过程,它对于发现不同群体间的差异和制定针对性策略至关重要。其核心步骤是定义分组 -> 分别分析 -> 比较结果。虽然没有固定公式,但通过条形图、散点图等可视化工具,我们可以清晰地展示和比较不同分群的数据特征。

分群分析做得很好。在下一个视频中,我将介绍一个强大的电子表格技术,用于处理来自多个文件的数据,这在分群分析任务中很常见。

096:使用XLOOKUP函数合并数据集 📊

在本节课中,我们将学习如何将存储在不同表格中的数据集合并起来。这是数据分析中的一项常见任务,例如,当我们需要结合客户特征来分析产品使用模式时。

概述:为什么需要合并数据?

客户数据和产品数据通常分开存储。它们可能以不同的方式被收集和分析。然而,如果你想基于客户特征来细分产品使用模式,就需要合并这些数据集。

以本模块中一直使用的借贷树贷款数据为例,客户人口统计数据(如收入)和贷款数据(如已付利息)最初很可能存储在不同的文件中。一位客户可能有多笔贷款,因此将重复的客户信息与每笔贷款一起存储效率较低。

关键概念:数据键

以下是典型的情况:贷款数据中有一个名为“客户ID”的特征,其每笔贷款的值对应着借款客户的ID。因此,如果你使用这个键去搜索客户数据集,就会得到一个唯一的结果:借款的客户。

这种方法的主要优点是,你可以分开存储客户和贷款数据,同时仍能访问两者。特征“客户ID”被称为——一个允许你访问另一个数据表的唯一标识符。


引入XLOOKUP函数

为了执行细分分析,你需要合并这两个数据集。这样你才能回答诸如“收入如何与利息支付相关”等问题。电子表格有一个强大的函数叫 XLOOKUP,它允许你合并来自多个表格的数据。在本例中,它可以用来创建拥有最盈利贷款的客户的详细档案。

让我们看看它是如何工作的。

实践:合并客户职业数据

提醒一下,你之前在处理关于不同贷款的数据以分析潜在的投资机会。在本例中,申请者的人口统计数据在一个标签页中,贷款数据在另一个标签页中。

请注意,在申请者标签页中,数据并未按客户ID排序。因此,即使客户数据已排序,直接将贷款数据复制到申请者数据中也不那么简单,因为一位申请者可能有多笔贷款,这会打乱两个数据集的对齐。你可能还注意到,两个数据表中都有一个客户ID列。

客户ID是数据的键,使你能够将两个数据集连接起来。

假设你想将一些申请者人口统计数据加入到贷款数据中。例如,如果你想将第一位客户的职位添加到这个数据中,你可以复制客户ID,然后在申请者人口统计数据中搜索该ID。这个人是办公室管理员,你可以将此值复制到你的贷款数据中,并将其添加到第一行。显然,这不是一个高效的过程,因此必须有一种更高效的方法,使用程序化解决方案。

对于这个任务,你将使用 XLOOKUP 函数。你可能想查看帮助以了解这个函数实际如何工作。

以下是使用步骤:

  1. 确定查找值:函数的第一个参数是搜索键。这是你想用来将申请者数据连接到贷款数据的客户ID。这将是特定行的客户ID。
  2. 指定查找范围:下一个参数是查找范围。这将是申请者数据集中客户ID的整个列。
  3. 选择返回范围:第三个值是结果范围。这是你希望在数据中返回的特征所在的列。

公式示例=XLOOKUP(查找值, 查找范围, 返回范围)

关闭括号。然后你会看到它提取了“办公室管理员”这个值。你可以选择将此公式向下填充到整列,或者将整个公式包装在一个数组公式中。

进阶:使用数组公式批量处理

数组公式函数只是接收一个像 XLOOKUP 这样的函数,并将其应用于一个单元格范围。数组公式在这里很有用,因为你想将此 XLOOKUP 函数应用于第一列中的每一个客户ID。

请注意,在第一个单元格中,你必须将单个单元格引用更改为整个列。这比搜索单个客户ID然后将结果复制粘贴到列中要快得多。

再次实践:合并雇佣时长数据

让我们为申请者数据集中的另一个特征“雇佣时长”重复这个过程。同样,你可以使用数组公式和 XLOOKUP 函数。

数组公式将把此 XLOOKUP 函数应用于一个单元格范围,而不仅仅是一个单元格。选择你的客户ID,选择引用范围,这次你想选择“雇佣时长”列。

所以,这里再次发生的情况是:你获取客户ID,用它来搜索申请者数据集中匹配的客户ID,然后你想返回C列中对应的雇佣时长。这样,你就完成了。你现在已将所有客户的雇佣时长合并到了你的贷款数据中。

总结

本节课中,我们一起学习了如何使用 XLOOKUP 函数和数组公式,高效地将基于共同“键”(如客户ID)的不同数据集合并起来。这使我们能够创建更丰富、更全面的数据视图,为后续的细分分析(如下节课将用数据透视表进行的描述性统计)奠定了基础。

出色的工作。请跟随我进入本模块的最后一个视频,在那里你将探索如何使用数据透视表对细分数据应用描述性统计。

097:数据透视表示例 📊

在本节课中,我们将学习如何使用数据透视表来对数据进行分段分析,并计算各分段的描述性统计量。数据透视表是电子表格中的强大工具,能帮助我们快速汇总和比较不同数据类别的信息。

除了图表,你通常还需要检查分段数据的描述性统计量。电子表格的高级用户会使用数据透视表来完成这项任务,下面我们来看看它是如何工作的。

分析背景与目标

上一节我们介绍了数据集合并与可视化分段。本节中,我们来看看如何使用数据透视表进行数值分析。

提醒一下,你之前正在处理关于不同贷款的数据,以分析潜在的投资机会。不同类型的贷款对贷款人而言具有不同的风险水平。这反映了借款人可能无法偿还贷款的可能性,而利率则反映了这些风险水平。高风险贷款的利率更高。因此,只要借款人能够偿还,这些贷款可能更有利可图。

假设你有兴趣调查利率的差异,以更好地了解你的潜在贷款。为了做到这一点,你可能希望按“等级”对利率进行分段。请记住,“等级”是一个分类系统,它为贷款分配一个质量分数,其中A级代表风险最低,G级风险最高。

请记得在下载选项卡中查看此电子表格及其解决方案。

创建数据透视表

为了执行此分析,你需要选择整个数据集,然后插入一个数据透视表。

以下是创建数据透视表的步骤:

  1. 选择数据并插入:首先,选中整个数据集。然后,在菜单栏中找到并点击“插入数据透视表”。
  2. 选择位置:会出现一个弹出菜单。选择“插入到新工作表”。或者,你也可以使用现有工作表,并在右侧选择你希望数据透视表出现的位置。
  3. 使用数据透视表编辑器:之后,你将看到数据透视表编辑器。这是你设置数据透视表的地方。

配置数据透视表

在数据透视表编辑器中,你可以配置行、列和值。

  • 对于行:你需要添加“等级”特征。这是你想用于分段的特征。你可以看到所有唯一的等级都出现在表格的左侧。
  • 对于列:如果你想基于两个特征进行透视,可以在这里添加第二个特征,但我们现在先跳过这一步。
  • 对于值:你可以添加你想要聚合的特征。点击“添加”,然后选择“利率”。选择值后,你可以看到它们已填充到数据透视表中。

调整汇总方式与格式

这很有趣,A级贷款的利率4786是什么意思?这是由于汇总函数的选择造成的,它默认是“求和”。所以这实际上是所有A级贷款的利率总和。这不是你想要汇总每个贷款等级利率的方式。

要改变这一点,你需要更改“汇总依据”选项。在这种情况下,你可能需要选择“平均值”。现在你可以看到结果更新了,并且在不同等级类别中看到了更合理的利率。

让我们将格式更改为数字,以便只保留两位小数。请注意,这些代表百分比,所以你不应将格式更改为百分比。

正如预期的那样,A级贷款的利率最低,并且随着风险等级的提高,利率持续上升。再次强调,更高的风险意味着更高的利率。

如果你不小心关闭了数据透视表编辑器,只需点击表格左下角的铅笔按钮,你就可以再次获得所有选项。

添加更多分析维度

你还可以向数据透视表添加更多值。假设你还想探索利率的变异性。

你可以再次添加“利率”,将求和汇总函数更改为“标准差”。这让你了解每个等级类别贷款中利率的变异性。这里没有简单的规律,但确实,当你转向风险更高的贷款类别时,变异性实际上增加了。这是可以预料的,因为更高的利率通常伴随着更高的变异性。

请注意,G级的标准差实际上为零。你认为这里发生了什么?要么每个G级贷款的利率都与平均值相同,要么只有一个数据点。

探索其他特征

你还可以添加更多特征。在这种情况下,也许你想查看不同的特征,比如“总信用额度使用量”。将汇总函数更改为“平均值”。你可以将结果格式化为美元,这代表了每个等级类别在平台上的总借贷资金量。总信用额度使用量主要集中在更高质量的等级中。

有趣的是,如果我们假设只有一个G级贷款,它是288,000美元。这值得检查数据,看看G级贷款到底发生了什么情况。让我们回到数据。

在这里,你实际上可以看到总共有四个G级贷款。所以并不像你最初怀疑的那样只有一个G级贷款。事实证明,有四个G级贷款,它们都有完全相同的利率。所以对于这种低质量贷款,可能存在一个最高利率,它们都有这个值。然后你可以看到,这四个贷款实际上总计为你在数据透视表中看到的288,000美元。按等级调查所有这些统计数据非常有趣。


课程总结

分段分析做得很好。你学习了如何将两个数据集合并为一个,可视化数据中的分段,并使用数据透视表为每个分段计算描述性统计量。接下来,你将完成本课的练习评估。你还将完成本模块的两个评分项目,包括评分评估和评分实验。在实验中,你将运用在本模块中学到的所有技能来帮助葡萄牙国家公园管理局预防森林火灾。

完成这些项目后,你将进入下一个模块:概率与模拟。一旦你对总体进行了抽样并描述了该样本的分布,你就可以应用概率和统计规则来估计整个总体的特征。我们将在下一个模块中学习更多内容。

098:概率与模拟入门 🎲

在本课程中,我们将学习概率论与模拟技术的基础知识。概率是量化不确定性的语言,而模拟则是利用随机数据来建模和分析复杂场景的强大工具。掌握这些概念对于任何数据分析师都至关重要。


模块2简介:从不确定性到决策

上一节我们介绍了数据分析的整体框架,本节中我们来看看如何运用概率与模拟来理解和处理不确定性。

欢迎来到《概率与模拟》模块。

你将首先学习概率论,这是用于量化不确定性的语言。

你将涵盖关键的概率规则和概念,例如条件概率和独立性,所有这些都将结合数据分析师会遇到的真实案例进行讲解。


概率的核心概念

接下来,你将探索概率分布,包括离散分布和连续分布。

你将了解常见的分布,如二项分布正态分布,以及它们如何对现实世界的现象进行建模。

二项分布的概率质量函数公式为:
P(X = k) = C(n, k) * p^k * (1-p)^(n-k)
其中 n 是试验次数,k 是成功次数,p 是单次试验的成功概率。

你还将看到如何利用样本数据来理解总体的分布,并学习如何回答诸如“某些特定结果出现的频率有多高”之类的商业问题。


模拟技术实践

在本模块中,你将动手实践模拟技术。

你将看到如何生成遵循特定分布的随机数据,从而能够对复杂场景进行建模并支持决策制定。

以下是使用Python生成正态分布随机数的示例代码:

import numpy as np
# 生成1000个服从均值为0、标准差为1的正态分布的随机数
data = np.random.normal(0, 1, 1000)

你还将利用大语言模型来创建模拟交互界面,并帮助你解读结果。

到本模块结束时,你将建立起坚实的概率与模拟基础,这是任何数据分析师都至关重要的工具。😊


学习目标与进阶路径

这些概念将为你学习更高级的统计技术以及后续模块(包括创建置信区间和执行假设检验)做好准备。

让我们开始吧。

请跟随我进入下一个视频,该视频将全面讲解随机性与不确定性。

099:随机性与不确定性 🎲

在本节课中,我们将要学习概率论如何作为描述不确定性的语言,并理解数据分析师为何需要用它来量化和推理现实世界中的随机性。

概述:什么是概率?

概率是不确定性的语言。

想象你在早高峰等火车。火车是7:52到还是7:59到?像火车时刻这样的现实世界数据,都受到随机性的影响。概率论为你作为数据分析师提供了工具,来量化和推理这种不确定性。

理解随机性

上一节我们介绍了概率的基本概念,本节中我们来看看随机性的不同类型。

让我们先谈谈随机性。抛硬币是随机的,有50%的概率正面朝上,50%的概率反面朝上。然而,抛硬币是每个结果都有已知概率的实验示例,并且过去的抛掷结果不会影响未来的结果。你大约会有一半的次数得到正面,一半的次数得到反面。

现实世界的随机性则更为复杂。我给你举个例子。

现实世界随机性的复杂性

以下是现实世界随机性的一个例子。我将向你展示下一张幻灯片上的一些数字,我希望你从中挑选一个。不要想太多,直接选一个。

让我猜一下,你选了3吗?你可能会惊讶地发现,近75%的人会选3。你可以在朋友和家人身上试试这个实验。即使是“从这四个数字中选一个”这样简单的任务,人们也并非真正随机地选择。看似简单的“四分之一机会”背后,实际上是一个非常复杂的实验。

这是另一个例子。假设你试图预测你的朋友是否会准时赴咖啡之约。这里有无数因素在起作用:交通状况、他们的闹钟是否响了、他们当天的感觉如何。这些因素大多对你来说是未知或无法测量的。

不确定性的来源

这种随机性或不确定性源于几个方面。

以下是其主要来源:

  • 隐藏特征:你不知道但仍会影响结果的特征。
  • 特征间的复杂交互:即使你知道所有特征,它们也可能以难以建模的方式相互作用。
  • 测量限制:由我们观察世界的不完美工具引入。
  • 真正的不可预测性:尤其是在某些原子层面。是的,我在谈论物理学。有些事情确实无法预测。


概率分布与数据分析

理解了随机性的来源后,我们来看看分析师如何应对它。

分析师使用概率和统计学来创建模型,以近似这种现实世界的随机性。你的目标不是完美预测每一个单独事件,而是理解事件的整体分布,并在不确定的情况下做出明智的决策。

你在上一个模块中已经探索了样本数据的分布。在这个模块中,你将从描述概率分布开始。概率分布是理论分布,代表了随机实验中所有可能结果的可能性

另一方面,样本数据分布来自于实际从世界中、从总体中抽样。

概率分布示例

一个概率分布的例子是所谓的正态分布。它模拟了大多数值聚集在均值周围的行为分布,例如考试成绩或身高。

可以对从分布中抽样进行模拟,你将在最后两节课中看到这一点。例如,你可能会模拟客户需求以优化库存水平。

在接下来的两个模块中,你还将探索两种基于概率论和分布的统计工具。


以下是这两种工具:

  • 置信区间:一个估计包含总体真实特征(如均值)的数值范围。
  • 假设检验:一种帮助你确定观察到的结果是否可能代表真实效应的技术。

这些定义现在可能不太容易理解,但在下一个模块中你会对它们非常熟悉。

总结

本节课中我们一起学习了概率论作为数据分析师量化与建模随机性或不确定性的目的。现在你已经看到了概率对于数据分析师的意义,请加入下一个视频,学习概率的基本规则。

100:概率与加法规则 📊

在本节课中,我们将要学习概率的基本概念,以及如何计算单一事件或多个互斥事件发生的可能性。我们会通过一个音乐订阅服务的实际例子,来理解概率的定义、表示方法以及核心的加法规则。


概率是什么?

概率描述的是一个事件发生的机会。

当一个事件的结果不确定时,你可以使用概率来讨论它发生的可能性。例如,抛一枚硬币,它正面朝上的概率是 1/250%

你对此类事件的概率有一种直觉。现在,让我们通过一个现实世界的例子来正式定义这种关于概率的直觉。


一个现实案例:音乐订阅服务

假设一个音乐订阅服务向10位客户提供了30天免费试用。在试用期结束时,客户可以选择继续使用基础订阅、升级到高级订阅,或者取消订阅。

你发现,有3位客户选择了基础订阅,2位选择了高级订阅,5位取消了订阅。

为了讨论概率,你需要了解三个术语:实验事件结果


定义:实验、事件与结果

假设你随机选择一位客户进行访谈,了解他们的使用体验。那么,这位客户选择了高级订阅的可能性有多大?

  • 实验:选择一位客户这个行为,在概率论中被称为一个实验。
  • 结果:你观察到的是所有可能结果集合中实际发生的那一个。选择每一位具体的客户,都称为实验的一个结果。
  • 事件:你感兴趣测量的特定结果集合。在这里,“客户拥有高级订阅”就是一个事件。

对于“客户拥有高级订阅”这个事件,存在两个可能的结果,因为你可以随机选择那两位高级订阅客户中的任意一位。


如何计算概率?

那么,这位客户选择了高级订阅的可能性有多大?你可以这样书写这个事件的概率:

P(premium)

其中,P 代表概率。

以下是估算这个概率的方法:一个事件的概率等于 有利结果的数量 除以 所有可能结果的数量

  • 有利结果:就是你正在寻找的结果。在本例中,即“拥有高级订阅”。
  • 所有可能结果:你需要将分母中所有可能结果的数量相加。3人选择基础版,2人选择高级版,5人取消,所以总共有 10 个可能的结果。这个所有可能结果的集合有时被称为样本空间

你感兴趣的事件是“拥有高级订阅”。因此,分子中构成这个事件的结果数量是 2

所以,随机选择的用户拥有高级订阅的概率是 2/10,即 20%

概率可以表示为 0到1之间 的比例(如 0.2),也可以表示为百分比(如 20%)。


加法规则

现在,考虑一个稍复杂的问题:你随机挑选一位客户进行访谈,他拥有任何订阅(无论是基础版还是高级版)的可能性有多大?

分母保持不变,样本空间中仍有 10 个可能的结果。但此时,你感兴趣的是两个不同的事件:基础订阅和高级订阅。

由于这两个群体彼此互斥——一个人要么是基础订阅,要么是高级订阅,不能同时是两者——你可以将他们在分子中相加。这种一个事件不能同时是两种结果的性质,被称为互斥性

因此,分子中应包含的结果数量是:3位基础订阅客户 加上 2位高级订阅客户,即 5

概率为 5/1050%

这被称为加法规则。请注意,加法规则仅适用于互斥事件


概率的取值范围

值得注意的是,任何给定事件的概率永远不会小于0(或0%),也永远不会大于1(或100%)

没有比“总是发生”(概率为1)更频繁的事件,也不存在概率为-1的情况。


总结与预告

本节课中,我们一起学习了概率的核心概念。我们定义了实验、事件和结果,并学会了如何计算单一事件的概率(有利结果数 / 所有可能结果数)。更重要的是,我们掌握了加法规则,用于计算多个互斥事件中至少有一个发生的概率,其公式为:

P(A 或 B) = P(A) + P(B) (当A与B互斥时)

概率可以以多种方式组合。在下一节视频中,我们将学习乘法规则和补集规则,以处理更复杂的概率场景。

101:概率的乘法与补集规则 📊

在本节课中,我们将学习如何计算两个事件同时发生的概率,以及一个事件的对立事件发生的概率。概率规则将帮助我们以数学方式推理这些情况。

概述

上一节我们介绍了概率的基本概念和加法规则。本节中,我们将探讨两个新的重要规则:乘法规则补集规则。这些规则能帮助我们计算更复杂的概率场景,例如两个独立事件同时发生的概率,或某个事件不发生的概率。


乘法规则

回忆之前的视频,我们处理的是获得免费试用的客户。你随机选择其中一位客户进行访谈。假设你正在与营销团队合作,他们也计划随机访谈一位用户。

那么,你和营销团队都随机选中了高级订阅用户的概率是多少?

你可以用一个表格来可视化这个实验。每一行代表数据团队可以选择的10个人之一(3个基础版,2个高级版,5个取消版)。每一列代表营销团队可以选择的访谈对象,拥有相同的选项。

因此,样本空间有 10 × 10 = 100 种可能的结果。

你感兴趣的结果是双方选中的都是高级订阅用户。在表格中,这样的结果有4个。

为了计算这个概率,我们使用以下符号:P(高级, 高级),表示你选择高级用户营销团队选择高级用户的概率。

已知你选中高级用户的概率是 2/10,营销团队选中高级用户的概率也是 2/10。你可以将这些概率相乘:
2/10 × 2/10 = 4/100(正如表格所示),化简为 1/25

这被称为乘法规则,适用于估计独立事件的概率。其正式写法为:
P(A 且 B) = P(A) × P(B)

在这个场景中,你选择访谈对象与营销团队的选择是完全独立的。因此,你可以将概率相乘,来计算两个结果同时发生的概率。最终,每25次实验中,大约只有1次会同时选中两位高级订阅用户。这是合理的,因为选中高级用户本身就是一个相对罕见的结果。


非独立事件的概率

现在,假设你和营销团队的同事希望确保不选中同一个人。在这种情况下,你不能使用乘法规则,因为这两个事件不再独立。你同事的选择依赖于你的选择。

关于独立性,我们将在本课后面详细学习。现在,你可以通过表格来找到这个概率。

首先,定义样本空间,数出符合条件的结果。即你和同事没有选择同一个人。这包括了除对角线上10个结果(选中同一个人)之外的所有结果,所以分母是 100 - 10 = 90

然后,找出有利结果。之前我们有4个有利结果(双方都选高级)。但现在,其中两个结果(双方选中同一个人)被排除了,所以只剩下2个有利结果。

因此,为访谈选择两位不同的高级用户的概率是 2/90,约等于 2.2%


补集规则

最后,假设你想确定随机选中的访谈对象没有基础订阅的概率。

你可以使用补集规则。其核心思想是,事件“非基础”的概率等于1减去事件“基础”的概率。因为1代表了所有可能发生的情况,减去“基础”发生的概率,剩下的就是其他所有情况。

当你不清楚每个结果的概率,或者计算所有概率工作量很大时,补集规则非常有用。

以下是计算 P(非基础) 的示例:

  • 第一个概率的分母是所有10个人(代表公式中的“1”),分子也是所有10个人。这意味着你有100%的概率选中这10人中的一位。
  • 然后,你要减去选中基础用户的概率。所以第二个概率的分母同样是所有10个人(样本空间),分子是3个基础用户。
  • 当你相减后,剩下的是相同的分母,但分子变成了2个高级用户加上5个取消用户,总共7人。

所以,选中非基础用户的概率是 7/10,即 70%

用数学公式表示就是:
P(非基础) = 1 - P(基础) = 1 - 0.3 = 0.7


总结

本节课我们一起学习了两个核心的概率规则:

  1. 乘法规则:用于计算两个独立事件同时发生的概率,公式为 P(A 且 B) = P(A) × P(B)
  2. 补集规则:用于计算一个事件不发生的概率,公式为 P(非A) = 1 - P(A)

我们还通过实例看到,当事件不独立时(例如选择不重复的人),不能直接应用乘法规则,而需要回到样本空间进行计数分析。

现在你已经熟悉了加法、乘法和补集规则,在下一个视频中,我们将一起学习更深入的条件概率


102:条件概率 🎲

在本节课中,我们将要学习条件概率的概念。条件概率用于描述在已知某个事件发生的情况下,另一个事件发生的可能性。这是数据分析中一个非常核心且实用的工具。


在现实世界中,两个事件通常不是完全独立的。某些事件的发生会影响其他事件发生的概率。我们可以计算在已知一个事件已经发生的条件下,另一个事件发生的概率。这就是条件概率

让我们回到订阅者访谈的例子。假设你想计算一个人拥有高级订阅的概率,但前提是这个人至少拥有一个订阅(即忽略那些取消订阅的人)。

以下是这个概念的形式化表示。你可以说:在拥有任何订阅的条件下,拥有高级订阅的概率。这里的竖线符号(|)读作“在...条件下”。更一般地,条件概率表示为 P(A|B)

一个流程图可以帮助你直观地理解这个过程。这里有两个分支事件:首先,一个人要么获得了订阅,要么取消了订阅。然后,只有在他们获得订阅的情况下,他们才可能拥有基础版或高级版订阅。条件概率所做的,就是只关注流程图的这个分支,并提问:在这个订阅者群体中,某人获得高级订阅的概率是多少?

直观地说,你已经将样本空间缩小到了仅有的五个人——订阅者。这就是你的分母。现在,你的分子是拥有高级订阅的人,共有2个。因此,在拥有任何订阅的条件下,拥有高级订阅的概率2/5,即 40%


让我们形式化并推广这个计算。条件概率的通用公式是:

P(A|B) = P(A ∩ B) / P(B)

在这个例子中:

  • P(A ∩ B) 是同时拥有高级订阅拥有订阅的概率。换句话说,就是拥有高级订阅的概率(因为必须先有订阅才能有高级订阅),即 0.2
  • P(B) 是拥有任何订阅(包括基础版和高级版)的概率,即 0.3 + 0.2 = 0.5

代入公式得到:0.2 / 0.5 = 0.4,化简为 2/540%

需要注意,P(A|B)P(B|A) 是不同的。在上面的例子中,P(B|A) 表示在拥有高级订阅的条件下,拥有订阅的概率,这个概率是 100%。因为你不可能在没有订阅的情况下拥有高级订阅。


条件概率在数据分析中应用广泛。你刚刚看到了订阅者的例子,但它还可以用于解决各种商业问题。

以下是条件概率在不同领域的应用示例:

  • 制造业:在工厂温度为特定值的条件下,设备发生故障的概率是多少?
  • 医疗保健:在患者表现出特定症状的条件下,其患有某种疾病的概率是多少?
  • 流媒体:在用户经常观看其他超级英雄电影的条件下,他们会喜欢新《钢铁侠》电影的概率是多少?

条件概率也与数据细分密切相关。你之前学过,细分涉及在定义的数据段内计算统计量。换句话说,就是在某个条件为真的前提下进行计算。



世界上的一些事件是相互依赖的,一个事件的结果会影响另一个事件的概率。但也有一些事件是独立的,它们的概率完全互不影响。

在下一个视频中,我们将进一步学习独立事件。


本节课中,我们一起学习了条件概率。我们了解了它的定义、计算公式 P(A|B) = P(A ∩ B) / P(B),并通过订阅者案例进行了实践。我们还探讨了条件概率与数据细分的关系,并看到了它在多个行业中的实际应用。记住,P(A|B)P(B|A) 通常不相等,理解这一点对于正确应用条件概率至关重要。

103:独立性 🎲

在本节课中,我们将要学习概率论中的一个核心概念——独立性。理解独立性对于正确应用统计方法和避免常见错误至关重要。

概述

独立性描述了两个事件之间互不影响的关系。我们将通过掷骰子、抛硬币等例子来理解这个概念,并学习如何判断事件是否独立,以及独立性如何影响概率计算。

什么是独立性?

想象你正在玩一个掷骰子游戏,并且你运气很好。

你最近四次掷出的点数都是六点。

那么你下一次掷出六点的概率是多少?概率很高,对吗?实际上,并非如此。

你掷出六点的概率始终是六分之一。这是因为每次掷骰子是独立的。

前四次的结果对下一次结果没有任何影响。

在统计学中,独立性意味着一个事件的发生不会影响另一个事件发生的概率。

抛硬币和掷骰子都是独立事件。一些现实世界中的事件也是独立的。例如:

两个学生在不同的高中参加几何考试,他们的成绩不会相互影响。你和我在各自的城市购买杂货,你买什么和我买什么也是独立的。我们各自做决定,收到不同的优惠券等等。

判断独立性的重要性

两个事件是否独立是一个关键的区分。

许多统计方法都依赖于两个事件是独立的这一假设。

即使两个事件之间可能存在微妙的联系。

有些乍看之下独立的事件,往往并非如此。例如:

假设你正在为两个不同的病人检测麻疹。起初,这两次检测似乎是独立的。毕竟是两个不同的人。

然而,麻疹是一种高度传染性的疾病。所以,如果当地诊所的一个人检测呈阳性,那么同一诊所的其他人感染麻疹的可能性也会增加。

独立性的数学定义

让我们再回到掷骰子的例子。在概率论中,如果两个事件满足以下规则,则被认为是独立的:

P(A|B) = P(A)

下面是一个例子。假设事件A是掷出六点,事件B是掷出一点。

掷出六点的概率,即P(A),是六分之一。

现在假设你掷两次骰子,并且第一次掷出的是一点。那么你在第二次掷出六点的概率,即在已知第一次掷出一点的情况下掷出六点的概率P(A|B),仍然是六分之一。无论你第一次掷出什么,掷出六点的概率始终是六分之一。

因此,这些事件符合上述规则,被认为是独立的。

如何判断事件是否独立

你可以通过几种方式来判断事件是否独立。

首先,你可以研究事件的性质,看结果是否相互影响。就骰子而言,一次掷出的结果不会提供任何信息来帮助你预测下一次的结果。

然而,在现实世界中,证明独立性很少像掷骰子那样简单。

你的另一个选择是通过收集事件的数据来检验独立性,看看概率是否满足这个规则。

非独立性对计算的影响

非独立性会影响许多统计计算,比如你之前学过的乘法法则。

如果两个事件是独立的,你可以将它们的概率相乘,得到两个事件同时发生的概率。

然而,如果事件不是独立的,比如在同一诊所进行的两次麻疹检测,那么乘法法则就不能直接应用。

在麻疹检测的例子中,两个人在同一诊所检测出麻疹阳性的概率是多少?

假设第一个人感染麻疹的概率是1%。如果你假设两次检测是独立的,你会得出结论认为第二个人感染麻疹的概率也是1%,将它们相乘得到:0.01 × 0.01 = 0.0001,即万分之一。

然而,麻疹是高度传染的。如果第一个人检测呈阳性,第二个人感染麻疹的概率可能会增加到,比如说10%。在这种情况下,你需要使用依赖事件的乘法法则。

你需要计算:P(两人都感染麻疹) = P(第一个人感染麻疹) × P(第二个人感染麻疹 | 第一个人感染麻疹)。最后一项——条件概率,量化了第一个人感染麻疹对周围其他人感染麻疹几率的影响程度。

这个等式计算如下:0.01 × 0.10 = 0.001,即千分之一。

因此,假设两次麻疹检测是独立的,会给你一个相差一个数量级(10倍)的错误估计。

请记住,决策越重要,你需要的证据就越有力。而确定两个事件是否独立,是建立严谨性的一部分。

总结

本节课中我们一起学习了独立性的概念。我们了解到独立性意味着事件之间互不影响,并通过掷骰子的例子掌握了其数学定义 P(A|B) = P(A)。我们探讨了判断独立性的方法,并重点学习了非独立性如何影响概率计算,特别是乘法法则的应用。记住,在现实世界的复杂情况(如传染病检测)中,错误地假设独立性可能导致严重的估计错误。

这就是关于独立性的内容。请继续学习本课的最后一个视频,了解如何使用随机变量来表示事件。

104:随机变量 📊

在本节课中,我们将学习如何用数学方式表示一个事件的所有可能结果。为此,数据分析师会使用一个核心工具:随机变量。


概述

随机变量是用于表示随机现象所有可能结果的数学工具。它使我们能够对不确定的、有多种可能结果的事件进行量化和数学运算。理解随机变量是学习概率论和后续统计分析的基础。


什么是随机变量?

上一节我们介绍了概率的基本概念,本节中我们来看看如何用数学语言描述随机事件的结果。

随机变量代表一个随机现象的所有可能结果。例如,假设你正在为一个户外活动场地工作,他们请你帮忙模拟一周内的下雨天数。你可以用一个随机变量来实现,我们称它为 X(随机变量通常用大写字母表示)。天气是不可预测的,因此在这里使用随机变量是合理的。

这个随机变量所有可能的结果是什么?可能一周内下雨0天、1天、2天,一直到7天。因此,存在8个可能的值:0到7。这些值中的每一个都代表该随机变量的一个可能结果。

你可以看到,这种类型的变量与数学中的传统变量有很大不同。传统变量在某一时刻只有一个值。例如,在方程 x + 5 = 30 中,x 只有一个值:25。而随机变量则可以代表多个值,每个值对应一个可能的结果。


随机变量的优势:简化概率表示

随机变量使你的概率表示法变得更加容易。当你想表达诸如“下雨3天的概率”时,你不必说“P(下雨3天)”,而可以说 P(X = 3),即“X取值为3的概率”。

随机变量所代表的值必须是数字,否则你将无法对它们进行数学运算。然而,如果你想表示一个非数字的结果,你可以在随机变量中的数字与现实世界中的含义之间创建一个映射。

例如,你可以用随机变量 Y 来表示单日的下雨情况,并规定 0 代表“不下雨”,1 代表“下雨”。


离散随机变量与连续随机变量

请注意,上述例子中的 X 和 Y 都有一个可数的数值集合(X有8个值,Y有2个值)。因为它们各自都有一组不同的、可数的值,所以 X 和 Y 都被称为离散随机变量

“离散”这个概念与数据中的离散特征相同,它只能取一组可数的值。

由于现实世界中的一些现象无法用不同的值来表示,因此也存在连续随机变量,它代表一个范围内的值。

例如,对于同一家活动公司,你可能对给定一周内的总降雨量感兴趣。你可以用一个随机变量 W 来代表给定一周内的降雨厘米数。在这种情况下,W 是7个独立日降雨量的总和。每一天的降雨量可以是任何数量,包括0。因此,W 可以是任何非负数,上限可能是一个非常大的数值(如果遇到极端多雨的一周)。

W 被认为是一个连续随机变量,因为降雨量不是一组不同的值,而是一个连续的测量范围。思考降雨量为何是连续的一种方式是:无论两个值多么接近,它们之间总是存在另一个值。

例如,取两个降雨量:1厘米和2厘米。它们非常接近,但在这两个值之间,你可以有1.5厘米;在1厘米和1.5厘米之间,你可以有1.25厘米;在这些值之间,你还可以有1.125厘米,依此类推。这个过程可以无限继续下去,这实际上就是“连续”一词的含义。

在实际应用中,你的测量精度可能受到工具的限制,但在理论上,连续随机变量可以在其范围内取任何实数值。


如何判断随机变量的类型?

为了判断你正在处理的随机变量是离散的还是连续的,你可以尝试列出它可以取的所有可能值。

以下是判断步骤:

  1. 尝试列出随机变量所有可能的值。
  2. 如果你能实际列出这些值,并且这些值之间没有其他数字(即它们是可数的、分离的),那么你的随机变量就是离散的。
  3. 如果可能的值构成一个连续的范围,无法一一列举,那么它就是连续的。

让我们来看一个例子。假设有一个随机变量 S,代表一所给定小学的学生人数。你认为 S 是离散随机变量还是连续随机变量?

我们来尝试数一下这些值。可能有0名学生、300名学生、1700名学生,甚至1701名学生。但不可能有1700.5名学生。这些是你可以实际列出的、中间没有其他数字的独立值。这使得 S 成为一个离散随机变量


重要区分:随机变量与概率

让我们回到随机变量 X(一周内的下雨天数)。你之前看到 X 可以取的值是0、1,一直到7。但是,这些值的概率是多少呢?在任何给定的一周内,下雨0天或6天的可能性有多大?

关于概率的信息并不包含在随机变量本身之内。这是一个常见的混淆点。随机变量只包含代表结果的值,而不包含这些结果发生的可能性。你将在下一课中学习更多与随机变量相关的概率知识。


总结

本节课我们一起学习了概率论的核心工具——随机变量。我们定义了随机变量,了解了它如何用数学方式(如 XP(X=3))表示现实世界中的随机现象(如下雨天数)。我们重点区分了离散随机变量(取值可数,如学生人数)和连续随机变量(取值在一个连续范围内,如降雨量)。最后,我们明确了随机变量本身只定义可能的结果,而不包含其发生的概率,为下一课学习概率分布奠定了基础。


提示:本教程基于吴恩达《数据分析》课程第1-2课内容整理,旨在帮助初学者理解核心概念。

105:估计 📊

在本节课中,我们将要学习统计学中一个核心概念:估计。我们将探讨总体与样本的区别,理解为什么从样本中计算出的统计量是对总体参数的估计,并了解这种区别如何影响数据分析的方法。


随着你在统计学道路上的深入,在处理数据时,记住一个关键点将变得至关重要:你面对的是总体还是样本?正如你在上一个模块中学到的,你遇到的数据更可能是一个样本。这一点很重要,因为大多数统计量对于样本和总体都有不同的公式和解释。

当你从样本中计算一个统计量时,你实际上是在估计真实的总体值,统计学家称之为参数。这个估计值,即统计量,是对真实参数的一个近似。你希望你的估计是准确的,但它很可能与真实值不完全相同。

例如,你可能试图仅通过一部分用户来理解所有应用程序用户的行为,或者仅通过一小部分患者来理解医院所有患者的医疗结果。你在这些样本上计算的任何统计量,都将是真实总体参数的一个估计。

那么,你什么时候会处理总体数据呢?这里有一个例子:如果你需要关于美国所有50个州的信息,并且你拥有所有50个州的数据,那就是一个总体。你的分析中没有包含其他未被考虑的州,因此没有猜测的成分。

但实际情况通常比这更微妙。让我们考虑一个思想实验:想象测量地球上每个人的身高。暂且抛开实际操作问题,假设你做到了,你测量了每个人的身高。那是一个总体。但即使你能做到,在你完成测量时,已经有婴儿出生,有人去世,还有人长高了。你可能确切地知道那一刻的平均身高,但它会不断变化。

统计学的魅力在于,你实际上不需要测量每一个人。只要有一个足够大的样本,你就可以非常接近真实值。抛硬币的情况也是如此。理论上,一枚公平的硬币正面朝上的概率是50%,但你需要抛掷无限次才能绝对证明这一点。在实践中,一个大的样本可以给你一个足够接近、有用的估计。

那么,总体和样本之间的这种区别如何影响你作为数据分析师的方法呢?

以下是几个关键影响:

首先,它对你计算的统计量和你采用的分析方法有影响。当你从样本中计算均值或标准差时,要知道这是一个估计值。关于它能在多大程度上代表真实的总体参数,存在一些不确定性。请注意,你在上一个模块中学到的均值和标准差公式都是针对样本的。总体的公式有时会不同。

例如,总体均值(μ)和样本均值(x̄)的计算方式相同:
μ = (Σx) / Nx̄ = (Σx) / n
(其中 N 是总体大小,n 是样本大小)

但标准差有两个不同的公式:

  • 总体标准差(σ):σ = √[ Σ(x - μ)² / N ]
  • 样本标准差(s):s = √[ Σ(x - x̄)² / (n - 1) ]
    (使用 n - 1 是为了进行无偏估计,这在处理样本时很重要)

其次,在处理样本时,重要的是要记住,你正在分析的数据只是该数据的一种可能版本。如果你抽取另一个样本,你会得到略有不同的结果。你的工作就是描述这种差异如何影响你的结论。

最后,你必须意识到你的抽样方法可能引入的各种偏差。如果你的样本不能代表总体,你的估计就会偏离真实情况。

作为数据分析师,你常常扮演着侦探的角色:你利用样本中的线索,拼凑出关于总体的更完整图景。


本节课中我们一起学习了总体与样本的根本区别,以及从样本统计量估计总体参数的核心思想。我们了解到,由于我们通常无法测量整个总体,因此样本是我们的最佳工具,但必须谨慎对待由此产生的估计不确定性、公式差异以及潜在的抽样偏差。在接下来的课程中,我们将探索样本分布如何帮助我们估计总体分布。

106:从样本分布到总体分布 📊

在本节课中,我们将学习如何从样本分布出发,推断总体分布。我们将理解概率分布的概念,区分样本分布与总体分布,并探索如何利用样本数据对总体行为进行估计。


在之前的模块中,我们深入学习了样本分布,并了解到分布可以告诉我们样本数据中不同值出现的频率。

那么下一步是什么?我们如何利用这些样本分布来对更广泛的总体得出结论?

假设你正在处理上一课中的随机变量 X(每周雨天数)。回想一下,X 可以取值从 0 到 7。你希望可视化一周中出现每种雨天数的常见程度。

与随机变量中每个结果相对应的概率集合被称为概率分布

如果要将这个概率可视化,你会在 x 轴上放置随机变量的所有可能值(0 到 7),在 y 轴上放置每个结果的概率。

假设最常见的情况是 0 天有雨。因此,对于值 0,概率是 0.6;对于 1 天,概率是 0.35;对于 2 天,概率是 0.04;对于 3 天,概率是 0.01;而对于 4 天及以上,概率可能为 0。

这个函数——P(X=0)=0.6P(X=1)=0.35,依此类推——被称为概率质量函数,简称 PMF。它为离散随机变量定义了每个事件发生的概率。

顺便说一下,这个图表看起来很熟悉,对吧?它只是一个 y 轴为概率的柱状图。这是离散随机变量概率分布的一个例子。你在 x 轴上有随机变量 X 的可数值,并在 y 轴上可视化这些事件的可能性。


上一节我们介绍了离散随机变量的概率分布,本节中我们来看看连续随机变量的情况。

这是上一课中测量降雨量的连续随机变量。你也可以将其可视化:将随机变量 W 的可能值放在 x 轴上(从 0 开始,因为降雨量不能为负,最高到 20 厘米,这是一个相当大的降雨量,超过这个值的可能性越来越低)。你能猜到 y 轴上会是什么吗?

与离散情况下的柱状图类似,你可以绘制一条曲线,其中较高的点表示更可能发生。这条曲线被称为概率密度函数,简称 PDF。你可以使用 PDF 来计算特定值范围内的概率。

在这种情况下,你不能使用单独的柱状图,因为正如上一课所见,存在无限多个可能的值。因此,你实际上使用一条曲线来表示连续随机变量的 PDF


现在你已经看到了这两种概率分布。这里有一个关键区别,它触及了统计学的核心。

这些是分布,但它们不是样本分布。你并没有出去测量 30 天的降雨量,记录在电子表格中并绘制图表。这是一个描述降雨量总体行为的数学模型,即总体分布

一旦你获取了一个样本,就可以利用该样本分布的特征来估计这个总体分布。这就像是说“我记录了 30 天的降雨量,其中有一天降雨量超过 3 厘米”(这是关于样本分布的陈述)与“一般来说,任何一天降雨量达到或超过 3 厘米的概率是 4%”(这是关于总体分布的陈述)之间的区别。

你利用样本数据得出了关于总体的结论。这很令人兴奋,因为这是统计学的全部目标,也是你在本课程和前一课程中一直在积累的知识所要达到的目的。


让我们看另一个具体例子。假设你与之前视频中的户外活动公司合作,他们要求你描述每位客户一年内在门票上的花费情况。

你抽取了 100 名客户的简单随机样本,并统计了他们一年的花费。你能够用描述性统计量来刻画你的样本分布:计算出平均花费为 123 美元,标准差为 15.40 美元,中位数花费为 100 美元

那么接下来呢?你可以直接使用样本分布来传达见解,例如“该样本中的平均客户每年花费 123 美元”。这当然有用。

但你真正想说的是类似“平均客户每年花费 X 美元”这样的结论。你希望基于这个客户样本分布,对所有客户的总体分布得出结论:所有客户在花费方面的整体行为是怎样的?金额是否围绕某个中心点聚集?如果是,那个中心点是什么?这是一个严重偏斜的分布吗?它的变异性很高,还是金额彼此非常相似?

请记住,你的 100 名客户样本是你窥见真相的窗口。最终,目的是看清风景,而不是只看窗户。要记住,你永远只能估计真相,你的窗口总是至少会有一点模糊。


关于概率分布,有趣的一点是,无论是离散总体还是连续总体,其行为常常遵循已知的分布模式。

请跟随我进入下一个视频,来了解一种离散概率分布。


在本节课中,我们一起学习了概率分布的核心概念,区分了样本分布与总体分布,并理解了如何利用样本数据推断总体特征。这是进行统计推断、从数据中得出普遍结论的关键第一步。

107:伯努利分布 📊

在本节课中,我们将学习伯努利分布。这是一种用于描述只有两种可能结果的随机变量的概率分布。我们将通过一个具体的案例来理解其定义、参数、可视化方法以及如何计算其均值、方差和标准差。

在数据分析中,目标通常是预测感兴趣群体的行为,尤其是当怀疑该群体遵循特定模式时。可以使用已知的概率分布来建模这些行为。伯努利分布用于建模只有两种可能结果的随机变量:成功(通常记为1,概率为P)和失败(通常记为0,概率为1-p)。请注意定义中两种结果概率的互补规则。

与其他离散概率分布类似,可以使用条形图或柱状图可视化两种结果的概率,并计算总体均值、总体方差和总体标准差。

案例引入:K9 DNA样本有效性

假设你正在处理通过家庭测试套件收集的K9 DNA样本。这些K9 DNA套件用于识别犬类的遗传倾向或品种。你正在与测试实验室合作,以了解套件中无效K9 DNA样本的分布情况:样本要么有效,要么无效(通常是由于主人收集方式不正确)。

实验室的合作伙伴告诉你,样本有效的比率是70%。实验室询问你:能否为每个样本的有效性分布建立模型?

为有效和无效样本的概率分布建模,有助于实验室为其测试过程设定现实的期望。你可以使用伯努利分布来建模此分布。

伯努利分布适用于此场景,原因有两点:首先,存在两种可能的结果(每个样本要么有效(成功),要么无效(失败));其次,每个样本具有相同的70%的有效概率。

伯努利分布的参数与表示

你可以仅使用一个关键参数P(成功概率)来通过伯努利分布为数据建模。在此案例中,成功概率表示获得有效样本的概率,等于0.7。

为了表达此分布,通常会看到类似这样的符号表示:某个随机变量(例如X)服从参数为0.7的伯努利分布。更一般地,对于任何随机变量,你会看到“~”符号表示“服从于”,后面跟着分布名称及其参数。伯努利分布只有一个参数。

让我们看看此分布中每种结果的概率。P(有效) = 0.7。你能猜出P(无效)吗?根据互补规则,P(无效) = 0.3。

概率质量函数与可视化

回想一下,这组结果及其概率被称为概率质量函数。它并非伯努利分布独有,每个离散概率分布都有一个概率质量函数。请注意,所有结果的概率之和为1。

你能想象这个分布的柱状图是什么样子吗?

以下是这个伯努利分布的柱状图。它绘制了两种结果(有效/成功与无效/失败)及其对应的概率P和1-p。请注意,在绘制分布图时,实际上绘制的是概率质量函数。

分布的均值、方差与标准差

你也可以计算此分布的均值、方差和标准差,这些都是总体参数,其符号表示与你之前计算的样本统计量不同。

伯努利分布的均值(用符号μ表示)等于P,即成功概率。直观地思考K9 DNA样本有效性:如果样本有效的机会是0.7,那么对于长期内的许多样本,每个样本有效的概率是相同的。

伯努利分布的方差(用σ²表示)计算公式为 p × (1-p)。在此案例中,即0.7 × 0.3 = 0.21。

最后,你之前学过标准差(用σ表示)是方差的平方根。因此,这里σ约等于0.458。标准差让你了解结果围绕均值波动的程度。在此案例中,结果只能是0或1,因此围绕均值存在一些波动是合理的。

总体参数与样本统计量

总结一下,μ、σ²和σ是总体参数,而x̄、s²和s仅用于样本分布。

从伯努利分布到二项分布

伯努利分布的一个优点是它可以扩展到二项分布,后者用于建模多次试验。例如,在10个随机DNA测试套件中,所有10个都是有效样本的概率是多少?请跟随我到下一个视频一探究竟。

课程总结

在本节课中,我们一起学习了伯努利分布。我们了解了它适用于只有两种互斥结果的随机实验,并通过K9 DNA样本有效性的案例,掌握了其定义、参数P、概率质量函数、可视化方法以及总体均值(μ = p)、方差(σ² = p(1-p))和标准差(σ = √[p(1-p)])的计算。最后,我们了解到伯努利分布是构建更复杂的二项分布的基础。

108:二项分布 📊

在本节课中,我们将学习如何使用二项分布来模拟多个独立试验中成功次数的概率分布。我们将通过一个具体的案例——DNA检测试剂盒的有效样本数量分析——来理解二项分布的定义、条件、参数及其应用。


概述

上一节我们介绍了单个DNA检测试剂盒样本有效性的分布模型。本节中,我们将使用二项分布来模拟多个样本的有效性分布。二项分布能够描述在固定次数的独立试验中,获得特定成功次数的概率。

二项分布的定义与条件

二项分布模拟的是在固定次数的独立试验中,获得特定数量成功的概率。它只能模拟具有恰好两种结果(例如成功与失败)的分布。此外,每次试验的成功概率必须相同。

二项分布是一种离散概率分布,成功次数可以从零到试验总次数之间变化。

以下是二项分布适用的四个条件:

  1. 试验结果只有两种可能:成功或失败。
  2. 每次试验的成功概率 p 是固定不变的。
  3. 试验次数 n 是固定的。
  4. 各次试验是相互独立的。

案例:DNA检测试剂盒

假设你的K9 DNA实验室合作伙伴告诉你,每个宠物主人自行收集样本,但样本以每箱10个的形式运送。你已知单个样本的有效率为70%。实验室希望了解每箱中可能有多少个有效样本。

使用概率分布对DNA检测试剂盒场景进行建模,将帮助实验室:

  • 估算每箱平均可能获得的有效样本数量。
  • 确定获得极低数量有效样本的概率。
  • 为其检测流程设定现实的预期。

你可以使用二项分布来对此进行建模,原因如下:

  • 首先,存在两种可能结果:每个样本要么有效(成功),要么无效(失败)。
  • 每个样本具有相同的70%的有效概率。
  • 试验次数是固定的,因为每箱有10个样本。
  • 最后,你假设试验是独立的,因为一个样本的有效性似乎不影响其他样本。

请注意,“独立”只是一个假设,你无法100%确定样本是否真正独立。

这些条件看起来熟悉吗?其中两个条件与伯努利分布匹配:具有两种可能结果,以及具有固定的成功概率。这是因为伯努利分布是二项分布的一个特例,即只进行一次试验的情况。

二项分布的参数与可视化

二项分布由两个参数定义:

  • n:试验次数(本例中为每箱样本数,10)。
  • p:每次试验的成功概率(与伯努利分布相同,为0.7)。

你可以将此分布写作:X ~ Binomial(n=10, p=0.7)。这两个参数定义了分布的形状。

让我们可视化其概率质量函数(PMF)。下图展示了 n=10p=0.7 时的PMF。

x轴表示从0到10个有效样本的所有可能结果,y轴表示任一给定箱子中包含该数量有效样本的概率。该分布以7为中心,形成一个大致对称的钟形分布。由于数值不能超过10,分布存在一些负偏斜。这个粗略的钟形分布反映了这样一个概念:获得有效样本数越来越多或越来越少的箱子的可能性越来越小。

概率计算

你认为一箱中获得全部10个有效样本的几率是多少?

你可以使用乘法法则计算:0.7 自乘10次,即 0.7^10。根据图表判断,概率约为0.025。那么获得0个有效样本呢?类似地,0.3^10 是一个极小的数字。

对于0到10之间的情况,概率计算变得复杂得多,因为必须考虑样本在箱中所有不同的排列组合方式。

总体参数计算

与任何其他概率分布一样,你可以计算各种总体参数,如均值、方差和标准差。

  • 均值:在二项分布中,均值计算公式为 μ = n * p。本例中,10 * 0.7 = 7。你预计平均每箱有7个有效样本。
  • 方差:方差计算公式为 σ² = n * p * (1 - p)。方差衡量分布的离散程度。本例中,10 * 0.7 * 0.3 = 2.1
  • 标准差:标准差由方差计算得出,即取其平方根:σ = √2.1 ≈ 1.45

由于标准差与数据单位相同(本例中为样本数),且分布大致对称,你可以相对确信地说,每箱拥有5.5到8.5个(即均值±1个标准差范围内)有效样本是常见情况。

应用分析

二项分布还允许你计算箱中特定数量样本有效或无效的概率,这对应于PMF图中的每个条形。从图表近似来看,均值7对应的概率最高,约为0.27。

以下是该二项分布的完整概率质量函数值。所有这些概率值之和为1。对于二项分布,你永远不需要手动计算这些值,因为计算机会让这个过程容易得多,但要知道所有这些概率都可以仅从 np 推导出来。

让我们利用这些概率来分析DNA检测结果。请尝试回答以下问题:

  1. 实验室可以多频繁地预期获得均值7个有效样本?这大约发生在27%的情况下。
  2. 获得0个有效样本的情况如何?这个结果非常罕见,发生率低于千分之一。
  3. 获得全部10个有效样本的情况呢?这是一个相对罕见的结果,但不像0个有效样本那么罕见,大约发生在2.8%的箱子中。

使用二项分布,你可以回答许多有趣的问题。在下一个视频中,你将看到如何利用其累积分布函数回答更多问题。


总结

本节课中,我们一起学习了二项分布。我们了解了其定义、适用条件(两种结果、固定试验次数、恒定成功概率、试验独立),并通过DNA样本案例掌握了其参数(n, p)的含义。我们学习了如何计算二项分布的均值、方差和标准差,并利用概率质量函数对实际业务问题(如预期有效样本数)进行了分析。二项分布是描述一系列独立二元试验结果的强大工具。

109:累积分布函数 📊

在本节课中,我们将要学习一个重要的新工具——累积分布函数。它用于计算随机变量取值小于或等于某个特定值的概率,而不仅仅是单个结果的概率。这在分析一系列结果的可能性时非常有用。

上一节我们介绍了二项分布,它适用于描述一系列独立的是/否试验。本节中我们来看看如何利用累积分布函数来回答关于结果范围的问题。

累积分布函数(CDF)的定义

在某些情况下,我们关心的是一个结果范围的概率,而非单一结果的概率。计算这些概率需要一个新工具。

想象一下,上一节视频中的实验室设定了一个质量控制触发点:50%的有效样本。如果一个盒子中有效样本少于50%,则该盒子被认为不适合测试,客户会收到一个新的试剂盒。实验室的同事可能会问你:“我们预计多久会触发这个质量控制点?”

在这种情况下,你关心的不仅仅是恰好有4个有效样本的结果。一个有3个、2个、1个或0个有效样本的盒子同样不适合测试。要回答这个问题,你可以使用二项分布的累积分布函数

累积分布函数模拟了随机变量取值小于或等于一个给定值的可能性。形式上,对于离散随机变量 X,其CDF定义为:
P(X ≤ x)

下图展示了当 n=10(试验次数),p=0.7(单次成功概率)时,二项分布的CDF:


它与概率质量函数(PMF)使用相同的坐标轴。可以看到,随着x值增加,概率只增不减,最终在x≤10时概率达到1。CDF清晰地表明,得到一个有效样本数≤4的盒子的概率小于5%

如何计算CDF

对于离散概率分布,你可以使用加法法则来计算CDF。要计算一个盒子中有效样本数≤4的概率,只需将每个符合条件的单一结果的概率相加。

以下是计算过程,忽略概率极小的0和1个有效样本的情况:

  • P(X=2) 约为 0.001
  • P(X=3) 约为 0.009
  • P(X=4) 约为 0.036

将它们相加:0.001 + 0.009 + 0.036 ≈ 0.046。这意味着大约有4.6% 的时间会触发质量控制点。

应用互补法则

通过求和概率,你还可以回答诸如“实验室多久能获得一个高于平均水平的盒子?”这样的问题。

在这种情况下,你可以使用互补法则。对于二项分布,平均值(期望值)为 n * p = 10 * 0.7 = 7。因此,“高于平均水平”意味着有效样本数 > 7。

我们可以计算其互补事件(样本数 ≤ 7)的概率,然后用1减去它:
P(X > 7) = 1 - P(X ≤ 7)

根据CDF,P(X ≤ 7) 约为0.61。因此,P(X > 7) ≈ 1 - 0.61 = 0.39。我们估计大约有39% 的时间能获得高于平均水平的盒子。

同样地,对于“实验室多久不会触发质量控制点?”这个问题,答案就是1减去触发它的概率:1 - 0.046 = 0.954

二项分布在数据分析中的应用

由于DNA样本盒子的情况符合二项分布的建模条件,我们能够回答许多有用的问题,例如:

  • 这个分布的中心在哪里?(均值)
  • 变异性如何?(方差/标准差)
  • 不同的结果或结果范围出现的频率如何?

除了DNA测试试剂盒,在数据分析中,二项分布在为其他具有“是/否”结果或“成功/失败”条件的场景建模时也极其有用。例如:

  • 市场营销活动中的客户转化率。
  • 质量控制中的缺陷产品率。
  • 人力资源分析中的员工留存率。
  • 金融服务中的贷款违约率。

伯努利分布和二项分布都是非常有用的离散概率分布。你如何确定从这些分布中抽样的众多可能结果呢?我们将在下一个视频中找到答案。

😊



本节课中我们一起学习了累积分布函数。我们了解到CDF用于计算随机变量取值小于等于某个值的累积概率,并通过加法法则和互补法则进行实际计算。我们还探讨了二项分布及其CDF在数据分析多个领域的广泛应用,为评估结果范围的可能性提供了强大的工具。

110:离散型随机抽样 📊

在本节课中,我们将学习如何从已知的概率分布中进行随机抽样,以生成模拟数据。这些模拟数据可用于分析并指导商业决策。

概述

正如可以从现实世界的总体中抽样一样,你也可以从已知的概率分布中进行抽样以生成模拟数据。随后,你可以分析这些模拟数据来为商业决策提供信息。这个过程被称为随机抽样

在第一课的结尾,你学习了随机变量的概念,它代表了某个特定关注结果的所有可能取值。在本课中,你将把随机变量的概念扩展到概率分布,它代表了给定随机变量每个可能取值的发生概率。

为了建立一个模拟模型,你需要生成一个能代表你试图建模的现实世界行为的具体结果。例如,仅仅知道抛硬币正面朝上的概率是50%是不够的。你需要模拟这次抛硬币并观察实际结果:是正面还是反面?如果你模拟抛硬币10次,实际得到了多少次正面?如果没有这些具体的结果,你只能分析“可能”发生什么,而不是模拟中“实际”发生了什么。

随机抽样允许你模拟那些遵循特定概率分布的行为结果。因此,如果你知道某个结果服从二项分布,你就可以根据给定的成功概率 p 来模拟结果。

标准均匀分布:随机抽样的基础

标准均匀分布通常是生成其他分布随机样本的起点。“标准均匀分布”本质上是一个在0到1之间生成随机数的“高级术语”。更正式地说,标准均匀分布是连续的,其最小值为0,最大值为1(包含边界)。

你可以将一个均匀随机变量表示为:
U ~ Uniform(0, 1)

它在电子表格和R语言中都有对应的函数。例如,RAND() 函数就是一个例子,你可以看到它生成了0到1之间的值。这个函数模拟了从标准均匀分布中抽取的一个结果。

标准均匀分布可用于为许多其他分布生成随机样本。

应用:模拟离散事件

例如,为了模拟DNA检测试剂盒的有效性(假设有效概率为0.7),你可以首先使用 RAND() 生成一个0到1之间的随机样本。然后,如果这个数字小于或等于0.7,则认为检测有效;否则(数字大于0.7),检测无效。

这种方法之所以有效,是因为均匀分布在其取值范围内每个值出现的概率相等。因此,生成的随机值小于等于0.7的概率正好是0.7,这恰好是检测有效的概率。同样,数值大于0.7的概率(0.3)也等于检测无效的概率。

你可以将此原理扩展到模拟更复杂的离散场景。

复杂场景模拟:音乐订阅服务案例

回想一下提供免费试用的音乐订阅服务。记得客户在试用期结束时可以选择:订阅基础套餐、升级到高级套餐或取消订阅。

为了模拟一位客户采取的行动,你可以将0到1的范围划分为三个区间,每个区间代表客户可能做出的三种决定之一:基础套餐、高级套餐或取消。使这种方法有效的关键是,每个区间的长度必须与相应结果的概率成比例。

因此:

  • 基础套餐区间的长度应占整个范围的十分之三(0.3)。
  • 高级套餐区间的长度应占整个范围的十分之二(0.2)。
  • 取消套餐区间应占剩余的五分之一(0.5)。

具体来说,你可以从标准均匀分布中抽取一个值:

  • 如果该值小于等于0.3,则模拟客户选择了基础订阅。
  • 如果该值在0.3到0.5之间(包含0.5),则模拟客户选择了高级订阅。
  • 否则,如果该值大于0.5,则模拟客户取消了订阅。

模拟的力量与数据分析

模拟的强大之处在于,你可以根据需要任意多次地重复或复制单个实验。这在现实世界中是难以做到的,因为收集样本通常成本高昂且耗时。这种复制能力为你作为数据分析师提供了机会,可以生成决策所需的数据。你还可以更改模拟参数以分析不同的场景。

一旦生成了所需的样本量,你就可以应用迄今为止学到的任何描述性分析方法进行分析。你的模拟数据就变成了另一种版本的样本数据,你可以使用所有这些技术对其进行分析。

总结

本节课中,我们一起学习了随机抽样的核心概念。我们了解到,可以从标准均匀分布 U ~ Uniform(0, 1) 出发,通过划分概率区间的方法,来模拟遵循任意离散概率分布的随机事件。这种方法使我们能够高效、低成本地生成大量模拟数据,用于场景分析和决策支持。

接下来,让我们在实践中看看如何操作。在下一个视频中,我将带领你在电子表格中创建伯努利和二项分布的模拟。

111:电子表格模拟离散分布 📊

在本节课中,我们将学习如何使用电子表格(如Excel或Google Sheets)来模拟离散概率分布。我们将通过两个具体场景——DNA检测试剂盒的有效性测试和音乐订阅服务的用户选择——来演示如何构建模拟模型,生成随机结果,并进行可视化分析。


概述

模拟是数据分析中一个强大的工具,它允许我们通过数学模型来预测现实世界事件的结果,而无需进行昂贵或耗时的实际测试。我们将从基础开始,使用电子表格的内置函数来生成随机数,并根据设定的概率模拟不同事件的发生。


DNA检测试剂盒模拟 🧬

上一节我们介绍了模拟的基本概念,本节中我们来看看如何将其应用于一个具体场景:模拟DNA检测试剂盒的有效性。

假设一个实验室需要测试一批DNA试剂盒。每个试剂盒有70%的概率是有效的(P(有效) = 0.7),30%的概率是无效的。直接测试可能会破坏样本,因此我们可以通过模拟来预估结果。

以下是构建此模拟的步骤:

  1. 生成随机数: 使用 RAND() 函数生成一个介于0到1之间的随机数。这个数服从标准均匀分布。

    =RAND()
    
  2. 模拟单次测试结果: 使用 IF 函数,根据随机数判断测试结果。如果随机数 ≤ 0.7,则结果为“有效”,否则为“无效”。

    =IF(A2 <= 0.7, "有效", "无效")
    

    其中,A2是包含RAND()函数的单元格。

  3. 复制模拟: 将上述公式向下拖动,即可模拟多个试剂盒的测试结果。

  4. 添加刷新控件: 可以将一个复选框(Checkbox)链接到一个单元格。当勾选或取消勾选时,会触发工作表重新计算,从而生成一组新的随机结果。

  1. 结果可视化: 创建一个柱状图来展示“有效”和“无效”的计数。为了在刷新时保持图表Y轴刻度稳定,建议将Y轴的最小值固定为0,最大值固定为模拟的总次数(例如10)。

通过反复刷新,你可以观察到不同批次中有效和无效试剂盒数量的变化,这有助于理解概率的波动性。


音乐订阅服务模拟 🎵

在掌握了基础模拟后,我们来看看一个更复杂的情况:模拟用户对音乐订阅服务的选择。

假设一个服务提供免费试用,试用结束后,用户有30%的概率选择基础版,20%的概率选择高级版,50%的概率取消订阅。我们需要模拟大量用户的选择以预测用户分布。

以下是模拟方法:

  1. 模拟单个用户选择: 同样先使用RAND()生成随机数。然后使用嵌套的IF函数来模拟三种可能的结果。

    =IF(A2 <= 0.3, "基础版", IF(A2 <= 0.5, "高级版", "取消"))
    

    这个公式的逻辑是:首先检查是否≤0.3(选择基础版),如果不是,则检查是否≤0.5(选择高级版),如果还不是,则默认为“取消”。

  2. 扩展模拟规模: 要获得更稳定的统计结果,需要模拟更多用户(例如100个)。手动拖动公式比较繁琐,可以使用 RANDARRAY 函数一次性生成大量随机数。

    =RANDARRAY(100, 1)
    

    此公式会在选定的单元格区域生成一个100行、1列的随机数数组。使用前需确保下方单元格是空的。

  3. 应用判断公式: 将步骤1中的IF公式应用到整个RANDARRAY生成的数组区域。

  4. 更新图表: 生成新数据后,记得更新图表的数据源范围和Y轴刻度,以正确显示100次模拟的结果。

  5. 使用数组公式(进阶): 为了更高效,你可以使用数组公式一次性完成所有计算。在输出区域的第一个单元格输入公式,然后按 Ctrl+Shift+Enter(在某些电子表格中只需按Enter)确认。

    =IF(RANDARRAY(100,1) <= 0.3, "基础版", IF(RANDARRAY(100,1) <= 0.5, "高级版", "取消"))
    

    这个公式会直接输出一个包含100个模拟结果的数组。

通过多次刷新模拟,你可以观察到用户选择分布的统计规律,这比采访真实用户要便捷得多。


总结

本节课中我们一起学习了如何使用电子表格模拟离散分布。我们掌握了两个核心技能:

  1. 使用 RAND() 函数生成随机数,并结合 IF 语句将随机数转化为符合特定概率的离散事件结果。
  2. 利用 RANDARRAY 函数和数组公式来高效模拟大量数据,并通过图表对结果进行可视化分析。

模拟是一个强大的工具,它能帮助我们在数据不足或实际测试成本过高时,进行有效的预测和决策分析。在接下来的课程中,我们将探索如何利用大型语言模型进行随机抽样模拟。

112:使用LLM模拟离散分布 🎲

在本节课中,我们将学习如何利用大型语言模型(LLM)进行抽样模拟。我们将重点探讨LLM在模拟离散概率分布时的能力、关键限制以及具体操作方法。

概述:LLM的模拟能力与限制

大型语言模型是功能强大的工具,但也存在一些关键限制。

上一节我们介绍了概率分布的基本概念,本节中我们来看看如何用工具实现模拟。

在使用LLM进行模拟之前,你需要知道一个关键点:只有能够编写并运行代码的LLM才对模拟有用

你将在下一课中更深入地了解这种限制的本质,并看到实际案例。简而言之,请记住LLM在处理数学问题时存在困难,因为生成随机样本是一项数学任务。

除非LLM能够编写并运行代码,否则它们不适合进行模拟。如果它们能够运行自己的代码,那么它们就确实有能力计算这些概率。

实战:使用Claude进行模拟演示

让我们切换到Claude,它能够运行一些非常酷的模拟。Claude有一个名为“工件”(artifacts)的功能,允许它编写和运行代码。我们来看看它能做什么。

要开始模拟,你可以给它以下提示:

创建一个用于抽样10个犬类DNA检测试剂盒的界面。告知它任何试剂盒有效的概率是70%。然后,你将告诉它如何配置这个界面。

以下是配置界面的具体要求列表:

  • 当你点击一个按钮时,你希望出现10个样本的可视化图像,其中有效样本显示为绿色,无效样本显示为红色。
  • 你还需要它进行跟踪记录。

具体需要跟踪记录的数据包括:

  • 截至目前抽样的有效和无效试剂盒的数量。
  • 截至目前所有试剂盒中有效的百分比。



你将看到它生成所有这些代码。这本质上是在网站内部创建了一个网站。

Claude编写这段代码的事实告诉你,与没有此能力的LLM(只能猜测下一个词是什么,无法保证猜测是真正随机的)相比,它确实有一种方法可以从分布中真正随机抽样。

你可以在此处的代码中看到,这就是它实际生成随机样本的地方。你不需要理解所有这些代码的含义,但这验证了它确实可以通过编写代码来完成你要求的任务。

运行与观察模拟结果

如果你尝试生成一个新样本,它会完全按照你的要求执行。

它会有这张红绿相间的不同样本图像,并向你展示有多少个有效试剂盒和多少个无效试剂盒,以及有效样本的总体百分比。例如,80%有效,20%无效。

这个结果是合理的,因为你我都知道有效检测试剂盒的概率是70%。因此,你可以从这个界面生成许多样本。

这是一个有趣的例子,其中9个检测试剂盒实际上是有效的。


请注意,最初有效测试的比例是80%。现在,经过多次抽样,有效百分比已收敛到更接近70%——即有效的实际概率。

这种界面可以帮助你可视化这些不同场景的样子。你可以看到,获得包含许多有效测试的试剂盒是相对常见的。例如,这里有一个包含五个无效测试的试剂盒。

总结

干得漂亮!你使用大型语言模型创建了一个模拟。这标志着本节课的结束,只剩下最后一课了。

完成本课的练习评估和实践实验后,请跟随我进入下一课,继续学习连续概率分布。

113:连续型概率分布 📊

在本节课中,我们将要学习连续型随机变量的概率分布。我们将探讨连续分布与离散分布的核心区别,并介绍三种重要的连续分布:均匀分布、幂律分布和正态分布。理解这些分布是进行高级数据分析和统计推断的基础。


连续分布与离散分布的主要区别

上一节我们介绍了离散概率分布(如伯努利分布和二项分布)。本节中我们来看看连续型随机变量的概率分布。

连续分布与离散概率分布的主要区别在于如何表示不同结果的概率以及如何计算统计量。

首先,连续分布没有可计数的值。由于这一区别,连续分布通常用平滑曲线可视化,而不是柱状图。平滑曲线反映了每个结果之间存在中间值,而离散分布的柱状图则显示存在不同的可计数值。

这条曲线称为概率密度函数(Probability Density Function,简称 PDF),它类似于离散概率分布中的概率质量函数(Probability Mass Function,简称 PMF)。

与计算离散概率分布中特定值的概率不同,对于连续分布,你需要计算一个值落在某个范围内的概率。因为在连续概率分布中,每个值之间都有无限多个值,所以任何精确值的概率都是 0

连续概率分布的累积分布函数(Cumulative Distribution Function,简称 CDF)也是一条平滑曲线,与你之前看到的离散CDF柱状图不同。然而,两者相似之处在于,它们都是严格递增函数(随着x增加而增加),并且取值范围从 01

由于PDF是一条平滑曲线,曲线上两点之间的面积就代表值落在该范围内的概率。对于离散概率分布,计算值落在某个范围内的概率很简单,只需将不同概率相加。而对于连续随机变量,概率的计算更为复杂,需要微积分来定义曲线下的面积。这里我们不会展示微积分计算,因为你几乎不需要手动计算这些值。不过,稍后你将学习这些计算的直观理解。


均匀分布 ⚖️

让我们从均匀分布开始。当指定范围内的所有结果发生的可能性均等时,你可以使用均匀分布来建模。

你在上一课中已经使用均匀分布来生成随机样本。它在定义范围内具有恒定的概率密度。

当你对随机变量的行为知之甚少,仅知道估计的最小值或最大值时,通常会使用均匀分布。否则,它对于模拟很有用,正如你之前所见。


幂律分布 📈

在大多数场景中,结果的分布并不是均匀的。例如,请看英语中最常用的前一千个单词的频率分布。

这是一个相当典型的幂律分布,有时也称为偏态分布。该分布可用于对以下数据进行建模:结果的概率与其大小成反比。换句话说,小事件发生多次,而大事件发生次数很少。

幂律分布的特征在于其长尾,即罕见事件仍然有发生的显著概率。它在自然界中相当常见,不仅可以用于模拟单词频率,还可以用于模拟城市人口规模、地震震级、收入分配等。

幂律通常与 80/20法则 相关联,即80%的效果来自20%的原因。例如,少数单词被非常频繁地使用,而大多数单词则很少使用。


总结与预告 🎯

本节课中我们一起学习了连续型概率分布的基础知识。我们探讨了连续分布与离散分布的核心区别,理解了概率密度函数和累积分布函数的作用。我们还介绍了两种具体的连续分布:均匀分布和幂律分布,并了解了它们的应用场景。

干得不错!接下来,请跟随我进入下一个视频,学习数据分析中最重要的连续分布:正态分布。

114:正态分布 📊

在本节课中,我们将要学习统计学中一个极其重要的概念——正态分布。我们将了解它的定义、关键特征、实际应用,以及如何利用它来理解数据。


概述

许多现实世界的现象都遵循一种特定的分布模式,其数值对称地聚集在平均值周围。离平均值越远,结果出现的可能性就越低。这种分布被称为正态分布


什么是正态分布?🤔

一个遵循正态分布的现实例子是人类身高。下图展示了两条正态分布的概率密度函数曲线。

左侧图表展示了男性身高的分布。X轴代表身高,Y轴代表概率密度函数的值。男性身高分布的均值(μ)为176厘米(约5英尺9英寸),标准差(σ)为7.1厘米(约2.5英寸)。请注意,这里的均值和标准差是总体参数,而非样本统计量。

右侧图表展示了女性身高的分布,使用相同的坐标轴。其均值(μ)为162.5厘米(约5英尺4英寸),标准差(σ)与男性身高分布相同,为7.1厘米。

女性身高分布可以写作:H ~ N(μ=162.5, σ=7.1)。其中,H代表身高,N代表正态分布。

这两个分布都呈现出对称性,并围绕各自的均值集中。除了身高,血压读数和考试成绩也常常呈正态分布。更重要的是,许多统计方法都假设数据遵循正态分布。


正态分布的应用示例

正态分布可以帮助我们回答一些实际问题。例如:

  • 最常见的女性身高是多少? 答案是众数。在正态分布中,众数、中位数和均值三者相等,因此最常见的女性身高就是均值162.5厘米。
  • 一位随机女性身高是142厘米或173厘米,哪种情况更可能发生? 142厘米距离均值20.5厘米,而173厘米距离均值10.5厘米。由于173厘米更接近均值,因此其出现的可能性更高。

正态分布的关键特征 🔑

上一节我们看到了正态分布的实际例子,本节中我们来详细拆解它的核心数学特征。

以下是正态分布的关键特征:

  1. 对称性:分布关于均值 μ 对称。左侧是右侧的镜像,因此有50%的数据落在均值左侧,50%落在右侧。
  2. 中心趋势相等:均值、中位数和众数三者相等,都位于分布的中心。这意味着分布没有偏度(偏度为0)。
  3. 由标准差定义:分布的离散程度由标准差 σ 定义。理论上,分布的两端(尾部)向正负无穷延伸。
    • 均值决定了曲线峰值的位置。
    • 标准差决定了数据的分散程度。较大的标准差意味着曲线更扁平、更分散;较小的标准差则意味着曲线更高、更狭窄。

我们一直在看的这条曲线是正态分布的概率密度函数。对于连续分布,PDF曲线的高度显示了某个值范围内结果的相对可能性。


西格玛法则(经验法则)📏

正态分布有一个非常实用的性质,称为西格玛法则,也常被称为经验法则68-95-99.7法则

这个法则描述了数据落在均值周围特定范围内的百分比:

  • 一倍标准差法则:约68%的数据落在均值左右一个标准差(±1σ)的范围内。
  • 两倍标准差法则:约95%的数据落在均值左右两个标准差(±2σ)的范围内。
  • 三倍标准差法则:约99.7%的数据落在均值左右三个标准差(±3σ)的范围内。

这些统称为西格玛法则,能帮助我们快速理解正态分布中的概率。

让我们再次以女性身高分布(μ=162.5 cm, σ=7.1 cm)为例:

  • 均值减一个标准差:162.5 - 7.1 = 155.4 cm
  • 均值加一个标准差:162.5 + 7.1 = 169.6 cm
    • 根据一倍标准差法则,68%的女性身高介于这两个值之间。
  • 均值减两个标准差:162.5 - 2*7.1 = 148.3 cm
  • 均值加两个标准差:162.5 + 2*7.1 = 176.7 cm
    • 根据两倍标准差法则,95%的女性身高介于这两个值之间。
  • 均值减三个标准差:162.5 - 3*7.1 = 141.2 cm(约4英尺8英寸)
  • 均值加三个标准差:162.5 + 3*7.1 = 183.8 cm(略高于6英尺)
    • 根据三倍标准差法则,99.7%的女性身高介于这两个值之间。

尽管如此,全球仍有超过0.3%(即1100多万)的女性身高会落在这个“罕见”范围之外。虽然极端值出现的概率低,但由于人口基数大,绝对值仍然可观。


累积分布函数

除了概率密度函数,我们还可以通过累积分布函数来研究正态分布。

CDF是一条S形曲线。它表示随机变量取值小于或等于X轴上某个给定值的概率

  • X轴:随机变量的值(此处为身高),中心是均值162.5。
  • Y轴:取得至多为该值的累积概率。

想象X轴向图像两侧无限延伸。累积概率在左侧永远不会完全达到0,在右侧也永远不会完全达到1,因为理论上总存在出现更极端值的非零概率(尽管现实中人类身高有物理限制)。

CDF可以帮助我们回答以下问题:

  • 一位随机女性身高小于等于160厘米的概率是多少? 这对应于CDF曲线在160厘米处的高度,图中显示约为39.2%
  • 女性身高的第75百分位数是多少? 图中这条线代表了第75百分位数,对应的身高约为167.29厘米

总结

本节课中,我们一起学习了正态分布。我们了解到它是一种对称的钟形曲线,由均值(μ)和标准差(σ)两个参数完全定义。我们探讨了它的关键特征(对称性、中心趋势相等),并通过人类身高的例子看到了它的实际应用。此外,我们还学习了实用的西格玛法则(68-95-99.7法则),用于快速估算概率,并介绍了累积分布函数的用途。

在接下来的课程中,我们将探索正态分布的一个特殊案例。

115:标准正态分布 📊

在本节课中,我们将要学习标准正态分布的概念、重要性及其应用。标准正态分布是统计学中的一个核心概念,它为我们提供了一个统一的尺度来理解和比较不同正态分布的数据。

什么是标准正态分布? 🤔

上一节我们介绍了正态分布的基本特性,本节中我们来看看标准正态分布。标准正态分布是一种特殊的正态分布,其均值(μ)为0,标准差(σ)为1。其数学表示如下:

公式: Z ~ N(μ=0, σ=1)

尽管存在无数种正态分布(其中心由均值决定,形状由标准差决定),但标准正态分布因其独特的数学性质而显得尤为重要。

标准正态分布的重要性 🔑

标准正态分布之所以重要,是因为它提供了一个共同的参考框架。任何正态分布的数据都可以通过一个称为“标准化”的过程,转换到标准正态分布的尺度上。

以下是标准正态分布的几个关键特性:

  • 均值为0,标准差为1: 这是其定义特性。
  • 遵循经验法则(Sigma规则): 与所有正态分布一样,约68%的数据落在均值±1个标准差内,约95%的数据落在均值±2个标准差内。
  • Z分数的直接对应: 在标准正态分布中,任何一个数值本身就直接代表了该数值距离均值有多少个标准差。

理解Z分数 📈

Z分数(或称标准分数)是标准正态分布中的一个核心概念。它表示一个数据点距离其所在分布的均值有多少个标准差。

公式: z = (x - μ) / σ

其中:

  • x 是原始数据值。
  • μ 是原始分布的均值。
  • σ 是原始分布的标准差。

Z分数的作用类似于百分位数,都能让你了解一个数据点在分布中的相对位置。但Z分数的优势在于,它能更精确地告诉你该点距离均值有多远,而不仅仅是排名。

数据标准化过程 🔄

将原始数据转换为Z分数的过程称为“标准化”。这个过程对所有正态分布的数据都适用。

标准化的步骤如下:

  1. 中心化: 用原始值减去均值(x - μ),这会将分布的中心移动到0。
  2. 缩放: 将中心化后的值除以标准差(/ σ),这会将所有数值的单位转换为“标准差”。

经过标准化后,任何正态分布的数据都会变成均值为0、标准差为1的标准正态分布。这使得来自不同均值、不同标准差的正态分布的数据可以放在同一个尺度上进行比较。

标准化示例与逆变换 🔁

让我们通过一个例子来理解标准化。假设法学院的一次期中考试成绩服从正态分布,均值为43.5,标准差为5。你的朋友得了52分。

要计算其Z分数:
z = (52 - 43.5) / 5 = 1.7

这意味着你朋友的分数比平均分高了1.7个标准差,成绩相当不错。

标准化过程是可逆的。如果你知道Z分数、原始分布的均值和标准差,可以还原出原始数值。

逆变换公式: x = z * σ + μ

总结 📝

本节课中我们一起学习了标准正态分布。我们了解到,标准正态分布(N(0,1))是所有正态分布的一个特例和基准。通过计算Z分数(z = (x - μ) / σ)进行标准化,我们可以将任何正态分布的数据转换到统一的尺度上,从而方便地进行比较和分析。Z分数直观地表示了一个数值距离均值有多少个标准差。在接下来的课程中,我们将利用Z分数来构建置信区间和进行假设检验。

116:正态随机抽样 📊

在本节课中,我们将学习如何从正态分布中进行随机抽样。我们将从一个标准正态分布开始,然后运用上一节课中介绍的反向Z分数变换方法。

概述

我们将通过一个为潜水公司模拟客户身高的实际案例,来演示如何从正态分布中生成随机样本。这个过程涉及使用均匀分布生成随机数,并通过累积分布函数的逆变换将其映射到正态分布。

从正态分布中抽样

上一节我们介绍了离散分布的抽样,本节中我们来看看如何对连续的正态分布进行抽样。

假设你在一家为顾客提供潜水服的潜水公司工作。你需要为一个10人的潜水团模拟客户身高,以便确定潜水服的尺码。你想随机生成身高数据,但问题在于身高并非均匀分布。

与均匀分布中每个值被生成的概率相同不同,你需要一个更复杂的函数,将均匀分布中的随机数映射到正态分布的概率上。

以下是从正态分布中抽样的一个方法。

抽样步骤

以下是使用逆变换方法从正态分布中抽样的两个核心步骤。

  1. 使用随机数生成器从标准均匀分布中生成一个样本。这与上一课中离散案例的做法相同。例如,你可能会得到数值 0.2218
  2. 使用逆变换将第一步得到的值转换为目标正态分布的值。以男性身高为例,已知其均值为 172 cm,标准差为 7.1 cm

理解逆变换过程

现在让我们看看第二步是如何工作的。下图是男性身高的累积分布函数图。

累积分布函数的取值范围是0到1,代表了从负无穷到正无穷移动时的累积概率。

这很有趣。标准均匀分布的取值范围也是0到1。

假设你从标准均匀分布中生成了一个随机值,例如 0.5。如果你将这个随机样本放在累积分布函数的Y轴上,它会落在正中间。

现在,想象画一条水平线到累积分布函数曲线,然后垂直向下到X轴。它会对应什么身高呢?答案是平均身高 172 cm。观察到小于或等于172的值的概率是0.5。因为分布是关于均值对称的。

当你通过均匀分布生成随机值时,它们会投射到X轴上的不同值,这些值对应着不同的抽样身高。

这个操作被称为求累积分布函数的逆。你可以使用电子表格函数 NORM.INV 来根据给定的累积分布函数值以及正态分布参数 μ(均值)σ(标准差) 识别出对应的X值。稍后你就会使用它。

应用与模拟

现在,你将把这个过程再重复九次,通过多次抽样来模拟旅行团中10位顾客的身高分布。通过多次抽样,你可以估算出通常需要每种尺码潜水服的数量。

这种方法的美妙之处在于它模拟了真实世界的变异性。正如并非每个人都有完全相同的平均身高,这些样本将在均值周围变化,为你提供潜在客户的真实情况,并帮助你订购正确的库存。

你一定很想看看这个过程是如何进行的。让我们转到电子表格中,模拟多次男性身高的随机抽样。


总结

本节课中,我们一起学习了如何从正态分布中进行随机抽样。我们掌握了使用均匀分布生成随机数,并通过累积分布函数的逆变换将其转换为符合特定均值和标准差的正态分布值的方法。这个过程是模拟现实世界连续变量数据的有力工具。

117:使用电子表格模拟正态分布 📊

在本节课中,我们将学习如何使用电子表格生成服从正态分布的随机样本。我们将以模拟男性身高为例,演示如何从已知均值和标准差的正态分布中进行随机抽样,并利用这些模拟数据辅助实际决策,例如为不同身高的客户准备合适数量的潜水服。


概述与目标

上一节我们介绍了均匀分布及其模拟方法。本节中,我们将看看如何模拟更常见的正态分布。正态分布广泛存在于自然界和社会数据中,例如人类的身高。掌握其模拟方法,能帮助我们在已知总体参数的情况下,生成具有代表性的随机样本,用于预测和分析。

我们将使用电子表格的 RANDARRAYNORM.INV 函数来完成这一过程。


第一步:设定分布参数

首先,我们需要输入描述目标正态分布的参数。根据已知数据,男性身高大致服从正态分布,其均值(μ)为172厘米,标准差(σ)为7.1厘米。

在电子表格中,我们可以将这两个参数分别输入到两个单元格中,例如:

  • A1 单元格输入 172(均值)
  • B1 单元格输入 7.1(标准差)

公式表示:
身高 ~ N(μ=172, σ=7.1)


第二步:生成均匀分布随机数

接下来,与之前的模拟类似,我们需要先生成一组均匀分布的随机数作为基础。我们将使用 RANDARRAY 函数来生成100个介于0到1之间的随机数。

以下是具体操作:

  1. 选中一个空白列(例如C列)的100个单元格。
  2. 输入公式:=RANDARRAY(100, 1)
    • 这个公式会生成一个100行、1列的随机数数组。
  3. 按下回车键后,你将得到100个在(0,1)区间内均匀分布的随机数。

代码描述:
random_uniform = RANDARRAY(n, 1),其中 n 是样本数量。

请注意,每次重新计算工作表(例如修改任意单元格后按回车),这些随机数都会重新生成。


第三步:转换为正态分布样本

现在,我们需要将均匀分布的随机数转换为服从指定正态分布的样本。这里将使用 NORM.INV 函数。

该函数需要三个参数:

  1. 概率:即我们上一步生成的均匀随机数。
  2. 均值:目标正态分布的均值(172)。
  3. 标准差:目标正态分布的标准差(7.1)。

以下是转换方法:

  1. 在D列(与C列随机数平行)的第一个单元格(如D1)输入公式:=NORM.INV(C1, $A$1, $B$1)
    • C1 是第一个均匀随机数。
    • $A$1$B$1 是绝对引用的均值和标准差单元格。
  2. 将这个公式向下填充至第100行,为每个随机数计算对应的身高值。

核心转换公式:
height = NORM.INV(random_uniform, mean, standard_deviation)

例如,一个约0.29的随机数被转换成了约168厘米的身高。因为0.29 < 0.5,所以对应的身高值应小于均值172厘米,结果符合预期。

为了更高效,你可以使用数组公式一次性完成整个列的转换。


第四步:添加刷新控件并观察结果

为了方便地重新生成样本,我们可以插入一个复选框或按钮来触发工作表重新计算。插入后,每次勾选或点击,所有随机数和身高样本都会更新。

观察生成的身高数据,你会发现它们大致围绕均值172厘米上下波动,大部分落在均值加减几个标准差的范围内。


第五步:分析与可视化样本

生成了样本数据后,我们可以对其进行汇总分析,以验证其是否接近我们设定的总体参数。

以下是两种主要的分析方法:

1. 绘制分布直方图
选中身高数据所在的列(D列),插入一个直方图。在样本量为100的情况下,图表可能呈现大致钟形,但峰顶不一定非常明显或光滑。这是小样本抽样的正常现象。多次点击刷新按钮,你会看到每次生成的分布形状都有所不同。

2. 计算样本统计量
我们可以计算这100个身高样本的均值和标准差。

  • 使用 AVERAGE(D:D) 计算样本均值。
  • 使用 STDEV.S(D:D) 计算样本标准差。

你会发现,样本统计量(如均值171,标准差7.04)通常非常接近总体参数(172和7.1),但不会完全相等。通过刷新样本,你可以观察这些样本统计量的波动情况。


模拟结果的应用与解读

通过多次刷新模拟,你可能会遇到一些有趣的情况:

  • 出现极端值:例如,某次抽样中出现了一个身高约191-195厘米(约6英尺3英寸)的个体,这是一个较高的异常值。另一次可能出现身高偏低的异常值。
  • 分布形态变化:有时样本分布看起来更“标准”,有时则可能在某一端出现多个极端值。

这些模拟结果具有实际意义。例如,对于潜水服供应商而言,即使极端身高的客户概率较低,模拟中出现多个极端值的情况提示他们,仍需准备少量特大号或特小号的潜水服,以应对可能的需求。


总结与练习

本节课中,我们一起学习了如何使用电子表格模拟正态分布。我们回顾了从设定参数、生成均匀随机数,到利用 NORM.INV 函数转换为正态分布样本的完整流程,并学会了通过图表和统计量来分析模拟结果。

你可以自行尝试以下练习以巩固所学:

  1. 改变均值和标准差参数,模拟女性身高(例如,均值162厘米,标准差6.5厘米)。
  2. 将样本量从100增加到1000或10000,观察分布直方图和样本统计量的变化。
  3. 思考如何将这种模拟方法应用于你所在领域的其他正态分布数据(如测试分数、产品尺寸等)。

尝试并探索这个模拟过程是非常有益的。接下来,请跟随下一节视频,继续学习更多关于数据模拟的知识。

118:使用LLM模拟正态分布 📊

在本节课中,我们将学习如何使用大型语言模型(LLM)来模拟生成正态分布的数据样本。我们将探讨LLM在此任务中的能力与局限性,并演示如何正确利用其代码生成功能来完成模拟。


概述

上一节我们介绍了LLM作为数据分析思维伙伴的潜力。本节中,我们来看看如何具体使用LLM来模拟生成符合正态分布的随机样本。我们将重点关注一个核心限制:LLM本身不具备生成真正随机数的能力,必须依赖其编写和运行代码的功能才能完成有效的模拟。


LLM生成随机样本的局限性

首先,我们需要明确一个关键前提:除非LLM能够编写并运行代码,否则不能直接用它进行抽样。让我们来仔细验证这一点。

我们从一个无法运行代码的免费版ChatGPT模型开始。这个版本与本课程中Coursera实验环境提供的工具非常相似。

假设你想生成100个来自标准正态分布的样本。你可以向ChatGPT提出请求:

提示词示例:

模拟100个来自标准正态分布的样本,并以逗号分隔的列表形式打印出来。

模型会输出100个数字,这些数字的均值(μ)为0,标准差(σ)为1。从表面上看,这些数据点似乎符合正态分布。

然而,要检验这些数据是否真的来自正态分布,我们需要进行可视化分析。这时,我们需要使用具备高级数据分析功能(能写并运行代码)的付费版ChatGPT。

以下是付费版ChatGPT根据上述数据生成的直方图代码与结果:

观察这个直方图,分布大致对称,但尾部并未像真正的正态分布那样平缓展开。回顾上一节的演示,仅需约100个样本就能生成一个看起来相当“正常”的分布。因此,当前的结果有些异常。

核心结论: LLM自身并不具备从正态分布生成真正随机样本的工具。因此,你不应该直接使用LLM来生成样本。对于纯粹的随机数生成,电子表格是更合适的工具。


使用能运行代码的LLM进行模拟

接下来,我们转向能够运行代码的Claude模型。记住,Claude可以通过其“Artifacts”功能编写和执行代码。

我们可以给它一个提示,要求其创建一个用于从正态分布抽样的交互界面,并生成直方图来可视化结果。

提示词示例:

创建一个用于从正态分布中抽样的应用程序界面,并生成直方图来总结结果。

模型会开始编写代码来构建这个应用程序:

在这个模拟中,我们设定总体均值 μ 和总体标准差 σ。这个模拟可以帮助你看到,如果你随机测量100名女性的身高,可能会遇到的所有不同情况。

应用程序界面通常包含以下元素:

  • X轴:身高值。
  • Y轴:频率。
  • 顶部:显示的总体参数(μ, σ)。
  • 右侧:显示的样本统计量(如样本均值 ,样本标准差 s)。

即使只抽取100个样本,样本均值 也非常接近总体均值 μ。从视觉上看,分布非常接近正态分布。

点击“生成样本”按钮可以生成更多分布。每次生成,分布都会略有变化,但总体而言,样本统计量与总体参数吻合得很好。这主要是因为1000个样本足以让你非常接近总体参数

当然,偶尔也会出现一些看起来不太寻常的样本,例如分布的峰值不如通常那样圆润。但在简单随机抽样中,出现这种结果是可能的。


关键要点与最佳实践

以下是使用LLM进行模拟时需要牢记的要点:

  • LLM的角色:任何LLM都可以帮助你设计模拟实验并沟通结果。
  • 执行模拟的条件只有当LLM能够编写和运行代码时,才应该用它来运行模拟。
  • 代码是核心:真正的随机抽样依赖于编程语言(如Python的numpy.random.normal)中的随机数生成器。
  • 可视化验证:始终通过直方图等可视化手段来检查生成的数据分布是否符合预期。

总结

本节课中,我们一起学习了如何利用LLM模拟正态分布。我们认识到LLM本身不能直接生成随机数,但可以通过驱动代码执行来成为强大的模拟工具。关键在于区分LLM的“构思”能力和“执行”能力——前者所有LLM都具备,后者则需要特定的代码运行功能。

接下来,在下一节视频中,我们将综合运用这些知识,学习如何利用分布来做出数据驱动的决策。

119:基于分布进行决策 📊

在本节课中,我们将学习如何利用数据分布和描述性统计来为商业决策提供依据。我们将通过两个具体的商业场景,演示如何从数据可视化开始,识别分布类型,计算关键统计量,并最终运用概率模型来解答实际的业务问题。


第一步:可视化与识别分布 📈

上一节我们介绍了概率分布的基本概念,本节中我们来看看如何将其应用于实际数据分析。第一步总是从可视化数据开始,以识别其潜在的分布形态。

以下是进行分析的标准初始步骤:

  1. 收集一个简单随机样本。
  2. 创建直方图和箱线图来可视化数据分布。
  3. 根据图形特征,初步判断数据可能遵循的分布类型(如正态分布、幂律分布)。

场景一:在线测试公司的打字速度分析 ⌨️

想象你在一家提供在线标准化测试的数字考试公司工作。公司担心用户的打字速度会影响其测试成绩,即使他们掌握了相关知识。你决定抽取100名用户的简单随机样本,并测量他们的打字速度。

你创建了直方图和箱线图。数据看起来大致服从正态分布。由于样本量仅为100,图形与典型的钟形曲线存在一些差异,但你有初步证据表明总体数据可能大致遵循正态分布。

在做出这个假设后,你可以继续为数据创建描述性统计量,并尝试解答业务问题。

首先,计算样本均值 X_bar 和样本标准差 S。它们的值分别为每分钟72.47个单词和9.59个单词。如果你假设的总体正态分布成立,你可以用 X_barS 作为总体参数 μσ 的近似值。

正态分布模型可以帮助你估计数据中未观测到情况的概率。例如,在42到55之间的数据缺口,或者在总体中可能出现比样本更极端的值。

利用这个总体模型,你可以回答诸如“任意给定用户打字速度低于每分钟40个单词(这是能否按时完成测试的临界阈值)的可能性是多少?”这样的问题。即使你的样本中没有人的打字速度那么低,正态分布也可以帮助你估计在给定参数下观察到该用户的概率。

你计算出任意给定用户打字速度低于每分钟40词的概率约为0.035%,即大约每2800名用户中有1名。这个概率可以帮助你评估在当前时间限制下测试是否公平有效。

假设一名用户向考试公司投诉,称由于其打字速度导致测试时间不公平。如果他们说自己的打字速度是每分钟80个单词,你可以利用正态分布找到该个体打字速度的百分位数。

你计算出这名用户处于第78百分位数,这意味着他们的打字速度比78%的用户快。这可能是驳回该用户投诉的依据。

相反,如果另一名用户投诉,且其测试打字速度为每分钟51个单词,你可以估计他们处于第1百分位数,速度相当慢,这可能使他们有资格获得延长时间。


场景二:社交媒体公司的用户发帖激励分析 📱

上一节我们通过正态分布解决了测试公司的难题,本节中我们来看看另一种常见分布的应用。假设你在一家社交媒体公司工作,任务是找出激励人们更频繁发帖的方法。

你生成了200名用户的简单随机样本,跟踪每位用户一周,并收集他们发帖数量的样本数据。你的第一步是可视化分布,因此你创建了数据的直方图和箱线图。

图形显示数据可能遵循幂律分布,因为大量用户集中在零附近,而正方向有一条长尾,表明存在严重的正偏态。你可以使用幂律分布作为模型来描述总体在社交媒体网站上的行为。虽然需要进一步步骤验证这一假设,但假设你已确认样本遵循此分布。

首先,你可以计算样本统计量。幂律分布的参数与正态分布不同,但你仍然可以计算样本均值 X_bar(14.465)和样本标准差 S(23.8)。需要注意的是,由于该分布不是正态分布,你不能直接应用之前学过的经验法则。

在假设总体行为符合此概率分布模型的前提下,你可以开始处理一些业务问题。

假设市场团队告知,一项特定的激励措施能促使活跃度处于后50%的用户每周多发一个帖子。利用你的幂律分布模型,你注意到发帖数量的中位数将从3增加到4,增长了33%。发帖数量的均值将增加0.5(因为你在所有用户的一半上增加了一个帖子),因此将从10.47增加到10.97,增长约5%。这种差异是合理的,因为与中位数相比,均值受分布尾部值的严重影响。发帖总数也将以与均值相同的百分比增加。这种变化有助于你描述该激励措施若在整个群体中实施可能产生的效果。


总结与回顾 🎯

本节课中我们一起学习了如何将数据分布知识应用于实际的商业决策。我们通过两个案例,演示了从数据可视化、分布识别、统计量计算到最终运用概率模型解答具体业务问题的完整流程。关键在于根据数据特征选择合适的分布模型,并理解其假设和局限性,从而做出有数据支撑的推断和决策。

接下来,你将完成本模块的评分评估和实验。在实验中,你将扩展对森林防火数据集的分析,以帮助估计野火发生的位置。完成实验和评估后,我们将在下一个关于置信区间的模块中再见。

120:置信区间模块简介 📊

在本节课中,我们将学习吴恩达数据分析课程中关于“置信区间”的模块。我们将了解如何基于样本数据对总体参数进行推断,并掌握构建与解释置信区间的基本方法。


概述

欢迎来到新的模块——置信区间。在本模块中,你将学习两种基于样本对总体进行推断的强大技术中的第一种。置信区间的目的是帮助你处理许多商业问题中固有的不确定性。

上一节我们介绍了数据分析的整体框架,本节中我们来看看推断统计学的具体起点。

推断统计学的定义

你将首先定义推断统计学,包括它与描述统计学的区别。

推断统计学旨在利用样本数据对总体特征(参数)进行预测或推断。这与描述统计学不同,后者仅专注于总结和描述已收集数据本身的特征。

置信区间的构建与目的

然后,你将构建置信区间。这是一种以一定的确定性度量来估计总体参数(如均值和比例)的方法。

以下是构建置信区间的核心目标:

  • 估计未知的总体参数。
  • 提供估计的精确度或可靠性的度量。

置信区间的解释与精度控制

你将学习如何解释这些区间(这可能相当棘手),以及如何控制估计精度的不同杠杆。

解释置信区间时,关键在于理解其概率含义。同时,我们可以通过调整一些因素来控制区间的宽度(即精度)。

以下是影响置信区间宽度的主要因素:

  • 样本大小 (n):样本量越大,区间通常越窄,估计越精确。
  • 置信水平 (1-α):置信水平越高(如95%对比90%),区间越宽。
  • 数据的变异性 (σ 或 s):数据波动越大,区间越宽。

大语言模型作为思考伙伴

最后,你将把大语言模型作为推断统计学的思考伙伴。你将看到人工智能如何帮助你解释结果、创建模拟界面,甚至为置信区间执行计算和创建可视化。

实践与应用

你的辛勤工作将在实验课中达到高潮,在那里你将探索钻石的定价机制。我相信到本模块结束时,你会乐在其中。


总结

在本节课中,我们一起学习了置信区间模块的核心内容。学完本模块后,你将能够构建和解释置信区间,从而能够从数据中得出严谨的结论。

请跟随我进入下一个视频,以了解更多关于推断统计学的知识。😊

121:推断统计学 🧠

在本节课中,我们将要学习推断统计学的基本概念。我们将了解如何利用样本数据来对总体做出更可靠的结论,并比较描述性统计与推断性统计的区别。


从描述性统计到推断性统计

到目前为止,你一直在使用描述性统计。描述性统计用于描述样本数据的行为。

现在,通过推断性统计,你将利用样本来对总体得出更有力的结论,从而显著提升分析的严谨性。


一个关于信心的思考实验

让我们从一个关于信心的问题开始。假设你试图了解一家公司的员工满意度。公司有10000名员工。你采访了其中的100人,其中82%的人表示满意。

基于这个信息,你对所有员工的满意度有何直觉?你可能会说满意度相当高。但你有多大信心认为你的样本能代表整个公司?你会放心地向你的老板报告这个结果吗?

也许你决定收集更多数据,于是你将调查范围扩大到随机选择的500名员工。你发现其中有455人满意,即91%。这个更大的样本如何影响你的信心?如果你现在必须向CEO提供一个数值范围,你会怎么说?

最后一组问题:假设你对500名随机选择的员工进行了三次独立调查,你得到的满意度百分比分别是:第一次调查91.0%,第二次92.1%,第三次88.7%。基于这三个不同的样本,你现在会如何估计真实的满意度?


推断统计学的核心思想

这正是推断统计学背后的核心理念。

你有一些样本数据(如你的员工调查),并试图对总体(所有10000名员工)做出推断。

以下是几个关键点:

  • 大样本提供更可靠的估计:询问500名员工比询问100名更可靠。
  • 不同样本存在变异性:即使从同一总体中抽取,不同的样本也会显示出差异。在每次独立调查中,满意度比率都不同,尽管潜在的总体满意度是相同的。
  • 量化信心水平:推断统计学允许你量化对估计值的信心水平。从数学上判断某个估计值比另一个更有可能,是可行的。

描述性统计 vs. 推断性统计

为了更好地理解两者的区别,请看以下对比:

描述性统计陈述关于样本数据的事实。例如:

  • 在100名员工的样本中,82人说他们满意。
  • 一项对160名家长的调查发现,新生儿父母平均每晚睡6.1小时,而年长孩子的父母每晚睡8.2小时。

推断性统计则利用样本数据来对整个总体得出结论。例如:

  • 基于100名员工的样本,所有10000名员工的满意度很可能在88%到91%之间。
  • 一项对家长的调查得出结论,年长孩子的父母比新生儿父母每晚多睡两小时。

前两个例子描述了样本的特征,而后两个例子则利用样本的特征来对总体的行为方式做出结论(所有员工、所有父母)。

你之前学到,样本是窥见真相的一扇窗。当你透过这扇窗观察时,不一定能看到全部真相。推断统计学就是利用概率,基于你的样本统计量(同时考虑样本大小和变异性等因素)来对总体得出结论。本质上,你使用推断统计学来看到整个图景,即使它超出了你当前的视野。


推断统计学的价值与严谨性

与描述性统计相比,推断统计学提供了更高层次的分析严谨性。

在员工满意度的例子中,使用描述性统计,你只能陈述“接受调查的100名员工中有82人满意”。但你无法将其推广到所有员工。

使用推断性统计,你或许可以很有信心地推断,真实的满意度比例在88%到91%之间。尽管你对实际值不那么确定,但你能够得出结论:真实的总体参数很可能落在这个区间内。

如果你在做低风险的决策,比如了解一名运动员的表现,那么描述性统计可能完全适合你的用例。

然而,如果你在做更高风险的决策,比如是否向某个产品投资数百万美元,推断性统计则为决策提供了更坚实的基础。它允许你量化估计中的不确定性。


两种常见的估计类型

在实践中,你会经常使用两种不同类型的估计:点估计区间估计

在接下来的视频中,我们将进一步了解它们之间的区别。


总结

本节课中,我们一起学习了推断统计学的基本概念。我们了解到,推断统计学使我们能够利用样本数据对总体进行推断,量化估计的不确定性,并为决策提供比单纯描述样本更严谨、更可靠的基础。它特别适用于需要从有限数据中得出广泛结论或进行高风险决策的场景。

122:点估计与区间估计 📊

在本节课中,我们将学习统计学中两种重要的估计方法:点估计和区间估计。我们将了解它们各自的含义、区别以及在实际数据分析中的应用。


概述

点估计和区间估计是统计学中用于推断总体参数的两种基本方法。点估计提供一个单一的“最佳猜测”值,而区间估计则提供一个可能包含总体参数的范围,并附带我们对这个范围的信心程度。


点估计:单一的最佳猜测

上一节我们介绍了样本统计量的概念,本节中我们来看看点估计的具体应用。

点估计是使用样本数据计算出的单个数值,用以估计未知的总体参数。你已经在前面的模块中见过两个点估计量:

  • 样本均值:公式为 ,用于估计总体均值 μ
  • 样本标准差:公式为 S,用于估计总体标准差 σ

在本模块稍后部分,你将探索另一个点估计量 (样本比例)。例如, 可能是 0.82,代表对工作满意的员工比例,它用于估计总体比例 P

点估计很有用,但它不包含关于该估计值可信度的任何信息。假设你有一个2013年的25部电影的随机样本,其样本平均时长为121分钟。你有多大的把握能确定真实的总体均值 μ 恰好就是121分钟?


区间估计:包含置信度的范围

与点估计不同,区间估计确实包含了关于你有多大把握的信息。

这类似于你告诉朋友到达时间。说“10到15分钟到”比只说“10分钟到”能让你更有把握估计正确。通过扩大估计范围,你增加了估计正确的可能性。

以下是区间估计在统计学中的体现:

你可能见过包含误差线的图表。下图展示了公司三个不同团队的情况:X轴是团队,Y轴是表示满意的员工比例。

这张图没有使用点估计(那将只是在工程团队的72.7、设计团队的60.3等处画一条平面柱状图),而是显示了一个区间。该区间代表了基于样本数据,估计真实比例可能落入的数值范围。

根据这些区间,你认为哪个估计最精确?

答案是销售团队的估计。它的区间最窄。这可能是因为销售团队的样本量更大,或者其样本内部的变异性更小。相比之下,工程团队的区间最宽,表明真实比例的可能取值范围更大。

这些误差线只是区间估计的视觉化表示,是基于样本对真实总体比例的一种推断。如果你多次重复这个抽样过程,你会期望真实总体值在大多数时候都落在这个范围内。


核心复杂性:抽样变异性

区间估计处理的是统计学的核心复杂性:如果你从总体中抽取多个样本,你得到的样本统计量值会不同。

例如,观察这个分布。如果我翻转高尔顿板,现在我会得到一个不同的分布。

这种样本统计量之间的差异,正是我们需要区间估计来量化不确定性的原因。


总结

本节课中我们一起学习了点估计与区间估计。点估计(如 S)为我们提供了总体参数的单一最佳猜测值。而区间估计则提供了一个数值范围,并表达了我们对总体参数落在此范围内的信心程度,这通常通过像误差线这样的可视化工具来呈现。理解抽样变异性是理解为何需要区间估计的关键。

在下一个视频中,我们将通过模拟来亲眼看看这种复杂性是如何在实际中体现的。

123:抽样分布与中心极限定理 📊

在本节课中,我们将要学习抽样分布的概念以及一个非常重要的统计学定理——中心极限定理。我们将通过具体的例子来理解样本统计量(如样本均值)的分布规律,并探讨这些规律如何帮助我们进行统计推断。


抽样分布简介

上一节我们介绍了总体和样本的基本概念。本节中我们来看看样本统计量自身的分布特性。

与总体类似,样本统计量也有其分布。这意味着它们可以取一系列可能的值,并且每个值都有其对应的概率。

让我们通过一个例子来理解。假设你的任务是估计一项专业认证考试的平均分数。可能的分数范围是0到100。如果你抽取一个样本,例如随机询问50个人的分数,你会得到一个样本均值。但如果你抽取另一个样本,你还会得到相同的值吗?


一个模拟实验

让我们运行一个快速的模拟。我们生成一个新的样本。这模拟了随机询问50个人他们在认证考试中的分数。

在上方,你可以看到已经抽取的一些值,以及样本均值76.76。这里的每一个值都代表认证考试的一个分数。在下一部分,你将看到一些统计量,用于总结迄今为止生成的所有样本均值(目前只有一个)。在右侧,你会看到所有样本均值的直方图。

对于第一个样本,样本均值是76.76。但如果你生成一个新样本,你会得到一个不同的样本均值,在这个例子中是80.40。

你刚刚生成了另一个包含50个认证考试分数的样本。现在,就好像你抽取了两个不同的50人分数样本。如果你再生成一个样本,你会得到80.02。

随着你生成越来越多的样本,你将开始看到越来越多的值出现。所有这些值都是你从该分布中抽样时可能得到的样本均值。

假设你抽取了超过2000个分数样本。




每个样本包含50个人,你计算了每个样本的均值,因此你拥有超过2000个样本均值。你将那些均值的分布绘制在右侧的直方图中。

你猜这个分布遵循什么规律?


抽样分布的形状

这条曲线表明样本均值是正态分布的。

你能猜出总体均值μ吗?在76到78之间可能是一个不错的猜测。在这个例子中,真实的总体均值是77.2。

这就是一个抽样分布。它是样本均值X̄可以取到的可能值范围,以及每个值对应的概率。

抽样分布背后的思想是,你更有可能得到一个接近真实总体均值的样本均值(本例中是77.2)。随着数值离真实总体均值越来越远,其出现的可能性就越小。

如果这项认证考试的真实平均分数是77.2,那么当你询问50个人的分数时,一个接近真实均值的样本均值更可能出现,而一个非常低或非常高的样本均值则更为罕见。


中心极限定理

事实证明,这些样本均值确实是正态分布的。这种趋势由中心极限定理解释。

中心极限定理指出:如果你从任何分布中抽取足够大的样本并计算它们的均值,那些样本均值将呈正态分布。这里“足够大的样本”通常指n > 30

此外,该分布的均值将等于μ,即你所抽取样本的那个总体的均值。这很好,这意味着样本均值的集中趋势围绕在总体均值附近。

需要澄清这里发生的情况,因为这是一个常见的混淆点。你抽取许多大小为N的样本,计算样本均值,然后将这些均值绘制在直方图上。所以,你抽取的样本数量与每个独立样本的大小是不同的。

这个抽样分布的标准差表现略有不同,因为随着你增加样本量,你的估计会变得更精确。这类似于提高射箭水平:随着你射出越来越多的箭,靶心不会改变,但你的箭会越来越紧密地聚集在它周围。

样本均值的标准差被称为均值的标准误


均值的标准误

均值的标准误等于真实的总体标准差除以样本大小的平方根。

公式:
标准误 = σ / √n

请注意,随着n变大,√n也会变大,但速度较慢。

下图展示了这种关系:对于小样本量,随着N增大,√n增长很快,这反映了增加几个值就能在精确度上获得巨大收益。但随着n变得越来越大,√n的增长趋于平缓,这表明随着样本量增大,估计精确度的回报是递减的。

中心极限定理也适用于样本比例P̂,在某些情况下也适用于样本方差和样本标准差。

此外,即使你的样本数据不是正态分布的,只要你的样本量足够大,你的样本均值也将是正态分布的。

例如,降雨量可能遵循像这样的分布(你在上一个模块中见过)。但样本均值的分布仍将是正态分布的。

因此,即使你不确定总体的基础分布,你仍然可以对这些样本统计量进行推断。


非正态数据的模拟

这里有一个关于中心极限定理如何应用于非正态分布数据的快速模拟。这个模拟器允许你从均匀分布生成样本。


它只是一个随机数生成器,生成0到10之间的数字,每个数字被生成的机会均等。已知该分布的总体均值为5(即中点)。

你可以看到第一个样本看起来相对均匀,样本均值为4.58,你可以在下方看到样本中的所有值。现在,如果你生成一个新样本,你会得到这样一个分布,其X̄为5.13。如果你再生成,比如10个样本...

现在看看均值的抽样分布。你认为如何?它看起来是正态分布的。

因此,即使你是从均匀分布中抽样,样本均值都围绕真实均值5呈正态分布。


总结与过渡

中心极限定理是一个相当高级的概念,如果你现在感觉还不是特别理解,这完全没关系。这里的主要思路是:尽管样本具有变异性,但你可以使用一个区间来估计总体参数,即使你不知道基础分布是什么。

到目前为止,你在本模块中做得很好。完成本课的练习评估后,请跟随我进入下一课,开始构建置信区间。


本节课中我们一起学习了:

  1. 抽样分布:样本统计量(如均值)自身的概率分布。
  2. 中心极限定理:无论总体分布形状如何,只要样本量足够大(通常n>30),样本均值的分布就近似正态分布,且其均值等于总体均值μ。
  3. 均值的标准误:衡量样本均值变异性的指标,计算公式为 σ / √n。它随着样本量n的增加而减小,意味着更大的样本能提供更精确的估计。
  4. 中心极限定理的强大之处在于,它允许我们在不知道总体具体分布的情况下,对样本统计量进行推断。

124:置信区间实战演示 🎯

在本节课中,我们将通过一个具体的例子,直观地理解置信区间的概念和应用。我们将看到如何利用样本数据,构建一个能够估计总体参数范围的区间。


在深入探讨置信区间的工作原理之前,我们先来看一个简单的例子,以便你能从整体上把握其角度。

假设在过去几年里,无论是上学期间还是工作期间,你每天都坚持学习。为了更清晰地了解自己长期的学习习惯,你决定收集30天的数据。你细致地记录了每天的学习时间。

这为你提供了近期学习习惯的一个快照,你可以用它来估计更长期的平均水平。经过30天,你得到了一个样本量为30的数据集,样本均值为每天2.5小时,样本标准差为0.6小时。

你可以说你的日均学习时间是2.5小时。这是一个点估计。

虽然这个统计量有用,但它没有告诉你这个估计有多精确,也没有告诉你你的学习时间通常有多大变化。为了理解你多年来真实日均学习时间的可能范围,你可以构建一个置信区间。

接下来你会看到一些数值和计算,它们现在可能不太容易理解,但你将在后续视频中详细学习每一个步骤。


现在,让我们聚焦于整体概念。

首先,你需要计算误差范围。

你可以看到,误差范围涉及你的样本标准差、样本大小,以及一个接近2的数字。你将在接下来的视频中仔细研究每一个组成部分。

这个数字代表了你为估计平均学习时间而构建的区间的不确定性。一般来说,数值越小意味着你对所估计的总体参数越有把握,数值越大则意味着不确定性越高。

你将使用误差范围来计算区间的下限和上限。

对于下限,你将用样本均值减去误差范围。对于上限,你将再次使用样本均值,但这次是加上误差范围。

误差范围的字面意思,就是你在点估计两侧所估计的误差范围。


你刚刚构建了一个95%的置信区间。

因此,你有95%的把握认为,你的平均学习时间在2.29小时到2.71小时之间。

如果你重复这个实验很多很多次,每天都记录你的学习时间,那么大约有95%的次数,你找到的区间会包含你真实的日均学习时间。


看到你仅用30天的样本,就能为过去几年的平均学习时间创建一个合理的估计范围,这很酷。

这个演示展示了置信区间有用的一种方式。

请跟随我进入下一个视频,学习如何自己计算置信区间。


本节课总结

在本节课中,我们一起学习了置信区间的初步应用。我们通过一个记录学习时间的例子,了解了如何从样本数据(均值、标准差)出发,计算误差范围,并最终构建一个95%的置信区间。这个区间为我们估计长期的平均学习时间提供了一个包含不确定性的范围,使我们认识到点估计的局限性以及区间估计的价值。

125:置信区间 📊

在本节课中,我们将学习如何构建和解释置信区间。置信区间是一种强大的统计工具,它允许我们基于样本数据,对未知的总体参数(如总体均值)做出一个带有置信水平的区间估计。

上一节我们介绍了点估计的概念,本节中我们来看看如何通过区间估计来量化估计的不确定性。


从一个例子开始 🍞

假设你是一家面包店的数据分析师,负责向当地动物园配送新鲜糕点。糕点必须在动物园每天上午7点开门前送达。你的任务是弄清楚配送需要多长时间,以便安排日程。

首先,你需要收集一些样本数据。你监测了配送卡车30天,每天记录从面包店到动物园的配送时间。根据你的样本,你计算出样本均值为43分钟,样本标准差为11分钟

你可以就此停止,说平均配送时间是43分钟,这是一个点估计。但为了进行更严谨的分析,你可以创建一个区间估计,这个估计会考虑到你样本中的变异性。可能仅仅由于随机性,你那30天的配送时间异常地快或异常地慢。

但你只有一个样本。那么,你如何估计真实的平均配送时间,以帮助理解这个估计中包含的不确定性,以及它与真实总体均值的关系呢?


理解抽样分布 📈

让我们想象一下,如果你抽取了成千上万个样本,而不仅仅是一个,情况会怎样。你会得到一个像这样的均值抽样分布。

根据中心极限定理,这个分布将是正态分布,并以真实的总体均值为中心。

如果你加上标准差,这些是所有在均值上下一个标准差、两个标准差和三个标准差范围内的样本均值。

你那个包含30次配送时间、计算出样本均值为43分钟的样本,只是这成千上万个可能样本中的一个。也许43分钟落在这里,它是一组比平均时间更长的样本。记住正态分布的一个特性是,50%的值在均值以上,50%在均值以下。所以有50%的几率43分钟是一个高于平均水平的样本均值。

或者,也许43分钟在这里,它比真实的平均配送时间快得多。毕竟,它有50%的几率是一个低于平均水平的样本。


置信区间的核心思想 💡

有一种思考方式:你的样本均值43分钟,落在真实均值两个标准差范围内的概率是多少?

根据你在上一个模块学到的两西格玛法则,这个概率是95%

另一种说法是,如果你从这个分布中随机选择一个值,它有95%的几率落在真实均值的两个标准差范围内。

棘手的地方在于,你并不知道真实的总体均值是多少。这正是你想要估计的。置信区间可以帮助你量化估计的不确定性,因为你不知道你的样本均值在这个分布中的位置。


计算置信区间的步骤 🧮

你的目标是估计所有配送(而不仅仅是样本中的配送)的平均时间。你对平均配送时间的最佳猜测是你的样本均值43分钟。然而,你知道这个估计不太可能与总体均值完全相同。因此,你想创建一个区间估计来量化你的不确定性。

现在,你可以构建你的置信区间了。从你的样本均值43分钟开始。然后,你可以加上和减去一个特定的量来创建你的区间估计。这个量基于三个因素:样本中的变异性、样本大小以及你希望估计的置信度。

在构建区间时,你将使用均值的标准误来同时考虑变异性和样本大小。标准误是这个抽样分布的标准差,公式是 σ / √n

由于你不知道真实的总体参数,所以你不知道σ。你必须使用你的最佳估计:样本标准差s

所以现在你有 s / √n。这等于 11分钟 / √30,结果大约是2

接下来,你需要决定你希望有多大的置信度。一个常见的阈值是95%置信度,这反映了5%的出错几率。

你计算样本均值减去2倍标准误作为下限,计算样本均值加上2倍标准误作为上限。

你使用2倍标准误,因为根据两西格玛法则,你知道95%的可能均值落在均值上下两个标准误的范围内。你还有其他选择,但95%置信度非常有用。

简化计算:样本均值是43。下限是 43 - 2 * 2 = 39。上限是 43 + 2 * 2 = 47


解释结果 📋

综合起来,你可以说有95%的置信度,真实的平均配送时间在39到47分钟之间。

这就是一个置信区间。它是一个用于估计总体参数的值范围。它也通过区间的相对宽度来量化估计的不确定性:宽范围与相对较高的不确定性相关,而窄范围则提供了更精确的估计。

你可以将这个置信区间带回面包店给你的同事,以帮助决策。了解可能的平均配送时间有助于制定更精确的日程安排。


总结 ✨

本节课中我们一起学习了置信区间。你刚刚计算了一个95%的置信区间。尽管你无法确定你的样本有多么不寻常,但你的置信区间帮助你做出了一个知情的估计。

置信区间的解释可能有些微妙。请跟随我到下一个视频,了解更多关于它们所代表含义的知识。

126:置信区间机制

在本节课中,我们将学习置信区间的核心含义、计算方式及其实际应用。我们将通过模拟演示和公式解析,帮助你理解“95%置信”这一概念的真实意义。


概述:什么是置信区间?

你已经计算出一个95%置信区间,但它的具体含义是什么?本节将揭示置信区间中“95%”部分的真实意义及其来源。

让我们回顾这个陈述:“我们有95%的置信度认为,真实的平均配送时间在39至47分钟之间。”这里的95%置信水平反映了你估计方法的可靠性。你使用的方法在长期运行中,被设计为有95%的概率是正确的。

需要记住,总体参数是固定但未知的。因此,对于任何一个具体的置信区间,总体参数要么在其中,要么不在。接下来,我将通过模拟演示来阐明这一点。


置信区间的模拟演示

这个模拟器从一个均值为45、标准差为10的正态分布中,随机抽取30个样本。然后,它将基于该样本计算一个置信区间。

让我们生成一个新样本。在这个图的x轴上,是所有可能的总体均值取值。红线代表真实的总体均值45。置信区间是两条绿线之间的灰色区域,代表估计包含真实均值的数值范围。在本例中,该置信区间在43.10到50.26之间,确实包含了真实的总体均值。

此时你的成功率是100%,但你可以生成更多样本。下一个样本的置信区间也包含了总体均值,再下一个也是如此。

随着你生成更多样本,可以观察右侧的汇总图表。该图表展示了每个生成的置信区间与真实总体均值(再次用红色虚线表示)的关系。每当绿色条与红色虚线重叠时,就表示该区间包含了真实的总体均值。你可以看到这里有一个例子,其置信区间刚好与红色虚线重叠。

最终,你生成了一个不包含真实总体均值的置信区间。整个置信区间实际上低于真实总体均值的位置,这在左侧的图表中也能看到。

如果你生成100个样本,会发现得到一个不包含真实均值的置信区间是相对罕见的事件。在本例中,生成的100个样本中只有2个不包含真实总体均值。如果生成更多样本,你会发现成功率最终稳定在预期的95%左右。

这个模拟向你展示的是:当你基于一个样本计算均值的置信区间时,你有95%的概率该置信区间确实包含真实均值。这就是置信区间的全部目的。

你的样本存在不确定性,你不知道计算出的样本均值距离真实的总体均值究竟有多远或多近。但利用推断统计学,你可以计算出一个数值范围,如果你多次重复这个过程,该范围有95%的次数会包含真实值。

我们并非直接看到真相,而是得到了一个对真相的有力估计。


置信区间的计算公式

现在你已经对置信区间有了一些直观理解,以下是计算总体均值置信区间的公式:

公式:
置信区间 = X̄ ± Z * (S / √n)

你之前已经见过所有这些值。S 是你的样本统计量(均值和标准差),n 是你的样本大小。

Z 代表标准正态分布中的一个Z分数值,它控制着你对于置信区间包含总体均值的信心程度。回想一下,Z分数等同于标准正态分布中距离均值的标准差个数。

在之前的视频中,你使用均值上下两个标准差来估计95%置信区间。实际上代表这一置信水平的精确值是 1.96。这是因为“两西格玛法则”只是一个近似值——样本均值上下两个标准差实际上关联着略高于95%的置信度。因此,在实践中,为了更精确,你会使用Z分数1.96。

所以,综合起来,计算95%置信区间的公式是:

公式:
95% 置信区间 = X̄ ± 1.96 * (S / √n)

公式右边的项被称为 边际误差。它是构建置信区间的部分,帮助你衡量样本估计的精确度。


不同置信水平的区间

你也可以计算不同置信水平的置信区间。你认为哪些置信水平可能有用?

以下是三种最常见的置信水平及其对应的Z分数:

  • 90% 置信区间:Z分数为 1.645
  • 95% 置信区间:Z分数为 1.96(你刚刚看到的)
  • 99% 置信区间:Z分数为 2.576

需要注意的是,更高的置信水平意味着使用更高的Z分数,因此会生成更宽的置信区间。所以,为了增加你的区间包含真实均值的信心,你需要扩大区间估计的范围。


如何选择置信水平?

为特定估计选择置信水平取决于几个因素。

95% 是最常用的置信水平,因为它平衡了置信度与潜在误差。例如,“平均配送时间在39到47分钟之间”。准时到达对于维持与你的合同很重要,因此你试图在关于平均配送时间的确定性和估计的精确度之间取得平衡。8分钟的范围意味着你不需要在计划出发时间中安排过多的缓冲时间。

90% 的置信水平可能用于初步研究,或者当错过真实值不那么重要时。例如,如果你与产品研究团队合作,在开发的早期阶段,你可能使用90%的置信区间来估计用户对新功能的平均评分为7.2分(满分10分)。此时,一个不那么精确的估计是可以接受的,以帮助做出初步决策。

99% 的置信水平用于当你想最小化错误风险时。例如,如果你与科学家团队合作估算河流污染,为了通过监管测试,拥有高置信水平可能很重要。以99%的置信度计算河流中的污染物浓度,可以帮助你的团队降低对环境造成有害影响的风险。

请记住,所有这些估计,即使是99%的置信区间,也带有一定的错误几率。


总结与过渡

在过去的几个视频中,我们出色地完成了置信区间的模拟和通用公式的学习。你已经看到,置信区间取决于你的样本大小和置信水平。

那么,这些术语是如何相互作用的呢?在下一节视频中,我们将进一步探讨它们之间的关系。

127:理解边际误差 📊

在本节课中,我们将要学习置信区间宽窄的决定因素,并深入探讨边际误差的计算及其影响因素。我们将通过公式和具体例子,理解如何控制置信区间的精度。


概述

置信区间的宽度由边际误差决定。一个更窄的区间意味着对总体参数(如平均值)的估计更精确。边际误差的大小主要取决于三个因素:置信水平数据的标准差样本量。我们将逐一分析这些因素如何影响边际误差,从而影响置信区间的宽度。


边际误差的构成

上一节我们介绍了置信区间的基本概念,本节中我们来看看决定其宽度的核心——边际误差。边际误差的通用公式为:

边际误差 = Z * (S / √n)

其中:

  • Z 是与所选置信水平对应的Z分数。
  • S 是样本数据的标准差,用于估计总体标准差。
  • n 是样本量。

这个公式揭示了影响区间宽度的三个关键变量。


因素一:置信水平

首先,我们探讨置信水平的影响。常见的置信水平有90%、95%和99%,其对应的Z分数分别为1.645、1.96和2.576。

假设我们有一个送餐时间的例子,样本标准差 S=10,样本量 n=100。那么 S/√n = 10/10 = 1

以下是不同置信水平下的计算:

  • 90% 置信水平:边际误差 = 1.645 * 1 = 1.645。整个区间的宽度是其两倍,即 3.29分钟
  • 95% 置信水平:边际误差 = 1.96 * 1 = 1.96。区间宽度 = 2 * 1.96 = 3.92分钟
  • 99% 置信水平:边际误差 = 2.576 * 1 = 2.576。区间宽度 = 2 * 2.576 = 5.152分钟

这个例子说明了置信水平与区间宽度之间的权衡。更高的置信水平意味着更宽的区间。值得注意的是,宽度的增加与置信度的提升并非成比例。例如,95%的区间比90%的区间宽约19%,但置信度只提高了约5%。这是因为正态分布曲线尾部的概率密度较低,为了捕捉额外的置信百分比,需要覆盖更广的范围。


因素二:数据变异性(标准差)

接下来,我们分析数据变异性(标准差S)的影响。保持 n=100Z=1.96(95%置信水平)不变。

以下是不同标准差下的计算:

  • 当 S=10:边际误差 = 1.96 * (10/10) = 1.96。区间宽度 = 2 * 1.96 = 3.92分钟
  • 当 S=20:边际误差 = 1.96 * (20/10) = 3.92。区间宽度 = 2 * 3.92 = 7.84分钟
  • 当 S=30:边际误差 = 1.96 * (30/10) = 5.88。区间宽度 = 2 * 5.88 = 11.76分钟

可以看出,标准差与边际误差呈线性关系。标准差翻倍,边际误差和区间宽度也翻倍。在商业应用中,这意味着数据变异性越大,估计的精确度就越低。例如,城市公交系统的到站时间通常比郊区公交系统更可靠、变异性更小,因此对其平均到站时间的估计会更精确(区间更窄)。


因素三:样本量

最后,我们考察样本量(n)的影响。样本量与边际误差的关系稍复杂,因为公式中需要除以 √n。保持 Z=1.96S=10 不变。

以下是不同样本量下的计算:

  • 当 n=100:边际误差 = 1.96 * (10/√100) = 1.96 * 1 = 1.96。区间宽度 = 3.92分钟
  • 当 n=200:√200 ≈ 14.1。边际误差 = 1.96 * (10/14.1) ≈ 1.96 * 0.71 = 1.39。区间宽度 ≈ 2.78分钟
  • 当 n=300:√300 ≈ 17.3。边际误差 = 1.96 * (10/17.3) ≈ 1.96 * 0.58 = 1.14。区间宽度 ≈ 2.28分钟

这些数字表明,更大的样本量可以在相同的变异性和置信水平下,构建出更窄的置信区间。然而,增加样本量会带来收益递减。例如,将样本量从100增加到200(增加100%),区间宽度从3.92分钟缩减到2.78分钟,缩减了约29%。再将样本量从200增加到300(增加50%),区间宽度仅从2.78分钟缩减到2.28分钟,缩减了约18%。

下图展示了样本量与边际误差的关系:

关系是负相关的(样本量越大,误差越小),但在高端部分,曲线斜率趋于平缓,收益递减效应明显。从图中可以估计,大约在样本量100到200之间,收益增长的拐点开始出现。这解释了为何即使估计像法国全国人口这样庞大的总体,也往往只需要一个相对较小的样本量。


总结

本节课中我们一起学习了影响置信区间宽度的三个核心因素。为了获得更窄、更精确的置信区间,你可以通过以下三种方式实现:

  1. 降低置信水平:但这会增加错过真实值的风险。
  2. 使用变异性更小的数据:但这通常不受研究者控制。
  3. 增加样本量:这是最常用的方法,但需要注意其收益递减的特性。

理解这些关系,有助于你在实际工作中更好地设计和解释统计推断。在接下来的视频中,我们将学习如何亲自计算置信区间。

128:均值置信区间演示 🌲📊

在本节课中,我们将通过一个实际案例,学习如何为均值构建置信区间。我们将使用葡萄牙国家公园的森林火灾数据集,演示从计算样本统计量到最终解释置信区间的完整流程。

概述:置信区间的应用场景

上一节我们介绍了置信区间的基本概念。本节中,我们来看看如何在实际数据分析中应用它。

葡萄牙国家公园管理局希望根据样本数据,对森林火灾的平均过火面积建立一个更严谨的估计。他们计划利用这个估计来储备消防物资,并希望确保物资储备足以应对潜在的估计误差。

数据背景与理论基础

回顾一下,森林火灾的过火面积数据是右偏的,即大部分火灾面积较小,但存在少数面积巨大的火灾。

尽管数据本身的分布是偏态的,但中心极限定理指出,其样本均值的抽样分布将近似服从正态分布。因此,我们可以为总体均值构建一个置信区间。

计算置信区间的组件

要计算均值的置信区间,你需要以下几个核心组件:

以下是计算所需的具体要素:

  • 样本均值
  • 样本标准差
  • 样本数量
  • 对应置信水平的Z分数

逐步计算95%置信区间

现在,让我们开始计算这些值。

首先,我们需要区间的中心,即样本均值

计算得出,平均面积约为 12.85 公顷。

接下来,计算样本标准差

样本标准差约为 63.66。这个非常大的标准差表明数据中存在强烈的变异性。

然后,确定样本数量

现在,你需要做一个决定:选择置信水平。通常从 95% 开始是一个好主意,这通常是默认选择,能在置信度和精确度之间取得良好平衡。对应95%置信水平的Z分数是 1.96

接着,计算边际误差。其公式为:

边际误差 = Z分数 * (样本标准差 / √样本数量)

代入我们的数值,边际误差约为 5.49

最后,确定置信区间的上下界:

  • 下界 = 样本均值 - 边际误差
  • 上界 = 样本均值 + 边际误差

结果解读

这样,你就计算出了你的第一个(严格来说是第二个)置信区间。

对这个结果的解读是:我们有 95%的置信度 认为,真实的总体平均过火面积将落在 7.36 公顷到 18.33 公顷 之间。

构建更高置信度的区间

现在,假设公园管理局对你说:“我们需要对防火准备计划更有把握。你能给我们一个置信度更高、即使范围更宽泛的估计吗?我们希望为这些火灾做好万全准备。”

你接下来的步骤可以是创建一个 99%的置信区间。样本统计量(均值、标准差、样本量)保持不变,你只需要将Z分数更改为 2.576,然后重新计算边际误差和置信区间边界。

与95%置信区间的边际误差相比,你预计这个新的边际误差会如何变化?

计算新的边际误差:

新边际误差 = 2.576 * (63.66 / √样本数量)

你可以看到,由于选择了更高的置信水平,边际误差变大了,约为 7.21。随后,通过从样本均值中减去和加上这个新的边际误差,再次计算上下界。

对比不同置信水平的区间

区间的长度发生了什么变化?边际误差从5.49增加到了约7.21。因此,99%置信区间的宽度更大

我们有 99%的置信度 认为,真实的平均过火面积在 5.64 公顷到 20.06 公顷 之间。

总结

本节课中,我们一起学习了为均值构建置信区间的完整过程。你做得很好!电子表格让这个任务比手工计算容易得多。

通过这个演示,我们了解到:

  1. 即使原始数据分布非正态,只要样本量足够,我们仍可利用中心极限定理为均值构建置信区间。
  2. 置信水平的选择是一个权衡:更高的置信度(如99%)会导致更宽的区间(更不精确),而更低的置信度(如95%)则给出更窄的区间(更精确)。
  3. 所有计算都基于几个核心公式和样本统计量。

完成本课的练习评估和实践实验后,请跟随我进入下一课,学习如何为比例构建置信区间。

129:比例置信区间 📊

在本节课中,我们将学习如何估计一个总体的比例,并构建其置信区间。我们将从一个面包店配送时间的例子出发,理解比例估计的核心概念、标准误差的计算以及置信区间的构建方法。


概述

估计总体均值很有用,但均值并非统计推断的全部。我们通常还会对总体的其他方面感兴趣,例如总体比例。

让我们重新考虑分析面包店配送时间的例子。虽然估计平均配送时间很有用,但你可能也有兴趣调查准时送达率。你可能会问:有多少比例的配送是准时的?这里的“准时”指的是在早上7点前送达动物园。这个比例可以用 P 来表示,即真实的准时送达比例。


从样本到估计

假设你收集了30次配送的样本,并记录它们是否准时。样本中的准时送达比例用 表示,这是你对真实比例 P 的估计。“hat”只是一个表示估计值的术语。

想象一下,你测得样本中的准时送达比例为 0.6,这意味着30次配送中有18次准时,这个比例还有提升空间。

与样本均值类似, 的抽样分布也服从正态分布。其均值等于真实比例 P。也就是说,如果你抽取许多个包含30次配送的样本,并为每个样本计算准时送达比例,这些比例值将呈正态分布。你的 P̂ = 0.6 就落在这个分布中的某个位置。


标准误差与变异性

你认为 落在真实比例 P 的两个标准差范围内的概率是多少?与均值的情况一样,根据两西格玛法则 有95%的概率落在 P 的两个标准差范围内。

现在,我们来讨论标准误差。比例的标准误差公式为:

标准误差 = √[ P × (1 - P) / n ]

由于你不知道真实比例 P,你可以使用样本比例 来估计它。

让我们分解这个公式。就像标准差一样,P × (1 - P) 代表了数据的变异性。

我们可以通过一个包含10次配送的场景来可视化 P × (1 - P) 如何量化变异性:

  • 假设你观察到9次准时送达和1次迟到。这个样本数据的变异性较低,因为10个结果中只有1个与其他不同。
  • 对比另一个样本,其中有6次准时和4次迟到。这个数据的变异性更高,因为成功(准时)和失败(迟到)的混合更均匀。

在第一个场景中,P̂ = 0.9,所以 P̂ × (1 - P̂) = 0.09
在第二个场景中,P̂ = 0.6,所以 P̂ × (1 - P̂) = 0.24

因此,从数学上讲,当 接近 0.5 时,数据的变异性更高。

接下来,你将这个量除以样本大小 n。这再次体现了样本量越大,估计越精确的思想。
最后,取平方根以确保这个量与数据的原始尺度相匹配。


构建比例置信区间

现在你有了 和标准误差,就可以为这个比例构建置信区间了,其方法与为均值构建置信区间类似。

区间定义为:P̂ ± Z × 标准误差,即 P̂ ± Z × √[ P̂ × (1 - P̂) / n ]

你还记得右边这项叫什么吗?它被称为边际误差。与均值的置信区间一样,它代表了估计中的不确定性。

以下是你的样本场景中准时送达比例的95%置信区间计算:

  • P̂ = 0.6
  • 1 - P̂ = 0.4
  • 对于95%置信区间,Z = 1.96
  • n = 30

计算得到的置信区间范围是 0.4247 到 0.7753。这意味着我们有95%的信心认为,真实的准时送达比例落在这个范围内。

这个较宽的区间反映了数据的高变异性以及相对较小的样本量。通常,为了计算更精确的比例区间,你需要更大的样本量。


总结

本节课中,我们一起学习了如何为比例构建置信区间。我们首先定义了总体比例 P 和其样本估计 ,然后解释了 的抽样分布。接着,我们深入探讨了比例标准误差的公式 √[ P̂ × (1 - P̂) / n ],并理解了其组成部分如何反映数据的变异性与样本量的影响。最后,我们应用公式 P̂ ± Z × √[ P̂ × (1 - P̂) / n ] 计算了一个具体的95%置信区间。

现在,你已经掌握了为均值和比例计算置信区间的方法,这为你解决广泛的商业问题提供了估计工具。

130:比例置信区间计算演示 🔢

在本节课中,我们将学习如何为比例数据计算置信区间。我们将使用森林火灾数据集,演示如何估计“小型火灾”所占比例,并理解这一统计工具如何帮助公园管理部门做出更有效的资源规划决策。

概述

上一节我们介绍了均值的置信区间,本节中我们来看看如何为比例数据构建置信区间。其核心步骤与均值类似,但计算公式有所不同。我们将通过一个具体案例,逐步计算“小型火灾”比例的95%置信区间。

数据背景与问题定义

假设公园管理部门希望通过区分火灾规模来优化成本。对于小型火灾,他们可以配备更少的人员和手动工具,而非动力工具。

因此,管理部门需要估算被归类为“小型火灾”的真实比例。我们可以使用数据集中的 is_small 列来解决这个问题,该列用0和1标识火灾是否属于小型。

探索数据分布

首先,我们可以通过快速图表来探索“小型”与“非小型”火灾的分布情况,以了解两者的大致平衡。

图表显示,“小型”与“非小型”火灾的分布大致相等。由于比例接近0.5,我们可以预期该分布的变异性会较高。

计算样本统计量

以下是计算比例置信区间所需的核心步骤:

第一步:计算样本比例 P̂
由于 is_small 列包含0和1值,我们可以使用平均值函数来计算这个比例。

=AVERAGE(数据范围)

计算结果约为 0.48

第二步:计算 1 - P̂
只需计算左侧单元格值的补数。

=1 - P̂_cell

计算结果约为 0.52

第三步:计算样本大小 n
再次使用计数函数获取数据总数。

=COUNT(数据范围)

计算置信区间

现在,让我们来计算Z分数、误差幅度以及置信区间的上下界。

假设我们要计算比例P的95%置信区间。

第四步:确定Z分数
对于95%的置信水平,Z分数值为 1.96

第五步:计算误差幅度
公式与均值有所不同,标准误现在变为 √[P̂(1-P̂)/n]。
因此,误差幅度的计算公式为:

= Z_score * SQRT( (P̂ * (1-P̂)) / n )

第六步:计算置信区间上下界

  • 下界 = P̂ - 误差幅度
  • 上界 = P̂ + 误差幅度

计算结果可以简化以便阅读。最终得到的95%置信区间为 0.4347 到 0.5208

结果解读与应用

这意味着,我们有95%的把握认为,小型火灾的真实总体比例介于43.47%和52.08%之间。

值得注意的是,0.5(即恰好一半的火灾是小型火灾)这个值也包含在此置信区间内。因此,这可能是总体参数的一个合理值。

基于此,公园管理部门或许可以利用更小的资源配置来应对这部分数量相对可观的小型火灾。

决策意义分析

这个置信区间如何帮助消防部门做出更好的决策?

假设他们按照样本比例约47.8%的小型火灾来制定计划。但如果真实的总体比例更接近下界,约为43.4%。在这种情况下,消防部门就会低估“非小型火灾”的比例,从而导致资源配置不足,无法有效缓解问题。

总结

本节课中我们一起学习了为比例数据计算置信区间的完整流程。你出色地完成了这个置信区间的计算。尽管统计量不同,但其背后的基本原理是相同的。

完成练习评估和实践实验后,请跟随我进入下一节课,学习如何将大语言模型应用于置信区间的分析中。

131:使用LLM解释置信区间 📊

在本节课中,我们将学习如何利用大型语言模型(LLM)来帮助我们解释统计学中的置信区间。我们将通过具体场景,了解LLM如何将复杂的统计结果转化为通俗易懂的商业语言,并探讨如何利用LLM来评估和改进我们自己的分析方法。


概述:LLM在解释统计结果中的作用

在前面的课程中,我们已经学习了如何为均值和比例构建置信区间。现在,你可能会想知道大型语言模型如何协助我们完成这些任务。

本节我们将通过一个与ChatGPT的对话场景,展示LLM如何解释置信区间的含义,并探讨其在商业决策中的应用。


场景一:解释均值的置信区间

假设你为匈牙利布达佩斯一居室公寓的平均租金价格构建了一个95%的置信区间,计算结果为550到950。你需要向业务方解释这个结果的含义。

以下是你可以向LLM提出的请求:“我构建了一个关于匈牙利布达佩斯一居室公寓平均租金的95%置信区间,计算结果为550到950。请用商业术语解释这些结果意味着什么。”

LLM的回应与解读

LLM的回应通常包含以下几个核心部分:

1. 不确定性与估计
它首先会说明,你是在估计平均租金价格。但由于租金价格存在变异性,你无法确定一个精确的数字,因此使用一个范围来估计真实的平均租金。

2. 置信水平的含义
它会解释,95%的置信水平意味着:如果你用不同的样本多次重复这个分析,那么有95%的次数,计算出的区间会包含真实的平均租金。这并非一个绝对的保证,但为你的估计提供了很高的确定性。

3. 对商业决策的启示
LLM会进一步阐述这个信息在商业上的应用:

  • 定价策略:如果你是物业经理,可以利用这个区间来设定租金。
  • 预算与规划:对于需要租赁办公空间的企业,这个信息有助于制定预算和规划。
  • 市场分析:这个数据可以用来分析特定区域内租金价格的波动情况。

澄清常见的误解

在得到初步解释后,你可能会产生一个常见的疑问。你可以继续向LLM提问:“这是否意味着布达佩斯有95%的公寓租金落在这个区间内?”

LLM会明确回答:不,这并不意味着

它会指出这是一个常见的误解,并重申置信区间的正确定义:这是一个对一居室公寓平均租金的估计范围,而不是单个公寓价格的分布范围。这一点对于正确理解统计结果至关重要。


场景二:利用LLM评估分析方法

除了解释结果,LLM还可以帮助你检查和分析自己的工作方法,但你需要意识到它也可能出错。

让我们开始一个新的对话。假设你的产品负责人要求你调查生产时间表保持在预算内的比例。你调查了25个预算,并计算出一个70%的置信区间,结果为91%到94.5%。你需要向老板简洁地解释这个结果。

请求LLM进行简洁解释

你可以请求LLM:“请帮我简洁地向老板解释这个结果。”

LLM可能会提供如下回应:“您计算的区间意味着,您有70%的把握认为,生产时间表保持在预算内的真实比例落在91%到94.5%之间。这表明绝大多数项目很可能保持在预算内。”

在这个案例中,你使用的70%置信区间并不常见。LLM按照你的要求完成了任务,但它没有评估你方法的合理性。


请求LLM评估你的方法

为了获得更深入的反馈,你可以提出一个后续问题,要求LLM评估你方法的有效性。让LLM以1到10分进行评分是一个有用的方法,可以帮助你快速理解其反馈。

例如,你可以问:“请从1到10分评价我这个分析方法的有效性。”

LLM的反馈可能包括:

  • 评价置信水平:它会评论你选择的70%置信区间,指出这只提供了中等程度的确定性。在许多情况下,90%或95%的置信水平更受青睐。70%的置信区间意味着有30%的可能性真实比例落在区间之外,这对于关键决策来说可能不够充分。
  • 总体评分:LLM可能将你的整体方法评为6分(满分10分),这表明它持有保留意见。
  • 评论样本量:虽然它认可你使用了25个预算作为样本,但会建议更大的样本量能产生更可靠的估计。

总结与展望

本节课中,我们一起学习了如何利用大型语言模型来辅助数据分析和解释。

我们看到了LLM如何将统计学术语(如置信区间)转化为清晰的商业洞察,帮助我们向非技术背景的同事传达结果。同时,我们也学会了通过提出后续问题,引导LLM对我们的分析方法本身进行评估和反馈,从而发现潜在的问题(如置信水平选择不当或样本量不足)。

在下一节视频中,我们将进一步探索如何利用能够编写和运行代码的LLM,来为我们创建抽样模拟,从而更直观地理解统计概念。

132:使用LLM进行随机抽样模拟 📊

在本节课中,我们将学习如何利用大型语言模型(LLM)来编写代码,以创建一个用于模拟抽样分布的交互式界面。即使你不熟悉编程,LLM也能帮助你快速完成这项任务。

概述:LLM在编码任务中的优势

大型语言模型擅长处理编码任务,即使你不熟悉编码,它们也能帮助你快速完成工作。一项它们能协助完成的酷炫编码任务是创建一个用于模拟抽样的界面。

你在本模块早些时候看到的抽样分布模拟实际上就是用Quad创建的。这个过程有时可能需要与LLM进行更多来回沟通,稍后你就会明白原因。

构建模拟界面:详细的提示词

上一节我们介绍了LLM的能力,本节中我们来看看如何具体地向它提出请求。你会注意到,提示词相当长且详细,这是提示词最佳实践的一部分。你需要确保LLM有足够的信息来精确构建你想要的东西。

以下是提示词的内容。你告诉LLM,你需要它帮助创建一个界面来模拟抽样分布。你想模拟一个在0到10之间均匀分布的随机数生成器,每次点击按钮时,生成一个包含100个数字的样本。你希望它在左侧的直方图中可视化样本分布,并显示样本均值 X_bar。你还希望将样本均值添加到右侧的直方图中,以展示抽样分布。每次生成新样本时,刷新样本的直方图,但在均值的抽样分布直方图中累积样本均值。你还想要一个能生成100个样本并具有类似功能的按钮。

# 提示词核心要求示例(非实际代码):
# 1. 生成0到10之间的均匀分布随机数。
# 2. 创建按钮,点击后生成100个数的样本。
# 3. 左侧直方图显示当前样本分布。
# 4. 显示当前样本的均值。
# 5. 右侧直方图累积所有样本的均值,形成抽样分布。
# 6. 另一个按钮可一次性生成100个样本。

初次尝试与错误处理

LLM表示乐意帮忙。你可以在右侧看到它正在编写的所有代码,以生成你要求的这个界面。这段代码是模型响应的一部分,而且相当长。每当你要求它重新生成部分内容时,它实际上必须在我们网站内重写整个网站来测试LLM创建的网站。

你可以先尝试生成一个新样本来测试它是否正常工作。在这种情况下,你收到了一个错误——运行创建的工件时出现了问题。它提示了一些关于错误的信息,但很难理解“rating count”到底是什么意思。

因此,你可以将此错误信息复制到新的提示词中,告诉LLM你遇到了这个错误消息,并询问能否修复它。LLM为错误道歉,它感觉非常抱歉。问题似乎发生在你试图从空数组创建直方图数据时,“空数组”只是指没有任何数据可供对应。你可以看到它开始编写新代码来生成应用程序的新版本。你不需要理解这个错误意味着什么,或者这段代码在做什么,就能创建这个应用程序。

迭代调试与重新生成

现在新的应用程序已经创建,你可以继续生成一个新样本来看看它现在是否正常工作。但它返回了相同的错误,所以这次似乎没有修复。

一个好的技巧就是直接再试一次。有时模型会陷入一种思维模式。记住,模型中存在一些随机性,所以重新开始会给你一个干净的起点,并可能让你摆脱之前对话中产生的错误。因此,你可以刷新页面,重新提交原始问题,然后看看事情是否正常进行。

验证功能与观察结果

这是新版本。你可以看到它有一个样本均值和下方的样本数量。让我们生成一个新样本来看看事情是否正常进行。

这看起来更有希望了。左侧是样本分布。这个分布看起来大致均匀,其下方的样本均值约为5.41,这与你之前视频中看到的类似。然后,在右侧的直方图中,你可以看到数字5的计数为1。这代表你到目前为止生成的唯一一个样本。让我们再生成一个样本。

这看起来工作正常,这很棒。现在让我们尝试生成100个样本。思考一下你期望发生什么。你应该在左侧看到相同类型的图表,它可能只显示最近的分布。但在右侧,你应该看到一个均值直方图,它呈正态分布并以5为中心。😊

这正是你在这里看到的。所以,让我们再生成几百个样本,看看抽样分布是什么样子。

优化可视化效果

你可能会注意到X轴标签有点奇怪。你可以回复Claude,告诉它在左侧创建柱状图,并且不要将数字分组到箱中。

你可能还注意到,在右侧,直方图中的箱没有太多分辨率。鉴于你知道真实的总体均值在5左右,你可以告诉它将X轴值的范围缩小到3到7,并使用更小的箱宽。这样你应该能更清楚地看到分布的整体形状。你还可以告诉它保持其他一切不变,以免在应用程序中引入任何新的错误。

再次注意,每次你提示它时,它都必须为整个应用程序重写代码,这引入了它可能创建新错误的可能性。

新的应用程序已经生成,你可以在右侧看到它将X轴的范围限制缩小到了3到7之间,但它在箱宽方面仍然做得有点奇怪。你可以生成一个新样本来看看效果如何。

你可以看到这个应用程序仍然不完美,这恰恰反映了Claude尝试完成的任务的复杂性。

总结

在本节课中,我们一起学习了如何利用LLM通过迭代的方法来构建一个随机抽样模拟界面。我们看到了如何通过详细的提示词提出请求,如何处理和调试LLM生成的代码中的错误,以及如何通过多次迭代和优化提示词来改进最终结果。这个过程展示了即使没有深厚的编程知识,也能借助AI工具完成复杂的数据模拟和可视化任务。在下一个视频中,我们将看到如何让一个能编写和运行代码的LLM来帮助你构建和可视化置信区间。再见。😊

133:使用LLM进行推断与可视化 📊

在本节课中,我们将学习如何利用大型语言模型(LLM)来构建和可视化置信区间。我们将通过一个具体的应用评分案例,演示如何让LLM执行计算、解释结果并生成图表。


概述

我们将引导一个具备高级数据分析功能的LLM(例如ChatGPT-4),根据给定的样本数据,计算并解释一个关于应用五星好评率的95%置信区间。随后,我们会要求它可视化这个区间,并探讨当置信水平改变时,结果将如何变化。


让LLM计算置信区间

首先,我们需要向LLM提供一个具体的任务。假设一款新应用被下载了517次,收到了89条评分,其中75位用户给出了五星好评。我们的目标是计算并解释“真实五星好评率”的95%置信区间。

核心提示词示例:

一款新应用被下载了517次,收到89条评分。其中,75位用户给出了五星好评。请计算并解释真实五星好评率的95%置信区间。

上一节我们介绍了任务背景,本节中我们来看看LLM如何处理这个请求。

LLM的计算过程

当使用具备代码执行能力的LLM(如ChatGPT-4的“高级数据分析”功能)时,它会自动编写并运行代码来完成计算。以下是它可能遵循的核心步骤:

  1. 定义变量
    • 总评分数量 n = 89
    • 五星好评数量 x = 75
  2. 计算样本比例
    • p_hat = x / n
  3. 确定置信水平与Z分数
    • 对于95%的置信水平,z = 1.96
  4. 计算标准误差
    • SE = sqrt( p_hat * (1 - p_hat) / n )
  5. 计算边际误差
    • ME = z * SE
  6. 计算置信区间上下限
    • lower_bound = p_hat - ME
    • upper_bound = p_hat + ME

运行这些计算后,LLM会返回类似以下的结果:

95%置信区间约为 (0.767, 0.918)。这意味着我们有95%的把握认为,所有用户中会给应用打五星好评的真实比例介于76.7%和91.8%之间。

重要提示:使用传统LLM时,它可能只会列出计算步骤,需要你自行完成运算。因此,务必确认你使用的LLM模型支持代码执行,并可以通过点击类似“查看代码”的按钮来核验其计算过程。


可视化置信区间

在得到数值结果后,我们可以进一步要求LLM将置信区间可视化,这有助于更直观地理解数据的范围。

以下是请求可视化的提示词示例:

请将这个置信区间在0到1的比例图上可视化出来。

解读可视化图表

LLM生成的图表通常包含以下元素:

  • 蓝色圆点:代表样本比例 p_hat,即置信区间的中心点。
  • 红色误差条:代表置信区间范围,其长度等于 边际误差(Margin of Error),向两侧延伸。

通过图表可以清晰地看到,尽管区间有一定宽度,但整体比例很高,真实比例可能低于80%或高于90%。


探索不同置信水平的影响

为了深入理解置信区间的性质,我们可以提出一个后续问题:如果改变置信水平,结果会如何变化?

以下是相应的提示词示例:

如果将置信水平改为99%,结果和解释会如何变化?请将新的区间可视化在同一张图上。

对比95%与99%置信区间

LLM会计算新的99%置信区间。你会发现:

  • 区间变宽:99%的置信区间比95%的区间更宽。
  • 中心不变:两个区间的中心点(样本比例 p_hat)完全相同。
  • 原因:更高的置信水平要求一个更宽的范围,以确保真实参数值被包含在内的概率更大。

可视化图表会清晰地展示出,代表99%置信区间的误差条(可能是另一种颜色)完全覆盖了95%的区间,且向两端延伸得更远。


总结

本节课中我们一起学习了如何利用大型语言模型进行统计推断:

  1. 计算置信区间:我们学会了如何通过提供样本数据,让LLM自动完成置信区间的计算和解释。
  2. 可视化结果:我们了解了如何请求LLM生成图表,直观展示置信区间及其中心点。
  3. 比较不同置信水平:我们探索了提高置信水平会使置信区间变宽的关键概念,并通过可视化进行了验证。

请记住,在使用LLM进行此类分析时,务必仔细检查其输出和运行的代码,以确保结果的准确性。接下来,你可以在相关的实验环境中尝试这些技巧,并在后续关于钻石价格的置信区间构建的练习中巩固所学知识。

134:假设检验简介 🧪

在本模块中,我们将学习假设检验这一强大的统计推断工具。假设检验能帮助我们基于数据做出决策,回答现实中的商业问题。

概述

假设检验是数据分析的核心方法之一。它允许我们评估关于总体参数的假设是否得到样本数据的支持。通过本模块的学习,你将掌握如何设计、执行并解释假设检验,从而为商业决策提供数据依据。

假设检验的核心概念

上一节我们概述了本模块的目标,本节中我们来看看假设检验的基本框架。你将学习如何为均值问题构建假设检验。

假设检验始于两个对立的假设:

  • 零假设 (H₀):通常代表现状或没有效果的假设。
  • 备择假设 (H₁ 或 Hₐ):代表我们希望证明的效应或差异。

检验过程涉及计算一个检验统计量,并将其与理论分布进行比较,以计算P值。P值是在零假设为真的前提下,观察到当前样本数据或更极端数据的概率。

以下是执行假设检验的关键步骤:

  1. 提出假设:明确零假设和备择假设。
  2. 选择显著性水平 (α):通常设为0.05,这是拒绝零假设的阈值。
  3. 计算检验统计量:例如,对于样本均值,使用公式 z = (x̄ - μ) / (σ/√n)
  4. 确定P值:根据检验统计量计算P值。
  5. 做出决策:如果P值 ≤ α,则拒绝零假设;否则,无法拒绝零假设。

假设检验的应用扩展

掌握了均值检验的基础后,我们将扩展你的工具箱。本节将介绍比例检验和双样本检验。

你将学习如何比较不同群体,并评估观察到的差异是否具有统计显著性。例如,比较两个用户群体的转化率,或评估新流程是否真的缩短了处理时间。

其他检验类型与AI辅助

在数据分析工作中,你可能会遇到更多类型的假设检验。本节将简要介绍你可能接触到的其他检验方法。

此外,在最后的课程中,你将探索大型语言模型如何协助假设检验过程。你将学习利用AI来帮助提出假设、解释结果,甚至为你运行检验。

总结

本节课中我们一起学习了假设检验的引入和基本框架。我们了解到假设检验是用于根据样本数据对总体参数做出推论的强大统计工具。本模块后续课程将带你进行实际操作,在电子表格中执行各种检验,并学习解读结果以回答重要的商业问题。最后,我们还将探索AI如何在这一过程中提供辅助。


接下来,请跟随我进入下一个视频,我们将通过一个实际例子正式开始假设检验的学习。

135:假设检验实战演示 🧩

在本节课中,我们将通过一个生动的例子,学习假设检验的基本思想和应用。我们将看到如何利用假设检验,判断一个观察到的结果究竟是随机波动导致的,还是反映了真实的差异。


你的大学室友向你发起挑战,看谁能更快地解出魔方。你认为你们实力相当,于是接受了挑战。第一局,你用了92秒,而他用了71秒。你输掉了第一局,但这并不意味着你是失败者。你们决定继续比赛,最终各自解了20次魔方。你的手指都酸了,但你取得了平均80秒的成绩,而你的朋友平均成绩是82秒。

你的朋友说你只是运气好。他说这不算什么,他的魔方打乱得更复杂,下次一定能赢你。但你在想,嘿,我平均比他快了两秒,这是公平竞争的结果。那么,谁是对的呢?

假设检验可以帮助你回答这类问题:你观察到的特定结果,是随机因素导致的(正如你朋友所说,你只是运气好),还是这里存在某种真实的模式(事实上,你就是更快的解魔方者)?差异的幅度相当小,你只快了两秒,而且你们只解了20次魔方。假设检验可以综合考虑所有这些信息,帮助你以较高的置信度得出结论:谁才是更快的解魔方者?

让我们在这个例子上看看假设检验的实际操作,以便你感受它是如何工作的。

计算平均差异

以下是前20次解魔方的数据,橙色部分是你的时间,以及你与朋友解魔方时间的差值。正值意味着你解魔方比朋友更快。

在下面的单元格中,你可以计算平均差值。

这就是你刚才看到的平均差值:在前20次解魔方中,你平均快了两秒。

进行假设检验

现在,假设你们实际上实力相当。那么,你观察到这些结果(即你比朋友平均快两秒)的概率是多少?我们可以使用假设检验来计算这个概率,你将在接下来的视频中学习具体操作方法。

这涉及到使用 Z 检验函数,你将会学到更多关于它的知识。选择你数据中的观测值,然后输入你的假设均值 00 代表没有差异,即你和朋友技能相等的假设。

# 伪代码示例:Z检验
p_value = z_test(sample_data, hypothesized_mean=0)

结果显示,如果你们实力相当,观察到如此大或更大差异的概率是 24.6%。这意味着,如果你们实力相当,这类结果会相当常见。数据中存在很大的变异性,而且只有20次尝试,两秒的差异也相当小。所以,虽然看起来你解得更快,但你并没有非常强有力的证据。

扩大样本量

假设在得到这些结果后,你想一劳永逸地解决这个问题。你们继续进行,总共解了100次魔方并记录结果。这里你可以看到全部100次解魔方的数据。在某些情况下,你解魔方快了24秒,而在其他情况下,你的朋友解得比你快得多。

同样,你可以计算平均差值。这次,你的平均速度快了 三秒。鉴于这个结果是基于更多尝试得出的,这能否证明你实际上更快呢?

你可以再次使用 Z 检验函数,计算如果你们实力相当,观察到三秒或更大差异的概率。

# 伪代码示例:使用更大样本进行Z检验
p_value_larger_sample = z_test(larger_sample_data, hypothesized_mean=0)

现在你得到的结果仅为 0.37%。这意味着,如果你们实力确实相当,出现这种差异的情况将非常罕见。这种稀有性反映出,在100次解魔方中,你能够保持平均领先朋友三秒的优势。面对现实吧,在100次机会之后,如果你的朋友还没有开始解得比你快,那么他真正比你强的可能性似乎不大。

你刚刚进行的假设检验,让你有理由相信你实际上比朋友更快,即使平均只快了三秒。


总结

本节课中,我们一起学习了假设检验的基本应用。通过一个解魔方比赛的例子,我们看到了如何利用假设检验来评估某个事件发生的可能性。我们了解到:

  • 核心问题:假设检验帮助区分观察到的差异是源于随机波动,还是反映了真实效应。
  • 关键因素:检验结果(p值)的大小,结合差异幅度样本量,共同决定了证据的强弱。
  • 流程:从提出假设(如“实力相等,平均差为0”),到计算在假设成立下观察到当前数据的概率(p值),最后根据p值大小做出推断。

现在你已经看到了假设检验如何评估特定事件的可能性,接下来请跟随我到下一个视频,深入了解其背后的原理。

136:均值假设检验 🧪

在本节课中,我们将要学习数据分析中的一个核心工具——均值假设检验。这是一种严谨的方法,用于评估样本均值是否与某个特定值存在显著差异。我们将通过一个音乐流媒体服务的实际案例,一步步理解其原理、前提条件和基本步骤。


概述:假设检验的用武之地

在数据分析基础中,你已经了解到数据分析与科学等其他调查领域有许多共通之处。均值假设检验就是你拥有的一个强大的调查工具,它允许你严格评估样本均值是否与某个特定值存在显著差异。

让我们回到你正在为音乐流媒体服务工作的例子。你的团队已经向更多用户推出了免费试用服务,你正在开展一个新项目,以弄清楚提供免费试用是否能提高用户留存率。你决定调查获得免费试用的用户,其平均订阅时长是否更长。先前的分析表明,未获得免费试用的用户平均订阅时长约为10个月。你收集了100名获得免费试用的用户样本,并计算出以下描述性统计量:样本均值为10.4个月,样本标准差为2个月。

这个差异很接近。你认为0.4个月的差异是否足以让你确信免费试用是有效的?仅凭这些描述性统计量,你还不能确定。你不知道这个10.4的均值在你的抽样分布中处于什么位置。根据中心极限定理,你知道均值的抽样分布是正态分布的。

理解抽样分布的可能性

存在无限多种可能的情况,但这里为你考虑三种:

  1. 真实总体均值 μ 是10个月,因此10.4个月落在抽样分布的这个位置。
  2. μ 是9.6个月,10.4个月落在抽样分布的这个位置。
  3. μ 是9个月,10.4个月落在抽样分布的这个位置。

根据你对正态分布的了解,哪种结果最有可能?第一种结果比其他两种更有可能。

回忆一下,标准误的计算公式是 S / √n。在这里,它是 2 / √100,即 2 / 100.2。请记住,标准误是抽样分布标准差的专用术语。

  • 在第一种情况下,样本均值 距离均值有2个标准误。
  • 在第二种情况下, 距离均值有4个标准误。
  • 在最后一种情况下, 距离均值有7个标准误。

根据三西格玛法则,你知道99.7%的数据位于均值周围三个标准误的范围内。因此,得到一个比均值高出整整7个标准误的结果是极不可能的。

假设检验的核心思想

棘手之处在于,你永远无法知道真实的总体均值来进行比较。但你可以做的是:计算如果总体均值确实是你怀疑的那个值,你观察到所计算的样本均值的可能性有多大。

这里的思路是,如果你的真实总体均值实际上是9个月,那么你抽取100名用户的样本并发现样本均值是10.4个月,是极其、极其不可能的。而如果真实总体均值是10个月,则可能性要大得多。

现在,在这种情况下,很容易直接说10.4更高,然后就此了事。但这些数字很接近。完全有可能真实均值实际上是10,那么免费试用既花了钱又没带来好处;或者可能是9.6,免费试用对留存率反而略差一些。这种精确度对你的结论很重要。

统计显著性的意义

假设检验允许你评估的是:考虑到数据的变异性和样本量,免费试用用户的样本均值(10.4个月)是否与已知的现有用户均值(10个月)存在显著差异。

它区分两种可能的情况:

  1. 免费试用用户的样本均值与现有用户均值之间的观察到的差异是由于随机机会造成的。这些值太接近了,你无法判断它们是否真的不同。
  2. 观察到的差异反映了免费试用用户的真实总体均值与现有用户均值之间的真实差异。

这种区分被称为统计显著性。如果差异是由于随机机会造成的,则不具有统计显著性,它无助于你得出任何有意义的结论。另一方面,如果观察到的差异反映了假设均值与样本值之间的真实差异,则具有统计显著性。这种差异很可能是真实的,可以为你的假设提供证据。

假设检验的前提条件

你收集样本并计算出一个与真实总体均值不同的均值,这很常见。例如,多次掷两个骰子时,它们点数和的总均值是7,这也是最常见的点数。但如果你抽取一个样本,比如10次投掷,并计算均值,你不太可能恰好得到7。你会得到围绕7波动的值。因此,仅仅观察到两个值不同,并不足以得出结论认为差异是有意义的。有时事情就是如此。

假设检验只有在特定条件下才能有效工作。你的数据必须是一个有代表性的样本,理想情况下是随机样本。大多数统计检验都假设随机抽样,因为如果你的样本不是随机的,你就无法知道你的抽样方法引入了什么偏差。数据中的观察值也必须是独立的。

此外,你的数据必须满足以下两个条件之一:要么数据本身是正态分布的,要么你的样本量必须足够大。通常,“大”意味着30,但50或以上更理想。这是因为中心极限定理指出,随着样本量的增加,均值的抽样分布趋近于正态分布。你在之前的模块中已经看到了这一点。

假设检验的基本步骤

在接下来的几个视频中,你将看到如何进行均值的假设检验。你将涵盖以下步骤:

  1. 定义你的假设。
  2. 计算检验统计量。
  3. 定义显著性水平。
  4. 计算P值。
  5. 解释结果。

你还将学习如何定义错误以及处理小样本量。现在不用担心所有的术语。到本课结束时,你将成为假设检验的专家。


总结

本节课中,我们一起学习了均值假设检验的基本概念。我们了解到,它用于判断样本均值与某个特定值的差异是否具有统计显著性,而不仅仅是随机波动的结果。我们探讨了其核心思想、统计显著性的含义,以及进行有效检验所需的前提条件(如随机抽样、独立性、大样本或正态分布)。最后,我们预览了假设检验将遵循的五个关键步骤。在下一节中,我们将深入第一步:如何正确定义假设。

137:假设设定 📊

在本节课中,我们将学习统计学假设检验的核心概念:如何设定原假设与备择假设。这是进行任何统计推断的第一步。

概述

假设检验始于对研究问题的清晰陈述。我们需要定义两个互斥的假设:原假设备择假设。它们共同构成了检验的基础框架。

原假设与备择假设

在统计假设检验中,你需要定义两个相关的假设:原假设和备择假设。这两个假设互为补充。

以音乐订阅服务的场景为例。你正在调查获得免费试用的用户的平均留存时间。你的检验有两种可能的结果:μ = 10个月,或 μ > 10个月。这就是你的假设。

现在,请问这两个假设中,哪一个对应“免费试用对订阅时长没有影响”这个想法?

那将是 μ = 10。这个假设被称为原假设。它代表了你未能找到证据证明 μ > 10 的情况。它与“没有效果”或“没有差异”相关联。这个假设写作 H₀

反之,如果你能找到证据证明 μ > 10个月,那将非常理想。这个证据将表明免费试用能有效促使用户订阅更长时间。这个假设被称为备择假设。它是原假设的替代选项,写作 H₁

如何定义假设

通常,在定义你的假设时,从原假设开始。确定如果没有任何效果,你期望的值是多少。

例如,如果免费试用没有效果,你会期望平均订阅时长为10个月,这与现有订阅用户的时长相同。这给出了你的原假设 H₀: μ = 10

对于备择假设,你总是将总体参数与原假设中的值进行比较。在这个例子中,这个值是10。定义你感兴趣的比较方向:你是寻找证据证明均值大于小于,还是不等于期望的均值?

你的选项将是:

  • H₁: μ > 10 - 均值是否显著大于10?
  • H₁: μ < 10 - 均值是否显著小于10?
  • H₁: μ ≠ 10 - 均值是否显著不同于10?

你只能有一个备择假设。在之前的例子中,H₁: μ > 10 是最合适的,因为你希望找到证据证明免费试用增加了订阅时长。

解释检验结果

当你向业务相关方解释这些假设时,使用准确的术语至关重要。

如果你的检验表明支持备择假设的证据(具体如何判断将在后面详述),你会说 “拒绝原假设”。这意味着数据表明原假设很可能不成立。

如果你没有找到支持备择假设的证据,那么你会说 “未能拒绝原假设”。这并不意味着原假设就是真的,只是你没有足够的证据来拒绝它。

统计学的语言在这里很重要。你应该避免使用诸如“证明备择假设”或“接受原假设”这样的短语。这听起来可能像是在故意含糊其辞,但请记住,推断统计学全是关于管理不确定性的。你的结论总是有可能出错。这种术语有助于避免夸大结论,并提醒你的相关方,这些检验永远无法绝对确定地证明任何事情。

假设的合理性

与科学一样,你的假设应该基于某种理论或可观察的证据。换句话说,不要随意选择它们。

例如,在处理音乐订阅服务时,选择“订阅时长等于10个月”作为原假设是合理的,因为这是已知的现有用户的平均值。获得免费试用的用户行为与之相似是 plausible(合理的)。

总结

本节课中,我们一起学习了假设检验的起点——设定假设。我们明确了原假设 (H₀) 代表“无效果”的基准状态,而备择假设 (H₁) 代表我们希望找到证据支持的研究主张。记住,假设是检验策略的基石,必须首先定义。在接下来的课程中,你将练习如何根据具体的业务问题来识别和设定假设。

138:识别假设与检验类型 📊

在本节课中,我们将学习如何为实际业务问题构建假设,并确定应使用的假设检验类型。我们将回顾课程中已出现的几个案例,通过它们来掌握假设检验的基本步骤。


回顾业务问题与假设构建

上一节我们介绍了假设检验的基本概念,本节中我们来看看如何将其应用于具体场景。

游泳池水质安全测试

假设你需要测试游泳池的pH值,理想pH值为7.4。任何显著偏离7.4的值(无论偏高或偏低)都被认为不安全。

以下是针对此问题的假设:

  • 零假设 (H₀): μ = 7.4。此值代表现状。
  • 备择假设 (H₁): μ ≠ 7.4。如果pH值显著高于或低于7.4,你将拒绝零假设。

电影时长分析

我们曾研究过与电影时长相关的业务问题。例如,2013年电影的平均时长是否大于120分钟?

以下是针对此问题的假设:

  • 零假设 (H₀): μ = 120分钟。此值代表2013年电影时长与预期无差异。
  • 备择假设 (H₁): μ > 120分钟。你在寻找电影时长超过两小时的证据。若找到证据则拒绝零假设,否则无法拒绝零假设。

面包店配送时间评估

在之前的模块中,你为面包店配送时间构建了置信区间。假设记录了30天的配送时间,样本平均时间为43分钟。你可以使用假设检验来调查平均配送时间是否少于45分钟。

以下是针对此问题的假设:

  • 零假设 (H₀): μ = 45分钟。这是现状,即配送时间与45分钟无差异。
  • 备择假设 (H₁): μ < 45分钟。你希望找到配送时间少于45分钟的证据。若找到证据则拒绝零假设,否则无法拒绝。

请注意,你假设的总体均值(45分钟)与你计算的样本均值(43分钟)不同。你的目标是利用样本均值来理解总体均值低于45分钟的可能性有多大。


确定合适的检验类型

一旦定义了假设,就需要选择合适的检验类型。你在之前的视频中看到,备择假设有三种类型:

  1. μ > 某个数值
  2. μ < 某个数值
  3. μ ≠ 某个数值

这些假设分别对应不同的检验类型。

以下是每种情况对应的检验类型说明:

  • 情况一 (μ > 某个数值): 如果样本均值出现在分布的高端罕见区域,你将拒绝零假设。你应执行右尾检验,因为你只对数值的上尾感兴趣。
  • 情况二 (μ < 某个数值): 如果样本均值出现在分布的低端罕见区域,你将拒绝零假设。你应执行左尾检验,因为你只对均值以下的罕见值感兴趣。
  • 情况三 (μ ≠ 某个数值): 你对两种可能性都感兴趣。因此,如果你发现样本均值在高端或低端都不同寻常,你将拒绝零假设。你应执行双尾检验,因为你关心样本均值是否落在数值的任一个尾部。

左尾检验和右尾检验都被视为单尾检验,因为你只检查数值是否落在分布的一侧。


应用检验类型到案例

让我们看看如何将检验类型应用到刚才的三个例子中。

1. 游泳池水质测试(备择假设:μ ≠ 7.4)

你会希望进行双尾检验,因为pH值过高或过低都不合适。

2. 电影时长分析(备择假设:μ > 120分钟)

你应该执行右尾检验,因为你想检查样本均值是否异常地高。

3. 配送时间评估(备择假设:μ < 45分钟)

你感兴趣的是左尾检验


总结

本节课中我们一起学习了如何为业务问题构建统计假设(包括零假设H₀和备择假设H₁),并根据备择假设的方向(大于、小于、不等于)确定了相应的假设检验类型(右尾、左尾或双尾检验)。这是进行假设检验的关键第一步。

接下来,请跟随下一节视频,学习如何完成假设检验的下一步:计算检验统计量。

139:计算检验统计量 📊

在本节课中,我们将学习如何根据收集的样本数据计算检验统计量,以对假设做出决策。我们将通过一个具体的案例,理解检验统计量的计算过程及其在假设检验中的作用。


概述

假设检验是数据分析中的核心方法,用于根据样本数据对总体参数做出推断。计算检验统计量是这一过程中的关键步骤,它量化了样本数据与原假设之间的差异,并考虑了数据的变异性和样本大小。


案例背景

你的客户是一家剧院,你正协助他们分析电影时长以优化排片。客户希望了解电影的平均时长是否超过120分钟。

你收集了一个包含50部电影的随机样本,计算出样本均值为123分钟,样本标准差为12分钟。你正在进行一个右尾检验,假设如下:

  • 原假设 (H₀): μ = 120 分钟
  • 备择假设 (H₁): μ > 120 分钟

下图展示了基于原假设(μ = 120)的样本均值分布,其标准误为 12 / √50 ≈ 1.7

你的样本均值(123分钟)与原假设的均值(120分钟)差异是否足够大,以至于我们可以有信心拒绝原假设?这很难直接判断,因为结论同时受到数据变异性和样本大小的影响。


理解检验统计量的作用

上一节我们介绍了案例背景和假设。本节中我们来看看,为何不能仅凭均值差异下结论。

如果数据变异性很高,你就不能那么确信样本均值与假设均值之间存在真实差异。同时,样本量也至关重要:样本量越大,检验的精确度越高;样本量越小,结果可能无法真实反映总体情况。

检验统计量的作用,正是将样本均值与原假设均值的差异,与数据的变异性(标准误)结合起来,形成一个标准化的度量值。计算它之后,你就能判断这个结果出现的可能性有多大。


计算检验统计量

以下是计算检验统计量的具体步骤:

  1. 计算均值差:首先,计算样本均值 () 与原假设均值 (μ) 的差值。这步将计算中心化到0。

    • 公式:x̄ - μ = 123 - 120 = 3
  2. 计算标准误:由于我们不知道总体标准差,我们使用样本标准差 (S) 和样本量 (n) 来估计标准误。

    • 公式:S / √n = 12 / √50 ≈ 1.7
  3. 计算检验统计量 (Z值):最后,将均值差除以标准误。这个结果告诉你,检验统计量距离假设均值有多少个标准误。

    • 公式:Z = (x̄ - μ) / (S / √n) = 3 / 1.7 ≈ 1.76

这个计算过程是否让你想起了什么?


检验统计量与Z分数

你刚刚计算的正是一个Z分数

回想一下,Z分数表示一个值在标准正态分布中距离均值的标准差个数。本质上,你是将样本均值转换到了一个标准化尺度上,这个尺度的均值为0,每一步代表一个标准差。

让我们可视化这个Z值。下图是标准正态分布:

你能找到检验统计量 Z = 1.76 落在哪里吗?它在这里,位于均值上方1.76个标准差处。

仅通过观察图表,你觉得这个Z分数罕见吗?这很难说。它不在Z分数大于3的极端尾部,但也不在Z分数介于0到1之间的常见值区域。


总结与过渡

本节课中,我们一起学习了如何计算检验统计量(Z分数)。我们通过一个电影时长的案例,演示了如何将样本数据与原假设的差异进行标准化,得到一个可用于比较的统计量。

我们计算出的Z分数为1.76。这个值是否足够极端,以至于我们可以拒绝“电影平均时长为120分钟”的原假设?这取决于我们预先设定的标准。

在下一节课中,我们将通过确定显著性水平拒绝域,来学习如何回答这个问题。

140:确定显著性水平与拒绝域 📊

在本节课中,我们将学习假设检验中的两个核心概念:显著性水平拒绝域。你将了解如何设定检验的精确度,以及如何根据设定的标准决定是否拒绝原假设。

除了计算检验统计量,你还需要确定检验的精确度。你需要考虑,什么样的结果足够不可能发生,以至于你会拒绝原假设?

以电影时长为例,你想检验2013年的电影平均时长是否超过120分钟,以帮助安排影院排片。这个决策的风险有多高?你是否能接受有5%的概率得出错误结论?或者只接受1%的错误概率?

在之前学习置信区间时,你接触过“置信度”的概念,即你对结论的确定程度。你了解到可以构建90%、95%或99%的置信区间。你的选择取决于你的估计需要多精确。如果你需要对结果非常有把握,你会选择90%还是99%的置信度?你会选择99%。

假设检验依赖于类似的直觉。作为数据分析师,你需要做出判断,确定你能够接受的置信水平。请记住,与所有推断统计一样,你是在试图管理不确定性,而它永远无法被完全消除。

以下是你的样本描述性统计和假设。既然你已经计算了检验统计量的Z分数,你正在处理标准正态分布。

如果你想有95%的把握正确地拒绝原假设,你会寻找那些预期发生概率为5%或更低的、高于均值的检验结果。这个阴影区域代表了Z值预期发生概率为5%或更低的区域,它被称为拒绝域,因为任何落入此区域的检验统计量都会导致你拒绝原假设。这个结论可能会促使你调整影院的排片做法。

在进行置信水平为95%的单尾假设检验时,你拒绝原假设的能力取决于拒绝域的大小,其面积为0.05。这个值被称为显著性水平,用希腊字母α表示。α=0.05非常常见,常用于医学研究、制造业质量控制和社科的初步研究。

请注意,置信度是显著性水平的补集。如果你想有95%的把握,你就将α设为0.05,代表5%的犯错概率。

想象一下,影院的排片调整成本很高。选择减少每日放映场次可能会降低收入并导致员工班表变动。在调整排片之前,你希望绝对确定电影平均时长确实超过120分钟。在这种情况下,你会想要更高还是更低的显著性水平?

为了进行更精确的检验,你可以将α降低到0.01,这对应于拥有99%的置信度。因此,只有当检验统计量位于该分布中所有均值的前1%时,你才会拒绝原假设。α=0.01常用于临床试验、环境影响研究和财务审计,即错误拒绝原假设所导致的风险较高时。

在这种情况下,你从相同的分布开始。你认为α=0.01的拒绝域会比α=0.05的拒绝域更小还是更大?你的拒绝域会变得更小。这就是它的样子。你想更有把握,所以你只会在分布中前1%的值出现时才拒绝原假设。在影院场景中,这个更小的拒绝域意味着,你需要在有更强证据表明电影更长时,才会改变排片。

还有一个细微差别你应该注意。你刚刚看到了右尾检验的拒绝域。对于左尾检验,过程非常相似,它也只有一个拒绝域。然而,对于双尾检验,你关注的是均值之上和之下的值。

对于电影时长,你的原假设保持不变。但这次,你的备择假设H₁将是:μ ≠ 120。这就是它在分布上的样子。相同的分布,不同的假设,因此有不同的拒绝域。

看一下上方的拒绝域。与仅有的右尾检验相比,双尾检验的上方拒绝域更小。事实上,它小了一半。你的拒绝域在两侧(上侧和下侧)各包含2.5%的数据,总共5%。这是因为你想保持相同的精确度,即错误只发生在5%的情况下,但你有两个拒绝域。如果它们都包含5%的值,那实际上会导致10%的错误率,而不是5%。

好的,信息量很大。我们来回顾一下学到的术语。

α,你的显著性水平,有助于定义你需要多强的证据才能拒绝原假设。较大的α值使得用较少的证据更容易拒绝原假设,而较小的α值则需要更强的反对原假设的证据才能拒绝它。α的常见值包括0.10、0.05和0.01。

拒绝域是抽样分布中包含那些不可能发生的值的区域,这些值会导致你拒绝原假设。对于α=0.05,你看到这个拒绝域是分布的前5%。在影院例子中,拒绝域代表了那些长得令人惊讶的平均电影时长范围,以至于你得出结论:电影平均时长确实超过了120分钟。

你还看到了可以进行双尾检验,它有两个拒绝域。例如,当检验泳池的pH值是否显著高于或低于7.4时,对于α=0.05,这个检验将有两个拒绝域,每个区域覆盖分布两侧尾部的2.5%。

α,你的显著性水平,帮助你量化你能够接受的不确定性的量。它被用来确定你的检验统计量是否足够罕见,以至于你可以拒绝原假设。

请跟随我进入下一个视频,看看如何使用P值来计算这种罕见性,然后你可以将其与α进行比较来进行你的假设检验。


本节课总结

在本节课中,我们一起学习了假设检验的关键步骤:如何设定显著性水平(α) 以及如何确定拒绝域。我们了解到,α值的选择(如0.05或0.01)反映了我们对结论精确度的要求,并直接定义了拒绝原假设所需证据的强弱。拒绝域则是根据α值在抽样分布上划定的区域,检验统计量落入此区域将导致我们拒绝原假设。我们还区分了单尾检验和双尾检验中拒绝域的不同。理解这些概念是进行严谨假设检验的基础。

141:计算p值 📊

在本节课中,我们将要学习假设检验中的关键一步:计算p值。我们将理解p值的含义,学习如何计算它,并掌握如何通过比较p值与显著性水平来做出统计决策。


概述

上一节我们介绍了如何计算检验统计量(Z值)并将其与拒绝域进行比较。本节中我们来看看如何精确地量化样本结果的“稀有性”,即计算p值。

p值代表在原假设为真的情况下,观察到当前样本结果(或更极端结果)的概率。它是决定是否拒绝原假设的核心依据。

计算p值

你的下一步是判断样本均值是否足够“稀有”,以拒绝原假设。这是进行结果解释前的最后一步。

假设电影院决定选择显著性水平 α 为 0.05。你已经计算出检验统计量 Z 等于 1.76。这个值有多稀有?

我们可以通过观察这个值是否落在拒绝区域内来直观理解。可以看到,Z值确实落在拒绝区域内,略高于边界。因此,如果真实均值确实是120分钟,那么观察到123分钟的样本均值的情况将少于5%的时间。

现在,你可以使用p值(概率值的缩写)来精确计算这个值的稀有程度。p值表示得到与Z值一样稀有或更稀有(根据备择假设的方向)的样本均值的概率。

换句话说,就是得到Z值大于等于1.76的概率。对于这一步,你需要以下两样工具之一:查值表,或者能够进行计算的计算表格软件或编程语言。

让我们来讲解如何计算电影示例的p值。同样,你需要计算在标准正态分布上观察到Z分数大于等于1.76的概率。

回忆一下累积分布函数(CDF),它代表观察到Z分数小于或等于某个特定值的概率。这意味着你可以使用CDF来找到得到Z分数小于等于1.76的概率。

那么,你该如何使用CDF来计算你感兴趣的概率呢?

你需要使用互补法则。Z大于1.76的概率等于1减去Z小于等于1.76的概率,而后者正是CDF告诉你的值。

如果你手动计算了这个Z分数,你可以使用计算表格函数来计算p值。在本例中,Z小于等于1.76的概率约为0.9608。这个概率的互补概率则是1减去这个值,即0.0392。这就得到了p值,即观察到比你已观察到的检验统计量更极端结果的概率。

顺便提一下,当你直接处理样本数据(而不是自己计算Z分数)时,通常不需要在计算表格中执行此步骤。你将使用Z检验函数来执行之前看到的所有步骤(除了定义假设)。

由于p值等于0.0392,这意味着如果所有电影的真实平均时长是120分钟,那么你观察到样本均值为123分钟或更长的概率约为3.92%。

你认为这个概率足够稀有到可以拒绝原假设吗?

比较p值与显著性水平

将你的p值与显著性水平(本例中为0.05)进行比较。

由于你的p值低于显著性水平,你将拒绝原假设。直观上,通过这个比较,你是在问这个事件是否预期在少于5%的时间内发生,而本例中情况确实如此。

现在,考虑你在上一个视频中看到的案例,即电影排期难以调整的情况。那么,如果你要求假设检验的显著性水平为1%呢?当α等于0.01时,这个事件是否足够稀有到可以拒绝原假设?

在这种情况下,你不会拒绝原假设,因为p值(并未改变)大于α。你将没有观察到足够强的证据表明电影平均时长大于120分钟。

至关重要的是,你必须在进行检验之前确定你的显著性水平。避免为了做出你想要的决策而调整它,这种调整会引入分析偏差。

过程回顾与总结

让我们退一步,将所有内容整合起来。

你有一个关于电影平均时长是否超过120分钟的商业问题。你收集了50部电影的样本,发现它们的平均时长为123分钟,标准差为12分钟。你想知道是否有足够的证据表明电影时长超过120分钟。

接着,通过检验统计量,你计算了如果真实均值确实是120分钟,观察到样本均值为123分钟或更高的概率。根据你的p值,你发现你会观察到像123分钟这样极端或更极端的值的情况约占3.92%的时间。

由于你希望结论有95%的置信度,你拒绝了原假设,得出结论:有足够的证据相信真实均值高于120分钟。很棒,你完成了一次计算和解释!


总结

本节课中我们一起学习了假设检验中计算和解释p值的完整过程。我们了解到p值是原假设成立时获得当前或更极端样本结果的概率,并通过将其与预先设定的显著性水平α进行比较来做出统计决策。记住,必须在分析前设定α,并避免根据结果事后调整,这是保证分析客观性的关键。

这个过程涉及许多内容,不要求你记住所有细节。请跟随我到下一个视频,观看这个过程在计算表格中如何展开,这将帮助你培养对假设检验在实践中如何运作的直觉。

142:均值假设检验演示 🔍

在本节课中,我们将学习如何使用真实数据在电子表格中执行均值假设检验。你将看到置信区间与假设检验之间的许多相似之处。


概述

我们将使用之前处理过的森林火灾数据集。通过两个具体案例,你将学习如何设定假设、计算检验统计量、确定P值,并最终做出统计决策。我们将使用电子表格函数来简化计算过程。


案例一:火灾平均面积是否大于10公顷?

想象一下,火灾面积越大,当地机构需要调动的资源就越多。如果公园的平均火灾面积非常大,机构就需要请求国家消防局支援,并预备飞机以应对紧急情况。为了做好相应规划,机构希望知道平均燃烧面积是否大于10公顷。如果是,他们将开始与国家消防局合作并购买飞机。

设定假设

以下是需要设定的假设:

  • 零假设 (H₀):平均面积等于10公顷。公式表示为:μ = 10
  • 备择假设 (H₁):平均面积大于10公顷。公式表示为:μ > 10

这是一个右尾检验

确定显著性水平

首先确定你愿意接受的显著性水平。一个常见的起点是 α = 0.05,这意味着错误拒绝零假设的预期概率为5%。

计算检验统计量

接下来计算检验统计量。你需要以下样本统计量:

  • 样本均值 (X̄)
  • 样本标准差 (S)
  • 样本大小 (n)

这些统计量与计算置信区间时使用的相同。

检验统计量(Z值)的计算公式为:
Z = (X̄ - μ₀) / (S / √n)
其中,μ₀ 是假设的均值(本例中为10)。

将数值代入公式后,得到的检验统计量约为 1。这个检验统计量本质上是一个Z分数。

查找P值并做出决策

由于这是右尾检验,你需要找到检验统计量右侧的概率(即P值)。可以使用标准正态分布的累积分布函数(CDF)来计算。

在电子表格中,可以使用 NORM.S.DIST 函数。但请注意,该函数给出的是 Z ≤ 某值的概率。我们需要的是其补集(Z > 该值)。因此,计算公式为:
P值 = 1 - NORM.S.DIST(Z, TRUE)

计算得到的P值约为 0.155

对于5%的显著性水平(α=0.05),由于P值(0.155)大于α,因此无法拒绝零假设。结论是:没有足够证据表明平均火灾面积大于10公顷,因此暂时不需要调用额外资源。

使用快捷函数:Z.TEST

除了手动计算,还可以使用 Z.TEST 函数直接得到P值。
该函数需要两个参数:

  1. 数据范围
  2. 假设的均值(本例中为10)

使用此函数得到的P值与手动计算的结果完全相同,但省去了计算样本统计量的步骤,是一个非常实用的快捷方式。

结果解读

你的样本均值(12.85公顷)确实大于假设的均值(10)。然而,它除以了一个非常大的样本标准差。因此,最终得到的检验统计量(Z=1)并不算大。Z=1是一个不太常见但也不足以罕见到让你拒绝零假设的值。


上一节我们检验了火灾面积均值,现在让我们来看另一个指标:初始蔓延指数。

案例二:初始蔓延指数均值是否低于10?

初始蔓延指数衡量火灾开始后面积的扩张速度。指数为10表示蔓延速度很快,16或以上则表示蔓延极其迅速。公园管理部门要求你验证ISI的平均值是否保持在10以下。如果蔓延速度高于10,他们将必须启动一些成本高昂的控制措施,例如实施控制性燃烧或预先关闭某些小径或露营地。

管理部门要求你对结论有极高的信心,因此你选择了 α = 0.01 的显著性水平。

设定假设

以下是需要设定的假设:

  • 零假设 (H₀):平均ISI等于10。公式表示为:μ = 10
  • 备择假设 (H₁):平均ISI小于10。公式表示为:μ < 10

这是一个左尾检验

计算检验统计量与P值

使用相同的公式计算检验统计量。你会发现得到的Z值约为 -5

对于左尾检验,P值是Z分数小于或等于检验统计量的概率。你可以直接使用 NORM.S.DIST 函数计算这个概率。

计算得到的P值极其小(远小于0.01)。因此,即使在1%的显著性水平下,你也可以拒绝零假设。如果真实的平均ISI是10,那么观察到样本均值约为9的概率是极低的。因此,你可以以很高的置信度拒绝零假设。

使用Z.TEST函数的注意事项

同样,你可以使用 Z.TEST 函数。但请注意,根据该函数的说明,它返回的P值是“随机生成的样本均值大于原始数据集均值的概率”,即它执行的是右尾检验

为了将其转换为左尾检验的P值,你需要计算:
左尾P值 = 1 - Z.TEST(…)

这样就能得到与手动计算完全相同的值。


总结

本节课中,我们一起学习了如何对真实数据进行均值假设检验:

  1. 我们首先根据实际问题设定零假设和备择假设,并确定显著性水平α。
  2. 接着,我们计算检验统计量 Z = (X̄ - μ₀) / (S / √n)
  3. 然后,我们根据检验类型(左尾或右尾)查找或计算P值。
  4. 最后,通过比较P值与α做出决策:若 P值 ≤ α,则拒绝零假设;否则,无法拒绝零假设。
  5. 我们介绍了使用 Z.TEST 函数作为快捷方式,并注意了其在左尾检验时需要调整。

你现在已经准备好利用现实世界的数据来确定统计显著性了。在接下来的课程中,你将看到进行假设检验时可能遇到的两种错误。我们下个视频见。

143:假设检验中的错误

在本节课中,我们将要学习假设检验中可能出现的两种关键错误:第一类错误第二类错误。理解这些错误类型及其产生原因,对于正确解读统计检验结果、管理不确定性至关重要。


假设检验与不确定性

推断统计的核心在于管理不确定性。理解假设检验可能出错的方式,是管理不确定性的重要部分。

假设检验可能在两个关键方面出错:你发现了一个效应,但现实中并不存在;或者你没有发现效应,但现实中确实存在一个效应。让我们深入探讨。


假设检验的“窗口”与现实

你的假设检验使用样本作为窥探真实世界的“窗口”。

回想一下你和朋友比赛解魔方的例子,你们想通过比赛看看谁更厉害。在现实中,只存在两种可能的情况:你们实力相当,或者其中一人更强

如果你进行假设检验来回答这个问题,你会得出两个结论之一:你们之间没有显著差异,或者其中一人显著更强

  • 情况一:如果你们实力相当,并且你的检验没有发现显著差异。这很好。你的“窗口”看到了正确的效应。这种情况称为真阴性。你没有发现显著差异,而现实中确实没有差异。
  • 情况二:如果你们实力不相当,并且你的检验发现其中一人更强。这也很好。这种情况称为真阳性。现实世界中存在差异,而你的检验正确地识别了它。

然而,你也能看到有两种出错的方式。


两种错误类型

以下是假设检验可能出错的两种方式:

  1. 假阳性:可能你们实力相当,但你的检验却得出结论认为其中一人更强。你发现了一个差异,但现实中并不存在。
  2. 假阴性:也可能你的检验得出结论认为没有显著差异,但实际上其中一人确实更强。存在一个真实的效应,但你未能发现它。

让我们将这个例子推广到更一般的情况。


错误类型的矩阵分析

正如你在之前的视频中所见,你的假设检验有两个可能的结论:拒绝原假设未能拒绝原假设

同时,存在世界的真实状态:原假设为真原假设为假

我们可以用一个矩阵来清晰地展示这四种组合:

  • 假阳性:如果你拒绝了原假设,但原假设实际上为真。
  • 假阴性:如果你未能拒绝原假设,但原假设实际上为假。
  • 真阳性:如果你拒绝了原假设,并且原假设确实为假。
  • 真阴性:如果你未能拒绝原假设,并且原假设确实为真。

控制错误率的机制

你有几种机制来控制这些错误率。

显著性水平 α

其中之一是你的显著性水平 α。你的显著性水平代表了错误地拒绝一个真实原假设的概率。它是你必须承担的风险,基于你所知的信息。

α 对应的是假阳性率还是假阴性率?它与假阳性率相同

你可以通过将 α 设置为一个非常低的值来尝试最小化假阳性,但这会增加假阴性的可能性。将 α 设得过低意味着你对“什么算作显著”非常严格,这使得发现真实效应变得更加困难。

样本量

增加你的样本量或计划拥有足够大的样本,是假设检验成功的一个重要因素。大样本能提供更精确的估计,并有助于减少两类错误。大样本还能帮助你检测非常细微的效应。


权衡错误类型:实际应用

你是希望最小化假阳性还是假阴性,取决于与每种结果相关的成本和风险。

以下是不同场景下的权衡考量:

  • 制造业:在发货前测试产品缺陷。假阳性意味着将一个完好的产品识别为有缺陷,而假阴性则是未能检测出有缺陷的产品。如果客户可以轻松退货,你可能更倾向于最小化假阳性,以避免浪费实际完好的产品。
  • 医疗检测:对于严重疾病的检测,通常更希望最小化假阴性。假阴性发生在患者确实患有某种疾病,但检测未能发现该疾病时。虽然诊断会给患者带来压力,但通常更希望过度诊断,因为诊断可以通过进一步检测来纠正。与此同时,未被检测出疾病的患者将无法接受可能挽救生命的治疗。
  • 银行业:审批贷款申请。假阳性可能意味着批准了一个最终会违约的人的贷款,而假阴性可能意味着拒绝了一个会全额还款的人的贷款。银行可能会进行重大的风险评估,以最小化假阳性带来的损失,同时最大化盈利贷款的数量。

平衡错误类型只是你作为数据分析师在处理不确定性时必须做出的又一个妥协。你无法真正做到100%的准确。


总结

本节课中我们一起学习了假设检验中的两种核心错误。假阳性是错误地声称存在效应,而假阴性是未能发现真实存在的效应。通过理解显著性水平 α 与假阳性率的关系,以及大样本量对减少两类错误的重要性,我们可以在实际应用中根据具体成本和风险(如医疗、制造、金融等领域)来权衡和优化我们的检验策略。管理这些错误是数据分析中处理不确定性的关键部分。

现在,你已接近本课的尾声。关于假设检验,还有一个细微之处需要了解。请跟随我进入下一个视频继续学习。

144:t分布 📊

在本节课中,我们将要学习一种特殊的概率分布——t分布。当样本量较小或总体标准差未知时,t分布是进行假设检验的更合适选择。

中心极限定理的局限性

上一节我们介绍了假设检验的基本流程,其核心依赖于样本均值的抽样分布服从正态分布。然而,这里存在一个额外的复杂因素:在某些情况下,样本均值的抽样分布并非正态分布,此时你必须使用另一种分布来进行假设检验。

回想中心极限定理的条件:当基于一个大样本(通常为30个或更多观测值)计算样本均值时,样本均值的抽样分布是正态分布的。

那么,如果你基于少于30个观测值计算样本均值,会发生什么?你认为均值的抽样分布的变异性会更大还是更小?

小样本带来的不确定性

小样本的样本均值很可能比大样本具有更大的变异性。这个条件给你的估计引入了更多的不确定性。

你还记得,均值的抽样分布的标准误等于总体标准差σ除以样本量的平方根:标准误 = σ / √n。当你使用样本标准差作为σ的估计值时,会引入更多的不确定性。

小样本量在许多领域都很常见,包括医疗保健,而总体标准差通常是未知的。当以下任一或两个条件成立时:样本量小于30,或σ未知,对于均值的抽样分布,有一个更合适的选择,即t分布。

认识t分布 📉

t分布与标准正态分布非常相似。它们都具有平滑的形状,并且关于均值0对称。然而,t分布在中间更平坦,尾部更大。

直观地说,这意味着你更有可能观察到远离均值的值。这一观察结果与t分布反映了对基础数据更多不确定性的观点是一致的。

不过,一个区别在于t分布由一个称为自由度的参数定义。自由度是一个统计量,试图量化从有限样本估计总体参数时引入的不确定性。这是一个有点抽象的概念。

对于当前场景,自由度的计算公式为:df = n - 1。这里的减1源于使用样本标准差而非总体标准差来构建分布。因为你使用的是估计值,所以你的计算引入了更多的不确定性。

随着自由度的增加,t分布变得越来越接近正态分布。因此,你选择使用哪种分布就变得不那么重要了。这种向正态分布的收敛反映了随着样本量越来越大,你可以对结论有更大的把握。随着样本量的增加,你能获得关于总体变异性的更好信息;但对于较小的样本,你使用的是不那么精确的估计。

使用t分布进行假设检验

你将遵循与之前学习过的类似的流程来进行假设检验。你将以相同的方式定义假设,并收集计算检验统计量所需的样本统计量。

然而,你将使用t分布而非正态分布来判断你的样本统计量是否足够罕见,从而拒绝原假设。你的检验统计量将被称为T而非Z,并且你将使用t.test函数而非z.test函数。

拒绝区域以及P值也不同,因为你现在使用t分布来定义它们。

考虑电影时长的例子,假设总体均值为120,样本标准差为12,但样本量仅为5。观察一下正态分布和t分布之间的差异。

你可以看到t分布的尾部更大。对于α=0.05,拒绝区域也不同。注意,正态分布的拒绝区域大约从128分钟开始,而t分布的拒绝区域大约从132分钟开始。这意味着t分布需要更强的证据来拒绝原假设。

举例来说,假设你观察到的五部电影的样本均值为130分钟。在正态分布中,130分钟落在这里,P值为0.031,这意味着你会拒绝原假设,因为0.031小于你的α值0.05。而在t分布中,130分钟落在这里,P值为0.068。在这种情况下,你将无法拒绝原假设。

由此可见,对于小样本量,选择t分布而非正态分布是有影响的。它对小样本量应用了更严格的标准。

t分布的现代应用

当t分布最初被开发时,处理样本量为10或15的情况并试图从这个小群体中得出关于总体的结论更为常见。如今,你更可能处理样本量大于30的大样本。

对于遵循中心极限定理的大样本,经验法则是:你在数据分析基础中学到,在科技领域你经常会处理大数据。如果你想调查用户,你或许能获得成千上万人的数据。在制造业,你的系统可能会记录每个产品的生产时间。如果你处理急诊室数据,你可能拥有数千次就诊记录,而不是几十次。

t分布在许多情况下仍然相关,例如在研究罕见疾病或研究濒危物种时,当你处理的是小样本。当你的样本量超过30左右时,这种差异不太可能影响你的决策。

总结

本节课中我们一起学习了关于假设检验的第一课,你学到了很多:从如何构建假设,到确定拒绝区域,计算检验统计量,以及解释P值。

接下来,你将完成实践评估和练习实验,内容涉及检查人类的睡眠模式。当你完成实践评估和实验后,请加入下一节课,学习可以在不同商业案例中使用的各种假设检验。我们下节课见。

145:比例假设检验 📊

在本节课中,我们将学习如何对比例进行假设检验。你将了解到,用于均值检验的假设检验流程同样适用于比例检验。我们将通过一个具体的商业案例,一步步学习如何定义假设、计算检验统计量、得出P值并做出决策。


概述

上一节我们介绍了均值假设检验的流程。本节中,我们来看看如何将同样的流程应用于比例的假设检验。比例检验在商业分析中非常常见,例如评估产品合格率、客户满意度比例或交付准时率。

假设检验流程回顾

进行假设检验通常遵循以下四个步骤:

  1. 定义原假设和备择假设。
  2. 确定显著性水平。
  3. 计算检验统计量和P值。
  4. 解释结果并做出决策。

这个流程对均值检验和比例检验都适用。

案例背景:面包店配送

假设你在一家向当地动物园配送糕点的面包店工作。面包店刚刚获得一份大合同,需要将每日配送次数从1次增加到5次。

根据合同条款,如果迟到配送的比例超过5%,面包店将面临失去合同的风险。因此,你需要评估是否应提前司机的上班时间,以确保配送准时。

你关心的核心问题是:真实的迟到配送比例是否大于5%?

第一步:定义假设

首先,我们需要建立假设。

  • 原假设 (H₀): 代表现状。此处我们假设真实的迟到比例 p 等于合同允许的临界值,即 p = 0.05。如果原假设成立,则无需改变上班时间。
  • 备择假设 (H₁): 代表我们想要验证的猜测。此处我们怀疑真实的迟到比例高于合同允许值,即 p > 0.05

用公式表示如下:
H₀: p = 0.05
H₁: p > 0.05

第二步:确定显著性水平

这个决策风险中等,因此你选择将显著性水平 α 设定为 0.05。这意味你允许有5%的概率错误地拒绝原本正确的原假设(即第一类错误)。

在抽样分布中,这对应着拒绝域位于分布右侧的5%区域。

第三步:收集数据并计算检验统计量

你收集了250次配送的样本数据,并计算出样本中的迟到比例 (读作“p-hat”)为 0.06

接下来,需要计算检验统计量 Z,它衡量了样本比例与原假设假设的比例之间的差距,以标准误差为单位。

检验统计量 Z 的计算公式为:
Z = (p̂ - p) / SE
其中,SE 是标准误差。

标准误差 SE 的计算公式为:
SE = √[ p * (1 - p) / n ]

请注意,在比例检验中,我们使用原假设中假设的比例 p(此处为0.05)来计算标准误差,而不是使用样本比例 。这是因为在原假设成立的假设下,p 被视为已知的真实值。

现在,代入数值进行计算:

  1. p̂ - p = 0.06 - 0.05 = 0.01
  2. p * (1 - p) = 0.05 * 0.95 = 0.0475
  3. 0.0475 / 250 = 0.00019
  4. SE = √0.00019 ≈ 0.01378
  5. Z = 0.01 / 0.01378 ≈ 0.725

计算出的 Z 值约为 0.725,这意味着样本比例 0.06 比原假设的 0.05 高出约 0.725 个标准误差。

第四步:计算P值并做出决策

Z0.725 在标准正态分布中对应的右侧概率(即P值)约为 0.2342

P值的含义是:如果原假设成立(真实迟到比例就是5%),那么得到样本比例为6%或更高(即Z值≥0.725)的概率是23.42%。

现在,将P值与预先设定的显著性水平 α=0.05 进行比较:
0.2342 > 0.05

由于P值远大于 α,我们没有足够的证据拒绝原假设。

结果解读与决策

以下是基于假设检验的决策逻辑:

  • 决策: 无法拒绝原假设。
  • 业务解读: 目前的样本数据未能提供充分证据表明迟到配送的比例超过了5%。因此,从统计角度看,没有必要改变司机当前的上班时间。
  • 合同影响: 基于此分析,面包店与动物园的合同应能继续保持良好状态。

总结

本节课中我们一起学习了比例假设检验。我们通过一个面包店配送的案例,完整演练了假设检验的四个步骤:定义假设、确定显著性水平、计算检验统计量和P值、并做出决策。关键点在于,比例检验的流程与均值检验一致,但计算标准误差时使用的是原假设中的比例 p。当P值大于显著性水平 α 时,我们无法拒绝原假设,即认为没有足够证据支持备择假设所声称的情况。

146:比例假设检验演示 🔍

在本节课中,我们将通过一个实际案例,学习如何对比例进行假设检验。我们将使用之前接触过的森林火灾数据集,检验“非常小的火灾”比例是否超过50%,以评估新的火灾控制措施是否有效。

概述

假设葡萄牙公园管理局实施了一套新的火灾控制措施,他们希望验证“非常小的火灾”(燃烧面积小于0.5公顷)的比例是否已成为所有火灾中的大多数。如果比例确实超过0.5,则说明新措施有效,达到了改善目标。我们将通过假设检验来回答这个问题。

上一节我们介绍了假设检验的基本概念,本节中我们来看看如何将其应用于比例数据。

数据准备与假设设定

数据集中的 is_small 列标记了火灾是否属于“非常小的火灾”:取值为1表示燃烧面积小于0.5公顷,取值为0则表示大于等于0.5公顷。根据本课程早先的实验分析,这两类火灾的比例看起来相对平衡。

我们的目标是执行假设检验,以判断真实比例是否确实大于0.5。

以下是需要建立的假设:

  • 零假设 (H₀): 总体比例 p = 0.5
  • 备择假设 (H₁): 总体比例 p > 0.5

这是一个右尾检验。

计算样本统计量

与构建置信区间时类似,进行比例检验也需要计算一组描述性统计量。

首先,计算样本比例。你可以使用求平均值函数,因为0和1的平均值就是比例为1的样本所占的比例。

sample_proportion = data['is_small'].mean()

计算得到的样本比例约为 0.478

接着,计算样本比例的补数 (1 - p̂)。

然后,使用计数函数计算样本量。

sample_size = data['is_small'].count()

计算检验统计量与P值

与均值的假设检验类似,接下来需要计算检验统计量。请注意,比例的检验统计量公式与均值的有所不同。

你需要用样本比例减去假设的总体比例,但除以的标准误等于以下公式的计算结果:

标准误 = \sqrt{\frac{p_0 \times (1 - p_0)}{n}}

其中,p₀ 是假设的总体比例(此处为0.5),n 是样本量。

检验统计量(Z值)的计算公式为:

Z = \frac{\hat{p} - p_0}{标准误}

计算得到的检验统计量约为 -1。这意味着样本比例大约比假设的总体比例低一个标准误。

该检验统计量服从标准正态分布。因此,你需要根据样本数据和备择假设的结构,确定出现更极端值的概率(即P值)。想象一下标准正态分布曲线,这个检验统计量落在均值左侧约一个标准差的位置。而我们的备择假设是寻找右侧的极端值,所以P值将会比较大。

以下是计算P值的方法。同样,你可以使用正态分布函数(例如 scipy.stats.norm.sf)并将其应用于你的检验统计量。由于备择假设是“大于”,你需要计算Z分数大于检验统计量的概率。

from scipy import stats
p_value = stats.norm.sf(z_statistic)  # sf是生存函数,即1-CDF

计算得到的P值大于任何合理的显著性水平(例如0.05或0.01)。

结论与解读

由于P值较大,我们没有足够的证据拒绝零假设,即无法得出结论认为真实比例大于0.5。

这意味着公园管理局需要继续实施其控制措施,并收集更多数据,才能确信新措施能有效地将小火灾的比例提升到0.5以上。

重要提示:你不能使用为均值设计的Z检验或T检验函数来进行比例检验。因为它们使用的是均值的标准差公式,而非比例的标准差公式,这将导致错误的结论。

未能拒绝零假设是可以接受的。有时,没有发现效应与发现效应同样具有信息价值。

总结

本节课中,我们一起学习了如何对单个比例执行假设检验。我们完成了从设定假设、计算样本统计量、推导检验统计量到计算P值并做出决策的全过程。关键点在于使用正确的标准误公式,并理解检验统计量在正态分布下的含义。

接下来,你将学习如何进行双样本检验,即比较两个均值或两个比例。

147:双样本检验 📊

在本节课中,我们将学习如何直接比较两个样本,而不是将一个样本与某个假设值进行比较。我们将通过一个音乐订阅服务的例子,探讨如何判断基础订阅用户和高级订阅用户的平均订阅时长是否存在差异。

概述

很多时候,我们感兴趣的是直接比较两个样本,而不是将一个样本与某个假设值进行比较。例如,你可能想比较周末和工作日的平均配送时间,或者比较2013年电影和1934年电影的平均时长是否相同。

在本课程中,你已经见过一些需要直接比较两个样本的情况。例如,两个不同年龄组中对AI持积极看法的人比例是否相同?基础订阅用户和高级订阅用户的订阅时长是否不同?

让我们继续使用音乐订阅服务的例子。假设你想确定基础订阅用户和高级订阅用户的订阅时长是否不同。你并不确定这些值具体是多少,你只是想看看它们是否不同。你将遵循与往常相同的流程:首先定义假设,然后确定显著性水平,接着计算检验统计量和P值,最后解释结果并做出决策。

假设设定

以下是设定假设的方法。

首先,零假设。你的现状是两组之间没有差异。因此,你可以将其写为 H₀: μ_basic = μ_premium

你的备择假设是这两个均值不同。因此,你可以使用双尾检验,假设为 H₁: μ_basic ≠ μ_premium

或者,如果你假设其中一组的平均订阅时长高于另一组,你可以制定一个单尾检验。

显著性水平与数据

假设你接受α为0.05,即有5%的假阳性几率。

现在你已准备好计算检验统计量。假设你有两个样本:一个是基础订阅用户样本,另一个是高级订阅用户样本。每个样本有30名订阅者,并具有以下描述性统计量:

  • 基础用户的样本均值 x̄_basic = 9.9 个月
  • 基础用户的样本标准差 s_basic = 3.3 个月
  • 高级用户的样本均值 x̄_premium = 10.4 个月
  • 高级用户的样本标准差 s_premium = 1.9 个月

在这种情况下,两个样本是独立的,这意味着基础订阅的时长与高级订阅的时长是相互独立的。

进行计算

下一步是计算你的检验统计量,它服从T分布。你已经了解了如何进行此检验的理论,但计算标准误和确定自由度的数学过程稍微复杂一些。在实践中,你将使用电子表格或编程语言来进行此检验。

因此,让我们看看如何在电子表格中进行此检验。

这里有一些模拟30名高级订阅用户和30名基础订阅用户的生成数据。这次,你不需要计算任何统计量,如均值、标准差等,因为电子表格函数 T.TEST 会为你完成这些工作。T.TEST 函数的输出就是P值。因此,你不需要执行任何计算检验统计量的中间步骤。

T.TEST 函数有几个参数。请记住,你可以使用帮助菜单来查看它们。

作为提醒,此检验的零假设是基础用户的平均订阅时长等于高级用户的平均订阅时长,备择假设是两个均值不相等。对于此检验,你可以从默认的显著性水平0.05开始。

T.TEST 函数有四个参数:

  • array1 代表第一个类别的样本数据,即基础订阅的订阅时长。
  • array2 代表第二个类别的样本数据,即高级订阅的订阅时长。
  • tails 参数指定你想使用T分布的单尾还是双尾来计算P值。在本例中,你需要双尾,因为你提出的是“相等与不同”的双尾检验。
  • 最后,你必须指定 type 参数。这个参数非常重要,因为它对你的数据设置了一些假设。
    • 值为 1 表示配对检验。你将在下一个视频中了解更多关于配对检验的内容,它们适用于“前后”数据,例如测试同一个人在升级高级订阅前后的订阅时长。
    • 值为 2 表示等方差双样本检验。这做了一个很大的假设,即两个总体的方差相同。你可能不会经常使用这个选项。
    • 值为 3 表示异方差双样本检验。在这里,你不假设两个总体的方差相同。

你认为哪个选项在这里最合适?你会想要最后一个选项,即 3,代表异方差双样本检验。

结果解读

这个T检验给出的P值为 0.604。你不需要计算任何样本统计量或检验统计量,这非常方便。

你如何解读这个P值?这个P值相当大,大于你设定的显著性水平0.05。因此,你无法拒绝零假设,结论是你还没有足够的证据支持“两组不同类型的订阅用户倾向于订阅不同时长”这一观点。

重要假设与常见应用

重要的是要记住,这个检验假设样本是独立的。这意味着基础用户的订阅时长不受高级用户订阅时长的影响,反之亦然。一般来说,进行这个检验似乎是合理的,但你可能无意中引入偏差。例如,如果你的公司提供促销费率鼓励基础用户升级,这可能会缩短这些用户的订阅时长,同时延长高级用户的订阅时长。

双样本假设检验在实践中比单样本检验更常用,因为你经常对比较两组感兴趣。

  • A/B测试中,你创建产品的两个不同版本,并将这些版本展示给不同的组,然后计算各组对每个版本的反应是否不同。
  • 临床研究中,你通常有实验组和对照组。你给实验组新的治疗(如新药),给对照组安慰剂。然后你想比较实验组是否比对照组显示出更多益处。

总结

本节课中,我们一起学习了如何进行双样本T检验。我们了解了如何设定比较两个独立样本均值的假设,如何在电子表格中使用 T.TEST 函数进行计算,以及如何根据P值解读结果并得出结论。我们还讨论了检验的独立性假设及其在A/B测试和临床研究等领域的常见应用。

那么,如果你对比较两个以上的样本(如几个年龄组)或配对样本(如患者治疗前后的改善情况)感兴趣,该怎么办呢?除了目前所见的检验之外,还有许多其他类型的假设检验。请跟随我进入下一个视频了解更多内容。

148:其他假设检验 📊

在本节课中,我们将学习几种不同类型的假设检验。每种检验方法都用于回答不同种类的问题。虽然无法在一天内掌握所有检验方法,但通过本视频,你将了解针对不同问题应选择哪种检验方法。

请注意,你无需死记硬背本视频中介绍的每种检验方法。当需要使用时,你可以查阅其具体细节。你已经具备了进行和解读这些检验所需的基础知识。

方差分析(ANOVA)检验

上一节我们介绍了比较两组数据(例如基础版和高级版订阅用户)的检验方法。本节中我们来看看,当需要比较三个或更多组数据时该怎么办。例如,你可能有一个包含基础版、高级版和企业版的分层订阅模型。

使用之前学过的检验方法进行多组比较会变得复杂,因为执行的检验越多,误差累积的可能性就越大。如果你遇到这种情况,就需要使用方差分析检验,也称为 ANOVA

以下是方差分析检验的基本步骤:

  • 计算每个组的均值以及总体均值。
  • 比较组均值与总体均值的差异(组间变异),以及个体得分与其组均值的差异(组内变异)。

ANOVA 中的 P 值 告诉你,如果各组之间没有真实效应,你观察到这些组间差异的可能性有多大。通常,小于 0.05 的 P 值表明组间差异是显著的。

配对 T 检验

有时,你可能会处理代表“前后”状态的数据,这时可以利用一种特殊的检验方法。假设你想测试学生在饮用某种特定能量饮料后,情绪是否有所改善。

一种方法是随机抽取一组饮用能量饮料的学生,再随机抽取另一组只喝水的学生,然后比较他们的情绪。但你实际上有一个更有效的选择:你可以对同一组人进行两次测试。先让他们喝水并评估情绪,再让他们喝你的能量饮料并再次评估情绪。

在这种情况下,你实际上掌握了更多关于效应强度的信息,因为你不必考虑人与人之间所有可能的变异性。此时,你可以执行配对 T 检验

以下是配对 T 检验的基本步骤:

  1. 计算每对测量值之间的差值(后测值减去前测值)。
  2. 通过将平均差值除以标准误来计算检验统计量。

此处的 P 值表示,如果处理(如喝能量饮料)没有效果,你偶然观察到这么大差异的可能性。同样,通常认为小于 0.05 的 P 值是显著的。

卡方检验

你也可能会处理分类数据。之前学过的假设检验都基于数值数据。假设你想确定客户满意度评分是否因地区而异。

为了检验这个假设,你可以使用卡方检验(另一个来自希腊字母的检验)。以下是卡方检验的基本步骤:

  • 创建一个观测频率表。
  • 在假设没有关系的前提下,计算期望频率
  • 卡方统计量衡量你的观测频率与这些期望频率的偏离程度。

一个小的 P 值表明,观测频率与“如果没有关系”情况下的期望频率存在显著差异。

拟合优度检验

许多统计方法假设你的数据服从正态分布。或者,如果你知道数据服从该分布,那么通常可以使用更小的样本量。因此,你可能会有兴趣检验这个假设是否成立。

你可以使用拟合优度检验。假设你想知道呼叫中心的客户服务时间是否服从正态分布。

在拟合优度检验中,你将计算一个检验统计量,用于衡量服务时间分布与正态分布的偏离程度,然后根据该检验统计量确定 P 值。同样,一个小的 P 值表明你的结果具有统计显著性,并且你的样本数据很可能不服从正态分布。

总结

本节课中我们一起学习了多种假设检验方法。你现在已经具备了回答各种商业问题的能力,能够判断一个观察到的效应是反映了真实情况,还是很可能源于随机机会。完成本课的练习评估和实践实验后,希望你能加入本模块下一节也是最后一节课,学习如何使用生成式人工智能来执行和解读假设检验。

149:使用LLM辅助假设检验 📊

在本节课中,我们将学习如何利用大型语言模型来辅助数据分析中的假设检验过程。假设检验涉及复杂的操作和多种选择,LLM可以成为分析师的有力助手。

概述:LLM在假设检验中的角色

假设检验是数据分析的核心环节,但过程可能复杂且容易出错。我们将探讨LLM如何帮助分析师完成假设检验中的关键步骤,包括假设的制定结果的解释以及方法的验证


1. 使用LLM制定假设 🎯

上一节我们介绍了LLM在假设检验中的总体作用,本节中我们来看看如何用它来精确地制定研究假设。正确的假设是检验的基石。

假设你正在为一家外卖服务公司工作,需要比较周末和工作日订单的平均配送时间。你需要为此场景制定合适的原假设和备择假设。

你可以向LLM提出以下请求:

请为“比较周末和工作日订单的平均配送时间”这一场景制定原假设和备择假设。

LLM可能会给出如下回答:

  • 原假设 (H₀):周末订单和工作日订单的平均配送时间没有显著差异。
  • 备择假设 (H₁):周末订单和工作日订单的平均配送时间存在显著差异。

这个回答为双尾检验提供了基础。但如果你从司机那里听到传闻,认为周末的配送时间更长,并希望对此进行验证,你就需要进行单尾检验

你可以继续追问LLM:

如果我想检验“周末的平均配送时间是否更长”,请提供单尾检验的假设,并使用数学符号表示。

LLM会更新其回答:

  • 原假设 (H₀):μ_周末 ≤ μ_工作日
  • 备择假设 (H₁):μ_周末 > μ_工作日

其中,原假设中的“小于或等于”符号并不影响检验的执行方式,它只是标准的数学表述。


2. 使用LLM解释检验结果 📈

制定好假设并完成检验后,理解统计结果的实际业务含义至关重要。LLM可以帮助你将复杂的统计输出转化为通俗易懂的商业语言。

假设你进行了一项双样本T检验,比较两个客户细分群体的平均购买金额。你得到的检验统计量 t = 2.45,P值为 0.018

你可以请LLM解释这些结果:

我进行了一项双样本T检验,比较两个客户群体的平均购买金额。检验统计量是2.45,P值是0.018。请用商业术语解释这些结果意味着什么。

LLM可能会解释:
检验统计量2.45表明两个群体的平均购买金额存在显著差异。P值0.018意味着,如果原假设(即两个群体平均购买金额相同)成立,我们观察到如此极端差异的概率仅为1.8%。这为拒绝原假设提供了强有力的证据,即在业务上,这两个客户群体的消费行为确实存在可区分的差异。

如果你对P值的概念仍感困惑,可以进一步询问:

请详细解释P值0.018的含义。

LLM会补充说明:
P值 0.018 表示在原假设为真的前提下,观察到检验统计量(此处为2.45)或更极端值的概率是1.8%。这个概率很低,因此我们倾向于认为原假设可能不成立。


3. 使用LLM验证分析方法 ✅

LLM不仅能帮助制定计划和解释结果,还能作为“第二双眼睛”来审查你的分析方法。但必须注意,LLM也可能犯错,需要你保持批判性思维。

设想一个场景:产品负责人要求你调查是否至少有90%的项目预算在计划时间内完成。你审查了25份预算,并计划进行单样本均值T检验,设定假设为:

  • H₀: μ = 0.9
  • H₁: μ < 0.9

为了验证这个方法的有效性,你可以向LLM提问:

我计划用单样本T检验(均值检验)来验证“至少90%的项目预算按时完成”这个命题。我的原假设是μ=0.9,备择假设是μ<0.9。请评估这个方法的有效性(1-10分),并给出评分理由。

LLM可能会给出7/10的评分,并指出“总体均值假设为0.9”。这里就出现了关键错误:90%是一个比例(百分比),而不是一个均值。检验比例应该使用比例检验,而非均值T检验。

此时,你不应全盘接受,而应质疑LLM:

你确定均值检验适用于这个场景吗?

LLM可能会纠正自己:
“抱歉造成了混淆,你是对的。由于你在检验一个比例(90%),使用单样本比例检验(例如z检验)会更合适。”

你可以继续追问以确认:

那么,使用比例检验是否能得到更准确的结果?

LLM会肯定这一点,并指出比例检验在标准差和检验统计量的计算上与均值检验不同。

这个例子提醒我们,在使用LLM辅助决策时,必须对其输出保持警惕,并用领域知识进行交叉验证。未来,你可能会使用比本演示中(基于GPT-3.5)更强大的模型,但审慎核查的原则始终不变。


总结

本节课中我们一起学习了如何利用大型语言模型辅助假设检验的三个关键环节:

  1. 制定假设:LLM可以帮助将业务问题转化为精确的统计假设,包括单尾或双尾检验的设定。
  2. 解释结果:LLM能够将统计量(如t值、P值)翻译成直观的商业结论,便于向非技术人员传达。
  3. 验证方法:LLM可以作为思维伙伴,帮助审查分析方法的适用性,但分析师必须保持批判性,识别并纠正其可能出现的错误。

记住,LLM本质上是语言的统计模型,并非全知全能。在数据分析的每一步,都需要你——分析师——进行最终的判断和核实。在接下来的课程中,我们将看到能够编写和运行代码的LLM如何进一步帮助执行实际的假设检验。

150:使用LLM进行统计推断 📊

在本节课中,我们将学习如何利用大型语言模型(LLM)来执行统计推断任务,特别是假设检验。我们将通过一个具体的薪资比较案例,演示LLM如何编写并运行代码来完成双样本T检验,并解释其结果。


如何让LLM执行假设检验任务

上一节我们介绍了假设检验的基本概念,本节中我们来看看如何让LLM实际执行一个假设检验任务。

假设你需要比较两个部门的平均薪资。客户支持部门的平均薪资为65000美元,标准差为8000美元,样本量n=40。采购部门的平均薪资为68000美元,标准差为9000美元,样本量n=35。你需要执行一个双样本假设检验,以判断采购部门的平均薪资是否更高。

“执行”在这里意味着LLM需要编写并运行代码,进行实际计算。如果你使用传统的大型语言模型,当你要求它执行此类检验时,它通常只会列出步骤,你需要自行完成计算。然而,我们使用的是具备高级数据分析功能的ChatGPT,它能够直接为你执行这些步骤。


LLM执行双样本T检验的过程

以下是LLM执行检验的步骤概述:

  1. 定义假设

    • 零假设(H₀):采购部门的平均薪资等于或低于客户支持部门。
    • 备择假设(H₁):采购部门的平均薪资高于客户支持部门。
    • 这是一个单侧检验,因为我们只关心采购部门薪资是否“更高”。
  2. 选择检验方法:LLM将使用双样本T检验

  3. 计算检验统计量:LLM会应用公式来计算t统计量。该公式与你之前见过的其他例子相似。

    • 检验统计量公式(近似):t = (mean1 - mean2) / sqrt((sd1^2/n1) + (sd2^2/n2))
    • 自由度公式:LLM会自动计算一个复杂的合并自由度公式,这省去了你手动计算的麻烦。
  4. 生成结果:LLM会输出计算结果,包括:

    • t统计量(约1.52)
    • 自由度(约68)
    • P值(约0.067)
    • 临界值(定义了拒绝域的边界)


验证LLM的代码执行

在解读结果之前,你应该验证模型是否确实运行了代码来计算这些统计量。你可以点击“查看分析”按钮来检查模型实际执行的代码。

在代码中,你可以看到:

  • 模型定义了计算所需的各种统计量(均值、标准差、样本量)。
  • 它执行了计算检验统计量和自由度的代码。
  • 它使用累积分布函数(CDF)补集规则来计算P值,这与你在其他假设检验中使用的方法一致。
  • 它还定义了显著性水平α,并计算了前面提到的临界值。


结果解读与可视化

根据你的知识,如果显著性水平α设为0.05,而得到的P值为0.067,那么这个结果是否具有统计显著性?

虽然P值相对较低,但它没有达到我们设定的0.05的显著性水平。因此,我们无法拒绝零假设。结论是:没有足够的证据表明采购部门的平均薪资显著高于客户支持部门。

为了更直观地理解,我们可以要求LLM将此次检验可视化。它会编写代码生成一个类似于本课程中常见的图表。

生成的图表显示:

  • T分布曲线
  • 红色区域代表α=0.05时的拒绝域
  • 垂直线代表检验统计量(t=1.52)
  • 从图中可以直观看出,检验统计量并未落入红色拒绝域内。虽然这个t值相对罕见,但尚未达到我们的显著性阈值。


LLM的实用性与注意事项

你已经看到大型语言模型如何帮助你执行假设检验。它们非常有用,但你必须确保在每一步都仔细检查其输出。


课程总结与后续安排 🎉

本节课中我们一起学习了如何利用LLM执行统计推断中的假设检验,并通过案例进行了实践。

出色的工作!这标志着本模块的结束,你也即将完成这门课程。从直方图、均值、中位数、众数开始,你已经学习了如此多的内容,我为你感到骄傲!

接下来,你将:

  1. 完成一个使用大型语言模型的练习实验。
  2. 完成本模块的评分评估和实验,运用你的假设检验技能分析钻石价格数据。
  3. 完成本课程的顶点练习。在这个练习中,你将扮演一名数据分析师,与一组心脏病专家合作研究心脏病。你的目标是帮助分析与心脏病相关的风险因素,以协助预防工作。你需要综合运用本课程所学的所有知识——从描述性统计到概率分布,再到推断性统计——来完成一份全面、严谨的分析。

完成评分评估、实验以及顶点练习后,我将在最后一个视频中与你见面,讨论你作为数据分析师的下一步计划。

继续努力,我期待在评分评估和顶点练习的另一边见到你!😊

151:数据分析基础 🎯

概述

在本节课中,我们将回顾你在数据分析基础课程中所取得的成就,并展望下一步的学习计划。你将了解到从基础统计概念到实际应用的全过程,以及如何继续提升你的数据分析技能。


回顾学习历程 📊

恭喜你完成了这门课程的顶点项目以及整个课程。

你在统计学领域取得了令人瞩目的进步,这绝非易事。

从最初思考是否能在同事间发起新的生日车传统开始,你已经走过了很长的路。

上一节我们介绍了数据分析的基本流程,本节中我们来看看你具体掌握了哪些核心技能。

以下是你在本课程中学习到的主要内容:

  • 计算集中趋势、变异性和偏度。
  • 在电子表格中模拟概率分布。
  • 使用大语言模型(LLM)进行计算。
  • 计算置信区间和进行假设检验。

你现在已经准备好,在数据分析中运行严谨的统计分析。


持续学习与下一步 🚀

数据分析领域还有很多知识需要学习。

这项工作最吸引我的一个方面是,即使工作多年,我每天依然能学到很多新东西。

因此,我希望你能加入本系列的下一门课程。

下一门课程是 《使用Python进行大规模数据分析》

在Python编程课程中,你将学习以下核心内容:

  • Python编程语言的基础知识。
  • 如何使用Python进行数据分析、数据清洗和可视化。
  • 如何使用pandasseaborn库。

你将运用所学的所有统计学知识乃至更多技能,来创建严谨、可扩展且美观的分析报告。


总结与展望 ✨

本节课中我们一起回顾了你在数据分析基础课程中的学习成果,并规划了下一步的学习路径。

你已掌握了从描述性统计到统计推断的一系列关键技能,为进行实际数据分析打下了坚实基础。

我的最后一个问题是:

我能在下一门课程中再次见到你吗?

毫无疑问。

再次祝贺你完成这门课程,我们下一门《Python数据分析编程》课程再见。

posted @ 2026-03-26 08:16  布客飞龙II  阅读(0)  评论(0)    收藏  举报