商业决策的数据分析

原文：Data Analysis for Business Decisions

译者：飞龙

协议：CC BY-NC-SA 4.0

前言

在商业快速发展的环境中，数据是一个关键资产。能够分析和从数据中提取见解的能力可以显著影响公司的战略决策和整体成功。本书是为寻求提高其统计分析技能并利用这些见解做出明智商业决策的商业分析师所写。

数据分析是检查、清洗、转换和建模数据的过程，以发现有用信息、得出结论并支持决策。在商业环境中，它涉及使用统计技术来解释数据、识别趋势并做出可以指导战略举措的预测。随着数字化和新技术近年来产生的海量数据，企业依赖于数据驱动的决策。本书通过提供涵盖从基本描述性方法到多元回归和预测等高级技术的广泛统计技术的实际案例研究和练习来满足这一需求。

本书因其实用方法而独特，使用当今最常用的分析工具（Excel、R 和生成式 AI）进行的练习。每个平台都有其优势和劣势，本书旨在为读者提供全面理解如何有效地利用每个工具进行各种类型分析的能力。通过完成这些练习，商业分析师将获得将统计方法应用于现实世界商业场景的实践经验。这种实践经验对于发展将原始数据转化为可操作见解所需的分析技能极为宝贵。

初章介绍了在商业环境中数据分析的基础概念，涵盖了数据作为战略资产的重要性、商业智能与商业分析之间的区别，以及不同类型数据分析算法的概述。它强调了正确提问这一关键的第一步，讨论了如何将商业需求转化为精心设计的分析问题，并提供了通过数据分析有效解决问题的指导方针。

在分析开始之前，数据必须进行清理和准备。这包括数据准备中的基本步骤，包括数据清理、塑形和格式化，提供了实际例子和练习，帮助读者发展使用 Excel 和 R 等工具准备数据分析所需技能。本书介绍了一套全面的分析工具，这些工具是现代数据分析和统计计算的基础。提供了关于如何安装和使用 Excel 的分析工具包、R 及其界面 Jamovi 以及生成式 AI 工具如 ChatGPT 的详细说明。

描述性统计，对于理解数据至关重要，得到了彻底的解释，包括集中趋势和变异性的度量。通过案例研究，读者学习如何使用 Excel、R 和生成式 AI 应用这些技术。本书还涵盖了直方图的创建和解释，提供了实践练习，展示了如何生成和解释这些可视化。帕累托分析作为一种识别数据集中最显著因素的方法被介绍，提供了使用 Excel、R 和生成式 AI 进行帕累托分析的逐步说明。

散点图，用于检查变量之间的关系，通过生成和解释这些图表的实践练习进行解释。随后，本书转向更高级的技术，如相关分析和线性回归，提供了详细的案例研究，展示了如何使用各种工具进行这些分析。多元回归，将线性回归扩展到多个预测因子，得到解释，读者通过实践练习和案例研究学习如何进行和解释这些分析。

预测未来趋势是商业分析的重要方面，因此讨论了时间序列分析和预测技术，提供了使用不同分析工具应用这些技术的实际示例。推断统计，允许分析师从样本对总体进行概括，也包括了重要的推断技术，如 t 检验和卡方检验。通过案例研究，读者学习如何应用这些技术来测试假设并得出结论。

概率分析，它考察了分类变量之间的关系，通过实际练习来展示其应用。A/B 测试，一种比较两个变量版本以确定哪个表现更好的方法，通过示例说明了如何使用 Excel 和其他分析工具进行 A/B 测试。文本数据挖掘，涉及从文本数据中提取有意义的信息，介绍了涉及文本分析的技术，如词频和情感分析，并使用 Excel 和生成式 AI 等工具进行解释和演示。

处理大数据集需要特殊的技巧和工具，本书探讨了分析大数据的方法，包括抽样和专用软件的使用。实际练习展示了如何有效地管理和分析大数据集。有效的数据可视化对于传达洞察力至关重要，书中提供了创建有影响力的可视化指南，并使用各种工具的案例研究展示了数据可视化的最佳实践。

最后几章提供了本书涵盖的数据分析技术的全面总结，强调了每一章的关键要点，并提供了进一步学习和应用的路线图。到本书结束时，读者将开发出强大的数据分析工具包，并对自己将这些技术应用于现实世界的商业问题充满信心。无论你是数据分析的新手还是想提高现有技能，本书都提供了掌握商业决策数据分析的实用和全面指南。

A. Fortino

2024 年 12 月

致谢

这本书反映了我个人的旅程，强化了统计学早期课程和工程师的动手工作。作为一名将工程背景应用于商业的问题解决者，我得到了学生们的巨大帮助，对此我非常感激。其中一些人直接参与了编写许多练习。

我想对刘毅王女士表示衷心的感谢，她的大力支持和帮助。她将书中的练习从 Excel 转换到了 R。此外，我还要感谢杨子阳女士在创建所有练习的 ChatGPT 版本方面所付出的辛勤努力。

我还感谢许多与我合作探索数据分析并共同撰写该领域许多论文的学生，其中一些获奖论文源自他们的毕业设计项目。我想感谢我在纽约大学专业研究学院的硕士研究生，以及参加我 AMA 研讨会并分享这些技术的许多美国管理协会专业人士。

整个 Mercury Learning 团队的编辑和艺术家都表现得非常出色。我想向他们表达我的感激之情。感谢我的编辑 Jim Walsh，他不断要求更多内容，并帮助塑造了一本优秀的书籍。

我想向我的耐心和充满爱心的妻子凯瑟琳表达我的感激之情。我在一个重要的个人转变期间写下了这本书的部分内容：我们从乡村的波基普西搬迁到了令人惊叹的纽约市。从大房子搬到小公寓的压力很大，我同时也在完成这次修订。凯瑟琳坚定不移的耐心和不断的鼓励对我来说是无价的。她的支持帮助我顺利地完成了搬迁并完成了这本书。

第一章

数据分析与商业

从大量数据中提取有意义的见解是关键的商业竞争优势。本章介绍了数据分析的基本概念及其在商业决策中的应用，允许全面探索这个快速发展的领域。

我们首先将数据挖掘定义为在数据中识别有效、新颖、可能有用且可理解的模式或关系的复杂过程。这个定义强调，数据挖掘超越了基本的数据摘要和描述性统计，涉及复杂的算法和技术，以揭示有助于支持关键商业决策的深层洞察。

本章概述了多种数据分析方法，从简单的基于电子表格的工具到高级的分析编程环境，如 R，以及像 RapidMiner、SAS 和 SPSS 这样的强大商业解决方案。我们探讨了这些工具如何使各种分析活动成为可能，从基本的描述性统计到复杂的预测建模和聚类算法。

我们讨论的核心是 Clive Humby 在 2006 年提出的隐喻“数据是新石油”。这个类比提供了一个有用的框架，用于理解将原始数据转化为可操作商业见解的过程。正如原油必须被提取、精炼和加工以生产有价值的产品一样，原始数据必须被清理、分析和解释，以产生有意义的、可以推动商业决策的信息。

我们接着考察数据驱动的决策过程，说明了数据是如何转化为信息，然后成为组织内知识和行动的基础。这个过程强调了数据分析师作为数据转换者或“提炼者”的关键作用，他们为组织的决策引擎提供有价值的见解。

本章还明确了商业智能（BI）与商业分析之间的区别。虽然 BI 侧重于对过去事件的描述性分析和报告，但商业分析采用更复杂的技术来回答关于因果关系、趋势和未来预测的复杂问题。我们讨论了在商业世界中执行高级分析的能力为何越来越有价值，即使基本的数据分析技能变得越来越普遍。

此外，我们介绍了数据仓库及其与数据分析的关系。我们解释了数据仓库是如何被设计来促进复杂的分析查询，这些查询在操作或交易系统中执行可能是不切实际或低效的。

最后，本章展示了几个案例研究，说明了各种数据分析技术在现实商业场景中的应用。这些示例展示了不同的算法方法如何被用来解决具体商业问题，对比了从复杂的数据分析中获得的认识与通过简单的描述性分析获得的认识。

到本章结束时，读者将对数据分析的原则及其在现代商业决策中的关键作用有一个坚实的理解。这种理解有助于理解本书后续章节中具体技术和应用。

数据分析与商业简介

数据分析算法与活动

我们可以根据所使用的工具将需要通过数据分析技术管理的商业决策问题进行分类。对于简单的数据分析，通常使用电子表格工具，如 Microsoft Excel。尽管电子表格很有用，但它们通常无法有效地解决复杂的数据分析问题。对于这些，必须使用算法，如回归或聚类，这需要分析编程工具，如 R，或商业工具，如 RapidMiner、SAS 或 SPSS。图 1.1 展示了一些数据分析方法、算法和应用的示例。

图 1.1 一些数据分析方法、算法和应用的示例

本章末尾详细介绍了这些活动如何有效地用于回答商业问题的案例。

“数据是新石油”

2006 年由 Clive Humby 提出的“数据是新的石油”这一说法在今天的商业环境中经常被听到。这个隐喻强调了在管理中拥抱数据驱动决策的重要性。它象征着管理数据以实现可操作洞察以做出商业决策的过程。让我们探讨其对分析师的影响。隐喻的元素及其等价物总结在图 1.2 中。

图 1.2 比较数据和石油的图表

图中的原材料是原油，它被与数据进行了比较，数据是商业的原材料。就像单独的石油一样，数据仅仅存在并不能提供任何显著的好处。它必须经过处理才能产生有益的效果。石油必须从周围环境（岩石和土壤）中提取出来，并进行收集、运输和储存。数据也是如此。在应用分析工具提取有用信息之前，数据必须被清理、塑形并妥善储存。

作为一种原材料，石油在蒸馏成易于消费和轻易转化为能量的副产品时最为有用。因此，我们从天然石油中提炼出各种产品：原油、汽油、煤油和其他有价值的蒸馏物，如苯。数据也必须“蒸馏”成有用的信息产品。数据“蒸馏”过程就是数据分析。一些分析过程是直接使用交叉表和直方图进行的简单描述性统计摘要。其他则是更复杂精细的分析，例如预测分析产品，这需要诸如决策树或聚类等复杂技术。将分析应用于数据会产生信息，我们将这些信息封装成事实并总结成结论。

独立的石油蒸馏物通常不会产生有用的功。它们可以被燃烧产生热量（家用供暖炉）和光（煤油灯）。最有用的转换过程是汽油燃烧发动机，它产生机械动力。我们需要一种机制将石油蒸馏物转化为功。这类似于从数据中获得信息和洞察。了解事实很重要，但当他们转化为行动时，对公司的价值就更大了。对于一家企业来说，将数据转化为有用活动的组织是决策团队。无论是单个高管、经理还是委员会，都存在一个商业决策过程，它消耗分析师产生的信息并生成对业务有用的决策。由分析师提供信息的决策组织团队处理的信息成为现实世界的洞察。分析师是数据通过分析过程转换的“变压器”或“蒸馏者”，生成事实和结论。他们为组织的决策“发动机”提供燃料：负责采取行动的经理和主管。

数据驱动决策

当我们分析数据时，它变成了信息，进而成为知识的基础。作为数据分析师，我们的角色是将数据转化为信息，并将结果事实呈现给我们的商业同事以协助决策。图 1.3 提供了这一过程的详细描述。

图 1.3 数据驱动决策过程

商业分析与商业智能

在大多数领域都使用了专业术语。当同一术语在不同领域有不同的定义或与其他术语的含义重叠时，可能会令人困惑。以下是本书中使用术语的简要描述。

商业智能是一种需要计算描述性结果的分析。它解释了发生了什么，给出了数量的水平，并报告了物品、人员和资金在各个类别（账户）中的流入和流出。它帮助我们报告过去的情况。甚至可以设置在特定情况发生时触发警报，例如当银行账户的基金水平低、库存水平可能需要补充、人员流动率超过预设水平，以及费用水平超过预设预算金额时。

通常，复杂的企业资源管理 (ERP) 信息系统，如 Oracle 金融，或客户关系管理 (CRM) 系统，如 Salesforce，提供报告工具以生成这些基于数据的报告。这些工具被称为 BI 工具。这些工具不被视为数据分析工具，但它们非常适合从企业交易数据库中提取数据以进行数据分析。我们使用简单的汇总工具，如制表和聚合。通常，我们称这种分析和报告工作为数据分析。

这些工具不应与更高级的分析方法混淆，这些方法利用过程和算法进行数据分析，我们称之为商业分析。这些高级工具帮助我们回答更深入的问题，例如“为什么会发生这样的事情？”，“趋势是什么？”，以及“接下来会发生什么（预测）？”它们需要更复杂的算法、谨慎的使用以及对更多工具和方法的深入了解。此类工具的例子包括 IBM SPSS、SAS Enterprise Guide 和 Rapid Miner。首先，必须从企业数据库中提取数据，通常使用 SQL 语言。随后，应用概述的算法需要知识和专业知识。我们将这种努力称为“数据分析”，以区别于数据分析中更简单的汇总工作。

数据分析能力对于大多数商业工作人员来说已经成为常态。他们被期望能够使用如 Excel 等分析工具，并提供有说服力的总结和数据驱动的证据来支持他们的常规报告。然而，数据分析需要更多的努力和专业知识，因此在企业办公室工作人员中，应用数据分析的能力非常宝贵。正如图 1.4 所示，数据分析（或商业分析）比不那么复杂的数据分析（或商业智能）具有更大的价值。

图 1.4 商业分析与商业智能之间的区别

目前通过 BI 工具提供基本数据分析能力的 CRM 和 ERP 系统，将演变为包括更高级的数据分析工具。因此，商业智能最终将包括商业分析。

与数据分析相关的算法技术

数据分析，或数据分析，包括使用许多复杂的算法。这些算法通常作为学术练习开发，或者为其他领域的应用而开发。图 1.5 展示了这类算法的八个主要分类，以及每个分类中最突出的例子。这些算法将依次进行讨论。这些算法是基于计算机的，大多数是由计算机科学家开发的。科学家经常需要分析大量数据，例如在天文学领域，因此他们与计算机科学家合作，开发了导致数据分析进步的算法。另一个例子可以在统计学中找到。统计学家需要从临床试验中创建复杂的流行病学数据分析，或者在各种条件下创建准确的人类寿命模型，以定价保险产品。我们称后者类型的数据分析师为精算师。我们从这些早期工作者那里获得了今天用于商业分析的许多复杂计算机工具。整个领域已经发展成为一个繁荣的行业，今天被称为数据科学：不断发展的更复杂的数据分析算法。

图 1.5 与数据分析活动相关的算法技术

数据分析与数据挖掘

另一种与数据分析紧密相关的技术是数据仓库。正如之前所讨论的，企业数据是通过使用如 ERP 和 CRM 等商业系统进行存储和处理的。这些工具允许组织以有组织和安全的方式捕获交易数据（如销售、发票、付款、客户订单、库存转移、财务交易和人员变动）。组织此类数据的数据库格式首选是关系数据库管理系统或 RDBMS。与这类系统的交互通常是通过为这些目的而设置的应用程序（如应付账款、工资和库存控制）来进行的。这些系统也使用 SQL，用于设置、管理和提取此类系统的信息。我们需要使用 SQL 来运行查询，以提取我们进行数据分析所需的数据。

这些系统针对交易处理进行了优化。嵌入在这些系统中的数据分析报告工具针对直接的商业智能分析进行了优化。使用这些系统可以轻松获得日常运营问题。使用这些 BI 工具获得更多战略问题的答案通常很困难，需要大量的努力。非常经常，这些需要数据分析方法。有一种技术可以使回答战略问题更容易：数据仓库。

一旦我们知道了我们希望定期提出和回答的战略问题类型，就会建立一个系统，在该系统中，查询是在操作数据库上运行的，提取的数据会被上传到这个新的数据结构中，以便于查询战略问题。交易系统的数据库结构通常非常复杂，使用许多相互关联的表来支持复杂的应用系统。数据仓库的结构则简单得多，更容易查询和提取用于数据分析的表。数据仓库数据库会定期从交易系统中加载，以保持其最新状态。提取和加载的查询一旦编写，就会多次运行，为数据分析活动奠定基础。

总结来说，数据分析可以从操作、交易系统中提取的数据中运行，但这些通常是临时（仅一次）查询。需要数据分析的重复查询是从为这种数据分析活动设置的数据仓库中运行的。因此，数据仓库被用于明确的目的，即使用数据分析进行商业分析活动。

案例分析 1.1：数据分析的商业应用

以下是一些数据分析任务的示例，可能用于实现它们的算法，以及数据分析将回答的问题类型，与业务智能活动所回答的更简单的描述性问题的类型形成对比。

案例 A：描述性统计

数据分析活动描述

预测数据点是否属于预定义的类别之一。预测将基于从非数据集的学习。

数据分析算法

决策树、神经网络、随机森林算法、贝叶斯网络模型、归纳规则和 k 最近邻

数据分析框架问题

根据已知的投票人口统计数据，哪些选民属于哪些政党？

描述性分析框架问题

按政党和国地理区域划分的投票数是多少？

案例 B：直方图、帕累托图和相关性

数据分析活动描述

预测数据点的数值目标标签。预测将基于从未知数据集的学习。

数据分析算法

线性回归和逻辑回归

数据分析框架问题

明年的失业率是多少？特定保险工具的保险费应该多少？

描述性分析框架问题

去年有多少人失业，按人口统计特征分组？我们从特定保险工具的销售中获得了多少收入？

案例 C：线性回归和时间序列分析

数据分析活动描述

预测数据点是否是数据集中其他数据点的异常值。

数据分析算法

基于距离、密度和局部异常值因素的

数据分析框架问题

上个月哪些信用卡交易是欺诈的？

描述性分析框架问题

上个月处理的信用卡消费总额是多少？

案例 D：推断分析

数据分析活动描述

根据历史事件预测未来时间框架的目标变量的值。

数据分析算法

指数平滑、自回归积分移动平均（ARIMA）和回归

数据分析框架问题

下个月、下个季度和明年的销售额将如何？下个季度的生产预测将如何？

描述性分析框架问题

上个月、上季度和去年的销售额是多少？我们上季度、上个月和去年生产了多少项？

案例 E：聚类

数据分析活动描述

根据数据集中固有的属性识别自然聚类。

数据分析算法

k-means 聚类、基于密度的聚类和随机森林聚类

数据分析框架问题

根据交易、网络活动和客户呼叫数据，使用客户信息对客户数据库进行细分，以进行数据库营销。

描述性分析

按呼叫类型、地理位置和客户终身价值，有多少次呼叫？

参考文献

Humby, Clive. “数据是新石油。” Proc. ANA Sr. Marketer’s Summit. Evanston, IL, USA (2006).

第二章

框架分析问题

将原始商业数据转化为可操作见解的过程始于一个关键但常常被忽视的步骤：构建分析问题。本章探讨了在制定有效的分析问题中所涉及的基本技术和考虑因素，这些分析问题能够推动有意义的商业分析。

这一过程的核心在于分析努力必须以组织的宗旨和目标为基础。我们首先检查 CRISP-DM（跨行业数据挖掘标准流程）参考模型，该模型强调在将目标转化为数据挖掘问题定义之前，从商业角度理解项目目标的重要性。

本章介绍了一种结构化的方法来发现和阐述商业信息需求。我们探讨了商业数据分析师在将通常模糊的组织信息请求转化为可计算、结构良好的问题的作用。这一转换过程至关重要，因为它架起了商业目标和数据分析技术之间的桥梁。

我们讨论的核心概念是情境分析。我们深入探讨了理解更广泛的商业环境、行业动态和关键绩效指标（KPIs）的重要性，这些指标驱动信息需求。这种情境理解确保分析工作不仅满足即时信息请求，还解决潜在的性能差距和战略目标。

我们介绍了 SMART 框架（具体、可衡量、可实现、相关、时间相关）作为评估和改进分析问题的工具。这个框架有助于确保构建的问题具有针对性、可计算性、可用技术可解答、适用于商业，并考虑时间因素。

本章还探讨了问题构建的迭代性质，承认初始问题集可能会随着分析进程的推进和新见解的出现而演变。我们讨论了在生成广泛潜在问题时的发散性思维的重要性，以及在优先考虑最关键问题以进行即时分析时的收敛性思维的重要性。

为了说明这些概念，让我们考虑三个详细的案例研究：泰坦尼克号灾难分析、旧金山机场调查和小企业管理局贷款项目。这些案例展示了问题构建技术在各种商业场景中的实际应用，从历史事件分析到当代商业绩效评估和公共政策评估。

在整章中，我们强调了构建良好的分析问题在推动有效数据分析中的关键作用。通过掌握问题构建的艺术，分析师可以确保他们的工作与组织目标紧密一致，最大化可用数据的价值，并为决策者提供可操作见解。

本章为后续章节中探讨的分析技术和方法奠定了基础，强调了分析质量从根本上取决于提出的问题质量的原则。随着我们通过本文本，读者将更深入地理解良好构建的问题如何指导选择适当的分析工具，并在业务决策的背景下塑造结果解释。

构建分析问题

CRISP-DM（跨行业数据挖掘标准流程）参考模型是任何数据挖掘项目都有用且实用的流程。该模型由 CRISP-DM 联盟（CRISP-DM99）开发。流程的第一步是确定并记录要分析的问题的业务理解。Wirth 和 Hipp（2000），两位项目发起人，将该方法总结如下：“这个初始阶段侧重于从业务角度理解项目目标和需求，然后将这些知识转化为数据挖掘问题定义，以及一个旨在实现目标的初步项目计划。”

图 2.1 CRISP-DM 模型和构建分析问题

在本章中，我们采用一种实用的方法来揭示分析项目背后的业务需求。它强调了在过程中制定良好构建的分析问题的重要性。本章包含的练习旨在帮助读者发展确保他们的分析项目由业务需求驱动的必要技能。

业务数据分析师的世界

在业务环境中进行数据分析支持业务决策。为了有用，数据分析必须由良好构建的分析问题驱动。存在一个完善的过程来创建良好构建的问题。将组织的信息需求转化为可计算的框架问题是数据分析师的基本任务，他们随后寻求回答这些问题。凭借他们在分析方面的专业知识，了解可以做什么，以及了解分析后的结果可能是什么，数据分析师是创建基于信息需求的可计算任务的最佳人选。信息需求是由需要事实来做出决策的业务经理和员工提出的问题。框架问题是分析师在将信息需求转化为可计算查询时的产物。图 2.2 展示了业务数据分析师遵循的一些步骤，以展示他们调查的结果。

图 2.2 分析师的世界：业务信息需求分析过程

尽管图表显示了在背景步骤之后跟随的业务信息需求，但确定信息需求通常是第一步。一位高管、一位经理或同事向业务分析师提出信息请求，以发现一些紧迫的商业问题的答案。这个请求，称为商业信息需求，通常用模糊的术语表达：“这个月我们盈利了吗？；” “你认为为什么过去六个月发货会延误？；” 或者 “我们超预算了吗？”

分析师不能立即给出答案。这些问题不是以可以立即计算的方式提出的。因此，分析师必须将需求转化为可用于计算的提问。我们把这些称为框架化的分析问题。

此外，分析师有责任调查驱动信息需求的企业背景。他们必须做一些额外的工作。这样，在回答框架化的分析问题时，他们不仅满足直接需求，还提供了支持驱动需求的基本背景。因此，除了创建分析问题外，分析师必须回顾问题的背景，并对其进行分析，以解决驱动信息需求的企业问题。背景与业务所在行业、公司使用的商业模式以及推动组织管理的 KPIs 的当前状态有关。Max Shron 在他的书中很好地展示了思考数据的过程，即《思考数据》（2014 年）。他提出了 CoNVO 模型：（Co）背景，（N）信息需求，（V）包括框架问题的解决方案愿景，以及（O）结果。我们在这里使用了他的一些观察和流程模型。

数据分析如何与商业决策制定相关联？

我们通过将分析技术应用于我们收集和整理的数据集来回答框架化的分析问题。将分析应用于数据会产生信息：我们作为分析师，变得知情。在分析过程的最后，我们成为了该商业问题的主题专家（SMEs），成为目前该主题上最知情的人。我们将我们的发现作为事实和结论，并可能向我们的同事和管理者提出一些建议。利用我们的发现，他们处于最佳位置采取行动（做出决定）：他们知道应该做什么。因此，经过分析的数据变成了信息（我们变得知情），然后成为知识的基础（知道该做什么）。作为数据分析员，我们的任务是转换数据为信息，并将所得的事实提供给我们的商业同事以供决策。图 2.3 详细描述了这一过程。

图 2.3 数据驱动决策过程

我们如何构建分析问题？

将模糊（可能不太规范）的信息需求转化为可计算、良好框架的问题集是分析师的关键步骤之一。分析过程的一种“原材料”是信息需求。必须逐字逐句地解析并拆解它，以推导出其实际含义。从这个解析过程中，可以彻底理解为了得到良好的答案必须计算的内容。在解析过程中，分析师会询问信息请求的每个要素：“这是什么意思？”我们寻求定义和清晰度。答案还提供了对需要收集的数据要素的理解。

解析过程带来了对分析的其他要素的理解：

a.需要研究的是哪个总体（数据表的行）？

b.必须填充数据库以收集哪些变量或特征（列）？

c.最重要的是，需要哪些计算来使用这些变量（框架问题）？

随着分析师开始理解请求要素的含义，分析过程中需要回答的问题就会形成。定量问题（什么、谁、多少和何时）将屈服于分析师所掌握的分析工具。这些问题可以通过分类变量的表格化或对数值变量应用数学工具来回答。在这个阶段，根据分析师对机器学习和其他数据科学工具的熟悉程度，他们可以制定使用更复杂工具来回答问题的方法。这些问题就变成了框架分析问题。

在这个阶段，尽可能多地生成可计算的问题会得到最佳结果。在头脑风暴中，我们进行发散性练习，收集我们希望了解的所有可能的问题。然后，在开始分析之前，我们进行收敛性练习，优先考虑头脑风暴中的问题，寻找最需要优先解决的问题。通常情况下，随着分析工作的进行，会发现新的重要框架问题，并可能将其添加到工作中。因此，初始的框架问题集不需要完整。即便如此，仍需注意从一个合理良好的框架问题集开始。

良好框架的分析问题的特征是什么？

良好框架的分析问题表现出与我们已关联的良好框架目标和目的相同的特征：它们必须是 SMART 的。通常，SMART 目标和目的是

• 明确	针对特定领域进行改进或实现目标。
• 可衡量	量化或至少提出一个衡量向该目标迈进进展的指标。
• 可分配	指定谁将执行它以及涉及的人员。
• 可行	根据可用资源，声明可以实现的结果。
• 时间相关	指定何时可以实现结果。

当应用于框架分析问题时，这些概念可以解释为（参见图 2.4）：

• 明确性	框架问题必须具有针对性和详细性。
• 可衡量性	框架问题必须是可计算的。
• 可达性	框架问题必须能够被将要进行分析的分析师所掌握的技术回答。
• 相关性	框架问题的答案必须适用于业务。
• 时间相关	分析中应考虑一些时间元素。

图 2.4 SMART 优化的分析问题

信息需求通常用模糊和非具体术语来描述。因此，这些信息需求并不总是与 SMART 标准相一致。虽然有些信息需求是具体的，可以不经过进一步分析就得到解决，但在大多数情况下，需要更具体的框架。

学习的最佳方式是实践。在下面的练习中，我们将上述步骤应用于一个经典情况。我们想了解泰坦尼克号船员在应对沉船灾难时是否遵循了海上法。

分析案例 2.1：关于泰坦尼克号灾难的框架问题

案例分析

想象一下，你为一家著名的报纸工作。你的上司是报纸的新闻编辑。现在几乎到了泰坦尼克号灾难的一百周年。编辑指派了一名记者来报道这个故事。记者提交了一篇文章，声称“泰坦尼克号的船员在应对灾难时遵循了海上法”。编辑担心这可能不是真的，并指派你来核实这一事实。你决定从分析的角度来处理这个问题。你的分析应该得出以下结论：

信息需求

泰坦尼克号的船员在应对灾难时是否遵循了海上法？

上下文

你为一家报纸工作；它通过其业务流程打印出对公众感兴趣的文章；其收入来源是订阅费，但主要是广告收入。

关键绩效指标和绩效差距

编辑担心报纸上的文章尽可能真实，这就是为什么如此强调核实事实。存在一种担忧，即公众信任报纸发布真实信息，否则将导致读者流失，从而减少订阅量，更重要的是，可能损失广告收入。

信息需求解析

为了将上述信息需求转化为框架可计算问题，我们需要确定以下内容：

a. 我们所说的“船员”指的是谁？这些人当时在决定谁上救生艇时的心态是怎样的？

b. 对于船员来说，“遵循海上法”意味着什么？

c. “海上法”是什么？

d.我们所说的“响应”是什么意思？当我们说对灾难做出响应时，响应看起来是什么样子？船员对灾难采取了哪些行动？

e.“灾难”是什么？是冰山撞击的时候吗？是船员意识到船要沉没的时候吗？是船沉没，救生艇离开的时候吗？

图 2.5 描述了解析过程。

图 2.5 解析请求发展出框架分析问题。

通过研究这个故事，我们确定分配给每个救生艇的船员是登艇的守门人。我们发现他们是被军官分配的普通水手，作为救生艇的守门人。由于泰坦尼克号上的人太多，没有足够的救生艇，这个决策必须由船员来执行。这个决定可能遵循了众所周知的“海上法律”，即“妇女和儿童优先”。水手们被要求在男性登艇之前先让妇女和儿童上船。这是否发生了？如果你找到一个肯定的答案，那么我们可以告诉编辑，记者在故事中是诚实的。事实将支持将故事按原样发布，或者在其印刷前进行修改。

数据集

我们用于此目的的关键数据集是泰坦尼克号的乘客名单(public.opendatasoft.com/explore/embed/dataset/titanic-passengers/table/)。

这个公开可用的数据集显示了 1309 名乘客的名字、年龄（对于一些人来说）、乘客阶级和生存状态。我们数据集中的这些特征或变量将帮助我们形成和回答一些精心设计的问题。该数据集的副本也可以在本书的案例数据存储库中找到。

了解所有关于信息需求及其驱动需求的环境，我们现在准备提出一些分析问题并开始分析。记住这些问题必须是 SMART 的：具体、可衡量（可计算）、可实现、相关，并且包含一些时间元素。

框架分析问题

我们确定了一些计算，这些计算将支持对信息需求的肯定或否定回答。

女性的生存率是多少，它与男性的生存率相比如何？

儿童的生存率是多少，它与成人的生存率相比如何？

他们当然会给我们一个强有力的指示，说明船员是否遵守了海上法律。这将是我们编辑想要回答的问题。但如果我们包括额外的信息，我们可能会得到一个更有价值的答案。我们可以分析男性和女性的生存率，以及儿童的生存率，并按乘客阶级细分这些比率。

按阶级划分，男性和女性的生存率是多少？儿童的生存率又是多少？

这个问题的答案可能会为编辑和记者提供有用的见解，他们可以向故事中添加内容，使其更加有趣。例如，这可能会给故事带来竞争优势，相对于竞争对手杂志上发布的故事。这就是分析师如何为他们的工作增加价值：在满足原始信息需求之外，提供深入的回答，并支持驱动这些信息需求的 KPI。

分析案例 2.2：旧金山机场调查

案例

旧金山机场（SFO）位于机场运营行业。其收入来自两大类，包括（1）航空相关收入，如航空公司费用和乘客费用，通过提供支持服务如行李和货物处理等；（2）租赁空间和非航空相关收入，如特许经营权、广告、停车和零售，通过提供不同品牌的位置和向潜在客户的曝光。此类组织面临的主要压力主要来自三个方面。第一个挑战是竞争环境，其中所有竞争对手都旨在成为美国西部地区的领先航空公司枢纽。第二个挑战是通过提高运营效率来降低成本并增加收入。最后，SFO 还应面对环境影响，公司需要满足政府法规和公众的期望。SFO 的管理层希望表现更好，以在机场行业中生存，并为公司提供可持续的竞争优势。

信息需求

如首席执行官（在这种情况下是首席营销官）所表达，需求是要找出是什么阻止他们达到他们的首要目标，并且他还希望得到一些建议，以改善业绩。该组织在多年的调查中收集了大量数据，但他们没有一种智能的方法来识别影响他们业绩的关键要素。通过智能分析，CMO 期望他们的排名将是第一，并且高端乘客会选择他们。CMO 需要知道为什么旧金山机场不是其类别中排名第一的机场，以及什么可以使旧金山机场成为第一。CMO 还想知道是什么激励了旧金山机场的高端客户，这些高端客户关心什么，以及他们对机场的不满之处是什么。

背景

旧金山国际机场不仅属于交通行业，也属于公共服务行业。在他们所在的领域，尽管机场有一些地区垄断，但他们仍然需要在许多方面与其他附近的机场竞争，例如更多的可选航空公司、更便利的设施和更好的环境，以吸引更多的乘客和航空公司，从而带来更多的收入，这也是他们需要做得更好的原因。分析结果将报告给旧金山机场市场营销部门的 CMO。他们通常试图成为他们类别中作为国际门户机场的乘客排名第一，并成为高端乘客的首选机场。在确定背景后，项目将进行业务分析，以进一步创造业务答案，帮助旧金山机场实现他们的目标。

KPI 和性能差距

关键绩效指标（KPI）是旧金山机场在 ASQ 调查（SFO 2018）中的排名、每位客户的销售收入、客户保留率、客户满意度和客户忠诚度。该组织的目标是（1）作为他们类别中的国际门户机场，在乘客中排名第一，并且（2）成为高端乘客的首选机场。差距是（1）SFO 在最近一年的 ASQ 调查中没有被排名为“第一”，以及如何改进排名以成为第一；以及（2）找出哪些方面每年都有所改进。因此，SFO 的 CMO 有相当大的改进需求，以提高机场排名并满足他们的高端客户。

初始框架分析问题集

在所有评分问题中，哪些因素对最近一次调查中旧金山国际机场的整体乘客满意度影响最大？

在最近的一次调查中，“你如何评价整个机场”这个问题中，哪些因素对客户满意度影响最大？

哪个因素告诉我们客户投诉最多，并衡量我们需要每年改进的最显著的性能差距？

每年，我们高端客户（定义为每年飞行 10 万英里或更多的人）的特征（包括人口统计和心理统计）是什么？

分析案例 2.3：小企业管理局贷款

案例

本案例旨在研究当前 SBA 针对其贷款计划的政策和计划在宏观经济和微观经济方面是否有效。作为一项旨在改善小型企业获得信贷的具体政府干预措施，小企业管理局（SBA）的担保贷款计划就是这样的一个计划。SBA 贷款担保已经建立，并且在过去二十年里其规模显著增长。

背景

越来越多的政策制定者将小型企业部门视为经济增长的潜在引擎。促进小型企业的政策包括税收减免、通过政府贷款计划的直接和间接补贴。鼓励向小型企业贷款是小企业管理局（SBA）贷款担保计划的主要政策目标。

在过去 20 年中，小型企业在美国创造了超过三分之二的新工作岗位。2800 万家小型企业雇佣了 6000 万美国人，占私营部门劳动力的 50%。值得注意的是，小企业管理局（SBA）在美国小型企业的创新和创业中发挥了显著而积极的作用，提供了大量贷款、融资担保、政府采购服务、商业咨询服务以及其他许多服务。在 SBA 提供的各种服务形式中，其中小企业信用融资服务是最成功的服务模式，拥有丰富的实践经验。通过分析美国 SBA 在促进中小企业信用融资方面的实践，为政府提供了在促进中小企业创新和创业发展方面的经验和参考。

为什么这项分析至关重要？

现代市场经济国家，如美国，不断重新审视小型企业在国家经济和社会发展中的战略定位及其影响。现代市场经济国家通常更加关注小型企业的社会价值，并认识到它们在促进经济发展、创造就业机会、维护社会稳定和增强国家竞争力方面具有不可替代的决定性意义。作为一个重要的经济竞争对手，中国也在不断评估小型企业的社会价值，并需要进一步推广小型企业的战略意义以推进其经济发展。美国也必须不断重新评估其政府计划的有效性。

信息需求

本案例旨在研究当前的小企业管理局（SBA）贷款计划政策和计划在宏观经济和微观经济层面上的有效性。作为一项旨在改善小型企业获得信贷的具体政府干预措施，小企业管理局（SBA）的担保贷款计划就是此类计划之一。SBA 贷款担保已经建立，其规模在过去二十年中显著增长。

自 1953 年以来，近 2000 万家小企业从 SBA 的一个或多个项目中获得了直接或间接的帮助。截至 2020 年，SBA 当前的商业贷款组合大约有 219,000 笔贷款，价值超过 450 亿美元，使其成为美国最大的单一小企业金融支持者。在 1991 年至 2000 年期间，SBA 帮助了近 43.5 万家小企业获得了超过 946 亿美元的贷款，超过了该机构在 1991 年之前整个历史时期的贷款总额。在此期间，没有其他贷款机构像 SBA 那样负责如此多的中小企业融资（SBA 2022）。

当考虑到小企业借款人群体中，SBA 贷款担保旨在帮助那些可能无法获得信贷的借款人时，这些贷款数字就显得格外引人注目。是否存在市场失灵，足以证明这种规模干预的合理性？许多经济学家认为，信贷市场——其高效运作高度依赖于贷方收集借款人信息的便捷程度——在借款人性质使得获取这些信息变得困难时，例如在小企业中，确实容易发生失灵。为了了解 SBA 贷款项目如何应对这种失灵（并且没有产生不利副作用），我们还必须确保我们了解失灵的机制，并询问该项目是否仅针对自然市场力量出现断裂的领域进行设计。

关键绩效指标（KPIs）和差距

SBA 小企业贷款项目是否成功？政策制定者特别关注的一个问题是小企业是否有足够的信贷可获取。成长中的企业对信贷有迫切需求，但许多小公司可能难以获得信贷，因为它们成立时间较短，信用记录很少或没有。由于评估这些新产品风险的困难，贷方也可能不愿意为拥有新和创新产品的公司提供资金。如果小企业缺乏足够的信贷供应，政策制定者应该感到担忧，因为下一个谷歌、微软或星巴克可能因为缺乏资金而枯萎。在某种程度上，如果某些市场失灵严重损害了小企业获取信贷的能力，那么就有理由通过旨在改善其获取能力的政府项目来支持这些企业。我们需要使用历史数据来研究该项目的实施是否与其原始意图相同。

初始框架分析问题集

本研究将尝试回答以下商业信息问题：SBA 小企业贷款项目是否成功？为了判断该项目的成功与否，我们选择了一系列可量化的指标和相关框架问题。

以（SBA 的话）“加强联邦政府合作，确保联邦政府采购合同的目标份额达到并超过，从而增加小企业的机会，并加强联邦采购合同认证过程和数据公平性”（SBA 2022）为目标，我们可以提出以下框架问题：

这是否是衡量政府采购中小企业合同份额是否达到联邦政府设定的法定目标的特定、可衡量的指标？

本项目另一个重要的可衡量目标是“增加小企业管理局在教育、咨询和培训资源方面的投资，并帮助新成立的小企业和支持现有的小企业。聚焦核心项目资源以满足普通小企业和高增长小企业的需求”（SBA 2022），我们可以提出以下问题：

支持建立所需最低数量小企业的具体、可衡量的目标是否得到满足？

根据 SBA 设定的目标，“确保小企业管理局向企业、非营利组织、业主和承租人提供灾难援助迅速、有效且高效，以维持就业机会并帮助小企业恢复生产和运营”（SBA 2022），具体的、可衡量的指标是家庭贷款和企业贷款符合法定贷款操作标准的比例。

SBA 是否达到了政府为该机构设定的法定要求的目标？

以“通过现有项目和就业创新加强小企业管理局与高增长小企业和企业家之间的联系，以更有效地推动创新和创造就业机会”为目标（SBA 2022），具体的、可衡量的指标是长期资本的投资。

SBA 是否达到了向高增长技术密集型业务发放相当比例贷款的目标？

小企业管理局（SBA）设定了一个目标，以指导联邦机构了解各种不合理的管理法规对中小企业的不利影响，减轻中小企业的负担，加强中小企业研究，并创造有利的企业环境（SBA 2022）。可衡量的指标包括中小企业各种管理系统的成本。

由 SBA 服务的小企业管理系统的成本是否在中小企业的承受范围内？

参考文献

CRISP-DM 协会. (1999). CRISP-DM 1.0：逐步数据挖掘指南. 从www.crisp-dm.org/获取。

旧金山机场（2018 年）。客户调查数据-2010 年度客户满意度调查，www.flysfo.com/media/customer-survey-data

Shron, M.（2014）。用数据思考：如何将信息转化为洞察力。O'Reilly Media。

美国小企业管理局（2022 年）。倡导办公室，2022 财年国会预算说明和 2020 财年年度绩效报告

Wirth, Rüdiger，和 Jochen Hipp。“CRISP-DM：数据挖掘的标准流程模型。”在第四届国际知识发现和数据挖掘实际应用会议论文集中，第 1 卷。伦敦，英国：Springer-Verlag，2000 年。

第三章

数据准备

在商业分析中，谚语“垃圾进，垃圾出”尤其适用。本章深入探讨了数据准备这一关键但常被低估的过程，这是影响任何分析努力成功的基本步骤。有效地使用原始数据以获得可操作的见解需要细致的清理、塑形和转换工作。

数据准备，虽然耗时，但在分析过程中是不可或缺的阶段。研究表明，数据科学家和分析师将高达 80%的时间花在数据准备任务上。本章旨在使读者具备有效且高效地应对这一关键阶段的知识和技能。

我们首先介绍平面文件格式的概念，这是一种简单而强大的数据组织结构。这种格式以其表格性质、明确定义的行和列而著称，是大多数分析过程的基础。我们讨论为什么这种格式被首选以及如何将各种数据源转换为这种标准化结构。

我们接下来探讨分析师在现实场景中遇到的各种数据源和格式。从数值和分类数据到更复杂的文本数据，我们考察了每种类型的特点和挑战。理解这些区别对于应用适当的清理和塑形技术至关重要。

本章的大部分内容致力于实践练习，这些练习模拟了现实世界中的数据准备挑战。在分析案例 3.1 中，我们考察了将复杂的预算报告重塑为适合数据透视表分析的平面文件格式的任务。这个练习不仅展示了转换过程，而且还突出了适当的数据准备如何揭示原始报告中的错误，强调了这一常被忽视的步骤的价值。

分析案例 3.2 专注于清理一家制药公司测试的数据集。这个练习展示了常见的数据清理任务，如纠正转录错误、处理缺失值和确保数据一致性。它展示了数据字典的重要性以及仔细验证清理数据的必要性。

然后，我们通过两个重要的案例研究，进一步探讨更高级的数据准备技术。分析案例 3.3 处理的是旧金山国际机场（SFO）调查数据集的清洗和塑形，展示了如何处理大规模分类数据，并删除无意义的条目以提高分析质量。

分析案例 3.4 介绍了 R 在数据准备中的应用，重点关注小企业管理局（SBA）贷款数据集。这个案例研究展示了如何利用编程工具进行高效的数据操作，包括创建新变量、数据分箱和处理日期——这些技能在处理大型数据集时非常有价值。

在这些练习中，我们强调数据准备过程的迭代性。这是一个需要耐心、关注细节，并且通常需要多次清洗和验证的过程。我们还强调理解数据背后的业务背景的重要性，因为这种知识在整个准备过程中指导着决策。

到本章结束时，读者将理解数据准备不仅是一个初步步骤，而且是分析过程的一个组成部分。在这里获得的能力为所有后续分析奠定了基础，确保所得出的见解基于干净、结构良好的数据。随着我们继续阅读本书，这些数据准备技术的重要性将越来越明显，强化了掌握这些技能对于任何有志于成为商业分析师的人来说是至关重要的。

数据准备

准备分析数据集的步骤

在第一组练习中，我们考虑了塑形和清洗数据文件的重要性。图 3.1 展示了数据清洗周期，其中包含许多准备数据分析所需的活动，从导入数据、合并数据集、标准化和归一化数据、重建缺失数据、去重，到验证和丰富数据集。目标是生成一个以平面文件格式存储在 Excel 中的数据集。当以该格式表达时，表的第行必须包含所有变量名；每一行都是同一性质，且没有空行或列。表区域之外的所有行和列应无数据。一旦达到这种格式，表格就准备好进行分析，并且我们可以安全地应用 Excel 的许多分析工具。

图 3.1 数据清洗周期

数据源可能多种多样；有时，我们通过 SQL 查询从数据库管理系统（DBMS）中提取数据。其他时候，我们可能获取一个以逗号分隔的值文件（带有.CSV 扩展名），或者我们可能获取一个格式化的文本文件（带有.TXT 扩展名）。许多数据集是从 HTML 格式的网页中抓取的。

一旦我们练习了以各种格式加载数据，我们将在 3.1 练习中探索清理数据。我们使用一个包含几个需要纠正的错误的小数据文件进行练习。然后，你将被引导到原始数据中找到原始值。这个练习让你有机会在 Excel 中练习许多使数据清理过程高效的工具。

整个从抓取、上传、清理、标注到塑形数据文件的过程被称为数据整理。许多研究表明，这个过程既繁琐又可能占用执行分析所需总时间的 80%。然而，对于数据分析的成功至关重要。你在使用清理和塑形工具方面的技能越熟练，你在使用它们方面的智慧越高，你开始分析的时间就越早，找到答案所需的时间就越少。

数据来源和格式

分析师必须处理许多不同的数据来源和格式。各种数据变量类型如图图 3.2 所示。最常见的业务交易数据类型是数值和分类。计算机化数据首先收集然后存储以分析财务交易。分析的重点通常在于汇总数值数据，这可以通过基本的数学公式如平均数、总和、最大值和最小值轻松完成。分类数据的汇总曾经很复杂。最初，分析师只能对分类数据进行制表，计算每个类别的发生次数。直到 Excel 数据透视表工具的出现，详细评估分类数据才变得像分析数值数据一样简单和普遍。

文本数据评估起来要复杂得多。它要求我们计算单词，但大部分工作还需要手动进行分类和量化。我们将处理文本数据的工作留给更高级的文本。

图 3.2 对两种数据格式和四种变量类型进行分类

数值数据和分类数据是最常见的数据类型，如图图 3.4 所示。我们使用标准技术来处理这些数据类型，例如数据透视表和数值汇总函数。随着社交网络和复杂数据工具的出现，文本数据分析现在更加丰富，其分析也更加普遍。

为了优化抓取和塑形过程，最终以适合分析的正确格式生成数据，了解数据可以找到的位置以及它存在的形式是至关重要的。在本章中，我们讨论了我们接收数据的各种形式。

什么是数据塑形？

数据以各种形状和大小来到我们身边，正如我们在上一章所看到的。对于我们的大多数分析工具来说，数据应该以表格格式呈现。数据集的塑形意味着将其从数据获取的任何形状（例如报告、SQL 查询输出、CSV 文件或 Excel 文件）转换成适合我们工具分析的适当格式。

数据分析师花费大量时间在数据清洗和塑形上。2016 年，数据科学公司 Crowdflower 进行的一项调查显示了任务分解和完成每个任务所需的时间（图 3.3）。

图 3.3 清洗、塑形和分析的典型比例（Crowdflower 16）

平面文件格式

在当今，将数据存储在简单的行列结构中是很常见的，通常使用 Excel 电子表格来完成。这种格式存在许多局限性，可以通过复杂的数据结构来克服，例如关系型数据库管理系统（RDBMS），包括索引、存储经济性、更易检索以及额外的海量数据集。企业数据有时可能使用这些更复杂的系统进行存储，但为了使用这些数据来回答问题，我们需要从这些复杂系统中提取数据，并以行列的简单形式呈现给分析师。

平面文件也可以被视为一个数据库，尽管是一个简单的数据库，数据存储是统一的。记录（行）遵循一致的格式，没有用于索引或识别记录之间关系的结构。列名通常是命名变量。平面文件可以是纯文本文件或二进制文件。可以从文件中的数据推断出关系，但表格格式本身并不明确这些关系。在平面文件中，所有行都是关于同一群体的，例如订单、客户、病人、公司或支付。

我们经常将电子表格用作数据库或数据容器。我们通常将这些电子表格加载许多对数据分析无用的非数据元素。例如，特定的电子表格可能是一个包含标题、页码以及特定单元格着色以方便人类阅读和解释信息的报告。其中一些是元数据（关于数据集的数据），例如数据字典。为了使分析更加直接，我们需要从电子表格中移除所有这些人类界面元素，并将剩余的数据格式化为行列格式。电子表格中的一些汇总工具，如数据透视表工具，要求我们以这种方式格式化文件。

此外，用于分析的编程语言，如 R，可以轻松地处理这种形式的数据。在 R 中，我们将这种数据格式称为 dataframes。在大多数情况下，平面文件格式是分析的一个方便结构。图 3.4 展示了平面文件格式的电子表格。

图 3.4 平面文件格式展示行列元素

图 3.5 平面文件的元素

在将分析工具应用于文件之前，总是要问自己：“这个数据集是否为平面文件格式？”将数据集塑造成平面文件格式会得到一个表格格式，其中每个变量占据一列，表格的最上面一行包含变量名。表格的每一行都是被记录的群体的一个实例。图 3.5 是这种格式的表格的一个优秀示例。

让我们考虑图 3.6 中给出的表格。

图 3.6 非平面文件格式的数据文件

将平面文件格式标准应用于该表格。这个表格是否在平面文件格式中？明显的答案是：不是。Excel 可以处理这种数据格式，并且可以在现有的数据集上执行大量分析，但大多数分析程序都不会接受这种原始数据。在图 3.6 中，我们看到数据集中有两个变量。一个变量是正在开设的商店类型，另一个变量是开设这种类型商店所需的启动资金。一个变量是分类变量；另一个变量是数值变量。实际上，应该有一个两列或两个变量的表格，其中表格的每一行代表需要单独资本成本数据集的特定商店类型。我们甚至可以添加一个具有唯一标识符的第三个变量到每一行或观察中，但这不是必需的。将这个表格的数据塑造成平面文件格式以便上传到 Excel 以外的分析平台，需要进行大量的数据塑形工作。

在接下来的两个练习中，我们将展示如何将数据文件塑造成平面文件格式以及如何从数据文件中移除错误。

分析案例 3.1：塑形数据文件

通常，我们或者让程序生成报告，或者从同事那里电子接收由数据处理系统中的报告编写者生成的报告文件，或者作为他们在 Excel 中自己分析的结果。如果数据已经是表格形式，将数据集塑造成平面文件相对简单。如果数据已经被塑造成更复杂的报告格式，我们必须进行大量工作。

以一个按月细分的一年度部门预算提案为例，如图 3.7 所示。图 3.7 中的数据文件可以在本书附带的案例数据存储文件中找到。打开数据清洗和塑形练习 – 预算报告.xlxs 文件。

图 3.7 报告格式的典型部门预算提案

假设你的主管收到了这个预算提案的 Excel 文件（没有数据表来支持它）。你的主管询问你是否能生成一个按成本类型细分费用类型的报告，类似于图 3.8 中所示的内容。这可以通过 Excel 中的数据透视表轻松生成，但不能从现有的数据格式中生成。

图 3.8 按成本类型要求的费用报告

创建此预算报告的原始表格可能通过从预算报告中提取每个数字并手动创建平面文件来提取。或者，通过巧妙的操作，可以从原始表格中提取主要数据点并创建一个平面文件，通过进一步分析可以回答许多问题，包括图表 3.8（#fig3-8）中产生的结果。我们需要调整数据格式。

如果仔细观察并分析表格，你会注意到该表格中有四个感兴趣的变量。其他一切都是汇总或标题单元格。我们也不需要单元格的着色，这对于机器处理数据不是必需的。这四个变量是月份、费用类型、成本类型和金额。

从给定的预算表（图表 3.7）开始，我们将整个表格（仅值）复制粘贴到另一个工作表中。删除所有汇总行和列以及标题单元格，以保留数据，如图表 3.9 所示。

图表 3.9 仅包含数据元素、没有小计和标签组件的预算表

表格布局为月份位于表格顶部。月份需要位于我们的平面文件中的一个列中，因为它是我们四个变量之一。快速进一步转换表格的最佳方式是将表格的转换复制粘贴到另一个工作表中。图表 3.10 显示了转置的表格粘贴到 Excel 文件的新标签页中。

图表 3.10 转置的表格

现在，艰苦的工作开始了。表格中的每个数字都与三个分类变量相关联：月份、费用类型和成本类型。表格中有多个月份列，它们需要转移到四个垂直列中。结果是只有一个表格，如图表 3.11 所示，包含四个变量：月份、费用类型、成本类型和金额。

图表 3.11 显示四个变量的最终平面文件：月份、费用类型、成本类型和金额

像往常一样，在移动大量数据时，我们想确保不引入任何错误。因此，我们应该使用交叉表重建预算报告并与之比较，以确保我们有相同的数字。一旦我们将数据以平面文件格式整理好，使用交叉表创建汇总就是一个简单的问题。我们可以通过巧妙地使用定义在图表 3.13（#fig3-13）中的子类别交叉定义表，轻松地用图表 3.12（#fig3-12）中显示的交叉表重建预算报告（图表 3.7）。

图表 3.12 使用交叉表对最终平面文件进行的预算报告重建

图表 3.13 预算报告重建的交叉表定义

当我们将重新创建的预算报告的交叉表（如图 3.12 所示）与提供的原始报告（如图 3.7 所示）进行比较时，我们注意到一个非常奇怪的现象。原始报告中第 8 行的数字与我们的交叉表报告中相应计算出的数字不匹配。这是怎么回事？是交叉表还是原始报告错了？

需要检查个别数据点。它们看起来都正确；它们似乎已经正确传输。为什么会有差异？当你检查第 8 行小计背后的公式时，你会注意到创建报告的人没有将小计之上的所有三行成本数据聚合起来，而只聚合了第 8 行的两行。其他所有小计的公式都是正确的，但第 8 行不是。原始报告是错误的！一旦你更改了公式，两个表格就匹配了。你已经能够清理原始报告，如果按原样分发，就会在拟议的预算中给出错误的预算数字。

分析案例 3.2：清理数据文件

让我们使用一些数据文件进行一些额外的数据清洗和数据整理工作。

一种药物制造商收集了 178 名患者的药物测试数据。我们怀疑数据存在转录错误。（在将实验笔记中的数据输入计算机时出现了错误。）在分析数据集之前，我们想确保它没有错误。按照以下说明准备数据集以供分析和使用数据：bit.ly/2zoUVqz。

将数据复制粘贴到一个新的 Excel 工作表中。请注意，所有数据都在一个列中。数据字典可在bit.ly/2HymiXr找到。使用数据选项卡下的“文本分列”功能将数据分布到各自的列中。您也可以通过这种方法获取数据。

使用案例数据集找到 calciumgood.txt 文件。该文件的字典是 calcium.txt。使用 Excel 打开 calciumgood.txt。使用 Excel 数据选项卡上的导入功能从 Excel 数据选项卡导入数据文件。

数据是按列排列的，但没有列标题。使用数据字典添加列标题，以便所有变量都有标签。请注意，该文件现在以平面文件格式存储，列作为变量，行作为记录。将文件保存为 calcium.xlsx。

这个文件包含许多错误。通过检查数据并纠正错误来清理它。例如，在 SEX 列中，一些数字被编码为“22”而不是“2。”这可以很容易地纠正。修复编码为“12”的数据更具挑战性。如果您需要参考收集的原始数据，请使用此网址访问原始观测数据：academic.csuohio.edu/holcombj/clean/bigtable.htm。

当你感觉相当有把握你有一个干净的数据文件时，使用 Excel 回答以下问题：

研究中有多少男性和多少女性？按性别排序，并计算每个组的总和。

测试是否均匀分布在各个实验室？按实验室类型排序，并按实验室类型计算小计。

测试中男性的钙水平是否高于或低于女性的平均水平？按性别排序，并使用 AVG 函数计算每个性别的 CAMMOL 列的平均值。

将你的结果与下面的解决方案进行核对(图 3.14). 继续清洗数据，直到你找到所有错误。

图 3.14 清洗数据文件后的分析结果

分析案例 3.3：清洗和塑造 SFO 调查数据集

为了准备数据集以进行进一步分析，我们需要清洗数据集。我们应该移除所有对我们想要的结果没有影响的行。例如，在 Q7ALL 列中，结果 0、6 或空白在我们的分析中是无意义的，我们应该移除这些行。在 Excel 中，我们可以使用过滤功能过滤它们并删除它们。结果如图 3.15 所示。

图 3.15 使用过滤函数过滤掉无意义的行

一旦你只看到满足你设置的特定条件的行，删除这些单元格，并获得图 3.16 中所示的结果。

图 3.16 删除特定单元格的步骤

关闭过滤功能，剩余的行就是你要分析的数据。类似于 Q7ALL，当你分析 Q9ALL 和 Q10SAFE 时，你应该移除包含 0、6 或空白的单元格以获得更有意义的结果。

在移除所有无意义单元格后，新的工作表将看起来像图 3.17 中所示的那样。

图 3.17 清洗后的输出

分析案例 3.4：塑造 SBA 贷款数据集

Excel 可以帮助分析师清洗和塑造小型数据集；然而，当数据集很大时，Excel 可能就不再有用。在本案例研究中，我们使用 R 来准备 SBA 贷款数据集，因为数据集的大小。

将数据集导入 RStudio，如图 3.18 和 3.19 所示。

图 3.18 将数据集导入 RStudio 的步骤

图 3.19 显示导入 RStudio 中的数据集

我们想知道每笔贷款是在哪一年批准的。为此，我们可以使用以下代码创建一个新的变量 ApprovalYear。

SBALaons$ApprovalYear <- as.numeric(format(SBALaons$ApprovalDate, "%Y"))

我们可能想知道每笔贷款用了多少个月来支付全部款项。为此，我们可以使用 lubridate 包下的 interval 函数。

install.packages("lubridate")library(lubridate)SBALaons$PaidInFullPeriod <-interval(SBALaons$ApprovalDate, SBALaons$PaidInFullDate) %/% months(1)

我们还可以创建一个新的变量 FUNDED，作为 LoanStatus 变量的替代，用于未来的分析，通过以下代码将“NOT FUNDED”赋值为 0，“PIF”或“CHGOFF”赋值为 1，其他所有情况赋值为空。

library(dplyr)SBALaons <- SBALaons %>% mutate(FUNDED = case_when(SBALaons$LoanStatus == "NOT FUNDED" ~ "0",SBALaons$LoanStatus == "PIF" \| LoanStatus == "CHGOFF" ~ "1",TRUE ~"Blank"))

与前一种情况类似，我们可以将变量 LoanStatus 进行二值化（将其转换为只有两个值，0 或 1 的二进制变量）以创建一个新的变量 PAIDOFF。

SBALaons <- SBALaons %>% mutate(PAIDOFF = case_when(SBALaons$LoanStatus == "CHGOFF" ~ "0",SBALaons$LoanStatus == "PIF" ~ "1",TRUE ~"Blank"))

整理后的数据集将类似于图 3.20。

图 3.20 运行给定的 R 代码脚本创建的新列

参考文献

CrowdFlower. (2016). 2016 数据科学报告. 从www.crowdflower.com获取。

第四章

分析工具

第四章介绍了一套全面的用于数据分析和统计计算的工具新套件。本章作为理解、安装和有效利用这些强大工具的指南，适用于不同水平和偏好的分析师。

本章首先探讨了微软 Excel 的分析工具包（Analysis ToolPak），这是一个功能丰富的插件，显著增强了 Excel 的分析能力。我们讨论了在 Windows 和 Mac 操作系统上的安装过程，演示了如何激活这个强大的扩展。分析工具包将 Excel 从一款基本的电子表格程序转变为一个复杂的统计分析平台，提供了描述性统计、方差分析（ANOVA）和回归分析的工具。

接下来，我们考虑 R 编程语言及其用户友好的界面 Jamovi。作为商业统计软件的开源替代品，Jamovi 提供了一个图形用户界面，它使用 R 的广泛库而无需直接编码。然后我们引导您通过安装过程，并介绍 Jamovi 直观的界面，使高级统计技术对更广泛的受众变得可访问。

我们还探讨了使用生成式 AI 和大型语言模型如 ChatGPT 作为分析工具的应用。本节提供了在数据分析中利用这些 AI 工具的用户指南，包括构建有效提示和使用 ChatGPT 进行特定分析任务的技巧。

在本章中，我们强调了为每个分析任务选择正确工具的重要性。Excel 的分析工具包为许多用户提供了易用性和熟悉感，而 Jamovi 则提供了通往 R 强大功能的桥梁。AI 工具如 ChatGPT 为数据分析和编码任务提供了新的方法。

到本章结束时，读者将了解这些不同的分析工具，它们的优点以及如何有效地安装和使用它们。无论你是数据分析领域的初学者，还是寻求扩展工具箱的资深分析师，本章都提供了增强分析能力所需的知识和资源。

本章的后续部分将详细检查每个工具，提供详细的说明、实际示例和技巧，以最大化它们在实际数据分析场景中的潜力。通过掌握这些工具，分析师可以管理从基本描述性统计到复杂预测建模和机器学习任务的各种分析挑战。

分析工具

Excel 工具

在数据分析的世界中，Microsoft Excel 非常重要，它提供了一个结合用户友好界面和强大分析能力的多功能平台。虽然 Excel 的基本功能广为人知，但其高级功能，特别是分析工具包，使其成为数据专业人士的全面工具。

分析工具包将 Excel 从单纯的电子表格程序转变为一个复杂的统计分析平台。一旦通过 Excel 的添加插件菜单激活，这个强大的扩展程序将解锁一系列高级工具，这些工具显著增强了 Excel 的数据分析能力。

使用分析工具包，用户可以轻松执行各种统计分析。它提供了描述性统计的工具，只需点击一下即可提供数据分布的全面总结。此功能允许分析师快速了解数据集的中心趋势、变异性和形状。

对于更高级的统计工作，工具包包括各种形式的方差分析（ANOVA），使用户能够比较多个组之间的均值，并理解它们之间差异的重要性。工具包内的回归工具允许深入探索变量之间的关系，这对于预测建模和趋势分析非常有价值。

此外，分析工具包提供了针对 t 检验、傅里叶分析和相关研究的专用功能。这些功能使用户能够在不使用更专业软件的情况下进行细微的统计分析。工具包内的抽样工具还促进了随机样本的创建，这是许多统计程序中的关键步骤。

通过集成分析工具包的强大功能，Excel 已经成为数据分析的强大工具。它提供了一种独特的易于访问和复杂性的结合，使其成为各个领域分析师不可或缺的工具，他们需要从复杂的数据集中提取有意义的见解。从快速描述性摘要到复杂的统计建模，分析工具包扩展了 Excel 的功能，以满足现代数据分析的多样化需求。

R 分析工具

自 1990 年代问世以来，R 编程语言彻底改变了统计计算和数据分析领域。它以其灵活性、强大功能和丰富的包集合而闻名。由于它是开源的，R 拥有一个充满活力的贡献者社区，这导致了一个不断扩大的前沿统计工具和技术库。

R 语言的优势在于其全面的统计能力，从基本的描述性统计到高级的机器学习算法。它在数据处理、可视化和复杂建模方面表现出色，使其成为各个学科研究人员不可或缺的工具。该语言的向量操作和函数式编程范式允许高效地处理大量数据集，同时其图形能力能够生成高质量、可用于发表的视觉图表。

然而，R 的命令行界面和编程语法对于那些刚开始编码或从点击式统计软件过渡的人来说可能存在陡峭的学习曲线。这就是像 Jamovi 这样的工具有用的地方，因为它们可以帮助用户通过用户友好的界面访问 R 的强大功能。

基于 R 强大基础的 Jamovi 软件代表了让 R 的分析能力更广泛受众可及的重大进步。该软件提供了一个图形用户界面（GUI），允许用户访问 R 的广泛库和函数，而无需直接编写代码。从基本分析到线性混合模型和因子分析等高级技术，Jamovi 通过直观的菜单驱动界面提供了一系列基于 R 的统计工具。

生成式 AI 大型语言模型作为分析工具

大型语言模型（LLMs）及其在 ChatGPT 等生成式 AI 工具中的应用代表了人工智能领域的革命性进步，尤其是在自然语言处理领域。这些复杂的 AI 系统在大量文本数据上进行训练，使它们能够以惊人的流畅度和语境意识生成类似人类的文本。

这些模型的核心是深度学习的概念；它们利用了转换器架构。这种架构使 AI 能够以捕捉词语、短语和概念之间复杂关系的方式处理和理解语言。结果是，一个能够进行类似人类的对话、回答问题、生成创意内容，甚至协助解决复杂问题任务的 AI 系统。

由 OpenAI 开发的 ChatGPT 是这些生成式 AI 工具能力的例子。它展示了前所未有的理解语境、在长时间对话中保持连贯性，以及在不同主题上提供信息性回应的能力。从创意写作到技术解释，ChatGPT 展示了 LLMs 在处理各种语言任务中的多功能性。

这些技术的意义深远。在教育领域，它们可以作为个性化导师，提供针对个人学习风格的定制解释。在商业领域，它们可以帮助客户服务、内容创作和数据分析。研究人员可以使用这些工具生成假设、总结复杂论文，甚至协助编码任务。

这些强大的 AI 工具引发了重要的伦理考量。关于数据隐私、误信息传播的潜在可能性以及这些技术对人类工作的影响等问题，是围绕这些技术讨论的前沿问题。随着这些模型继续发展，在巨大的潜力与负责任的发展和部署之间取得平衡，对于 AI 社区和社会来说，仍然是一个关键挑战。

Excel 分析工具：分析工具包

安装和激活

启动 Excel。如果您使用的是 Microsoft Windows，请点击窗口左上角的 Office 按钮标志（或 2010 中的“文件”）。在 PC 版本中，点击弹出窗口底部的“选项”。在 Excel 选项弹出窗口中点击“添加插件”。选择“分析工具包”，然后点击“转到”。您应该看到一个类似于图 4.1 中所示的对话框屏幕。

图 4.1 显示在激活之前分析工具包的 Excel 向导

在“插件”弹出窗口中，在可用插件列表中勾选“分析工具包”旁边的框（图 4.1）。然后点击“确定”。

图 4.2 激活分析工具包时显示第二个向导屏幕，显示它已激活

现在，您应该在 Excel 数据标签栏下的分析组中看到“数据分析”作为一项选择（图 4.3）。

图 4.3 安装后 Excel 数据标签栏显示已激活的分析工具包现在显示为“数据分析”按钮

在 Mac 上，分析工具包仅在 Excel 2016 及更高版本中可用。要在 Mac 上激活它，打开一个工作表，在主菜单的“工具”选项（图 4.4）中，从向导弹出窗口中选择“Excel 插件”，然后从列表中选择“分析工具包”以激活（图 4.5）。

图 4.4 Mac 版本 Excel“插件”功能的定位

图 4.5 显示激活分析工具包的 Excel 插件向导屏幕的 Mac 版本

R 分析工具：Jamovi

安装和使用 Jamovi

Jamovi 是最常用的免费统计分析程序之一。要下载和安装它，请访问www.jamovi.org/download.html。程序将识别您的计算机类型，并将您带到适用于您操作系统的下载页面。它看起来就像图 4.6 中所示的那样。

图 4.6 Jamovi 下载和安装网页

我们推荐您安装“solid”版本。Jamovi 只能在 Windows 或 Mac OS 设备上运行，不支持平板电脑、Android 或 iPhone。

软件下载完成后，双击安装程序以开始设置。安装程序启动后，只需点击“安装”并等待安装完成。安装完成后，点击“完成。”

在 Windows 电脑上，点击启动文件（您可以在“开始” -> “最近添加”或“C: \ Program Files \ jamovi 0.9.5.9 \ bin”文件夹中的 Jamovi.exe 文件中找到它）以启动软件。图 4.7 显示了 Jamovi 的启动屏幕。

在 Mac 上，运行.dmg 文件，安装完成后，将程序移至应用程序文件夹。这是一个大文件，所以请做好长时间等待的准备。然后可以从那里运行。

图 4.7 Jamovi 的主屏幕

使用左上角的白色三杠图标来加载数据集。请注意，Jamovi 期望数据以平面文件格式存在。它只能打开.csv（逗号分隔值）格式或 Excel xlxs 格式的数据集。所有文件都需要有一个包含每列或变量名称的标题行。

生成式 AI：ChatGPT

生成式 AI 分析用户指南

在数据分析中，AI 工具如 ChatGPT 的出现标志着我们处理和解释数据方式的重大演变。ChatGPT 凭借其先进的自然语言处理能力，开辟了分析复杂数据集的新途径，为初学者和专家提供了一个易于访问的平台。该工具可以处理各种数据分析任务，从基本的统计摘要到复杂趋势分析和预测建模。ChatGPT 的通用性在于其通过会话提示处理和解释大量数据的能力，将复杂的数据分析转化为更直接和互动的体验。

ChatGPT 在数据分析中的有效性高度依赖于提示，即以“正确”的方式向 AI 提出“正确”的问题的能力。恰当的提示对于引导 ChatGPT 专注于数据的特定方面，从而获得期望的结果至关重要。这涉及到对您的数据分析目标有清晰的理解，并将这些目标转化为简洁、直接的提问或命令。有效提示的重要性不容忽视；它是解锁准确、相关和有洞察力的分析的关键。掌握这项技能确保 ChatGPT 成为您数据分析旅程中的强大盟友，使您能够发现隐藏的模式，做出明智的预测，并从数据中得出有意义的见解。

构建有效的提示

为 ChatGPT 编写有效的提示对于在数据分析中获得准确和有洞察力的结果至关重要。一个构建良好的提示可以引导 AI 确切地了解你正在询问的内容，确保输出与你的分析目标一致。本教程将带你通过开发此类提示的步骤，增强你与 ChatGPT 的互动，以实现更高效和精确的数据分析。

第 1 步：定义你的分析目标

理解你的数据：在开发提示之前，对数据集有一个清晰的理解。了解你有什么样的数据，其结构，以及你想要分析或发现什么。
设定明确的目标：定义你希望通过分析实现的目标。这可能包括识别趋势、比较变量、做出预测或总结数据。

第 2 步：具体直接

清晰度很重要：模糊的提示会导致模糊的响应。尽可能具体地提出你的请求。例如，不要说“分析这些销售数据”，而要具体说明“分析 2021 年第二季度的月度销售数据，以确定表现最佳的产品。”
直接语言：使用直接的语言，留下很少的解释空间。短语应该是直接且简洁的。

第 3 步：融入数据上下文

提供上下文：如果你的数据有特定的特征或限制，请在提示中包含这些信息。例如，如果你正在使用季节性数据，请提及这一点。
相关细节：包括相关细节，如数据类型、范围或任何感兴趣的特定变量。

第 4 步：分解复杂查询

简化复杂任务：如果你有一个复杂的分析任务，将其分解成更小、更易管理的提示。这种方法可以帮助 ChatGPT 更有效地处理分析中的每个方面。
顺序查询：从更广泛的分析开始，然后通过后续提示深入具体细节。

第 5 步：使用适当的统计术语

正确使用术语：在你的提示中使用正确的统计术语。如果你想进行相关性分析，请使用“相关系数”或“线性关系”等术语。
避免歧义：清楚地说明你想要使用的统计方法或图表类型。

第 6 步：审查和精炼

解释响应：分析 ChatGPT 的响应，以评估它们是否符合你的期望。如果不符，确定可能缺失或误解的内容。
精炼你的提示：根据响应，为了清晰或具体，精炼你的提示。有时，轻微的改写可以导致更准确的结果。

第 7 步：持续学习和适应

从互动中学习：与 ChatGPT 的每一次互动都是学习并提高你提示编写技能的机会。
适应和实验：你应该尝试不同的提示风格或结构。随着时间的推移，你会发现最有效的沟通分析需求的方式。

掌握数据理解：利用数据字典和探索性数据分析（EDA）

数据字典中的信息和探索性数据分析（EDA）的见解对于任何数据分析项目都非常有价值。它们为你提供了对数据的坚实基础理解，帮助你做出明智的决定，选择合适的分析方法。此外，EDA 的见解可以帮助你细化假设，并引导你的分析走向更有效的方向。

有效地构建提示以请求数据字典和进行 EDA 是至关重要的技能。这确保你在数据分析开始时对数据集有彻底的理解，提高你获得更准确和有洞察力的发现的机会。在本节中，我们讨论了如何使用 ChatGPT 请求数据字典和进行 EDA 的示例。

数据字典提供了数据集的全面概述，详细说明了每一列的名称、数据类型、可能的值以及与其他列的关系。它还突出了缺失或空值，并为每一列提供基本的统计信息。这些信息对于有效的数据分析至关重要，因为它有助于理解数据集的结构，指导数据清洗和预处理，指导特征选择以进行预测建模，并为深入统计分析做准备。数据字典为分析师提供了进行准确和有洞察力的数据分析所需的必要背景。以下是一个使用 Titanic.csv 数据集的示例：

使用提供的案例数据集，将文件 Titanic.csv 上传到 ChatGPT-4 的代码解释器插件中。然后使用以下提示：

提示：“请给我这个数据集的数据字典。”

ChatGPT-4 的回复：

来自 Titanic CSV 文件的数据集包含以下列：

1. 生存：表示生存状态（如果乘客幸存为 1，否则为 0）。

2. Pclass：乘客舱位（1 代表头等舱，2 代表二等舱，3 代表三等舱），代表票的舱位等级。

3. 姓名：乘客的全名。

4. 性别：乘客的性别（男性或女性）。

5. 年龄：乘客的年龄。这可以是一个整数或小数，用于婴儿。

6. 船上的兄弟姐妹/配偶数量：乘客在泰坦尼克号上拥有的兄弟姐妹或配偶数量。

7. 船上的父母/子女数量：乘客在泰坦尼克号上拥有的父母或子女数量。

8. 票价：乘客支付的票价。

数据集中的每一行代表泰坦尼克号上的一个乘客。数据提供了个人属性（如姓名、性别和年龄）、旅行相关细节（如舱位和票价），以及乘客在船上的家庭信息（兄弟姐妹/配偶的数量，以及父母/子女）。

探索性数据分析（EDA）是数据分析中的关键初始步骤，其中对数据集进行全面检查，以揭示模式、识别异常并了解关键特征。它通常涉及可视化数据分布、分析统计摘要和探索变量关系。这个过程有助于识别潜在的趋势和相关性，检测异常和离群值以进行数据质量保证，并为后续分析提供决策信息。EDA 还涉及创建数据的图形表示，这有助于揭示复杂的关系和分布，因此在深入更高级的分析程序之前，它是获取数据集全面理解不可或缺的工具。以下是一个使用 Titanic.csv 数据集的示例：

使用提供的案例数据集，打开第四章文件夹，并将文件 Titanic.csv 上传到 ChatGPT-4 Plus 的代码解释器插件或其等效插件。然后使用以下提示：“请为我提供这个数据集的探索性数据分析（EDA）。”

ChatGPT-4 Plus 的响应：

这里是探索性数据分析（EDA）的摘要：

数值特征的统计摘要

survived: 在 1309 名乘客中，大约 38%的人幸存。
age: 乘客的平均年龄约为 29.88 岁，标准差为 14.41 岁。年龄范围从 0.17 岁（可能几岁大）到 80 岁。请注意，年龄列中有 263 个缺失值。

分类型特征的摘要

pclass: 数据集中有三种等级（1 级、2 级和 3 级），大多数乘客（709 人）在 3 级。
name: 数据集中有 1307 个独特的名字，只有一个重复（“Connolly, Miss. Kate”出现了两次）。
sex: 数据集中男性（843 人）比女性（466 人）多。
embarked: 大多数乘客（914 人）从南安普顿登船。该列有 2 个缺失值。
home.dest: 在 home 或 destination 列中，有 368 个独特的值，但该列有 564 个缺失值。

缺失值：

age: 263 个缺失值
embarked: 2 个缺失值
home.dest: 564 个缺失值

为了进一步进行 EDA，我们应该可视化关键特征的分布以及不同组别的生存率。我们将为年龄和生存率创建直方图，以及为性别、pclass 和 embarked 等分类变量创建条形图，以查看生存率。（见图 4.8）

图 4.8 对 ChatGPT 进行探索性数据分析（EDA）提示的图形结果

以下是基于 EDA 的 Titanic 数据集的可视化：

年龄分布

年龄分布的直方图显示，乘客的年龄呈右偏态，这意味着船上有更多年轻乘客。大多数乘客在 20 多岁到 30 多岁之间。

生存计数

生存率的条形图显示，与未幸存者（值为 0）相比，幸存者（值为 1）的人数较少。

按登船港口划分的生存率

按舱位划分的生存率条形图表明，与二等舱和三等舱的乘客相比，头等舱的乘客生存率更高。

按性别划分的生存率

按性别划分的生存率条形图显示，女性的生存率远高于男性。

按登船港口划分的生存率

按登船港口划分的生存率条形图表明，从瑟堡登船的乘客的生存率高于从皇后镇或南安普顿登船的乘客。

分析案例 4.1：提示分析泰坦尼克号数据

使用提供的案例数据集，将文件 Titanic.csv 上传到 ChatGPT-4。然后使用以下提示：“创建一个条形图来显示所有乘客在 10 年范围内的年龄分布（从 1-10 岁开始），然后创建另一个 5 年范围内的条形图。”

ChatGPT-4 的回复（图 4.9 和 4.10）：

图 4.9 条形图显示所有乘客在 10 年范围内的年龄分布

图 4.10 条形图显示所有乘客在 5 年范围内的年龄分布

图 4.9 显示了 10 年范围内的结果直方图，而图 4.10 显示了 5 年范围内的分布。

使用 ChatGPT 进行分析的更多技巧

1.处理错误时，尝试启动一个新的聊天。如果在使用 ChatGPT 进行数据分析时遇到错误或问题，一个解决方案是启动一个新的聊天会话。这通常可以重置上下文并清除之前交互中遗留的问题，为您的分析查询提供一个全新的开始。

2.对您的数据上下文要精确。当向 ChatGPT 请求数据分析时，要精确说明您的数据上下文。提供关于数据集、其结构和任何特定兴趣区域的清晰信息。这种精确性有助于 ChatGPT 更准确地理解和处理您的请求。

3.根据回复细化您的问题。如果 ChatGPT 的初始回复并不完全符合您的期望，请细化您的问题。调整措辞或添加更多细节可以帮助 ChatGPT 更好地理解您的分析需求并提供更相关的答案。

4.使用后续问题进行深入分析。在收到回复后，使用后续问题创建更丰富的分析。ChatGPT 可以基于其之前的回复，从而对您的数据进行更全面的探索。

5.将 AI 洞察与您的专业知识相结合。虽然 ChatGPT 可以提供有价值的见解，但将这些见解与您自己的专业知识和对数据的理解相结合，可以带来更好的结果。将 ChatGPT 作为一个工具来补充和增强您的分析技能。

第五章

描述性统计

描述性统计专注于过去和现在，回答问题“发生了什么？”这与专注于未来并试图回答“可能会发生什么？”的预测分析不同。推断统计可以帮助确定我们是否对我们的结果有信心，或者它们只是随机事件的结果。描述性统计涉及通过平均值、总和和极端值来总结数值数据，以及通过表格来总结分类变量。它还不同于总结文本数据，它回答的问题是，“人们都在说什么？”我们将在第十五章中介绍这个主题。

这种技术回答了商业问题：“有多少，有多少，它们是如何比较的？”

描述性统计的主要工具是五点摘要（可在 ToolPak 中找到）。我们使用四分位数以及平均值、中位数、最大值和最小值，以便我们可以分析数据的分布、方差和四分位数范围。

本章还介绍了两个其他非常有用的工具：创建箱线图作为数值变量的总结和可视化工具；以及使用数据透视表作为分类变量的表格工具。

在这里，我们开始提供两种类型的练习：为初学者提供的基本练习，以及为高级学生提供的额外和更具挑战性的练习。如果你是初学者，完成每个工具的基本练习是一个良好的开始。对于更高级的学生，我们提供更具挑战性的额外练习。所有学生都鼓励尝试它们。

描述性统计

描述性统计是什么？

描述性统计是统计学的一个分支，它专注于组织、总结和可视化数据，以提供一个关于数据集的全面概述，而不对更大的总体做出结论或推断。它使用各种技术以简化的方式呈现信息，以促进直接的分析。描述性统计包括集中趋势的度量，如均值、中位数和众数，它们代表数据集的中心，以及变异或分散的度量，包括范围、方差和标准差，它们表明数据点的分布。此外，它还利用图表表示，如直方图、条形图和散点图，以直观地显示数据分布和模式。

描述性统计旨在提供数据的详细总结，使大量信息更容易理解。它在商业、教育、社会科学和医疗保健等各个领域得到广泛应用，以支持基于数据的决策。例如，一家公司可能会使用描述性统计来分析客户反馈并提升其服务，而研究人员可能会用它来简洁地总结实验结果。此外，描述性统计有助于识别趋势和模式，从而对数据进行更深入的理解，这在数据分析的初期阶段至关重要。值得注意的是，尽管描述性统计有助于总结数据，但它并不能使基于样本对总体进行预测或推断。

描述性统计提供了关于特定群体的有价值信息，但存在局限性。它不允许对更大的总体进行概括。当单独使用时，描述性统计可能导致误解和错误的结论，尤其是在数据存在偏斜或异常值的情况下。这就是为什么它通常与推断统计相结合，后者使用描述性统计的结果来从样本中对总体进行预测和推断。推断统计涉及假设检验和置信区间的计算，使用样本数据对更大的总体进行估计。总之，尽管描述性统计对于分析和表示数据很有用，但它只是整体统计分析过程的一部分，通常与推断统计一起使用，以提供数据的更完整图景。

描述性统计的要素有哪些？

描述性统计的要素可以分为两大类：集中趋势的度量以及变异或分散的度量。

常数度量

平均值（平均数）：这是最常用的集中趋势度量。平均值是通过将数据集中的所有值相加，然后除以值的数量来计算的。
中位数：当数字按升序或降序排列时，中位数是数据集中的中间值。如果有偶数个观测值，则中位数是两个中间数的平均值。
众数：这是数据集中最频繁出现的值。一个数据集可能有一个众数，多个众数，或者根本没有众数。

变异（分散）的度量

范围：范围是数据集中最高值和最低值之间的差异。它给出了数据分布的感觉。
方差：方差衡量集合中每个数字与平均值的距离，以及与集合中每个其他数字的距离。它是衡量数据点分布程度的指标。
标准差：这是衡量一组值变异或分散程度的指标。标准差低意味着值倾向于接近平均值，而标准差高则表示值分布在更宽的范围内。

分析案例 5.1：为数据集创建描述性统计

这里是创建 Case Data 文件夹中 StartupCosts.xlsx 数据集描述性统计的一个示例：

图 5.1 商店启动成本数据集的描述性统计示例

在我们的 StartupCosts 数据集中，该数据集按商店类型（如 BAKERY、GIFTS、PETS、PIZZA 和 SHOES）分类支出，这些统计数据（图 5.1）帮助我们了解不同类型企业启动的财务状况。通过计算每个商店类型的平均值、中位数、标准差、最小值和最大值，我们获得了关于平均启动成本、支出范围以及每个类别内的变异性的见解。例如，虽然 PIZZA 商店可能显示出较高的平均启动成本，但 PETS 商店可能表现出更大的成本可变性，这表明投资策略的多样性。

分析案例 5.2：初创企业数据的描述性统计

使用 Excel 进行分析

使用案例数据集文件，找到文件 StartupCosts.xlsx。使用 Excel 打开 StartupCosts.xlsx。

我们将回答以下问题：

哪种类型的初创企业具有最佳特征？

要比较一组企业，其描述性统计量是什么？

按照我们不更改原始数据的惯例，仅选择数据（省略表格底部的数据字典，并确保复制标题），然后将它作为新工作表中的形状文件保存并复制。将此工作表标记为“StartUpStats。”

使用分析工具包，选择“描述性统计”。输入包括列标签在内的整个数据范围作为范围。确保点击“第一行包含标签”框。将结果放在另一个工作表或与形状文件相同的同一工作表中。仅选择“汇总统计”框。

将统计数据的格式更改为“数字”并保留两位小数。将列标签放在统计数据数字的上方和行标签上方。删除每隔一行标签，只留下统计数据。

在统计数据的每列底部计算 Q1（第一四分位数）和 Q3（第三四分位数），以添加这些重要数字。

图 5.2 使用分析工具包获取数据集的描述性统计和五点摘要的步骤

通过复制上表中的适当元素创建一个包含中位数、Q1、最大值、最小值和 Q3 的五点总结表（图 5.2）。在每列上方输入一组任意日期，以便能够使用股票表图表。选择日期和所有五个创业的五点总结数据，并插入一个图表。选择（开盘价、最高价、最低价、收盘价）股票图表（图 5.3）。

图 5.3 选择构建箱线图所需的适当股票图表类型

编辑图表，使两个轴相同（两个最大值均为 180）。现在，我们将 x 轴改为用创业名称替换日期。右键单击图表选择数据（不是格式化轴）并更改水平（分类）轴标签中的设置。通过将中位数改为宽度为 30 的虚线来编辑中位数，使其可见（图 5.4）。

从生成的箱线图中，决定哪种类型的启动看起来最有利。

图 5.4 使用股票图表格式完成数据集箱线图图的构建

使用 R 进行数据分析

使用提供的案例数据集文件，打开文件 StartupCosts.xlsx。在 Jamovi 中使用“描述性统计”功能，并按照图 5.5 中所示的设置进行操作。

图 5.5 使用 Jamovi 对 StartupCosts.xlxs 文件进行描述性统计分析的设置

分析结果显示在图 5.6 中。观察其与上一节 Excel 结果的相似性。

图 5.6 使用 Jamovi 进行的练习分析结果

使用生成式 AI 进行数据分析

将 StartupCosts.csv 文件上传到 ChatGPT-4。然后使用以下提示：“创建一个按商店类型汇总的五点总结表格，并将其作为 Excel 文件下载，并打印按商店的数据箱线图。”

ChatGPT-4 的回复（图 5.7 和 5.8）：

图 5.7 使用 ChatGPT 进行的练习分析结果

图 5.8 使用 ChatGPT 进行的练习分析结果

ChatGPT 对框架分析问题的回答

除了观察分析结果，如图 5.9 和 5.10 所示，我们还可以查询 ChatGPT 并得到问题的答案。我们现在使用 ChatGPT-4 来获取由生成式 AI 工具提供的框架问题的更详细答案。记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续。

以下提示被使用：“哪种类型的创业业务具有最佳特征？”

ChatGPT-4 的回复：

为了确定哪种类型的初创企业具有最佳特征，我们会考虑诸如较低的中位数启动成本和较小的四分位数范围（表明启动成本的变化较小）等因素。根据箱线图和五点摘要，"宠物"类别似乎具有最低的中位数启动成本和相对较小的四分位数范围，这可能表明它在启动费用方面是一个风险较低的选择。

以下提示被使用：“为了能够比较一组企业，有哪些描述性统计量？”

ChatGPT 的回复：

对于比较企业组有用的描述性统计量包括均值、中位数、众数、最小值、最大值、范围、四分位数、方差和标准差。这些统计量有助于理解每个企业组的中心趋势、分散性和整体分布。提供的五点摘要就是这些描述性统计量的一部分，用于比较目的。

使用生成式人工智能（GenAI）进行探索性数据分析

探索性数据分析（EDA）现在我们已经能够访问大型语言模型（LLM），它成为了我们工具箱中一个宝贵的补充。我们将它作为数据分析的初始步骤，涉及对数据集关键特征的检查和总结。EDA 的目标是理解数据结构，揭示模式，检测异常，并识别变量之间的关系。EDA 通常包括计算基本统计量，通过图表可视化数据，检查分布，识别缺失或不一致的数据，以及探索相关性。这个过程有助于分析师获得洞察力，制定初步假设，并就进一步的分析方法做出明智的决策。通过提供数据集的全面概述，EDA 指导后续分析，可能揭示可能影响统计方法选择或模型构建技术选择的重要特征。

请求进行 EDA 比进行单独的 Excel 分析更高效、更全面。它迅速提供对数据的整体视图，揭示可能被忽视的模式和关系。这个自动化过程减少了错误，适应各种数据类型，并且经常揭示意外的洞察力，更有效地指导后续的深入分析。

LLMs 可以在数据集上执行各种 EDA 任务，帮助用户获得初步洞察。当被提示时，LLM 可以描述数值变量的基本统计量，如均值、中位数和标准差。它可以识别异常值，提出潜在的数据清理步骤，并突出数据中的模式或趋势。

LLMs 也可以生成直方图、散点图或箱线图等可视化，以表示数据分布和变量之间的关系。它们可以根据数据类型和研究问题提出适当的统计测试。

在提示中包含 EDA 请求是有价值的，因为它提供了数据集特征的快速概述。这种初步分析可以指导进一步调查，帮助形成假设并识别数据中的潜在问题。它通过自动化常规分析任务节省时间，并可能揭示在手动分析中可能被忽视的见解。

将 StartupCosts.csv 数据集加载到 ChatGPT-4 中，使用了以下提示：“对此数据集进行 EDA。”

ChatGPT-4 的响应：

数据集包含不同商店的启动成本信息，特别是专注于披萨店。以下是列的简要概述：

1.商店：商店的标识符。

2.类型：商店类型（例如，PIZZA）。

3.启动成本：与商店相关的启动成本。

探索性数据分析摘要

描述性统计

商店数量：60
平均启动成本：$75.18
标准差：$35.62
最小启动成本：$20
25th Percentile: $45
中位数（50th Percentile）: $75
75th Percentile: $99.25
最大启动成本：$160

初始观察

披萨店的启动成本范围从 $20 到 $160。
启动成本分布的平均值为 $75.18，表明大多数商店的启动成本适中。
标准差为 $35.62，表明启动成本存在一定差异。

提供了以下提示：“按类型进行 EDA。”

ChatGPT-4 的响应（图 5.9 和 5.10）:

按商店类型描述性统计

观察结果

BAKERY: 平均启动成本最高，为 $92.09，标准差显著，为 $38.89，表明存在高度差异。
GIFTS: 平均启动成本为 $87，标准差为 $35.90。
PETS: 最低平均启动成本为 $51.63，标准差为 $27.07。
PIZZA: 平均启动成本为 $83，标准差为 $34.13。
SHOES: 平均启动成本为 $72.30，标准差为 $31.37。

图 5.9 使用 ChaptGPT 通过类型进行的 EDA 结果

图 5.10 使用 ChatGPT 通过类型进行的 EDA 提示结果

见解

BAKERY 和 GIFTS：通常，启动成本更高且差异更大。
PETS: 启动成本持续较低，差异较小。
PIZZA 和 SHOES: 启动成本适中，存在一些异常值。”

使用大型语言模型（LLM）进行数据分析，通过描述性统计分析来理解数据集，提供了一种更有效的方法。

分析案例 5.3：使用 ORDERS 文件的分析案例

使用 Excel 进行分析

使用案例数据集文件，找到 ORDERS.xlsx 文件。使用 Excel 打开 ORDERS.xlsx。我们将回答以下问题：

哪些地区的年度平均销售额最好？

每个销售区域的描述性统计是什么？进行比较。

按地区创建销售描述性统计，并创建箱线图。使用“数据透视表”按地区创建销售表格，确保按 ORDERDATE 汇总销售，以便在下一步得到一个大的数据透视表。使用“数据”>“分析工具包”创建描述性统计表（图 5.11）。

图 5.11 使用分析工具包描述性统计功能对 ORDERS 文件生成的五点总结结果

然后，生成箱线图（遵循本练习中早期生成箱线图的说明）（图 5.12）。

图 5.12 完成的 ORDERS 文件案例箱线图

使用 R 进行分析

使用提供的案例数据集文件，打开第五章文件夹，并找到文件 SALES.xlsx。使用 Jamovi 中的“描述性统计”功能，设置如图 5.13 和图 5.14 所示。

图 5.13 使用 Jamovi 对 ORDERS.xlxs 文件进行描述性统计分析的设置

图 5.14 使用 Jamovi 创建箱线图的设置

结果分析显示在图 5.15，注意与上面使用 Excel 得到的结果相似。

图 5.15 使用 Jamovi 进行的练习分析结果

使用生成式 AI 进行分析

将 ORDERS.xlsx 文件上传到 ChatGPT-4。然后使用以下提示（图 5.16 和 5.17 中的图表显示了提示的图形结果）以获得相同的结果。

提示：“创建一个按地区划分的‘销售’五点总结表格，并将其下载为 Excel 文件，然后创建一个按地区划分的‘销售’箱线图。”

ChatGPT-4 生成的结果：

图 5.16 使用 ChatGPT 进行的练习分析结果

图 5.17 使用 ChatGPT 进行的练习分析结果

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经加载到 ChatGPT 中进行之前的计算。这是分析的延续，ChatGPT 的回复将遵循给出的提示。

提示： “哪些地区在年度销售中平均销售最好？”

ChatGPT 的回复：

根据中位数销售值，这是一个不受极端值影响的稳健的平均值度量，看起来“大西洋”地区的销售中位数最高。然而，平均（均值）销售最高的地区可能不同，因为均值受异常值和极端值的影响。“大西洋”地区也显示出最高的最大销售值，表明存在一些非常高价值的订单。

提示：“每个销售地区的描述性统计是什么？进行比较。”

ChatGPT 的回复：

每个地区的描述性统计，如图中五点总结和箱线图所示，提供了销售分布的快照。像“大西洋”和“魁北克”这样的地区显示出更高的最大销售值，表明存在一些非常大的订单。四分位数范围，即第 75 个百分位数和第 25 个百分位数之间的差异，可以用来衡量一个地区内销售的变异性。具有较大四分位数范围的地区，如“大西洋”和“育空”，表明销售变异性更大。中值销售值是一个有用的统计数据，用于比较各地区销售的集中趋势，其中“大西洋”和“育空”的中位数高于其他地区。最小值和最大值表示销售范围，其中“大西洋”显示出最宽的范围。这些统计数据对于理解销售表现以及与每个地区相关的潜在机会或风险至关重要。

正如我们在前面的练习中所做的那样，你可以在本例中提示 LLM 提供探索性数据分析，并看看这些回应有多有洞察力。

分析案例 5.4：使用泰坦尼克号数据进行分析

使用 Excel 进行分析

使用案例数据集文件，找到文件 Titanic.xlsx。使用 Excel 打开 Titanic.xlsx。我们将回答以下问题：

男乘客的平均年龄是否比女乘客的平均年龄大或小？

每个性别的描述性统计是什么？进行比较。

对每个乘客等级重复，并进行比较。

创建一个泰坦尼克号乘客数据的交叉表（图 5.18）。按年龄进行总结。按年龄进行分类并输入男性和女性的最大年龄。在每位乘客的性别下进行子总结。现在你有两个列表，一个在上一个在下，按性别排序的乘客年龄。

图 5.18 交叉表配置以按性别和姓名子类别总结乘客，创建两个性别列表

将每个列表刮取并粘贴到新的工作表中的 MALE 和 FEMALE 列下。获取按性别（文件中标记为 sex）的年龄描述性统计，并创建一个箱线图（图 5.19）。

图 5.19 总结乘客年龄的最终箱线图，按性别比较

使用 R 进行分析

使用提供的案例数据集文件，找到文件 Titanic.csv。创建一个箱线图来查看女性和男性的分布情况，如图图 5.20 和图 5.21 所示。

图 5.20 变量设置、分组和描述性结果的输出

图 5.21 总结乘客年龄的最终箱线图，按性别比较

使用生成式 AI 进行分析

将 Titanic.csv 文件上传到 ChatGPT-4。然后，使用以下提示。结果如图图 5.22 和图 5.23 所示。

提示： “按乘客年龄为每个性别创建描述性统计总结，并将表格保存到 Excel 文件中。然后创建一个箱线图来显示按性别（女性和男性）的乘客年龄分布。”

结果：

图 5.22 按乘客年龄描述性统计总结，每性别

图 5.23 箱线图按性别总结乘客年龄

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取对框架问题的更详细答案。记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续，以下包括提示的结果。

提示： “男性乘客的平均年龄是比女性乘客老还是年轻？”

ChatGPT 的回复：

根据描述性统计总结，男性乘客的平均年龄比女性乘客的平均年龄要大。男性的平均年龄约为 30.4 岁，而女性的平均年龄约为 27.7 岁。这也在箱线图中得到反映，其中男性的中位数年龄（由箱体中间的线表示）略高于女性。

提示： “每个性别的描述性统计是什么？比较它们。为每个乘客类别重复并比较。”

ChatGPT 的回复：

每个性别的描述性统计显示[以下情况是正确的]：

女性乘客的平均年龄（均值）约为 27.7 岁，标准差为 13.8 岁，表明年龄分布存在变异性。最年轻的女乘客大约 0.75 岁，最年长的为 63 岁。四分位距（IQR），即第 25 百分位数（18 岁）和第 75 百分位数（36 岁）之间的范围，表明一半的女乘客年龄在 18 岁到 36 岁之间。

对于男性乘客，平均年龄约为 30.4 岁，标准差为 14.2 岁。最年轻的男性乘客大约 0.42 岁，最年长的为 80 岁。男性的四分位距（IQR），从第 25 百分位数（21 岁）到第 75 百分位数（38 岁），表明一半的男性乘客年龄在 21 岁到 38 岁之间。

比较两者，男性平均年龄比女性大，中位数更高，年龄分布范围更广，这由标准差所指示。箱线图可视化了这些差异，显示了表格中图 5.24 所示的两个性别的年龄中位数和分布（箱体的大小和须须的长度）。

图 5.24 按乘客年龄描述性统计总结，每性别

当比较每个类别时，很明显，与其它舱位相比，头等舱乘客的平均年龄更高，中位数和最大年龄也更高。三等舱乘客在平均年龄和年龄分布的跨度方面都是最年轻的群体。按类别进行的描述性统计反映了当时的社会经济分布，其中较富裕（通常是较年长）的个人能够负担得起头等舱票，而较年轻的人更常见于较低阶层。

分析案例 5.5：使用旧金山国际机场调查数据的分析案例

使用 Excel 进行分析

使用提供的案例数据集文件，找到文件 2016_SFO_Customer_Survey_Data.xls。打开数据字典文件，并在处理数据时可供参考。使用 Excel 打开 2016_SFO_Customer_Survey_Data.xls。将重塑后的数据文件保存到您的计算机上，命名为 SFOAirportSurvey2016.xlsx。统计参与调查的男性和女性人数（图 5.25）。男性和女性之间的差异是否大于 10% 或大致均匀分布？请确保使用行类别上的过滤器选项仅选择“男性”和“女性”计数。

图 5.25 按性别划分的 SFO 调查参与者表格

统计受访者收入水平的分布（图 5.26）。

图 5.26 SFO 调查参与者收入分布的表格

统计平均使用机场的常旅客乘客数量（图 5.27）。

图 5.27 计算常旅客与总机场用户比例的表格

使用 R 进行分析

使用提供的案例数据集文件，打开第五章文件夹，并找到文件 2016 Customer Survey Data.csv。使用 Jamovi 中的“描述性统计”功能，设置如图 5.28、5.29 和 5.30 所示。

图 5.28 使用 Jamovi 对 2016 年客户调查数据.csv 文件进行描述性统计分析的设置，使用 Jamovi 和结果

图 5.29 使用 Jamovi 可视化 2016 年客户调查数据.csv 文件收入水平的设置，使用 Jamovi 和结果

图 5.30 使用 Jamovi 对 2016 年客户调查数据.csv 文件进行描述性统计分析的设置，使用 Jamovi 和结果

使用生成式 AI 进行分析

将 2016 Customer Survey Data.csv 文件上传到 ChatGPT-4。然后使用以下提示。以下提示的结果显示在图 5.31 和 5.32 中。

提示： “创建一个描述性统计摘要，统计 *RESPNUM（受访者编号，类似于调查参与者的 ID）按性别（0，女性和男性）的计数，并将表格保存到 Excel 文件中。然后创建一个条形图来显示 *RESPNUM 的分布按 Q21INCME（从 0 到 5）。”

ChatGPT 的回复：

图 5.31 按性别划分的调查参与者数量的描述性统计分析

图 5.32 展示 SFO 调查参与者收入分布的条形图结果

提示： “为*RESPNUM 按 Q22FLY（1,2,3,4）的计数创建一个描述性统计摘要，并将表格保存到 Excel 文件中。”

ChatGPT 的回复：

图 5.33 显示了 ChatGPT 的回复。

图 5.33 按年度飞行里程划分的调查参与者数量的描述性统计分析

第六章

直方图

本章介绍了一种用于数值（连续）变量的强大可视化工具：直方图。它帮助我们可视化表格中数字列的分布。通过使用直方图，我们可以看到是否有许多大数字、许多小数字，或者它们是否围绕平均值或平均分布。

这种技术解决了以下商业问题：“这个变量是如何分布的？”

我们将数据集中的所有值范围分解成从最高到最低的区间。然后，我们统计每个区间内数据点的数量，并创建一个条形图来显示每个区间的计数。这个过程涉及将数值变量分组到箱中，这些箱可以是相等或不同的大小，箱的数量可以很多或很少。我们的目标是把这些数据分类到这些段中。

直方图在数据分析中发挥着至关重要的作用，它通过提供大量数据集的视觉摘要来提供洞察。它们揭示了数据分布的潜在特征，这些特征可能在原始数字或表中被掩盖。分析师依赖直方图来快速识别模式、检测异常，并理解数据分布的形状。这个视觉工具有助于形成假设、指导进一步的统计分析，并支持决策过程。直方图在探索性数据分析中尤其有价值，帮助研究人员获得初步见解并确定适当的分析方法。

Excel 中有一个名为“频率”的函数，但使用起来比较困难。然而，分析工具包中有一个名为“直方图”的工具，它可以自动化许多任务。始终要求生成图表，并确保调整生成的条形图，使条形相互接触。这将使其具有直方图特有的外观，而不仅仅是条形图。

直方图

什么是直方图？

直方图是一种图形表示，显示了数值数据的分布。它由柱状组成，其中每个柱状代表一个称为区间的值域，每个柱状的高度显示了该区间内数据点的频率。这种视觉格式通过显示值及其频率的分布，使理解大量数据变得更容易。直方图在揭示数据分布的形状方面特别有用，无论是偏向一侧、对称还是有异常值。它们对于识别数据分布的中心趋势、范围和形状等特征至关重要，是探索性数据分析（EDA）中的基本工具。

创建直方图的第一步是将整个值域划分为一系列区间或区间。接下来，我们计算每个区间中有多少个值。直方图的 x 轴代表这些区间，而 y 轴显示每个区间中数据点的频率或计数。仔细选择区间大小和范围非常重要，因为它会显著影响直方图的外观和可解释性。直方图在处理大型数据集时特别有用，因为这些数据集中的模式和结构可能并不立即明显，因为它们将数据压缩成更容易分析和解释的形式。

直方图在各种学科中得到了广泛应用，包括统计学、经济学和数据科学，因为它们能够提供数据分布的清晰和简洁概述。它们有助于揭示数据集中的潜在模式、趋势和潜在的异常，这对于准确的分析和决策至关重要。直方图是数据分析的初步步骤，通常在应用更复杂的统计技术之前使用。通过呈现数据的视觉摘要，直方图促进了假设的形成、研究方向，并可以指导更详细的统计分析。它们在将原始数据转化为可理解和可操作的见解方面至关重要，构成了有效数据可视化和分析的基础。

直方图的元素有哪些？

直方图的元素或组成部分，它们有助于其作为数据可视化和分析工具的有效性，包括

1. 区间（或柱状）：区间是直方图的核心组成部分。每个区间代表一个值域，并且每个区间的宽度在直方图中是均匀的。区间的数量和它们覆盖的范围可以显著影响直方图的解释，因为它们决定了数据表示的粒度水平。

2. 频率：这指的是每个区间内的数据点数量。直方图中每个区间（柱状）的高度对应于频率，表示有多少数据点落在这个特定的范围内。频率可以是绝对的（数据点的实际计数）或相对的（总数量的比例或百分比）。

3.x 轴（水平轴）：x 轴表示数据被划分成哪些区间或类别。在直方图中，这个轴将显示数据被分箱的值范围。x 轴的刻度和范围需要仔细选择，以准确反映数据分布。

4.y 轴（垂直轴）：y 轴显示每个箱子的数据点的频率。它可以表示每个箱子的计数（数据点数量）或密度（相对于箱子宽度的频率）。y 轴的刻度由数据点的频率决定。

5.标题和标签：清晰的标题和轴标签对于理解直方图至关重要。标题通常总结了直方图表示的内容，而 x 轴和 y 轴的标签分别说明了箱子及其高度代表的内容。

6.箱子之间的间隙：与条形图不同，直方图通常在箱子之间没有间隙，除非数据中存在间隙，这强调了数据是连续的，箱子是相邻的区间。有时，条形之间可能存在非常小的间隙以提高清晰度，或者每个条形都有轮廓以提高清晰度；否则，它可能看起来像面积图，这并不那么有用。每个条形应保持其独特的特征，因为它代表一个数据范围。

7.可选元素：根据目的，直方图还可以包括其他元素，如平均线（表示数据的平均值）、众数指示器或突出显示数据分布特定特征的注释。

创建数据集直方图的示例

这里是一个创建位于案例数据文件夹中的 ORDERS.xlsx 数据集直方图的示例：

图 6.1 直方图示例，显示销售分布

在 ORDERS 数据集中，我们使用直方图（图 6.1）来可视化销售金额的分布，提供了数据分析中直方图的清晰示例。直方图由 SALES 列创建，其中每个条形代表一个销售值范围。每个条形的高度显示了落入该销售范围的订单数量，这使得很容易看到销售集中的地方。

这种方法简化了复杂的数据。x 轴显示了按箱划分的销售金额，y 轴表示每个箱子的订单数量。分析直方图有助于识别模式，例如最常见的和最罕见的销售范围。这个可视化工具对于快速理解数据的分布和频率至关重要，这对于数据驱动的决策和分析至关重要。

分析案例 6.1：使用 ORDERS 的分析案例

使用 Excel 进行分析

使用提供的案例数据文件，找到 ORDERS.xlsx 文件。使用 Excel 打开 ORDERS.xlsx。

我们将回答以下问题：

我们的销售量主要由低价产品组成，还是我们在所有产品价格上销售的产品数量相等？

是否有任何产品定价范围占我们收入的大部分，或者我们的收入在低价、中价和高价产品之间均匀分布？

按照我们不更改原始数据的惯例，选择整个文件，并将其作为新工作表中的形状文件复制，标签为“ORDERS 工作表”。在“收入”列底部，计算 SALES 的最大值和收入的最低值。

在形状表格旁边的单元格中，从最小值（MIN）到最大值（MAX）以$500 的增量创建直方图的区间。选择你认为合理的直方图分割（从 500 开始，使用等增量）。

使用分析工具包的直方图功能或“频率”功能来创建直方图（图 6.2）。

图 6.2 使用 Excel 分析工具包中的频率函数创建销售直方图的示例

你能对分布看起来如何（图 6.3）说些什么吗？

图 6.3 完成的销售直方图

计算利润直方图（图 6.4）：

图 6.4 使用 Excel 分析工具包中的频率函数创建利润直方图的示例

你能对每笔销售的利润分布（图 6.5）说些什么吗？

图 6.5 完成的利润直方图

使用 R 进行分析

使用提供的案例数据集文件，找到文件 ORDERS.xlsx。使用 Jamovi 中的“描述统计”功能，设置如图 6.6 所示。结果直方图显示在图 6.7 中。

图 6.6 使用 Jamovi 进行直方图分析的设置

图 6.7 完成的利润直方图

使用生成式 AI 进行分析

使用提供的案例数据集文件，将文件 ORDER.csv 上传到带有代码解释器插件的 ChatGPT-4。然后使用以下提示来获取你的结果。以下是从 ChatGPT-4 收到的提示和响应。

提示： “创建一个直方图来展示每笔订单的利润分布。”

ChatGPT-4 的响应（图 6.8）：

图 6.8 完成的利润直方图

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经在前一次计算中加载到 ChatGPT。这是分析的延续。以下为提示和响应。

提示：“我们的销售量主要由低价产品组成，还是我们在所有产品价格上销售的产品数量均衡？”

ChatGPT-4 的响应：

是的，你的销售量主要由低价产品组成。大多数销售的产品属于“低价”类别，这表明这些低成本商品构成了你销售量的主体。

提示：“是否有任何产品定价范围占了我们收入的大部分，或者我们的收入在低价、中价和高价产品之间均匀分布？”

ChatGPT-4 的回复：

是的，特定的产品定价范围确实占了你收入的大部分。尽管“中价”产品不是销量最大的类别，但它们占有了最多的收入。因此，你的收入并不是在低价、中价和高价产品之间均匀分布；它偏向于中价产品。

分析案例 6.2：使用泰坦尼克号数据的分析案例

使用 Excel 进行分析

使用案例数据集文件，找到文件 Titanic.xlsx。使用 Excel 打开 Titanic.xlsx。

我们将回答以下问题：

所有乘客的年龄分布是怎样的？

乘客的年龄分布是否因乘客等级而有所不同？

将 Titanic 数据表复制到一个新的工作表中，并将标签命名为“乘客”。按年龄对表格进行排序，并删除所有没有年龄条目的行。从 Titanic 乘客数据中创建乘客年龄的直方图。按乘客等级对表格进行排序。使用相同的箱范围对三个年龄范围进行分类，并比较直方图。使用 10 年箱范围。你看到了哪些差异（图 6.9）？

图 6.9 泰坦尼克号所有乘客在 10 年范围内的年龄分布直方图，同时也显示了头等舱、二等舱和三等舱乘客的年龄分布

现在，使用五年范围重复此过程。你将如何描述差异（图 6.10）？

图 6.10 泰坦尼克号所有乘客在五年范围内的年龄分布直方图；同时也显示了头等舱、二等舱和三等舱乘客的年龄分布

使用 R 进行分析

使用案例数据集文件，找到文件 Titanic.xlsx。使用 Jamovi 中的“描述性统计”功能，设置如图 6.11 和 6.12 所示。

图 6.11 使用转换特征来分割年龄组

图 6.12 泰坦尼克号所有乘客在 10 年范围内的年龄分布描述性分析，以及显示头等舱、二等舱和三等舱乘客年龄分布的条形图

使用生成式 AI 进行分析

使用案例数据集文件，将文件 Titanic.csv 上传到 ChatGPT-4 并使用代码解释器插件。然后，使用以下提示。结果如图 6.13 和 6.14 所示。

提示：“创建一个条形图，显示所有乘客在 10 年范围内的年龄分布（从 0-10 开始），然后创建另一个条形图，显示 5 年范围内的分布。”

ChatGPT-4 的回复：

图 6.13 以 10 年范围为单位的乘客年龄分布柱状图

图 6.14 以 5 年范围为单位的乘客年龄分布柱状图

现在我们按乘客等级进行分析。使用以下提示，并参考图 6.15 和 6.16 查看结果。

提示： “创建一个柱状图，显示头等舱、二等舱和三等舱乘客在 10 年范围内的年龄分布（从 0-10，11-20，21-30 等），按年龄范围划分；然后创建另一个以 5 年范围为单位的柱状图。”

ChatGPT-4 的回复：

图 6.15 以 10 年范围为单位的头等舱、二等舱和三等舱乘客年龄分布柱状图

图 6.16 以 5 年范围为单位的头等舱、二等舱和三等舱乘客年龄分布柱状图

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续。

提示：“所有乘客的年龄分布是怎样的？”

ChatGPT-4 的回复：

泰坦尼克号乘客的年龄分布，如图中箱线图所示，主要从年轻人到中年人，中位年龄约为 28 岁。大多数乘客集中在 20 至 38 岁之间，反映了年轻乘客的人口统计特征。此外，还有一些异常值，代表了一些显著超过典型年龄范围的老年人。

提示：“乘客年龄分布是否存在差异？”

ChatGPT-4 的回复：

是的，乘客年龄分布按乘客等级有明显的差异。

头等舱：乘客通常年龄较大，中位年龄约为 37 岁，IQR 较宽，表明年龄范围更广。
二等舱：中位年龄略低于头等舱，大约 29 岁，老年乘客较少。
三等舱：这个等级的乘客年龄最年轻，中位年龄约为 24 岁，年龄分布更集中于年轻年龄。

第七章

帕累托分析

本章介绍了一种强大的商业分析技术，称为帕累托分析，通常被称为“80/20 法则”。该法则以意大利经济学家维弗雷多·帕累托的名字命名，这种方法有助于识别数据集中的最重要因素，揭示哪些小部分原因或元素导致了大多数效果或结果。

帕累托分析解决以下商业问题：“哪些因素是最重要的、最有影响力的或最有影响的？”它是一种多功能的工具，适用于各种商业场景，从质量控制、客户服务到销售优化和风险管理。

帕累托分析涉及在一个数据集中检查两个相关变量：通常，是一组类别及其相关的数值。这种分析有助于确定哪些类别组合对总贡献最大。例如，我们可能会问：“哪些产品产生了我们 80%的收入？”或者“哪些客户群体占我们投诉的大多数？”

帕累托分析的力量在于其能够剔除噪音，专注于对“关键的少数”因素，这些因素具有最大的影响。这种方法允许企业更有效地分配资源，有效地优先处理问题，并做出基于数据的战略决策。

帕累托图，这是分析的关键组成部分，结合了条形图和折线图。条形表示按大小降序排列的个体原因，而折线显示累积百分比。这种视觉表示使得很容易识别累积线开始平缓的点，这通常被称为曲线的“肘部”或“膝部”。

虽然 Excel 没有内置的帕累托分析函数，但可以使用基本的电子表格操作来完成这个过程。本章将指导您手动执行帕累托分析的步骤，使您能够将此技术应用于各种商业场景。

虽然帕累托分析是一个强大的工具，但它应该谨慎使用。经典的 80/20 比例并不是分析师必须遵循的严格规则，实际比例可能因具体数据集和上下文而异。此外，仅关注主要贡献者有时可能会导致忽视重要但不太频繁的问题。

在本章中，我们探讨了几个案例研究，展示了帕累托分析在不同环境中的应用。我们使用了各种工具，包括 Excel 和 R（通过 Jamovi），甚至利用了 AI 分析的能力。到本章结束时，您将学会如何进行帕累托分析并解释其结果，这将为您的数据分析工具箱增添一项宝贵的技能。

帕累托分析

什么是帕累托分析？

帕累托分析，也称为 80/20 法则或因素稀疏性原理，是一种强大的统计技术，用于识别数据集中的最重要因素。该原理以意大利经济学家维弗雷多·帕累托的名字命名，他观察到意大利 80%的财富掌握在 20%的人口手中，这一原理在各个领域得到了广泛应用，尤其是在商业和质量控制领域。

帕累托分析基于这样一个观点：少数原因（通常约为 20%）对大多数效果（通常约为 80%）负责。这一概念通过帕累托图来可视化，该图结合了条形图和折线图，以显示按降序排列的个体值和累积总数。

在商业环境中，帕累托分析对于优先处理问题、分配资源和做出战略决策至关重要。例如，一家公司可能会发现其 80%的利润来自其 20%的产品，或者 80%的客户投诉源于其 20%的服务问题。通过关注这些关键的少数因素，企业可以在最小努力的情况下实现显著的改进。

进行帕累托分析的过程通常涉及以下几个步骤：

1. 确定要分析的问题或效果。

2. 列出潜在的成因或贡献者。

3. 收集关于每个成因的频率或影响的数据。

4. 计算每个成因的累积百分比。

5. 按频率从高到低排列成因，创建帕累托图。

6. 在图表上绘制累积百分比线。

7. 分析图表以识别“关键的少数”成因。

帕累托分析的一个优势是其多功能性。它可以应用于广泛的商业场景，从制造业的质量控制到客户服务改进、销售优化和风险管理。例如，在质量管理中，它有助于确定最常见的缺陷或浪费来源。在营销中，它可以揭示哪些产品或客户群体产生最多的收入。

然而，需要注意的是，尽管帕累托分析是一个强大的工具，但它应该谨慎使用。80/20 比率是一个关于比例的建议，但实际比例可能会有所不同。只关注主要贡献者可能会导致忽视重要但不太频繁的问题。

在解释帕累托图时，分析师会寻找曲线的“肘部”或“膝盖”，这是累积百分比线开始平缓的点。这个点通常表明在哪里划线区分“关键的少数”和“琐碎的多数”成因。

在大数据和高级分析时代，帕累托分析因其简单性和有效性而保持相关性。它提供了一种清晰、直观的方式来优先考虑因素，并集中精力在最能产生影响的领域。通过帮助业务识别和解决最重大的问题，帕累托分析使问题解决和资源分配更加高效，最终导致性能和竞争力的提升。

就像任何分析工具一样，帕累托分析的有效性取决于数据的质量和解释的准确性。当谨慎使用时，它作为其他统计和商业分析技术的宝贵补充，帮助组织在追求卓越的过程中更加高效地工作。

帕累托分析包含哪些要素？

帕累托分析的要素或组成部分，它们有助于其作为数据可视化和分析工具的有效性，包括以下内容：

1.问题或效果：被分析的具体问题或结果，它是帕累托分析的基础

2.原因或贡献者：可能对正在调查的问题或效果有贡献的因素

3.数据收集：关于每个原因的定量信息，通常是发生频率或影响

4.帕累托图：主要的视觉表示，结合了条形图和折线图

5.条形：代表单个原因的垂直列，从左到右按大小顺序排列

6.累积线：叠加在条形图上的折线图，显示总效果的累积百分比

7.左 Y 轴：通常表示单个原因的频率或影响

8.右 Y 轴：显示累积百分比，通常在 0%到 100%之间

9.X 轴：列出原因或贡献者，通常使用代码或缩写标签

10.80%线：累积百分比轴上的 80%处的水平线，有助于识别“关键的少数”原因

11.“关键的少数”：占主要效果的少量原因（通常约为 20%）

12.“琐碎的多数”：剩余的原因，共同占较小部分的总效果

13.“肘部”或“膝部”：累积线开始平缓的点，通常用于将“关键的少数”与“琐碎的多数”分开

这些元素共同作用，创建了一个强大的视觉工具，帮助分析师和决策者快速识别和优先考虑影响特定情况或问题的最重要因素。

创建数据集帕累托分析的示例

图 7.1 展示了如何为世界银行在其世界发展指标数据库中提供的按国家划分的 GDP 数据集创建帕累托分析的一个示例。这种分析有助于回答哪些国家对世界 GDP 贡献最大的问题。

图 7.1 按国家划分的 GDP 帕累托图，显示对世界总 GDP 贡献最大的国家

分析案例 7.1：帕累托分析

使用 Excel 进行分析

使用提供的案例数据集文件，找到文件 WDIAnnotatedData.xlsx。使用 Excel 打开 WDIAnnotatedData.xlsx。

我们将回答以下问题：

哪些国家对全球互联网用户人口贡献最大？（我们将为 2012 年计算，这是我们拥有的最新数据年份。）

我们需要所有国家 2012 年的每 100 人的人口和互联网用户数。遵循我们不更改原始数据的惯例，选择适当的列和行，在新的工作表中创建一个形状文件，并将标签命名为“帕累托”。

删除表格底部在最后一个个人国家（津巴布韦）之后出现的行。一旦你有一个包含“国家名称”、“人口”和“每 100 人互联网用户数”的形状文件，保存该文件。在右侧的空列中创建一个变量，并将其标记为“互联网用户”。计算并将“人口”和“每 100 人互联网用户数”的乘积输入到这个新列中，以得到每个国家的总互联网用户数。

计算总互联网用户数和人口数，并将它们输入到各自的列底部。

世界上互联网用户与总人口的比例是多少？

你感到惊讶吗？（你可能需要重新格式化单元格以便轻松阅读数字。）

按照互联网用户数对数据文件进行排序（图 7.2）。在右侧的空列中创建一个变量，并输入每个国家相对于世界总互联网用户数的互联网用户百分比计算变量。将该变量设置为不带小数的百分比，以便易于阅读。

图 7.2 准备好分析的世行数据集

在右侧的另一空列中，创建一个计算变量，用于输入累积分布函数（CDF）的结果。高亮显示直到 80%累积结果的顶部行（图 7.3）。

回答这些问题：

80%代表多少个国家？它们占世界所有国家的百分比是多少？它符合 80/20 规则吗？

绘制前 50 个国家的 CDF。你注意到了什么？它告诉你什么？我们看到 126 个国家中有 25 个（或 20%）贡献了世界总互联网用户的 80%。在这种情况下，80/20 规则适用（图 7.4）。

图 7.3 2012 年互联网用户帕累托分析，显示对世界互联网用户总人口的贡献最大的国家

图 7.4 帕累托图构建细节

使用 R 进行数据分析

使用提供的案例数据集文件，找到文件 WDIAnnotatedData 2012 Internet Users.xlsx。用 Jamovi 打开它。确保程序将“国家”变量识别为分类变量，并将“总互联网用户”变量识别为数值变量。Jamovi 帕累托分析参数如图 7.5 所示。由于列表中有超过 200 个国家， parade 图将会非常宽。为了得到一个合理的图表，删除除了前 30 个贡献者之外的所有内容。得到的图表类似于图 7.6 所示。由于坐标轴难以阅读，且 Jamovi 中没有参数可以使图表更易于阅读，因此该图表处理起来具有挑战性。

图 7.5 在 Jamovi 中设置帕累托图

图 7.6 2012 年世界互联网用户贡献者帕累托图，显示 x 轴上的拥挤问题

使用生成式 AI 进行分析

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续，提示词得到了以下结果。

提示： “这里有一些世界银行的数据，显示了按国家划分的互联网用户。我想进行帕累托分析，以确定哪些国家为世界互联网人口做出了最大贡献。请使用 2012 年的数据进行分析，并绘制前 50 个贡献者的帕累托曲线。”

ChatGPT 的回复（图 7.7）：

图 7.7 2012 年世界互联网用户贡献者的帕累托图

ChatGPT 对框架分析问题的回答

提示： “哪些国家为全球互联网用户人口做出了最大贡献？（我们将为 2012 年计算，这是我们拥有的最新数据。）”

ChatGPT 的回复：

2012 年的互联网用户帕累托分析显示了每个国家为总互联网用户贡献的累计百分比。以下是主要贡献者：

1.中国：5.713 亿用户（占总数的 23.05%）

2.美国：2.489 亿用户（累计 33.10%）

3.印度：1.556 亿用户（累计 39.38%）

4.日本：1.1 亿用户（累计 43.82%）

5.巴西：9650 万用户（累计 47.71%）

6.俄罗斯联邦：9130 万用户（累计 51.39%）

7.德国：6620 万用户（累计 54.07%）

8.英国：5570 万用户（累计 56.32%）

9.尼日利亚：5540 万用户（累计 58.55%）

10.法国：5350 万用户（累计 60.71%）

11.墨西哥：4800 万用户（累计 62.65%）

12.韩国：4200 万用户（累计 64.34%）

13.印度尼西亚：3630 万用户（累计 65.81%）

14.阿拉伯埃及共和国：3550 万用户（累计 67.24%）

15.越南：3500 万用户（累计 68.66%）

这 15 个国家共同占 2012 年全球互联网用户的约 68.66%。

分析案例 7.2：使用 MOVIES 数据进行分析

使用 Excel 进行分析

让我们进行一个额外的练习，以研究解释帕累托图的一种另一种方式。使用案例数据集文件，找到 Movies.xlsx 文件。使用 Excel 打开 Movies.xlsx。遵循我们不更改原始数据的惯例，选择所有行和列并将它们复制到缓冲区。将数据粘贴到新的工作表中，并将标签命名为“工作数据”。

我们将回答这个问题：

哪些电影对行业收入贡献最大？

让我们以总收入作为我们的标准。按总收入对数据文件进行排序。在列的底部创建总收入。在右侧的空列中创建一个变量，并输入每个电影相对于所有电影总收入的百分比计算变量。将该变量设置为没有小数的百分比，以便易于阅读。在右侧的另一空列中创建一个计算变量，在其中输入累积分布结果。高亮显示累积结果达到 80%的前几行。绘制累积分布函数(CDF)图 7.8。你注意到了什么？这告诉了你什么？

图 7.8 帕累托分析导致得出没有显著少数情况的说明

使用 R 的分析

使用提供的案例数据集文件，找到 Movies.xlsx 文件。用 Jamovi 打开它。确保程序将“电影”变量识别为分类变量。同时，确保“国内收入”变量被识别为数值变量。Jamovi 帕累托分析的相关参数显示在图 7.9 中。由于列表上有超过 200 部电影，帕累托图将会非常宽。为了得到一个合理的图表，删除除了前 25 部电影（按收入最高排序）之外的所有电影。得到的图表类似于图 7.10 中所示。由于坐标轴难以阅读，且 Jamovi 中没有参数可以使图表更易于阅读，因此这个图表处理起来比较困难。

图 7.9 在 Jamovi 中设置帕累托图

图 7.10 最大收入电影帕累托图，显示拥挤的 x 轴

使用生成式 AI 的分析

给 ChatGPT 的以下提示：“从上传的数据集中创建按国内收入的帕累托图，只显示前 20 部电影。”

ChatGPT 的回复(图 7.11)：

图 7.11 顶级 20 部电影收入帕累托图

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取生成式 AI 工具提供的框架问题的更详细答案。记住，相关数据文件已经为之前的计算加载到 ChatGPT 中。这是分析的延续，并且获得的提示得到了以下结果。

提示：“帕累托图没有显示拐点，很难确定包含‘最多’收入的‘顶尖’几部电影。为什么？需要多少部电影才能积累到总收入的 80%？”

ChatGPT 的回复：

需要 195 部电影才能积累到总国内收入的 80%。这表明收入分布在大约众多电影中相当分散，这也是为什么帕累托图没有显示出明显的“拐点”或“拐点”。

分析案例 7.3：使用 ORDERS 数据集的分析案例

使用 Excel 的分析

使用案例数据集文件，找到名为 ORDERS.xlsx 的文件。使用 Excel 打开 ORDERS.xlsx。

我们将回答以下问题：

哪些省份产生了最多的订单？

按省份创建订单的交叉表，以列出每个省份的金额。首先按订单数量最多的省份对交叉表省份进行排序（图 7.12）。注意所有订单的总计。

图 7.12 如何设置交叉表以按省份列出订单

让我们使用省份订单计数创建一个帕累托图。在交叉表旁边创建一个新变量，并将每个省份订单的百分比输入其中。然后，计算第二个新变量作为累积分布函数。选择占所有订单 80%的省份。这是所有省份的 20%吗？你能在曲线上看到“拐点”吗？你能识别出订单“最多”的省份（图 7.13）？

图 7.13 展示哪些省份对总订单数量贡献最大的帕累托分析

使用 R 进行分析

使用提供的案例数据集文件，找到名为“按省份订单.xlsx”的文件。使用 Jamovi 打开此文件。确保程序将“省份”变量识别为分类变量。为了在帕累托图的 x 轴上使省份清晰，为每个省份分配一个代码，例如数字或字母（例如，A、B 或 C）。在图表中使用这些省份代码代替省份名称。确保将“销售总额”变量识别为数值变量。

对于 Jamovi 中的帕累托分析，参考图 7.14 中显示的参数。生成的图表应类似于图 7.15 中显示的图表。

图 7.14 在 Jamovi 中设置帕累托图

图 7.15 对总销售收入贡献最大的省份帕累托图

使用生成式 AI 进行分析

给 ChatGPT 的以下提示：“按省份进行总销售收入的帕累托分析，并创建帕累托分析图表。”

ChatGPT 的响应（图 7.16）：

图 7.16 省份销售帕累托图，显示哪些省份对总销售收入贡献最大（根据 ChatGPT 分析）

ChatGPT 对框架分析问题的回答

我们现在将使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经加载到 ChatGPT 中进行之前的计算。这是分析的延续，这里给出的提示获得了以下结果。

提示： “哪些省份对总销售收入贡献最大？”

ChatGPT 的响应：

从帕累托分析中，我们可以根据其累积百分比识别出对总销售收入贡献最大的省份。以下是贡献大部分总销售收入的顶级省份：

1.安大略省：20.54%

2.不列颠哥伦比亚省：33.23%（累计）

3.阿尔伯塔省：44.66%（累计）

4.魁北克：54.78%（累计）

5.萨斯喀彻温省：64.60%（累计）

6.曼尼托巴省：73.80%（累计）

7.育空地区：80.35%（累计）

这七个省份共同贡献了大约 80%的总销售收入。

分析案例 7.4：使用 SFO 机场调查数据进行分析

使用 Excel 进行分析

使用案例数据集文件，找到文件 2016_SFO_Customer_Survey_Data.xls。打开数据字典文件，并在处理数据时随时查阅。使用 Excel 打开数据文件。

我们将回答以下问题：

使用 SFO 的旅客最常去的目的地是什么？

乘客最常旅行的原因是什么？

乘客对机场清洁度最常抱怨的是什么？

对于第一个问题，通过 DESTGEO 创建一个数据透视表，按评论代码统计评论数量，过滤掉无评论（代码=0）的行，并按最频繁的计数排序。然后，可以进行帕累托分析以发现最频繁的目的地（图 7.17）。

图 7.17 使用数据透视表统计按 DESTGEO 划分的乘客数量，并使用帕累托分析确定最频繁的目的地

对于下一个问题，通过 Q2 评论、Q2COMM 创建一个数据透视表，按评论代码统计评论数量；过滤掉无评论（代码=0）的行；并按最频繁的计数排序。然后，进行帕累托分析以发现他们旅行最频繁的原因。

对于最后一个问题，通过 Q9 评论、Q9COM1 创建一个数据透视表，按评论代码统计评论数量；过滤掉无评论（代码=0）的行；并按最频繁的计数排序。然后，进行帕累托分析以发现关于清洁度的最频繁投诉（图 7.18）。

图 7.18 数据透视表和帕累托分析以发现最常访问机场的旅客类型

图 7.19 对清洁度最频繁投诉的帕累托分析

确保参考数据字典（可能需要使用 Word 版本）以捕捉代码的含义来注释你的结果（图 7.19）。

使用 R 进行分析

要使用 Jamovi 进行此分析，我们需要按每个问题的代码提取汇总表。然后，我们可以直接从 Excel 中的数据透视表复制简单表格到一个新的 Jamovi 工作表中。在确保变量已正确声明并具有正确的类型后，对每个变量进行帕累托分析变得容易。

对于第一个问题，“使用 SFO 的旅客最常去的目的地是什么？”，我们设置了变量 GEODEST（在代码中）。设置屏幕显示在图 7.20，结果帕累托分析在图 7.21 中。

图 7.20 在 Jamovi 中设置 GEODESDT 的帕累托图

图 7.21 GEODEST 的帕累托图，按代码排序，是乘客通过 SFO 机场旅行的最频繁目的地

对于第二个问题，“乘客旅行的最常见原因是什么？”，我们设置了变量 Q2PURP1（在代码中）。设置屏幕显示在图 7.22，结果帕累托分析显示在图 7.23。

图 7.22 在 Jamovi 中设置 Q2PURP1 的帕累托图

图 7.23 Q2PURP1 的帕累托图，显示按代码排序的最常见旅行原因

对于第一个问题，“乘客对机场清洁最频繁的投诉是什么？”，我们设置了变量 Q9COM（在代码中）。设置屏幕显示在图 7.24，结果帕累托分析显示在图 7.25。

图 7.24 在 Jamovi 中设置 Q9COM 的帕累托图

图 7.25 Q9COM 的帕累托图，显示按代码排序的最常见投诉

使用生成式 AI 进行分析

给 ChatGPT 的以下提示：“请使用提供的数据创建帕累托分析图。目的地代码应根据其计数降序排列。x 轴应显示目的地代码，y 轴应显示计数。此外，在次要 y 轴上绘制累积百分比线。使用蓝色条形表示计数，并确保累积百分比线平滑且准确。还包括累积百分比轴上的 80% 标记处的水平虚线。”

ChatGPT 对 GEODEST 目的地数据提示的回复(图 7.26)：

图 7.26 GEODEST 的帕累托图，按代码排序，是乘客通过 SFO 机场旅行的最频繁目的地

ChatGPT 对 Q2PURP1 旅行原因数据提示的回复(图 7.27)：

图 7.27 Q2PURP1 的帕累托图，显示按代码排序的最常见旅行原因

ChatGPT 对 Q9COM 清洁投诉数据和提示的回复显示在图 7.28。

图 7.28 Q9COM 的帕累托图，显示按代码排序的最常见投诉

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 获取生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经加载到 ChatGPT 中进行之前的计算。这是分析的延续，这里给出的提示获得了以下回复。

提示：“使用 SFO 的旅客最频繁的目的地是什么？”

ChatGPT 的回复：

现在，让我们确定最频繁的目的地：

美国 – 西部（阿拉斯加、夏威夷、西部和大部分山地时区）：1266

美国 – 东部（大部分东部时区）：549

美国 – 中部（密歇根州、印第安纳州、俄亥俄州、西弗吉尼亚州和中部时区）：359

其他北美（加拿大和墨西哥）：408

亚洲：302

根据提供的计数，这些都是旧金山国际机场旅客最频繁的目的地。

提示：“乘客最频繁的旅行原因是什么？”

ChatGPT 的回复：

根据数据，

愉快/度假/娱乐（代码 2）：1286
商业/工作/求职面试（代码 1）：839
访问朋友或亲戚（代码 3）：624

根据提供的计数，这些都是最频繁的三个旅行原因。

提示：“乘客对机场清洁度最频繁的投诉是什么？”

ChatGPT 的回复：

根据提供的计数，最频繁的投诉如下

一般清洁度（代码 1）：机场清洁/比其他机场更干净/考虑到高客流量非常干净 - 84
卫生间不干净（代码 101）：卫生间不干净/需要更频繁地清洁 - 22
访问朋友或亲戚（代码 3）：座椅/休息区需要清洁 - 8
卫生间非常干净（代码 110）：卫生间非常干净 - 6
地毯（代码 7）：地毯/安全检查处的地毯看起来很脏，需要清洁/更换 - 6
餐厅垃圾/杂乱（代码 201）：垃圾/杂乱/空瓶子和杯子/咖啡或食品站杂乱 - 5
卫生间用品（代码 102）：卫生间没有足够的用品/有损坏的设备 - 5

确保不仅上传每个问题的数据集，还要上传数据字典中找到的代码列表。

第八章

散点图

在本章中，我们讨论了一种用于比较两个连续变量的商业数据分析技术。这项技术涉及检查数据表中的三列，其中一列代表一个分类变量，其他两列代表相关的数值。然后，我们使用这两个数值变量来确定哪个类别优化了其他两个。我们将回答的问题如下：“在两个维度上哪个类别表现最好？”为了帮助我们的决策，我们利用一种称为 2X2 图的强大可视化技术。这个图是一个散点图，其中“最佳”类别的坐标始终出现在右上象限。

当我们考虑购买汽车时，我们有各种型号和品牌可供选择。这些选项可以被视为类别。为了帮助我们做出最佳选择，我们为这些不同的选项创建了一个具有许多功能的详细表格。然后，我们从表格中挑选两个数值列，例如油耗和成本，以帮助我们的决策。

我们使用这两列来创建散点图，其中燃油效率在 x 轴上，成本在 y 轴上。图上的每个数据点都标有相应的类别或品牌。为了使决策过程更简单，我们调整显示方式，确保成本变量以反向顺序绘制。这样，较低的成本显示在图的右上象限，使其更容易识别“最佳”选择。

这种方法解决以下商业问题：“最佳选择是什么？”散点图是数据分析中的基本图形工具，用于可视化两个连续变量之间的关系。这些图在二维图上显示单个数据点，每个轴代表一个变量。点形成的模式可以揭示关于变量之间性质和强度的重要见解。

散点图

什么是散点图？

散点图是一种数据可视化类型，用于显示两个数值变量之间的关系。散点图上的每个点代表数据集中的观察值，其位置由两个变量的值确定。x 轴代表一个变量，y 轴代表另一个变量。散点图特别适用于识别数据中的模式或趋势，如相关性或聚类。通过直观地描绘一个变量与另一个变量的关系，散点图可以暗示关系的性质，是正相关、负相关还是不存在。

在数据分析中，散点图发挥着多个关键作用。首先，它们允许研究人员识别数据中的模式或趋势，如线性关系、曲线模式或聚类。这种视觉表示可以迅速突出变量是正相关、负相关还是没有明显关系。

其次，散点图有助于检测异常值或与整体模式显著偏离的异常数据点。这些异常值可能代表数据收集中的错误、值得进一步研究的独特案例，或复杂潜在现象的指标。

此外，散点图在评估各种统计模型的适用性方面非常有价值。例如，散点图的形状可以暗示线性回归模型是否合适，或者是否需要更复杂的模型。

在探索性数据分析中，散点图通常作为起点，引导研究人员走向更复杂的分析技术。它们还可以通过添加颜色编码、大小变化或趋势线等额外功能来增强，以表示数据的额外维度，使它们成为以直观视觉格式传达复杂关系的强大工具。

散点图的一个优点是它们能够揭示变量之间的相关性。如果散点图上的点倾向于一起上升，这表明存在正相关；如果一个变量增加而另一个变量减少，则暗示存在负相关。然而，重要的是要注意相关性并不等同于因果关系；散点图可以表明一种关系，但不能说明一个变量是否导致另一个变量的变化。散点图还可以显示关系的强度和方向，点群越紧密，关系越强。在统计学、经济学和自然科学等领域，理解变量之间的关系至关重要。

除了识别相关性之外，散点图还可以用来检测数据中的异常值或异常观察。远离主要集群的点可能表明需要进一步调查的异常情况。此外，散点图可以通过趋势线或曲线来增强，这些趋势线或曲线从数学上描述了变量之间的关系。这些增强使得散点图成为一种多功能的工具，不仅适用于探索性数据分析，也适用于以清晰、直观的方式展示发现。它们是任何数据分析师工具箱中的基本组成部分，提供了一种简单而强大的理解数据中关系以及传达这些关系的方法。

散点图的元素有哪些？

散点图由几个重要元素组成：

1.数据点：这些是散点图中最基本的组成部分，每个数据点代表数据集中的一次单独观察。数据点在图上的位置对应于两个变量的值，一个沿 x 轴绘制，另一个沿 y 轴绘制。

2.坐标轴：散点图有两个坐标轴，水平轴（x 轴）和垂直轴（y 轴）。每个坐标轴代表数据集中不同的变量。这些坐标轴的刻度和范围必须仔细选择，以准确反映数据。

3.标签和标题：x 轴和 y 轴的清晰标签对于解释散点图至关重要。它们表明每个坐标轴代表什么。此外，一个描述性的标题有助于将数据及其显示的关系置于上下文中。

4.刻度和单位：两个坐标轴上使用的刻度（值的范围）和测量单位对于正确解释散点图至关重要。这些应根据数据范围和分析所需细节水平来选择。

5.趋势线（可选）：通常，会在散点图上添加趋势线（或最佳拟合线）来指示数据的整体方向或模式。这有助于识别变量之间关系的性质，如线性、二次或无相关性。

6. 网格线（可选）：可以向散点图中添加网格线，以便更容易确定各个数据点相对于坐标轴的值。

7. 颜色和标记：可以使用不同的颜色或标记样式来表示数据中的不同类别或组，这有助于比较和对比不同的子集。

8. 注释和文本（可选）：可以使用注释或附加文本来突出特定点、提供解释或为展示的数据添加上下文。

创建数据集散点图的示例

图 8.1 展示了位于案例数据文件夹中的 Companies.xlsx 数据集的散点图示例。

图 8.1 散点图示例，展示了与销售额和每位员工利润相关的分布

在这个来自公司数据集的例子中，我们使用散点图（图 8.1）来探索销售额与每位员工利润之间的关系，展示了散点图在数据分析中的应用。

散点图上的每个点代表一家公司，其销售额位于 x 轴上，每位员工的利润位于 y 轴上。这些点的分布帮助我们理解这两个变量之间的关系。例如，如果 y 轴上的点随着 x 轴值的增加而升高，这表明销售额较高的公司可能也有较高的每位员工利润。这种视觉模式对于揭示销售额与每位员工利润效率之间的关联至关重要。

分析案例 8.1：散点图和 2x2 散点图在“最佳”分析中的应用

哪些是“最佳”的？

2x2 散点图矩阵是一种强大的决策支持工具，以网格格式显示四个相关的散点图。每个图表代表两个变量之间的关系，允许同时比较多个变量对。这种布局特别适用于识别数据不同维度的复杂关系和模式。

在决策情境中，2x2 散点图可以揭示在单独考察变量时可能不明显的相关性、聚类或趋势。它们使决策者能够快速评估权衡，识别最佳解决方案，并发现异常。通过同时可视化多个关系，这些图表促进了数据的更全面理解，支持在商业策略、产品开发和资源配置等各个领域的基于信息和数据驱动的决策。

2x2 散点图有助于通过视觉突出显示 Excel 在多个标准下的数据点来识别“最佳”选项。通过将不同的绩效指标相互对比，决策者可以快速识别右上象限中的项目，代表两个轴上的卓越表现。这种视觉方法简化了复杂的比较，使高效识别顶尖表现者或最佳选择成为可能。

使用 Excel 进行分析

使用案例数据集文件，找到 Companies.xlsx 文件。使用 Excel 打开 Companies.xlsx。

我们将回答以下框架分析问题：

哪些公司的每员工利润和每销售额比率最好？

按照我们不更改原始数据的惯例，选择整个文件，将其作为形状文件复制到一个新的电子表格中，并将标签命名为最佳利率。将文件整理成利润/员工和利润/销售额在相邻的两列中。

选择两个数据列，插入一个散点图（列表中的第一个）。在每个列下方单元格中计算每列的最大值和最小值。这为我们提供了 2x2 图的粗略极端值。

在“图表”选项卡下的“图表快速布局”中，选择带有垂直和水平网格线的选项。右键单击 x 轴，使用“格式轴”将范围更改为从 +50,000 到 -50,000，以 50,000 为主要单位。这给我们只有一个主要刻度。

重复上述步骤，将 y 轴的范围更改为从 -25 到 +25，以 25 为主要单位。单击一个数据点，并确保所有数据点都被选中。右键单击以选择“格式数据系列”。在“标记填充”下，选择“按点变化颜色”。参见图 8.12 了解过程概述和最终产品。

图 8.2 将散点图转换为决策支持 2X2 图以确定“最佳”公司的步骤

现在，让我们看看逆过程(图 8.3)：

哪些是表现最差的公司？

图 8.3 将散点图转换为决策支持 2X2 图以确定“表现最差的公司”的结果

使用 R 进行分析

使用提供的案例数据集文件，找到 Companies.xlsx 文件。在 Jamovi 中使用图 8.4 和图 8.5 中显示的设置使用散点函数。

图 8.4 散点图设置

图 8.5 执行散点图以可视化每员工利润与利润/销售额之间关系的结果

使用生成式 AI 进行分析

将 Companies.csv 文件上传到 ChatGPT-4 并使用代码解释器插件。然后使用以下提示。你应该得到与图 8.6 中类似的结果。

提示：“使用利润/员工列作为 x 轴，使用 %利润/销售额列作为 y 轴创建散点图。标注并说明每列的最大值和最小值。请使用圆形点数据标记。”

ChatGPT 的结果

图 8.6 利润与利润/销售额百分比散点图的结果

ChatGPT 对框架化分析问题的回答

我们现在使用 ChatGPT 获取由生成式 AI 工具提供的框架化问题的更详细答案。请记住，相关数据文件已经加载到 ChatGPT 中进行之前的计算。这是分析的延续，以下提示产生了以下回复。

提示： “哪些公司的每员工利润和每销售额利润比率最好？”

ChatGPT 的回复：

数据集显示，一家中等规模的制药公司在每员工利润和每销售额利润比率方面表现突出，拥有约 43,471 美元的每员工利润和 22.32% 的每销售额利润百分比。

分析案例 8.2：使用世界银行数据的分析案例

使用 Excel 进行分析

使用案例数据集文件，找到文件 WDIAnnotatedData.xlsx。使用 Excel 打开 WDIAnnotatedData.xlsx。

我们将回答以下框架化分析问题：

哪些人口最多的国家互联网普及率最高？

哪些新兴经济体（E7 国家）互联网普及率最高，人口最多？

我们需要为 2012 年所有国家收集人口和每 100 人中的互联网用户数据。为人口最多的国家创建帕累托图。准备一个 2x2 图表，显示每 100 人的互联网用户数和百万人口数，以确定“最佳”国家（图 8.7）。

图 8.7 将散点图转换为 2X2 图表以确定哪些国家“人口最多且互联网普及率最高”的元素

使用互联网进行一些研究，发现哪些国家被认为是“新兴经济体”（这些是 E7 国家）。准备一个 2x2 图表，显示每 100 人的互联网用户数和百万人口数，以确定“最佳”E7 国家或国家（图 8.8）。

由于 Excel 不允许您直接标记国家，识别数据点的方式是通过其坐标并参考表格。你能告诉我哪个国家符合“最佳”标准吗？

图 8.8 将散点图转换为 2X2 图表以确定 E7 国家“人口最多且互联网普及率最高”的步骤

使用 R 进行分析

使用案例数据集文件，找到 WDIAnnotatedData.xlsx。使用 Jamovi 中的散点函数，设置如图 8.9（#fig8-9）和图 8.10（#fig8-10）所示。

图 8.9 使用 Jamovi 可视化每 100 人中人口和互联网用户关系的设置

图 8.10 散点图函数的结果

使用生成式 AI 进行分析

将 WDIAnnotatedData.xlsx 保存为 csv 文件，然后将 WDIAnnotatedData.csv 文件上传到带有 Code Interpreter 插件的 ChatGPT-4。使用以下提示，你应该会得到与图 8.11 中显示的类似的结果。

提示： “使用 2012[YR2012]（来自互联网用户表）作为 x 轴，使用人口表中的 2012 [YR2012]作为 y 轴上的 2012 pop [YR2012]，以显示与人口和互联网用户普及率相关的分布。”

ChatGPT 的回复：

图 8.11 散点图函数显示与人口和互联网用户普及率相关的分布

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续，以下给出的提示导致了以下回复。

提示： “在排除中国、印度和美国这三个国家之后，哪个人口最多的国家拥有最大的互联网普及率？”

ChatGPT 的回复：

在排除中国、印度和美国这三个国家之后，人口最多的国家中，巴西似乎拥有最大的互联网普及率。其互联网普及率为 48.56%，人口近 1.99 亿。这表明，在排除这三个国家之后，巴西在人口最多的国家中在数字连接方面处于领先地位。”

提示： “哪些新兴经济体（E7 国家）拥有最佳的互联网普及率和最大的人口？”

ChatGPT 的回复：

在被称为 E7 国家的新兴经济体中，巴西再次突出，拥有 48.56%的最佳互联网普及率，并且人口规模庞大，是 E7 国家列表中最大的（不包括中国和印度）。在巴西之后，土耳其和墨西哥的互联网普及率分别为 45.13%和 39.75%，土耳其的人口少于墨西哥。印度尼西亚在这些国家中人口最多，但互联网普及率最低，为 14.70%。”

分析案例 8.3：使用 SFO 机场调查数据的分析案例

使用 Excel 的分析

使用从www.flysfo.com/media/customer-survey-data下载的最新 SFO 机场 ACQ 调查数据。或者，使用案例数据集文件，找到 2016_SFO_Customer_Survey_Data.xls 文件。打开数据字典文件，并在处理数据时可供查阅，并使用 Excel 打开数据文件。

我们将回答以下框架分析问题：

乘客在航班之间等待的时间长度与其整体满意度评分之间是否存在关系？

选择航班之间的等待时间和整体满意度评分（参考数据字典）。将这两列数据转移到另一个工作表中。将等待时间标准化为小时（除以 60）。确保所有列都是数值格式，并按等待时间排序。删除所有包含非数值数据的行。

创建一个将等待时间以小时为单位的列编码为整数值。使用 ROUND 函数向上取整。

创建一个交叉表，并按等待时间类别汇总平均满意度评分和乘客总数。

创建等待时间与客户满意度评分的散点图，以及每个类别中客户总数与满意度评分的散点图。你现在可以回答这个问题了吗？（使用图 8.12 和 8.13）

图 8.12 乘客在航班之间等待时间与整体满意度评分的散点图

图 8.13 等待时间类别及其整体满意度评分的散点图

使用 R 进行分析

使用案例数据集文件，找到 2016 年 SFO 客户调查数据.xlsx。使用 Jamovi 中的散点函数，设置如图 8.14 和图 8.15 所示。数据集的设置如图 8.16 所示。图 8.17 显示了生成的散点图。

图 8.14 使用 Jamovi 的转换功能计算等待时间

图 8.15 根据等待时间分组描述平均满意度评分和人数

图 8.16 将描述分析复制粘贴到紧挨原始数据的一张空白表格中，并创建散点图

图 8.17 显示乘客数量与平均满意度评分分布以及他们如何受到等待时间影响的散点图

使用生成式 AI 进行分析

从之前的练习中，将 2016 年 SFO 客户调查数据.xlsx 保存为.csv 文件，然后将 2016 年 SFO 客户调查数据.csv 文件上传到 ChatGPT-4。使用以下提示，你应该得到与图 8.18 中显示的结果相似的结果。

提示：“使用‘乘客数量’（计数*RESNUM）作为 x 轴上的值，使用 Q7ALL 的平均值作为 y 轴上的值，通过不同的等待时间来创建散点图，以显示乘客在满意度评分上的分布以及他们如何受到等待时间的影响。等待时间的单位是小时，等待时间将基于‘HOW LONG’（单位是分钟）计算，并请使用不同的颜色来表示不同的等待时间（从 0 到 14 小时）。请使用圆形点作为数据标记。”

ChatGPT 的回复：

图 8.18 散点图显示乘客在满意度评分上的分布以及他们如何受到等待时间的影响

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续，下面给出的提示获得了以下回复。

提示：“乘客在航班之间等待的时间与其整体满意度得分之间是否存在关系？”

ChatGPT 的回复：

数据表明，等待时间和乘客满意度之间存在微妙的关系。虽然较短的等待时间通常与较高的满意度相关，但也有情况是较长的等待时间并没有严重影响满意度得分，这可以从五小时或更长时间的等待时间中的一些高满意度得分中看出。然而，13 小时的异常值显示出满意度的显著下降。较高等待时间满意度得分的波动可能受多种因素影响，如机场设施的质量、乘客的期望以及等待的背景（例如，自愿滞留与延误航班）。还值得注意的是，较长等待时间的样本量较小，这可能会影响这些类别中平均满意度得分的可靠性。总的来说，虽然似乎存在一个普遍趋势，即较短的等待时间与较高的满意度相关，但这种关系并非严格线性，其他可能影响乘客对等待体验整体满意度的因素也可能在起作用。

第九章

配对 t 检验的结果如下：

• t 统计量：-0.4198

• p 值：0.6770

给定一个常见的显著性水平α=0.05：

• 由于 p 值（0.6770）大于 0.05，我们未能拒绝零假设。

换句话说，基于这个数据集和进行的测试，无论是充满空气还是氦气，踢出的足球行进距离在统计学上没有显著差异。

分析案例 12.3：使用 SFO 机场调查数据进行分析

使用 Excel 进行分析

使用案例数据集文件，找到文件 2016_SFO_Customer_Survey_Data.xls。打开数据字典，并在处理数据时可供查阅。

我们将使用列联分析来回答几个问题。

常旅客客户（每年飞行超过 100,000 次）对机场的清洁度、安全性和整体评分的感受是否与普通旅客不同？

在 Excel 中打开数据文件。创建一个以所有 ID 为行、以 Q21FLY 为列的交叉表。通过将 Q7ALL 的总和在结果框中输入，为数据集中的每一行输入评分。这会产生两个用于 t 检验比较的列（图 12.17）。请确保使用列过滤器从列中删除除类别 1（常旅客）和类别 2（普通旅客）之外的所有内容。

进行具有不等方差的 t 检验分析。这将为我们提供关于常旅客与普通客户感受如何的比较答案。两组的感受是否不同？均值是否有显著差异？

由于在执行 t 检验之前我们不知道两个平均值中哪一个会更高，我们应该接受双尾结果。

图 12.17 交叉表参数和整体客户满意度 t 检验分析结果，比较普通和常旅客客户

创建一个以所有 ID 为行，以 Q21FLY 为列的交叉表（图 12.18）。通过将 Q9ALL（清洁度）的总和在结果框中输入，为数据集中的每一行输入评分。这为 t 检验比较提供了两列。确保使用列过滤器从列中删除除类别 1（常旅客）和类别 2（普通乘客）之外的所有内容。进行不等方差 t 检验分析。这将回答常旅客与普通乘客对清洁度的感受差异。由于在执行测试之前，我们不知道两个均值中哪一个会更高，我们应该接受双尾结果。

图 12.18 比较普通乘客和常旅客对机场清洁度的满意度 t 检验分析结果，包括交叉表参数

创建一个以所有 ID 为行，以 Q21FLY 为列的交叉表（图 12.19）。通过将 Q10ALL 的总和在结果框中输入，为数据集中的每一行输入评分。这为 t 检验比较提供了两列。确保使用列过滤器从列中删除除类别 1（常旅客）和类别 2（普通乘客）之外的所有内容。进行不等方差 t 检验分析。这将给出常旅客与普通乘客对安全感的感受差异。由于在执行测试之前，我们不知道两个均值中哪一个会更高，我们应该接受双尾结果。注意，在这种情况下，t 检验未通过双尾结果但通过了单尾结果，迫使我们接受零假设并得出结论，均值没有显著差异。

图 12.19 比较普通乘客和常旅客对机场安全感的满意度 t 检验分析结果，包括交叉表参数

使用 R 进行分析

使用提供的案例数据集文件，找到文件 2016_SFO_Customer_Survey_Data.xls。在 Jamovi 中使用图 12.20 中显示的设置进行 ANOVA 函数。图 12.21（图 12.21）、图 12.22（图 12.22）和图 12.23（图 12.23）显示了分析结果。

图 12.20 比较普通乘客和常旅客 Q7 总体得分差异设置的参数

图 12.21 普通乘客和常旅客 Q7 总体得分的差异分析结果

图 12.22 普通乘客和常旅客 Q9 总体得分的差异分析结果

图 12.23 普通乘客和常旅客 Q10 总体得分的差异分析结果

使用生成式 AI 进行分析

使用提供的案例数据集文件，将文件 2016_SFO_Customer_Survey_Data.xlsx 上传到 ChatGPT。然后使用给定的提示来获取以下响应。

提示：创建经常旅客和普通旅客之间 Q7、Q9 和 Q10 的描述性分析。然后创建一个箱线图来展示 Q7 整体评分的比较结果，创建一个箱线图来展示 Q9 整体评分的比较结果，创建一个箱线图来展示 Q10 整体评分的比较结果。‘Q7’代表 Q7ALL，‘Q9’代表 Q9ALL，‘Q10’代表 Q10SAFE，而‘Q22FLY’是‘安全、清洁、整体与 FF’工作表中的列。”

图 12.24 和 12.25 展示了从提示中得到的响应。

ChatGPT 的回复：

图 12.24 经常旅客和普通旅客之间 Q7、Q9 和 Q10 的描述性分析结果

图 12.25 Q7、Q9 和 Q10 整体评分的比较结果

ChatGPT 对框架分析问题的回答

提示：经常乘坐飞机的旅客（每年飞行超过 100,000 英里）对机场清洁度、安全性和整体评分的看法是否与普通旅客不同？

ChatGPT 的回复：

为了确定经常乘坐飞机的旅客（每年飞行超过 100,000 英里）对机场清洁度、安全性和整体评分的看法是否与普通旅客不同，我们将执行以下步骤：

1.数据筛选：根据您提供的经常乘坐飞机的旅客标准，将数据分为两组。我们假设在 Q22FLY 列中，值为 1 表示经常乘坐飞机的旅客（每年飞行超过 100,000 英里），值为 2 表示普通旅客。

2.统计检验：我们将进行独立的两组样本 t 检验，比较两组之间机场清洁度（Q9ALL）、安全性（Q10SAFE）和整体评分（Q7ALL）的评分均值。t 检验将有助于确定均值之间的差异是否具有统计学意义。

3.分析：根据 t 检验的结果，我们将对经常旅客与普通旅客在清洁度、安全性和整体评分方面的感受得出结论。

这里是对比经常旅客与普通旅客在机场清洁度（Q9ALL）、安全性（Q10SAFE）和整体评分（Q7ALL）方面的感受的 t 检验结果：

1.整体评分（Q7ALL）

• T-statistic: -2.685

• P-value: 0.0075

2.机场清洁度（Q9ALL）

• T-statistic: -2.121

• P-value: 0.0343

3.安全性（Q10SAFE）

• T-statistic: 0.355

• P-value: 0.7230

给定一个常见的显著性水平（例如，α=0.05），Q7ALL 和 Q9ALL 的 p 值小于 0.05，表明常旅客和普通乘客在整体评分和清洁度感知方面存在显著的统计差异。具体来说，负的 t 统计量表明，与普通乘客相比，常旅客在这两个方面有较低的均值评分。

然而，对于 Q10SAFE（安全），p 值大于 0.05，表明两组在安全感知方面没有显著的统计差异。

总之

• 与普通乘客相比，常旅客似乎对机场清洁度和整体评分有不同的感受。

• 常旅客和普通乘客在安全感知方面没有显著差异。

第十三章

概率分析

概率分析是推断统计分析的一个基本方面，主要处理分类变量。为了理解其应用，可以考虑一个涉及泰坦尼克号灾难的场景，在那里我们调查生存率是否因性别而异。通过交叉表变量，如生存状态和性别，我们可以形成一个提供关于这些关系的洞察性数据的概率表。本章深入探讨此类分析，帮助我们确定观察到的模式，如女性的较高生存率，是否具有统计显著性或仅仅是巧合。

我们采用的一个基石技术是卡方检验，它在评估两个分类变量之间是否存在潜在关联方面至关重要。例如，在检查泰坦尼克号数据时，我们看到女性的生存率较高。为了断言这种模式表明故意偏差或偶然结果，我们必须计算卡方统计量。在这种情况下，p 值小于 0.05 表明生存结果与性别不独立，从而表明对女性的救助存在偏差。

设置卡方分析可能很复杂，尤其是在 Excel 中，这需要使用外部工具以确保准确性和效率。本章指导你通过需要卡方计算的各种场景，提供使用免费在线工具的实践。这种方法论方法类似于我们在第十章（19_ch10.xhtml）中用于测试假设的方法，但针对分类结果进行了调整。

概率分析在商业环境中至关重要，它回答了诸如分类变量之间是否存在固有关系或偏差等关键问题。这项技术不仅超越了简单的交叉表；它为我们提供了测试统计显著性的工具，从而以更高的置信度向商业决策提供信息。

这种技术回答以下商业问题：“两个分类变量是否独立，或者它们之间是否存在潜在的偏差或关系？”

情景分析

什么是情景分析？

情景分析，也称为交叉表或交叉表分析，是一种强大的统计工具，用于商业和数据分析中检查两个或多个分类变量之间的关系。这种方法有助于确定这些变量之间是否存在显著的关联，为决策和战略制定提供有价值的见解。该过程涉及创建一个列联表，以矩阵格式显示变量的频率分布，使分析师能够看到一个变量的不同类别如何与另一个变量的类别相关联。

分析通常从数据收集开始，收集至少两个变量的分类数据。一旦收集到数据，就构建一个列联表，其中每个单元格代表特定变量类别组合的观察频率。下一步是计算期望频率，确定如果变量之间没有关联，每个单元格的频率会是多少。然后进行卡方检验，比较观察频率与期望频率。分析得到的 p 值以确定变量之间是否存在统计上显著的关联。为了量化任何发现的关联的强度，可以使用如 Cramer 的 V 或 Phi 系数等统计方法。

在商业领域，情景分析在各种领域都有应用。它通常用于市场细分，分析人口统计因素与产品偏好之间的关系，帮助识别目标市场。通过考察客户特征与购买模式之间的关系，客户行为分析可以从这种方法中受益。在质量控制中，它可以研究制造过程与缺陷率之间的关系。人力资源部门使用它来分析员工属性与绩效指标之间的联系。金融和保险行业采用情景分析进行风险评估，研究风险因素与结果之间的关系。

市场团队发现这个工具很有价值，通过考察营销渠道与转化率之间的关系来评估活动的有效性。在产品开发中，它有助于分析产品特征与客户满意度之间的关联。销售部门使用它来考察销售技巧与成交率之间的关系。即使在供应链管理中，情景分析在分析供应商特征与交付性能之间的关系时也证明是有用的。

虽然列联分析提供了许多好处，包括揭示分类数据中的隐藏模式并为更高级的统计分析提供基础，但重要的是要注意其局限性。这种方法仅揭示关联，而不是因果关系，关联的强度可能受样本大小的影响。必须小心避免误解虚假相关性。尽管有这些考虑，但列联分析仍然是一种多用途且宝贵的工具，帮助企业发现其分类数据中的关系，从而在各个业务职能中做出更明智的决策。

列联分析的基本要素是什么？

这些元素共同作用，为数据集中分类变量之间的关系提供全面分析。

1. 分类变量：这些是需要分析的变量，可以划分为不同的类别。在列联分析中，你需要至少两个分类变量。

2. 列联表：这是一个矩阵，显示了变量的频率分布。它显示了有多少观测值落在每个类别的组合中。

3. 观察频率：这些是列联表每个单元格中实际发生次数的计数。它们代表了研究中收集的原始数据。

4. 期望频率：这些是在假设变量之间不存在关联的情况下计算出的值。它们使用行和列总计以及总体样本量来计算。

5. 自由度：这代表最终计算中可以自由变化的值的数量。在列联表中，通常计算为（行数 - 1）*（列数 - 1）。

6. 卡方统计量：这是观察频率和期望频率之间差异的度量。它量化了观察数据与我们预期没有关联时的差异程度。

7. P 值：这是在假设不存在真实关联的情况下，获得至少与观察结果一样极端的测试结果的概率。它有助于确定统计显著性。

8. 显著性水平：这是用于确定统计显著性的阈值，通常设置为 0.05。它代表了犯一类错误的可接受风险。

9. 边际总计：这些是列联表中每一行和每一列频率的总和。它们为每个变量的每个类别提供了汇总信息。

10. 总计：这是表中所有频率的总和。它代表了研究中的总样本量。

11. 偏差：这些是观察频率和期望频率之间的差异。它们有助于确定哪些特定的组合对任何观察到的关联贡献最大。

执行数据集列联分析的示例

这里是一个例子（图 13.1 中所示），它是一个从商业应用中得出的列联表。它分析了年龄组与购买的产品类型之间的关系。该表基于调查数据的汇总表，调查对象被问及他们每月预算的大部分花在了哪些产品类型上。客户人口统计数据被分为三个年龄组。调查询问了主要预算类别，如杂货、服装和电子产品。目标是确定年龄与客户花钱购买的商品之间是否存在关系。

图 13.1 年龄组与产品类型交叉表，以及示例的边际总数

我们进行了一项分析，以确定年龄组（本研究的自变量）是否会影响购买的产品类型。涉及计算卡方统计量的独立性检验在此案例中得到了负结果。这表明不同年龄组与购买的产品类型之间没有显著的关系。换句话说，无论买家属于哪个年龄组，我们观察到的差异似乎完全是随机的。

卡方检验结果

• 卡方统计量：2.850

• p 值：0.583

• 自由度（df）：4

卡方检验结果表明，年龄组与购买的产品类型之间没有显著的关联（p 值 > 0.05）。这项分析有助于理解不同年龄组是否有不同的购买偏好，这对于有针对性的营销策略可能至关重要。

分析案例 13.1：列联分析和卡方检验

使用 Excel 进行分析

在这个案例研究中，我们使用列联表和这些变量的独立性检验来更深入地研究泰坦尼克号灾难。假设你是一位调查记者，正在撰写关于泰坦尼克号的故事，你从一些人那里听说泰坦尼克号的船员遵循了“海上法则”来救助乘客的生命。海上法则是怎样的，你将如何证明船员遵循了它？

“海上法则”规定“在灾难中应首先救助妇女和儿童”（参见en.wikipedia.org/wiki/Women_and_children_first)。这个协议在泰坦尼克号上是否得到了执行？

我们将通过回答以下关于泰坦尼克号灾难的问题来调查这个问题：

妇女比男性有更高的生存率吗？

儿童的生存率是否高于成人？

乘客的舱位等级是否对其生存率有影响？

我们将使用列联分析，这基本上是在 Excel 中的数据透视表中进行的。这就是它的样子（图 13.2）：

图 13.2 列联表的要素

Excel 提供了一个公式来计算卡方统计量和由此得到的 p 值。不幸的是，从列联表中创建预期矩阵是复杂且繁琐的。

在这个例子中，我们使用互联网上的免费卡方计算器，这使得整个过程变得容易得多。这个计算器可以分析最多 5x5 的表格：www.socscistatistics.com/tests/chisquare2/Default2.aspx (图 13.3)。对于 10x10 以下的表格，你可以使用www.quantpsy.org/chisq/chisq.htm。

图 13.3 基于网络的 5×5 卡方计算器

首先，我们通过使用数据透视表创建列联表来分析两个分类变量。然后，我们计算感兴趣的比率。接下来，我们使用卡方检验来确定观察到的比率差异是否具有统计学意义，而不仅仅是由于偶然性。如果 p 值小于 0.05，我们可以得出结论，变量“相关”且对差异的现实性有至少 95%的信心。

使用提供的案例数据集文件，找到文件 Titanic.xlsx。使用 Excel 打开 Titanic.xlsx。为了回答第一个问题，创建一个性别（表中变量 sex）与生存的交叉表。计算比率以查看女性是否比男性有更高的生存率。将交叉表中的元素输入到 5×5 的在线计算器中，以确保生存率的差异不是由于偶然性。你看到了什么？

卡方统计量最好描述为观察数据与预期数据之间标准化的偏差。我们关注的不只是实际数字，而是观察到的结果是由于偶然性造成的概率，即 p 值(图 13.4)。

图 13.4 使用数据透视表计算列联表，并使用基于网络的计算器进行独立性卡方分析

为了回答下一个问题，创建一个性别（表中变量 sex）与生存的交叉表(图 13.5)。计算比率以查看女性是否比男性有更高的生存率，并添加 pclass 变量（乘客等级）的子类别。

再次，使用在线计算器输入交叉表的元素，以确保乘客等级的生存率差异不是由于偶然性。你看到了什么？

图 13.5 使用数据透视表计算列联表，并使用基于网络的计算器进行泰坦尼克号乘客生存分析

为了回答最后一个问题，我们需要基于年龄添加一个新变量，我们可以使用 IF 函数（=IF(E2>14, IF(E2="NA"，" "，"NO")，"YES"））将其称为 CHILD（是或否）。我们将使用 14 岁作为儿童的截止年龄，因为那曾是 100 年前可接受的童年年龄。请注意，我们希望为任何年龄在表中未给出的人（N/A）留出空白。这样，我们就可以在创建交叉表时过滤掉空白。

创建一个关于儿童与生存率的交叉表（图 13.6）。计算比率以查看儿童是否比成人有更高的生存率。添加子类别 pclass 以确定是否存在基于乘客舱等的生存偏差。

利用在线计算器验证生存率的差异并非仅仅是巧合。注意包含 Sparklines 以直观地表示按舱等划分的生存率。你观察到什么模式？是否有首等和二等舱乘客生存率较高的趋势？（Sparklines 在 Excel 中是适合单个单元格的微型图表，提供数据趋势的快速视觉表示。它们允许用户轻松地发现数据系列中的模式和变化，而无需全尺寸图表，这使得它们在仪表板和总结报告中特别有用。在 Excel 中，Sparklines 可以在“插入”选项卡上的“Sparklines”组中找到并调用，用户可以选择线形、柱形或赢/输图表类型。）

图 13.6 使用数据透视表计算乘客舱等别与生存率的交叉表，并使用基于网络的计算器进行卡方分析，以分析泰坦尼克号乘客的生存情况

使用 R 进行分析

使用提供的案例数据集文件，找到文件 Titanic.xlsx。使用 Jamovi 打开 Titanic.xlsx。为了回答第一个问题，创建一个性别（表中变量“sex”）与生存的交叉表。确保显示每个性别的百分比，以便清楚地了解与男性相比有多少女性幸存。Jamovi 的设置屏幕如图 13.7 所示，结果交叉分析如图 13.8 所示。注意，卡方统计量的 p 值小于 .001，这意味着两个变量不独立，或者生存率非常依赖于性别。

图 13.7 创建交叉表和执行交叉分析及卡方测试的设置屏幕，用于泰坦尼克号乘客生存与性别分析

图 13.8 在 Jamovi 中创建交叉表、执行交叉分析和卡方测试的泰坦尼克号乘客生存与性别分析结果

初步分析显示，女性在登船进入救生艇方面比男性享有优先权。当我们考虑乘客等级作为自变量时，会出现不同的模式。Jamovi 的设置屏幕显示在图 13.9 中，相应的列联分析显示在图 13.10 中。需要注意的是，卡方统计量的 p 值小于.001，表明这两个变量不独立，或者生存率受到乘客等级的严重影响。具体来说，一等和二等乘客在进入救生艇方面优先于三等乘客。

图 13.9：在 Jamovi 中创建列联表并进行泰坦尼克号乘客生存与性别分析的列联分析和卡方检验的设置屏幕

图 13.10 使用 Jamovi 对泰坦尼克号乘客生存与性别进行列联分析和卡方检验的结果

使用生成式 AI 的分析

使用提供的案例数据集文件，将文件 Titanic.xlxs 上传到 ChatGPT-4。然后，使用以下提示（以下为 ChatGPT 的回复）。

提示：请对“survived”与“sex”变量进行列联分析，并展示包含边缘分布的表格，然后进行卡方分析以查看这两个变量是否独立。

ChatGPT-4 的回复：

这里是“survived”与“sex”变量的列联分析，包括边缘分布：

表 13.1 生存与性别分析结果

卡方检验结果如下：

• 卡方统计量：363.62

• p 值：4.59e-81

• 自由度：1

非常低的 p 值表明“survived”与“sex”之间存在显著关联，表明这两个变量不独立。

提示：请对“survived”与“pclass”变量进行列联分析，并展示包含边缘分布的表格，然后进行卡方分析以查看这两个变量是否独立。

ChatGPT-4 的回复：

这里是“survived”与“pclass”变量的列联分析，包括边缘分布：

表 13.2 生存与 pclass 变量分析结果

卡方检验结果如下：

• 卡方统计量：127.86

• p 值：1.72e-28

• 自由度：2

非常低的 p 值表明“survived”与“pclass”之间存在显著关联，表明这两个变量不独立，或者生存率受到乘客等级的严重影响。具体来说，一等和二等乘客在进入救生艇方面优先于三等乘客。

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经在前一次计算中加载到 ChatGPT 中。这是分析的延续。这里显示的提示获得了以下回复。

提示： “女性是否比男性有更高的生存率？”

ChatGPT 的回复：

要确定女性是否比男性有更高的生存率，我们可以查看每个性别的生存率。让我们根据列联表数据计算女性和男性的生存率。

• 生存的女性人数：339

• 女性总数：466

• 生存的男性人数：161

• 男性总数：843

生存率

• 女性：339/466

• 男性：161/843

我将计算这些值。

生存率如下：

• 女性：72.75%

• 男性：19.10%

是的，女性在泰坦尼克号上的生存率显著高于男性。

提示： “儿童是否比成人有更高的生存率？”

ChatGPT 的回复：

要确定儿童是否比成人有更高的生存率，我们需要定义一个年龄阈值来区分儿童和成人。通常，16 岁被用作阈值。

让我们计算儿童（年龄≤16 岁）和成人（年龄>16 岁）的生存率。我将首先创建必要的列联表并计算生存率。以下是生存率与年龄组变量列联分析，包括边际分布：

表 13.3 生存率与年龄组分析结果

生存率如下：

• 儿童：55.22%

• 成人：36.26%

是的，儿童在泰坦尼克号上的生存率高于成人。

提示： “乘客的舱位等级是否对其生存率有影响？”

ChatGPT 的回复：

要确定乘客舱位是否对生存率有影响，我们可以计算每个舱位（一等、二等和三等）的生存率。

我们将使用之前计算的“生存”与“pclass”的列联表，并确定每个舱位的生存率。让我们计算每个乘客舱位的生存率。

每个乘客舱位的生存率如下：

• 一等舱：61.92%

• 二等舱：42.96%

• 三等舱：25.53%

是的，乘客舱位对生存率有显著影响。一等舱乘客的生存率最高，其次是二等舱，然后是三等舱。

最后，让我们看看 GenAI 工具如何处理推动这次分析关于“海上法则”的总体问题。

提示： “你能判断泰坦尼克号的船员在这场灾难中是否遵循了‘海上法则’？有什么证据？”

ChatGPT 的回复：

我们将关注乘客的生存能力，不考虑船员，并检查女性、儿童和高级舱位的乘客是否具有更高的生存率。

到目前为止，我们的发现总结如下：

1.按性别划分的生存率

a.女性：72.75%

b.男性：19.10%

2.按年龄的生存率

a.儿童：55.22%

b.成人：36.26%

3.按舱位的生存率：

a.一等舱：61.92%

b.二等舱：42.96%

c.三等舱：25.53%

让我们总结一下证据：

• 与男性相比，女性的生存率显著更高，表明遵守了“妇女和儿童优先”的规范。

• 与成人相比，儿童的生存率更高，进一步支持了相同的规范。

• 一等舱和二等舱的乘客比三等舱的乘客有更高的生存率，这表明在疏散过程中优先考虑了高等级舱位的乘客。

根据这些发现，似乎“海洋法”的规范在很大程度上得到了遵守，重点是救助妇女、儿童和高级舱位的乘客。然而，由于缺乏关于船员行动的详细数据，我们无法完全评估他们的合规性。妇女、儿童和高级舱位乘客的高生存率强烈表明这些规范影响了疏散过程。

分析案例 13.2：使用 SFO 机场调查数据进行分析

使用 Excel 进行分析

使用第十三章文件夹中提供的案例数据集文件，并找到文件

2016_SFO_Customer_Survey_Data.xls。打开数据字典，并在处理数据时随时查阅。

我们将使用列联分析来回答几个问题：

对 SFO 机场的整体满意度水平如何随性别变化？

整体满意度水平如何随收入水平变化？

整体满意度水平如何随年龄变化？

使用 Excel 打开数据文件。创建一个以 Q7ALL 为行，Q22GENDER 为列的交叉表（图 13.11）。确保删除 Q7 的“0”和“6”回答行以及 Q22 的空白和“3”回答行。进行卡方检验以确保变量相关。通过“4”和“5”评分的总数检查百分比批准情况。

图 13.11 使用交叉表计算列联表，并使用基于乘客舱位的 Web 在线计算器进行卡方分析，以进行泰坦尼克号乘客生存分析

创建一个以 Q7ALL 为行，Q21INCOME 为列的交叉表（图 13.12）。确保删除 Q7 的“0”和“6”回答行以及 Q21 的空白和“3”回答行。进行卡方检验以确保变量相关。通过“4”和“5”评分的总数检查百分比批准情况。注意添加 Sparkline 图表以可视化不同收入水平之间的差异。

图 13.12 使用交叉表计算列联表，并使用基于乘客收入水平的乘客满意度分析基于 Web 的在线计算器进行卡方分析

通过 Q22GENDER 创建 Q7ALL 的数据透视表（图 13.13）。确保删除 Q7 的“0”和“6”响应行以及 Q22 的空白和“3”响应。执行卡方检验以确保变量相关。检查百分比批准率，即“4”和“5”评分的总数。请注意，由于其中一个变量的级别超过五个，我们不得不使用不同的在线计算器来计算卡方统计量（www.quantpsy.org/chisq/chisq.htm）。

图 13.13 展示了使用数据透视表计算列联表并进行基于乘客年龄段的乘客满意度分析时，使用基于网络的计算器进行卡方分析。

使用 R 进行分析

请确保使用原始调查结果创建包含 Q7ALL（总体满意度得分）、年龄变量 Q19AGE、收入变量 Q21INCOME 和性别变量 Q20GENDER 的平面文件。创建文件后，通过删除满意度得分为 0 和 6 的虚假数据元素（它们是代码，不是得分）、性别变量中除 MALE 和 FEMALE 之外的所有内容以及收入变量中的其他虚假元素来清理它。如果您熟悉使用生成式 AI 提取和清理变量，您也可以使用它，或者您可以使用位于第十三章文件夹中的准备好的文件 2016_SFO_Customer_Survey_Data_Final_Updated.xlsx。使用 Jamovi 打开数据文件。创建一个包括计算卡方统计量的列联分析。

图 13.14 展示了 Q7ALL 与年龄对应的 Jamovi 参数设置。图 13.15 展示了相应的列联分析和卡方结果。

图 13.14 展示了 Q7ALL 与年龄对应的列联分析 Jamovi 参数设置。

图 13.15 展示了 Q7ALL 与年龄对应的列联分析和卡方结果。

图 13.16 展示了 Q7ALL 与收入水平对应的 Jamovi 参数设置。图 13.17 展示了相应的列联分析和卡方结果。

图 13.16 展示了 Q7ALL 与收入水平对应的列联分析 Jamovi 参数设置。

图 13.17 展示了 Q7ALL 与收入水平对应的列联分析和卡方结果。

图 13.18 展示了 Q7ALL 与性别对应的 Jamovi 参数设置。图 13.19 展示了相应的列联分析和卡方结果。

图 13.18 展示了 Q7ALL 与性别对应的 Jamovi 参数设置。

图 13.19 展示了 Q7ALL 与性别对应的列联分析和卡方结果。

使用生成式 AI 进行分析

使用提供的案例数据集文件，打开第十三章文件夹，并将文件 2016_SFO_Customer_Survey_Data_Final_Updated.xlxs 上传到 ChatGPT-4 Plus 的代码解释器插件中。然后，使用以下提示来回答分析案例中提出的问题（响应出现在提示之后）。

提示：请对 Q7ALL 与 Q20GENDER 变量进行应急分析，并展示一个包含边缘分布的表格，然后进行卡方分析以查看变量是否独立。

ChatGPT 对框架分析问题的回答(图 13.20)：

图 13.20：使用 ChatGPT 计算性别与满意度分数的应急表，数据文件已上传并按上述提示进行

卡方测试结果如下：

• 卡方值：11.44

• p 值：0.022

• 自由度：4

这些结果表明，在 5%的显著性水平下，Q7ALL 与 Q20GENDER 之间存在统计学上显著的关联，这意味着变量不是独立的。

提示：请对 Q7ALL 与 Q121INCOME 变量进行应急分析，并展示一个包含边缘分布的表格，然后进行卡方分析以查看变量是否独立。

ChatGPT 对图 13.21 的回答(图 13.21)：

图 13.21：使用 ChatGPT 计算收入与满意度分数的应急表，数据文件已上传并按上述提示进行

卡方测试结果如下：

• 卡方值：27.17

• p 值：0.0073

• 自由度：12

这些结果表明，在 5%的显著性水平下，Q7ALL 与 Q21INCOME_MEANING 之间存在统计学上显著的关联，这意味着变量不是独立的。

提示：请对 Q7ALL 与 Q19AGE 变量进行应急分析，并展示一个包含边缘分布的表格，然后进行卡方分析以查看变量是否独立。

ChatGPT 对图 13.22 的回答(图 13.22)：

图 13.22：使用 ChatGPT 计算年龄与满意度分数的应急表，数据文件已上传并按上述提示进行

卡方测试结果如下：

• 卡方值：41.19

• p 值：0.0035

• 自由度：20

这些结果表明，在 5%的显著性水平下，Q7ALL 与 Q19AGE 之间存在统计学上显著的关联，这意味着变量不是独立的。

ChatGPT 对框架分析问题的回答

我们现在使用 ChatGPT 来获取由生成式 AI 工具提供的框架问题的更详细答案。请记住，相关数据文件已经加载到 ChatGPT 中进行之前的计算。这是分析的延续。以下是对给定提示的响应。

提示：“变量 Q7ALL 是 2016 年客户通过调查反馈表达的 SFO 机场整体满意度水平。整体满意度水平如何随性别变化？”

ChatGPT 的回复：

基于之前创建的列联表，我们可以分析 SFO 机场的整体满意度水平（Q7ALL）如何随性别（Q20GENDER）变化。以下是发现总结：

表 13.4 Q7ALL 与性别分析结果

Q7ALL（满意度水平）	女性	男性
1（非常不满意）	5	1
2	20	28
3	225	247
4	753	811
5（非常满意）	373	317

观察结果

1.非常不满意（1）：对机场非常不满意的女性（5 人）多于男性（1 人）。

2.轻微不满意（2）：与女性（20 人）相比，更多男性（28 人）表示轻微不满意。

3.中立（3）：中立受访者的数量相对接近，女性 225 人，男性 247 人。

4.满意（4）：对机场表示满意的男性（811 人）略多于女性（753 人）。

5.非常满意（5）：与男性（317 人）相比，非常满意的女性（373 人）更多。

结论

SFO 机场的整体满意度水平在性别上有所变化。虽然两个性别中最大的群体都落在“满意”类别（4）中，但女性在最高满意度类别（5）中略占优势，而男性在第二高类别（4）中占比较多。根据之前进行的卡方检验（p 值=0.022），这种差异在统计学上是显著的，表明性别可能对满意度水平有影响。

提示：“整体满意度如何随收入水平变化？”

ChatGPT 的回复：

基于之前为 Q7ALL（整体满意度水平）与 Q21INCOME_MEANING（收入水平）创建的列联表，我们可以分析整体满意度与 SFO 机场的满意度如何随收入水平变化。以下是列联表和边缘分布的发现总结：

表 13.5 满意度水平分析结果

观察结果

1.非常不满意（1）：在所有收入水平中，非常不满意的受访者非常少，每个类别有 1-2 人。

2.轻微不满意（2）：在所有收入水平中，轻微不满意的受访者数量相对较低，在低收入类别中略有较高计数。

3.中立（3）：较大比例的受访者表示中立，在“低于 50,000 美元”类别中计数最高。

4.满意（4）：在所有收入水平中，大多数受访者都落在“满意”类别中。这是每个收入水平中最多的类别。

5.非常满意（5）：非常满意的受访者比例在所有收入水平中相对一致，在低收入类别中略有较高计数。

结论

对旧金山国际机场的整体满意度似乎在不同收入水平上相对一致，大多数受访者都属于“满意”（4）类别，无论其收入如何。卡方检验结果（p 值=0.0073）表明，收入水平与整体满意度之间存在统计学上的显著关联，这表明尽管满意度水平总体相似，但不同收入群体对其满意度的评价存在差异。

提示：“整体满意度如何随年龄变化？”

ChatGPT 的回复：

根据之前为 Q7ALL（整体满意度水平）与 Q19AGE（年龄）创建的列联表，我们可以分析旧金山国际机场的整体满意度如何随年龄组变化。

这里是对之前创建的 Q7ALL（整体满意度水平）与 Q19AGE（年龄）的列联表及边际分布的总结：

表 13.6 满意度分析结果

观察

1.非常不满意（1）：在所有年龄组中，非常不满意的受访者非常少，每个类别有 0-2 位受访者。

2.略不满意（2）：略不满意的受访者在所有年龄组中的数量相对较低，在中年类别（45-54 岁和 55-64 岁）中略有较高。

3.中立（3）：较大比例的受访者在 25-34 岁和 45-54 岁年龄组中持中立态度，计数最高。

4.满意（4）：所有年龄组的大多数受访者都属于“满意”类别，25-34 岁年龄组的计数最高。

5.非常满意（5）：非常满意的受访者在所有年龄组中的比例相对一致，在年轻年龄组（25 岁以下和 25-34 岁）中略有较高。

结论

对旧金山国际机场的整体满意度似乎因年龄组而异。所有年龄组的大多数受访者都表示“满意”（4），25-34 岁年龄组的满意度最高。卡方检验结果（p 值=0.0035）表明，年龄与整体满意度之间存在统计学上的显著关联，这表明尽管满意度水平总体相似，但不同年龄组对其满意度的评价存在差异。

第十四章

A/B 测试

A/B 测试，也称为拆分测试，是数据分析与数字营销中一种强大且广泛使用的方法。本章向您介绍了 A/B 测试的基本概念、技术和应用，这是在各种商业环境中做出数据驱动决策的关键工具。

A/B 测试是一种比较实验，其中测试单个变量的两个版本相互比较，以确定哪个表现更好。版本 A 通常是指“控制”或当前版本，而版本 B 是指“变体”或正在测试的新版本。这种方法允许企业根据统计证据而非直觉或猜测，基于对产品、网站、营销活动或其运营任何其他方面的变化做出明智的决策。

A/B 测试的应用范围广泛且多样化。在数字营销中，它通常用于优化网站设计、电子邮件营销活动和广告布局。产品经理使用 A/B 测试来评估新功能或用户界面更改。即使在医疗保健和教育等领域，A/B 测试也可以用于评估不同干预措施或教学方法的有效性。

本章将引导您了解 A/B 测试的基本要素，包括假设制定、测试设计、数据收集和统计分析。您将学习如何设置 A/B 测试、选择合适的指标、确定样本大小以及解读结果。我们将探讨统计显著性这一概念及其与基于测试结果做出自信决策的关系。

A/B 测试的一个关键优势是它能够提供清晰、可量化的结果。通过比较两个版本的性能指标，企业可以做出基于数据的决策，这可能会对其底线产生重大影响。同时，了解 A/B 测试的限制和潜在陷阱也至关重要。本章将解决常见的挑战，例如确定适当的测试持续时间、避免常见偏差以及处理不明确的结果。

我们还讨论了更高级的概念，如多变量测试，它允许同时测试多个变量，以及顺序测试，它可以帮助优化测试过程中的资源分配。您将深入了解如何将 A/B 测试整合到组织更广泛的实验和持续改进文化中。

本章中包含真实世界的例子和案例研究，展示了 A/B 测试在各个行业中的实际应用。这些例子表明，即使通过 A/B 测试验证的小幅变化，也能在关键性能指标（如转化率、用户参与度或客户满意度）上带来显著的改进。

到本章结束时，你将全面了解如何利用 A/B 测试做出更明智、基于数据的决策。你将具备设计、实施和分析 A/B 测试的有效知识，以及解读和采取行动的结果。在当今数据丰富的商业环境中，这种技能组合非常有价值，因为从数据中提取可操作的见解可以提供显著的竞争优势。

无论你是希望优化活动性能的市场营销人员，还是希望提升用户体验的产品经理，或者是寻求通过基于数据的决策推动增长的商业分析师，掌握 A/B 测试都是你分析工具箱中的一个宝贵补充。

这种技术回答了以下商业问题：“测试两个版本的提议变更时，结果之间是否存在显著差异？”

A/B Testing

什么是 A/B 测试？

A/B 测试（或拆分测试）在数据分析和市场营销中用于比较两个版本的产品、网页或营销元素，以确定哪个表现更好。这种技术在数字营销、用户体验设计和产品开发中广泛使用，以做出基于数据的决策并优化性能。

A/B 测试的基本前提很简单：创建两个版本的某个东西（版本 A 和版本 B），向你的受众的不同子集展示每个版本，并根据你定义的指标衡量哪个版本表现更好。这些指标可能包括点击率、转化率、页面停留时间或任何其他相关的性能指标。

A/B 测试通常用于企业想要优化网站或应用设计、改进电子邮件营销活动、完善产品功能、提升用户体验或提高转化率和销售额时。它提供了一种系统的方法来测试假设，并根据实际用户行为而不是假设进行改进。

要进行 A/B 测试，首先确定你想要测试的元素，例如按钮颜色、标题或页面布局。然后创建两个版本：控制版（当前版本）和变体版。你的受众被随机分成两组，一组展示版本 A，另一组展示版本 B。收集每个版本的表现数据，并分析结果以确定是否存在统计学上的显著差异。如果某个版本明显优于另一个版本，它可以被实施为新的标准。

确保一次只测试一个元素至关重要，以确保你可以将任何性能差异归因于那个特定的改变。此外，你的样本量应该足够大，你的测试应该运行足够长，以产生具有统计显著性的结果。A/B 测试不是一次性的努力，而是一个持续的过程。企业通常会随着时间的推移进行多次测试，以不断改进他们的数字资产和营销策略，而不是基于猜测或直觉。

A/B 测试的要素是什么？

A/B 测试的要素构成了进行有效实验和得出有意义的见解的基础。理解这些组成部分对于任何想要在他们的数据分析或营销策略中实施 A/B 测试的人来说至关重要。

1.假设：每个 A/B 测试都以一个明确的假设开始。这是一个预测特定元素的变化将如何影响用户行为或性能指标的陈述。例如，“将‘立即购买’按钮的颜色从蓝色改为绿色将使点击率增加 10%。”

2.变量：在 A/B 测试中，你有两种类型的变量：

a.自变量：你正在改变的因素（例如，按钮颜色）

b.因变量：你正在测量的指标（例如，点击率）

3.控制组和变体：这是你要测试的两个版本：

a.控制组：原始版本（A）

b.变体：修改后的版本（B）

4.样本组：你的受众被分成两个随机、大小相等的组。每个组都展示测试的一个版本。

5.样本量：这是你测试中的参与者数量。较大的样本量通常会导致更可靠的结果。

6.持续时间：你的测试运行的长度。这应该足够长，以便收集足够的数据，但又不至于太长，以至于外部因素可能会影响结果。

7.指标：这些是你用来确定哪个版本表现更好的可量化措施。常见的指标包括转化率、点击率、页面停留时间和跳出率。

8.统计显著性：这表明 A 和 B 之间性能差异是由于你做出的改变还是仅仅随机机会。常用的阈值是 95%的置信度。

9.细分：这涉及到分析样本中不同子组的结果，例如新访客与回头客或桌面用户与移动用户。

10.多变量测试：一种更高级的 A/B 测试形式，其中同时测试多个变量。

通过仔细考虑和实施这些要素，您可以进行稳健的 A/B 测试，为数据驱动决策提供有价值的见解。请记住，A/B 测试不仅仅是寻找“赢家”，更是为了更了解您的受众，并持续改进您的数字资产或营销策略。每次测试，无论它证实还是反驳了您的假设，都能提供有价值的信息，可以指导未来的优化和实验。

示例案例研究：电子商务按钮颜色测试

背景：在线零售商 ShopEasy 希望提高其产品页面上的转化率。他们假设将“添加到购物车”按钮的颜色从蓝色改为橙色将提高点击通过率。他们决定运行 A/B 测试来验证这一假设。

假设：将“添加到购物车”按钮的颜色从蓝色（控制组 - A）改为橙色（变体 - B）将至少提高点击通过率 5%。

测试设置：

• 持续时间：2 周

• 样本量：20,000 名访客（每个变体 10,000 名）

• 指标：在“添加到购物车”按钮上的点击通过率（CTR）

结果：以下是收集到的数据的交叉表：

表 14.1 A/B 测试结果

分析：

1.绝对差异：橙色按钮（B）的点击通过率比蓝色按钮（A）高 1 个百分点。

2.相对差异：橙色按钮的点击通过率比蓝色按钮的点击通过率高出 20%。计算：(6.00% - 5.00%) / 5.00% = 20%

3.统计显著性：使用卡方检验或比例的 z 检验，我们可以计算 p 值。假设 p 值为 0.0023（这将基于数据计算得出），此结果在 95% 的置信水平上具有统计学意义（因为 p < 0.05）。

4.置信区间：比例差异的 95% 置信区间可能是 0.4% 到 1.6%。这意味着我们可以有 95% 的信心认为，真实的点击通过率差异在 0.4 到 1.6 个百分点之间。

解释：A/B 测试结果显示，将“添加到购物车”按钮的颜色从蓝色改为橙色导致了点击通过率的显著增加。橙色按钮（版本 B）的表现优于蓝色按钮（版本 A），高出 1 个百分点，这代表了点击通过率 20% 的相对增长。p 值为 0.0023 表明，如果没有两种按钮颜色之间的真实差异，我们观察到这种差异（或更极端的差异）的可能性仅为 0.23%。

结论：基于这些结果，我们可以拒绝零假设，并得出结论，橙色按钮确实提高了点击通过率。观察到的增加（相对 20%，绝对 1 个百分点）超过了我们假设的 5% 改善。

建议：在所有产品页面上实施橙色“添加到购物车”按钮。然而，继续监控性能，以确保积极效果在一段时间内以及不同用户群体中持续存在。

分析案例 14.1：试验设计和分析

使用 Excel 进行 A/B 测试分析

使用提供的案例数据集文件，找到文件 TestOfSignificanceForA/BTest.xls。使用 Excel 打开 TestOfSignificanceForA/BTest.xls。

使用卡方检验来决定保留哪些网页更改。在电子表格中适当的位置输入数据。让我们分析以下 A/B 数据（图 14.1）。

考虑以下案例：

你对网站（版本 A）进行了重大更改（相对于原始版本 B）。在过去的三天里，网站有 2,750 名访客，其中 1,310 使用版本 A，1,440 使用版本 B。使用版本 A 的用户中，450 人产生了积极结果。使用版本 B 的用户中，395 人产生了积极结果。

你准备好切换到版本 A 吗？为什么或为什么不？

图 14.1 使用 A/B 测试计算器的步骤

分析案例 14.2：使用 ORDERS 进行分析

使用 Excel 进行分析

使用案例数据集文件，找到文件 ORDERS.xlsx。使用 Excel 打开 ORDERS.xlsx。

我们将回答以下问题：

2012 年，实施了一项政策，向 2011 年增加 10% 盈利订单的省级商店经理发放奖金。这项政策变更有效吗？

创建整个 ORDERS 表的交叉表（图 14.2）。选择 ODERDATE 作为行，按年份分组。在交叉表的列中添加 PROVINCE 到 ODERDATE 之下。计算 ORDERID 的计数以获取按年份和省份的所有订单的计数。

图 14.2 按年份和省份的订单数量交叉表

以与上述过程相同的方式创建另一个交叉表，但添加一个“切片器”（在交叉表“格式”选项卡上找到）以仅显示每个订单的利润结果（换句话说，仅计算盈利订单）(图 14.3)。

图 14.3 按年份和省份的订单数量交叉表（仅过滤盈利订单）

将两个列表并排复制粘贴到另一个工作表中作为值。计算盈利订单的百分比并将其输入到另一个连续的列中（图 14.4）。在另一列中，计算一年到下一年的百分比差异。我们正在寻找 2012 年和 2011 年之间差异大于 10% 的省份。

图 14.4 按省份从当前年份（CY）与上一年（PY）相比的订单百分比差异计算

注意，2012 年和 2011 年之间的整体 CY-PY 差异仅为 2%，魁北克和 PEI 是唯一两个百分比变化大于 10% 的省份。在这两个中，魁北克更重要，因为它比 PEI 多十倍订单。

使用位于案例文件夹中的 TestForSignificanceofABTest.xlsx 工作表分析 A/B 数据(图 14.5)。计算 A/B 测试的整体订单和魁北克省的卡方统计量。我们看到在魁北克省的情况下变化并不显著。总体而言，2%的变化并不显著。

图 14.5 使用 A/B 测试测试魁北克省 CY/PY 利润变化的显著性

分析案例 14.3：使用 SFO 机场调查数据进行分析

使用 Excel 进行分析

使用案例数据集文件，找到 2016_SFO_Customer_Survey_Data.xls 文件。同时下载前一年的数据和数据字典。

为了本实验的目的，并且以防网站无法访问，你可以使用案例数据集文件中的数据集。使用 2016 年和 2015 年的数据集。

我们将回答两个问题：

由于旧金山国际机场（SFO）在 2016 年启动了一项营销活动以吸引更多女性客户，这项活动是否取得了成功？

由于机场在 2016 年增加了清洁人员并增加了清洁频率，这些努力是否带来了更高的客户满意度？

使用 Excel 打开数据文件。为了回答第一个问题，创建数据透视表来统计最新一年（或 2016 年）和前一年（或 2015 年）男女客户的比例。

使用位于工具文件夹下的 Lab Files 文件夹中的 TestForSignificanceofABTest.xlsx 工作表分析 A/B 数据(图 14.6)。变化是否显著？你能否有信心地说活动取得了成功？

图 14.6 A/B 测试结果显示，2015/2016 年营销活动显著提高了女性机场客户的满意度

为了回答第二个问题，在 Q9ALL 上重复清洁(图 14.7)的过程。在这里，如果乘客对清洁的评分增加为“5”，我们将其视为“成功”。在新清洁制度下，从一年到下一年“5”评分的百分比显著增加了吗？由于 p > .05，答案是“没有”。

图 14.7 A/B 测试结果显示，2015/2016 年清洁改进活动在提高“非常满意”的（仅 5 分）机场客户满意度方面产生了显著差异

如果我们将条件改为从一年到下一年客户对“4”或“5”评分的增加与对“1”、“2”或“3”评分的增加相比，这会改变分析结果吗？再次，由于 p > .05，答案是“没有”(图 14.8)。

图 14.8 A/B 测试结果显示，2015/2016 年清洁改进活动对提高“满意”的（4 分和 5 分）机场客户满意度没有产生显著变化

分析案例 14.4：使用泰坦尼克号数据进行分析

使用 Excel 进行分析

泰坦尼克号有一艘姐妹船，布里斯托尔尼克号，几乎一模一样地建造。由于泰坦尼克号灾难，造船商使布里斯托尔尼克号在灾难发生时更安全。不幸的是，布里斯托尔尼克号几乎以与泰坦尼克号相同的方式沉没（尽管是人为灾难，一战期间的鱼雷，而不是冰山）。然而，生存率却大不相同。数据可以从www.titanicfacts.net/获得（图 14.9）。

图 14.9 泰坦尼克号和布里斯托尔尼克号跨大西洋船只灾难的生存统计数据

我们想要回答的问题是以下内容：

船只安全性的变化是否对生存率产生了显著影响？

我们将分析设置为一个 A/B 测试，并使用 TestForSignificanceOfABTest.xlsx 工具。我们可以计算一个 p 值来指导我们的答案（图 14.10）。

图 14.10 A/B 测试结果显示，布里斯托尔尼克号的生存率在统计上显著高于泰坦尼克号

答案是，这些变化产生了显著的影响。

第十五章

文本分析

文本分析，也称为文本数据挖掘，是一个快速发展的领域，允许分析师从非结构化文本数据中提取有意义的见解。随着组织从社交媒体、客户评论、电子邮件和文档等来源积累大量的文本，算法分析这些数据的能力变得越来越有价值。本章介绍了文本分析中的重要概念和技术，使企业能够释放其文本数据资产潜力。

文本分析将原始的非结构化文本转换为可以系统分析的结构化数据。这个过程结合了自然语言处理、机器学习、统计学和信息检索的元素。本章涵盖的一些基本技术包括词频分析、情感分析和如词云之类的可视化方法。

词频分析涉及计算文本语料库中单词或短语的出现次数。这种看似简单的方法可以揭示重要的主题、话题和模式。例如，分析客户评论中最频繁出现的单词可以快速突出常见的商品特性或问题。词云提供了直观的词频视觉表示，显示中更常见的单词在显示中更大。

情感分析有助于确定文本中表达的情感基调。通过将文本分类为正面、负面或中性，企业可以衡量客户满意度、监控品牌认知和跟踪公众舆论。更高级的情感分析可以检测细微的情绪，如愤怒、喜悦或挫败感。

我们通过实际示例和工具演示这些技术。您将学习如何使用 Excel 函数如 COUNTIF 对产品评论进行基本情感评分。您还将获得使用基于网络的文本分析工具创建词云和在更大的文本语料库上进行单词频率分析的实际经验。

一个扩展的例子分析了经典旅行书籍的集合，展示了文本分析如何从一百万字的非结构化文本中提取见解。这类似于现实世界场景，分析师可能需要从大量社交媒体帖子、客户反馈或其他文本数据中推导出意义。

虽然功能强大，但重要的是要认识到这些技术的局限性。单词频率和情感分析可能会错过上下文相关的含义或难以处理讽刺和文化细微差别。因此，文本分析通常与人类解释和领域专业知识结合使用时最为有效。

文本分析的应用范围广泛，涵盖了多个行业和用例。营销团队使用它来理解客户反馈和跟踪品牌情绪。人力资源部门应用文本分析来筛选简历和求职申请。法律团队使用它来审查合同并确保合规性。研究人员使用文本分析来揭示科学论文和概念之间的联系。

随着企业越来越认识到其非结构化文本数据中的价值，精通文本分析技术已成为数据分析师和商业智能专业人士的一项基本技能。本章为您提供了文本分析的基础知识和实践技能，使您能够从与现代商业相关的文本数据中得出可操作的见解。

这种技术回答了商业问题：“他们在说什么？”

文本分析

什么是文本分析？

文本分析是一套用于从非结构化文本数据中提取有意义信息和洞察力的技术和方法。它结合了来自多个领域的元素，包括自然语言处理、机器学习、统计学和信息检索。文本分析的目标是将原始文本转换为结构化数据，以便进行分析，揭示模式、趋势和有价值的见解。文本分析中的一个基本技术是频率分析，它涉及计算文本语料库中单词或短语的出现次数。频率分析可以揭示文档集中最常见的主题、主题或关键词。它通常用作更高级分析的开端，并有助于在文本数据中识别重要概念或趋势。例如，一家公司可能会对客户评论进行频率分析，以确定最常提到的产品功能或问题。

情感分析是文本分析中的另一项关键技术。它的目的是确定文本中表达的情感基调或态度。情感分析可以将文本分类为正面、负面或中性，有时甚至可以检测到更细微的情感，如愤怒、喜悦或挫败感。这项技术在理解客户意见和反馈方面特别有价值。例如，社交媒体监控工具通常采用情感分析来衡量公众对品牌活动或产品发布的反应。文档相似度评分是一种用于衡量两个或多个文档在内容或主题上相似程度的技巧。这可以通过各种方法完成，例如使用词频-逆文档频率（TF-IDF）向量的余弦相似度，或更高级的技术，如潜在语义分析。文档相似度评分对于内容推荐系统、抄袭检测或在大数据库中分组相关文档等任务非常有用。

这些文本分析技术可以应用于广泛的数据源和商业应用。一些常见的分析数据类型包括社交媒体帖子及评论、客户评价及反馈、电子邮件沟通、支持工单及客户服务互动、新闻文章及博客文章、学术论文及研究文件、法律文件及合同，以及调查问卷回复。文本分析在商业应用中种类繁多，可以在各个行业中提供显著的价值。例如，公司可以通过分析反馈、评价和社交媒体提及来获取客户洞察，理解情感，识别常见问题，并改进产品或服务。在市场调研中，通过分析新闻文章、社交媒体和在线论坛，文本分析可以用来监控行业趋势、竞争对手活动和消费者偏好。

欺诈检测是另一个重要的应用，文本分析可以通过分析金融交易或保险索赔中的文本数据模式来帮助识别潜在的欺诈活动。在医疗保健领域，文本分析技术可以应用于病历和研究论文，以识别疾病、治疗或患者结果的趋势。人力资源部门可以使用文本分析来筛选简历和求职申请，更有效地将候选人与工作要求相匹配。法律和合规团队可以审查大量法律文件，以识别案件或确保符合规定的相关信息。

内容推荐系统通常依赖于文本分析，根据用户偏好和行为建议相关的文章、产品或服务。品牌监控是另一个常见应用，公司跟踪品牌在各种在线平台上的提及和情绪，以管理声誉并回应客户关注。文本分析也用于政治分析，通过分析社交媒体帖子和新文章来衡量公众对政治问题的看法或预测选举结果。在科学研究领域，文本分析可以帮助识别不同研究论文之间的联系或发现科学概念之间新的关系。随着企业越来越认识到非结构化文本数据的价值，文本分析的应用范围不断扩展，为在各个领域获取见解和做出数据驱动决策提供了新的机会。

文本分析的要素有哪些？

文本分析，类似于数值数据的直方图，是一种用于可视化和分析非结构化文本信息的方法。文本分析的重要元素包括

1.语料库：这是正在分析的整个文本文档集合，类似于直方图分析中的数据集。

2.标记：这些是从文本中提取的个别单词或短语，类似于数值数据集中的个别数据点。

3.频率分布：类似于直方图显示数值值的分布，文本分析通常涉及分析单词或短语的频率分布。

4.分类或分组：在文本分析中，这可以通过将单词分组到主题、话题或情感类别来表示，类似于数值数据在直方图中被分组到分组中。

5.可视化：虽然直方图使用条形来表示数据，但文本分析可能会使用词云、网络图或其他特定于文本的可视化来表示数据中的模式和关系。

6.统计量度：正如直方图有助于识别诸如集中趋势和分布等度量，文本分析使用统计量度来识别重要的单词、短语或模式。

7.预处理：这涉及到清洗和准备文本数据，类似于在创建直方图之前可能对数值数据进行排序或过滤。

8.分析工具：与用于创建直方图的 Excel、R 和 AI 工具类似，文本分析使用各种软件工具和编程语言进行数据分析。

这些文本分析的元素与直方图分析中的元素具有类似的作用，有助于总结、可视化和从大量文本数据中提取见解。

文本分析的一个例子

伊丽莎白·巴雷特·布朗宁的十四行诗《我该如何爱你？》在以下例子中使用。（这是她诗集《葡萄牙十四行诗》中的一首诗。）

我该如何爱你？让我数一数。

我爱你至深至广至高

当我的灵魂失去视线时，我能触及

为了存在的目的和理想的优雅。

我用日常生活的水平爱你

在阳光和烛光下，最宁静的需求。

我爱你，自由如人们为正义奋斗。

我爱你，纯粹如他们转向赞美。

我用投入使用的激情爱你

在我旧日的悲伤中，以及我童年的信仰。

我用我似乎失去的爱爱你

我失去的圣徒。我用呼吸爱你，

笑容，眼泪，我一生中的一切；如果上帝选择，

我死后会更爱你。

使用 Voyant 文本分析工具，我们可以生成分析的一个元素，即词云。语料库中一些常用的词是“爱”（11 次）、“方式”（1 次）、“使用”（1 次）、“转向”（1 次）和“眼泪”（1 次）。我们看到最频繁的词是“爱”，正如它应该的那样，它主导了词云。

图 15.1 对伊丽莎白·巴雷特·布朗宁第 43 首十四行诗的文本分析词云结果

分析案例 15.1：文本分析 I – 词频分析

词频分析和词云是文本分析的基本技术，为大量文本数据提供了视觉和统计洞察。词频分析涉及计算语料库中单个单词的出现次数，提供了单词重要性的定量度量或普遍性。这项技术有助于识别文本中的重要主题、主导主题和重复概念。它特别有助于理解文档的主要焦点、跟踪趋势或比较不同的文本来源。

词云是词频数据的视觉表示。在词云中，根据词频显示不同大小的单词：一个词越频繁，它在云中的显示就越大。这为文本语料库中最突出的术语提供了一个快速视图。词云对于快速向非技术受众传达大型文本数据集中的重要概念特别有效。

这两种技术对于初步探索性分析都很有价值，帮助研究人员和分析人员快速理解大量文本集合的内容。它们可以揭示意外的模式，指导进一步的深入分析，并支持各个领域的决策过程，从市场研究到文学分析。然而，重要的是要注意，这些方法侧重于单个单词，可能会错过上下文相关的含义或多词短语，需要互补的分析技术来全面理解文本。

使用 Voyant 工具进行文本分析

使用提供的案例数据存储库，打开第十五章文件夹，找到这些文本文件：

InnocentsAbroadMarkTwain.txt

MagellanVoyagesAnthonyPiagafetta.txt

TheAlhambraWashingtonIrving.txt

TravelsOfMarcoPolo.txt

VoyageOfTheBeagleDarwin.txt

使用网络浏览器并访问互联网。访问位于 voyant-tools.org/ 的 Voyant 文本分析程序（图 15.2）。

图 15.2 基于网络的文本分析工具数据输入屏幕

将所有五个文本上传到语料库进行分析（图 15.3）。使用分析结果来探索文本。你在生成的词云中注意到了什么？

图 15.3 分析五本旅行书籍语料库中一百万个单词的结果

在显示的中心位置有一个搜索框。使用它来搜索“volcano”以回答问题：

哪位旅行者看到了火山？

搜索“island”来回答问题：

哪位旅行者似乎对岛屿的提及更多？

对“sea”重复此操作。这些结果有意义吗？

通过自行搜索更多单个单词和词组来探索。在 voyant-tools.org/docs/#!/guide/tools 寻找其他文本可视化工具。

该语料库包含五篇文档，总共有 912,126 个单词和 44,210 个独特的词形。

语料库中最频繁出现的单词是 great（1654）；said（1310）；city（1191）；like（1169）；和 time（1165）。

每本书的独特词汇（与语料库的其他部分相比）：

1. 马克·吐温的《在人间》：saviour（57），naples（38），ephesus（36），jack（35），和 galilee（35）。

2. 安东尼·皮加费塔的《麦哲伦航行》：tho（271），wo（98），magellan（158），aud（76），和 deg（72）。

3. 华盛顿·欧文的《阿尔罕布拉宫》：alhambra（301），aben（153），aaron（120），hamet（102），和 mariamne（91）。

4. 马可·波罗游记：tartars（215），marco（330），polo（325），khan（575），和 cheu（130）。

5. 查尔斯·达尔文的《贝格尔号航行》：cordillera（106），tierra（88），fuego（88），beagle（84），和 patagonia（83）。

在图 15.4 中，有一个词云代表五本书的整个语料库，至少有一百万个单词。图 15.5 显示了不同的词云，仅代表一本书，达尔文的《贝格尔号航行》。请注意其中的差异。

图 15.4 整个语料库的词云

图 15.5 达尔文的《贝格尔号航行》的词云，以展示与整个语料库的对比

分析案例 15.2：文本分析 II – 情感分析

情感分析是一种强大的文本分析技术，有助于确定文本中表达的情感基调或态度。该方法使用自然语言处理、计算语言学和机器学习算法，系统地识别、提取和量化文本数据中的情感状态和主观信息。

情感分析将文本分类为正面、负面或中性情感。更高级的系统可以检测细微的情绪，如愤怒、喜悦、挫败感或讽刺。这个过程通常涉及文本预处理、分词单词或短语，然后应用基于预定义词典或训练有素的机器学习模型的算法来评估情感。

这种技术在各个行业的众多应用中广泛使用。在商业中，它对于监控品牌声誉、分析客户反馈和衡量公众对产品或服务的意见至关重要。在社会媒体分析中，情感分析有助于跟踪公众对热门话题的情绪或评估营销活动的影响。金融机构使用它根据新闻情绪预测市场趋势，而政治分析师则用它来了解公众对政策或候选人的意见。

情感分析提供了超越单纯词频的有价值见解，提供了对文本数据背后的情感背景的更深入理解。然而，它在准确解释上下文、讽刺和文化细微差别方面存在挑战，这些领域的研究仍在不断改进其功能。

使用 Excel 进行情感分析

我们现在使用 Excel 的 COUNTIF 函数来生成用于执行客户情感分析的文本字段分析。

我们将回答以下问题：

客户对产品的感受是正面还是负面？

使用提供的 Case Data 存储库，找到 Product Reviews.xlxs 数据文件。

导航到产品评论工作表。抓取 Windex™ 品牌的行（第 709-1056 行）。将行粘贴到新的工作表中，并将工作表标记为 Windex。抓取产品评论工作表顶部的行，包含变量名称，并将其插入新创建工作表的顶部行。

抓取 Windex 的“reviews.text”和“reviews.title”列。将列粘贴到新的工作表中，并将其标记为“Windex Reviews”。将“reviews.text”列移动到 C 列。在 A 列添加“评论”的标题，并在列中插入连续的数字。注意，共有 348 条评论。你现在应该有一个像图 15.6 中所示的表格。

图 15.6 提取的 Windex 产品评论

我们将使用标题文本和评论文本列来评估情感。创建一个表达对产品喜爱之情的单词列表（例如，“好”和“爱”），并在电子表格中靠近数据集的一列中输入它们。创建另一个表达对产品不喜欢的单词列表（这些将是“好”单词的反义词，例如，“坏”或“恨”）。

使用 COUNTIF 函数计算评论和标题文本列中你单词的喜爱和不喜欢出现的所有次数。COUNTIF 函数的形式应该为每个列编写如下：

=COUNTIF(B$2:B$348,”good”)

如图 15.7 所示，整理并总结结果。通过从总喜欢数中减去总不喜欢数，然后除以总数来评分评论的情感。如果这个数字是正数，那么我们可以得出结论，人们对这个产品有“好”的感觉；如果是负数，则结论相反。这个数字越接近+1，顾客对产品的“喜爱”程度就越高，反之亦然。

图 15.7 使用 Excel COUNTIF 函数从评论中的文本生成的 Windex 产品的情感分析

请记住，这些数字是近似值（不是非常精确或科学的答案），并且取决于我们统计的单词列表。然而，它确实提供了一个一般性的商业答案。

现在将 B2:C348 列（标题和文本）中的文本复制到计算机缓冲区。我们将计算一个词云并将其与 COUNTIF 评分进行比较。

使用本章前面探索过的 Voyant 工具。创建一个词云并执行词频分析。确保从 STOPLIST 中删除特定产品的单词（例如“Windex”、“产品”和“评论”）。考虑图 15.8。使用 COUNTIF 进行的情感分析和你在词云中看到的是否匹配？

图 15.8 使用词云分析从产品评论中的文本对 Windex 产品进行的情感分析

对品牌 Rubbermaid™重复上述步骤。结果混合，仍然是正面的，但不是很多。计算出的情感评分显示在图 15.9 中。

图 15.9 使用 Excel COUNTIF 函数对 Rubbermaid 产品从产品评论中提取的文本进行的情感分析

使用本章前面探索过的 Voyant 工具。创建一个词云并执行词频分析。确保将常用词添加到 STOPLIST 中（例如“拖把”、“Rubbermaid”和“瓶子”）。使用 COUNTIF 和词云进行的情感分析是否匹配？（见图 15.10。）

图 15.10 使用词云分析从产品评论中的文本对 Rubbermaid 产品进行的情感分析

第十六章

分析大数据集

本章讨论了现代数据分析中一个常见的挑战：处理无法放入单个 Excel 电子表格中的数据集。随着数据量的持续增长，分析师经常会遇到超出 Excel 容量的文件，这可能会限制他们应用在前面章节中学到的有价值的技术。本章提出了克服这一障碍的实际解决方案，使分析师即使在处理大量数据集时也能利用他们的 Excel 技能。

我们首先介绍随机抽样作为处理大型数据文件的重要策略。通过从原始数据集中提取具有代表性的样本，您可以在 Excel 的限制范围内处理一个可管理的子集，同时仍然提供具有统计意义的成果。这种方法在熟悉 Excel 工具的便利性和分析综合数据集的需求之间提供了一个实用的折衷方案。

本章将指导您通过在线计算器逐步确定合适的样本量。我们讨论了如何平衡置信水平和误差范围等因素，以确保样本数据能够准确代表更大的总体。这种基础知识使分析师能够就各种项目和准确性要求做出明智的样本量决策。

我们随后介绍了 R 和 RStudio 作为从大型数据集中提取随机样本的工具。由于您可能对 R 不熟悉，我们包括使用 RStudio Cloud（软件的免费在线版本）的明确说明。这允许您在无需本地安装的情况下实验 R 的采样功能。（对于有兴趣处理更大文件的用户，我们还建议在本地安装 RStudio，并提供有关该过程的指导。）

实践练习贯穿整个章节，让您能够将采样技术应用于不同大小的现实世界数据集。这些动手活动加强了概念，并增强了处理大型数据文件时的信心。本章还展示了如何通过将样本结果与完整数据集的结果进行比较来验证样本数据的准确性，说明了采样方法的强大之处和局限性。

本章还涵盖了高级主题，例如处理超出免费云工具容量的极大型文件。我们提供了解决这些限制的建议，包括使用本地 R 安装或探索替代采样方法。

到本章结束时，您将开发出一个强大的工具包，用于结合采样技术和 Excel 的分析能力来分析大型数据集。您将了解如何确定合适的样本量，使用 R 提取随机样本，并验证其结果。这种知识使分析师能够自信地应对涉及大量数据集的项目，扩展其分析能力超越 Excel 的内置限制。

本章中介绍的技能和技术在当今以数据驱动的商业环境中越来越有价值。随着组织继续收集和分析日益庞大的数据量，有效地处理这些大量数据集的能力成为分析师的一项关键技能。通过掌握本章中概述的方法，读者将能够应对大数据分析带来的挑战，同时仍然利用 Excel 的强大功能和熟悉度来进行他们的分析工作。

这种技术回答了商业问题：“我们如何处理太大而无法加载到 Excel 中的表格？”

使用抽样处理大型数据文件

分析案例 16.1：大数据分析

这个练习的前提是我们希望使用 Excel 作为我们的分析工具，但我们意识到它在处理非常大的文件方面的局限性。通常，问题不在于变量的数量，而在于行数。假设我们有一个非常大的数据文件，由数百万行组成，大小为数百兆字节。当我们无法将整个文件加载到电子表格中时，我们如何使用 Excel？我们做出权衡：我们愿意为了使用 Excel 进行分析的便利性而接受我们的统计结果准确性略有下降。

这种技术是通过随机抽样大型（或大数据）文件，并获取可管理的随机数据行样本。我们首先使用一个工具计算适当的样本大小，然后使用另一个工具对原始文件进行抽样。然后我们使用一个免费的基于网络的工具来计算样本大小，然后使用一个免费的基于云的程序，RStudio，来提取随机样本。

首先，让我们计算一个适当的样本大小。整个文件是我们的总体。例如，我们希望对我们的样本统计分析有 95%的信心，并且我们的结果误差不超过 1%（这些在商业中是非常典型的参数）。让我们以一个 70MB 的数据文件为例，包含 753,324 行。使用位于www.surveymonkey.com/mp/sample-size-calculator/的在线样本大小计算器，我们看到(图 16.1)，我们需要一个包含 9,484 行的随机样本来实现我们所需的准确度和误差范围(图 16.1)。

图 16.1 使用在线计算器对包含 753,324 行数据集进行样本大小计算，置信水平为 95%，误差范围为 1%

使用在线计算器，计算样本文件中所需随机行数以达到下表中各种准确度水平（表 16.1）。(注意，最右侧列有答案！)

表 16.1 在不同置信水平和误差范围下不同数据集的样本大小要求

使用 R 进行抽样

我们现在使用 R 程序的流行免费云版本：RStudio Cloud。（您也可以在您的计算机上下载并安装 RStudio，这样您将有一个永久安装的样本提取工具供将来使用。否则，请继续使用云版本学习技术。）

导航到rstudio.cloud/，创建一个免费账户，然后进行下一步。

在 RStudio Cloud 中创建一个新的项目。典型的 RStudio 界面会出现。注意左侧屏幕左下角的“>_”提示符。它应该闪烁，等待您的 R 命令。您浏览器中的结果屏幕应该看起来像图 16.2 中所示的那样。

图 16.2 显示初始项目设置的 RStudio Cloud 界面

首先，我们上传所有将要抽样的文件。使用提供的案例数据集文件，找到 ORDERS.csv、Courses.csv 和 Community.csv 文件。

在您浏览器中的 RStudio 桌面右下角面板中点击“文件”标签。然后，在新行中点击“上传”。您应该看到图 16.3 中所示的界面。

图 16.3 显示导入大型数据集的 RStudio Cloud 文件上传界面

点击“浏览”按钮，依次上传三个文件。 (一些较大的文件上传需要一些时间。) 完成后，右上角屏幕中的“文件”区域应该像图 16.4 中所示的那样。

图 16.4 显示成功上传的数据文件的 RStudio Cloud 文件面板

我们从抽样较小的文件（ORDERS）开始，然后转到较大的文件。在上左角的面板中，下拉“文件 > 打开”功能，从列表中选择 ORDERS.csv 文件。这样就将文件加载到工作区中（注意“源”面板现在出现，并包含有关文件的信息）。

下降到左下角的面板，点击在“>_”光标前面。它应该开始闪烁，准备接收您的命令。

依次输入以下命令集：

set.seed(123)

Y <- read.csv(“ORDERS.csv”)

View(Y)

index <- sample (1:nrow(Y), 4482)

Z <- Y[index, ]

View(Z)

write.csv(Z,’Z.csv’)

输入所需的随机行数（4482），但不要加逗号，否则命令将被解释为命令的一部分，而不是数字的一部分。我们正在使用“Y”和“Z”作为我们数据的临时容器。

注意，“源”右上角的面板显示了以表格形式显示的原始数据（“View”命令的结果）。

此外，请注意右上角的面板显示了工作区中的两个文件，Y 和 Z，以及它们的特征。请注意，Y 包含原始的行集，共 8,399 行，而 Z 包含样本行，共 4,482 行。随机抽样是通过“sample”命令完成的。

我们将样本行输出到 Z 文件中，程序将其写入磁盘作为 Z.csv。现在右下角面板中有该文件在目录中(图 16.5)。

图 16.5 显示成功上传数据文件的 RStudio Cloud 文件面板

现在我们需要将文件从云端目录下载到我们的电脑上。勾选 Z.csv 文件旁边的复选框。在右下角的面板中，点击“更多”图标（看起来像蓝色的齿轮）。选择“导出”，并按照指示将文件下载到您的桌面上。保存文件时，应将其重命名为 ORDERSSample.csv。（需要注意的是，我们只使用了 Y 和 Z 作为临时的、易于使用的容器。）

为了检查我们的工作，我们将使用原始总体和样本行计算一些结果，并将它们进行比较。

打开 ORDERS.csv 和 ORDERSSample.csv。注意，样本数据集包含一个新列（在最左边），用于唯一标识每个样本行（一个随机数）。您需要标记该列（例如，“SAMPLEID”）。

使用交叉表，对两个文件按地区汇总总销售额。比较两个表的结果（图 16.6）。计算总体和样本之间的差异。您会发现它远远在 5%的误差范围内。

图 16.6 原始数据集和样本数据集使用交叉表比较地区间总销售额

注意，与使用整个原始文件计算出的总数相比，从样本文件计算出的总数相当准确，但个别地区的结果误差要大得多，尤其是那些行数较少的地区。如果您重复使用 PROFIT 变量而不是 SALES，您将看到更大的变化。

为 95%的置信水平和 2%的误差范围，对 Community.csv 和 Courses.csv 文件重复此过程。计算总体和样本文件中一个变量的摘要并进行比较。

分析案例 16.2：使用 BankComplaints 大型数据文件进行分析

您会发现，如果您尝试在 RStudio Cloud 中加载 300 MB 的 BankComplaints.csv 文件，它会给您一个错误。免费云版本只允许加载较小的文件。一个解决方案是获取付费订阅并继续，但如果我们只是使用 R 的简单采样功能，可能更好的是继续使用 RStudio 的免费版本（或找到其他方法来采样非常大的数据文件）。

我们的提议是您在您的 PC 或 Mac 电脑上安装 RStudio。然后，您可以使用上面练习中给出的技术。（RStudio 的界面是相同的，所以只需按照给出的说明操作即可，但现在您可以加载 300 MB 或 3 GB 或您需要的任何大小的文件进行采样。）

作为第一步，在互联网上找到免费的 RStudio 程序，下载并安装它。您可以从这里获得：www.rstudio.com/products/rstudio/download/。

安装完成后，在 300 MB 的 BankComplaints.csv 文件上试用。计算在 95%置信水平和 1%误差范围内的随机行数以获得足够的样本（表 16.2）。

表 16.2 对 BankComplaints.csv 大型数据集的样本量计算

使用前面给出的 R 命令对文件进行抽样，并将其保存为 BankComplaintsSample.csv。 (确保在命令中使用正确的文件名。)

使用样本文件编制按州划分的投诉百分比表格，以发现投诉最多和最少的州。添加每个州的人口规模，并按每个州每百万居民投诉数进行标准化。找出人均投诉最多和最少的州。计算该变量的其他描述性统计量。

使用分析工具包，获取汇总描述性统计信息（图 16.7）。

图 16.7 使用 Excel 分析工具包对抽样 BankComplaints 数据集的描述性统计信息汇总

第十七章

数据可视化

数据可视化在当今经济中是一项关键技能。能够创建清晰、引人入胜且信息丰富的数据可视化可以区分洞察力是否被理解并采取行动，或者企业失去重要机会。本章介绍了一个综合框架，用于分析和改进数据可视化，该框架围绕一个 18 点清单组织，该清单沿六个关键维度展开。

六个维度（故事、标志、目的、感知、方法和图表）为评估和增强数据视觉提供了一个整体方法。每个维度都专注于有效可视化的特定方面：

1. 故事：确保视觉讲述一个清晰的故事

2. 标志：使用适当的符号并保持高信噪比

3. 目的：与组织需求及受众期望保持一致

4. 感知：利用视觉感知原理以增强清晰度

5. 方法：采用最佳实践在颜色使用、整理和标题制作上

6. 图表：选择和实施最合适的图表类型

在这些维度中，18 点清单作为评估和改进数据可视化的实用工具。它促使创作者考虑关键元素，如视觉故事的清晰度、标志和符号的有效性、可视化与其预期目的之间的匹配、感知原理的应用、视觉方法的审慎使用以及适当图表类型的选取。

在本章中，我们通过一系列案例分析展示了如何应用此清单。每个案例都聚焦于一个维度，引导读者通过批判性地审视可视化并确定改进领域的过程。这种逐步的方法使你能够内化原则并逐步提高你的分析技能。

传统上，应用此类清单需要人类分析师大量的时间和专业知识。然而，本章还探索了一个令人兴奋的新领域：在数据可视化分析中使用大型语言模型（LLMs）。通过将 18 点清单中体现的原则微调到 LLM 中，我们创建了一个强大的 AI 助手，能够快速分析并建议改进数据可视化。

我们通过比较手动分析过程与 AI 辅助方法来总结。这种比较突出了在自动化复杂分析任务方面取得的进展，以及人类判断力和创造力在数据可视化中的持续重要性。虽然 AI 可以快速识别潜在问题并根据既定原则提出改进建议，但人类分析师带来了情境理解、创造性问题解决以及做出超越基于规则评估的细微决策的能力。

通过展示传统方法和 AI 辅助方法，本章为读者提供了一套灵活的工具集，用于创建和改进数据可视化。无论是手动通过清单来深入理解可视化原则，还是利用 AI 来简化分析过程，你都将获得在多种专业环境中有效传达数据的宝贵技能。

你不仅将学习如何批评和增强现有的可视化，还将学习如何将这些原则应用于创建他们自己的引人入胜的数据故事。这种全面的数据可视化方法使你能够将原始数据转化为有影响力的视觉叙事，从而推动理解和决策。

数据可视化

分析案例

假设你被召集去参加一个会议，审查用于公司客户会议的提案。这家公司与纽约市已有多年业务往来，他们希望加强与城市的合作关系。提案的一部分是通过展示各个城市机构与贵公司进行的业务量来证明贵公司一直是城市的好供应商。销售部门打算使用下面的幻灯片来展示作为供应商的关系状态。你的任务是分析并建议对幻灯片进行修改，以使案例更具说服力。

本实验的目的是分析幻灯片和数据可视化，并创建一个新的幻灯片。我们沿着六个主要维度分析幻灯片：故事、标志、目的、感知、方法和图表。这六个维度在每个章节的六个实验室的开始部分进行描述。我们将使用一个带有需要回答的分析问题的清单的模板。

图表 17.1 待分析、修改和增强吸引力的案例研究幻灯片

分析模板

我们使用以下提供的分析模板来分析和改进图表或数据可视化，沿着概述的六个维度。该模板包括一系列问题，每个维度一个问题。如果答案是“大致上‘是’”，则图表在该维度上是充分的。如果答案是“否”，则需要对该维度进行分析，并实施任何识别出的不足的补救措施。在该章节以下各节中提供了如何在该维度上增强图表的说明。六个维度在每个后续六个案例的开始部分进行详细讨论。我们使用这个工具作为指南，以提高你的辨别能力。使用分析模板和相关问题会产生一个不完美的指标，但它应该足以指导你在改进任何图表时。我们希望通过多次使用这个工具，你将开始内化这些问题，最终你将不再需要使用这个工具。

要使用这个工具，考虑回答与每个原则相关的问题。考虑每个问题，然后使用以下粗略标准：如果图表大部分满足该问题，则回答“是”，如果图表在该问题上存在缺陷，则回答“否”。然后详细说明：你会如何改进这个维度的图表？这个过程需要对问题进行粗略的通过-不通过判断。它并不完美，它不是用来创建视觉完美的精确度量的。它的目的是发展和完善你在分析和改进图表时的辨别能力：什么看起来好，什么不好。但最重要的是，什么需要改进。

故事

• 创建视觉故事：视觉的点是否非常清晰？

• 使其成为道具：视觉是否已经被简化并聚焦？

• 模仿传奇讲述者：是否模仿了过去的大师和他们开创的基本图表？

标志

• 标志：符号和标志的使用是否适当？

• 沟通：信号与噪声比是否高？

• 功能：图表是否是功能性的信息，而不是美丽的艺术？

目的

• 需求：图表是否满足组织的信息需求？

• 受众：图表是否允许受众的偏见、需求和旅程？

• 框架：视觉是否回答了一个良好框架的分析问题？

感知

• 观察：观众的目光是否聚焦在最重要的论点上？

• 心理：视觉中是否深思熟虑地应用了格式塔心理学感知原则？

• 质量：视觉元素是否能够向观众传达信息并消除他们的无知？

方法

• 颜色：颜色是否被谨慎且稀疏地使用？

• 图表“垃圾”：视觉元素是否清晰，没有不必要的视觉元素，这些元素不会导致明确的观点？

• 标题：图表的标题是否传达了图表所表达的观点？

图表

• 正确的图表：所使用的图表类型是否与所需的判断水平相匹配？

• 选择：所使用的图表类型是否与要回答的商业问题相匹配？

• 表格：可引用的视觉元素（表格）是否可以通过适当的条件格式化和用于强调的缩略图图表进行阅读？

分析案例 17.1：故事

创建一个视觉故事：视觉元素的重点是否非常清晰？

正如俗话所说，“一图胜千言。”你的视觉元素是否能够清晰地表达出需要很多文字才能传达的观点？视觉元素的重点是什么？你的观众是否理解了这个重点？你的故事是否清晰？

使其成为道具：视觉元素是否已经被简化并聚焦？

图表制作者斯蒂芬·菲尔（Stephen Few）说：“数字有一个重要的故事要讲。”我们的数字依赖于我们赋予它们一个引人入胜的声音。数据可视化不应该讲述整个故事，而应该是讲故事者使用的道具。图表支持讲故事者，但它们不是整个故事。图表通过在单一图像中总结复杂数据，成为讲故事者的补充。

模仿传奇故事讲述者：是否模仿了过去的大师和他们开创的基本图表？

我们从该领域的专家那里继承了一个丰富的数据可视化传统。他们是精通讲故事的大师，他们发明并使用数据可视化作为他们的道具。你能通过模仿著名的图表制作者来改进你的视觉元素吗？你的视觉元素是否根植于他们的图表典范？例如，考察像约翰·斯诺（John Snow）的伦敦霍乱地图（Snow, 1855）；查尔斯·米纳德（Charles Minard）和拿破仑对莫斯科的进军（Minard, 1869）；汉斯·罗斯林（Hans Rosling），他发明了 Gapminder 和移动气泡图（Rosling, 2018）；约瑟夫·普里斯特利（Joseph Priestley）和他的传记图表以及他的新历史图表（Priestly 1765）；W.E.B 杜波依斯（W.E.B DuBois）1900 年巴黎展览的杰出图表（DuBois, 1900）以及最后，弗洛伦斯·南丁格尔（Florence Nightingale）和她在克里米亚战争中的雷达图表（Nightingale, 1858）。

案例分析：故事

审查案例研究和需要改进的图表。使用这个练习来练习沿着故事维度分析图表。确保使用模板中的分析问题，这些问题如下重复。在你应用了三个原则之后，你将能够回答以下问题：

使用这些维度进行视觉分析有什么问题？

在所有这些维度上，我们可以做些什么来改进视觉元素？

1.创建一个视觉故事。视觉元素的主要思想是否可以理解？

2.将其作为道具。视觉元素是否已经被简化，并且是否专注于重要的数据？

3. 模仿传奇的讲故事者。

分析案例 17.2：标志

给他们一个信号：使用标志和符号是否恰当？

人们需要一个强烈的标志来做出良好的决策。我们在视觉中是否正确地使用了标志和符号？视觉是否正确地使用了文化线索？我们是否违反了任何文化习俗？我们的受众是否期待我们在图表中使用的象征主义，或者他们对此感到惊讶和困惑？标志制作的科学有三个部分：符号，即预期的意义；所指或意义，即代表符号或图标的象征或符号（例如，“狗”由“狗的图片”表示）；以及符号，即构成我们理解的综合体。

它是一个通信系统：信噪比是否高？

为我们的图表制作标志是建立通信系统的一部分。我们必须像任何通信系统一样提问，我们的视觉是否发送了一个强烈、明确的信号？我们的受众，即观众，能否解码它？或者噪音太多，我们能做些什么来减少它？在一个有效的演示中，即使在噪音的存在下，观众也能理解你的主要观点。

设计功能：图表是否功能上具有信息性，而不是仅仅美观的艺术？

问问自己图表是否向你的目标受众传达信息或娱乐。我们应该避免创建更像美观艺术而不是提供信息的图表。图表应该是功能性的，避免额外的、不必要的装饰。我们是否为了使图表看起来更吸引人而牺牲了清晰度？我们应该努力传达信息，而不是创建吸引情感的图表；我们希望我们的图表能引导到好的决策。

案例分析：标志

回顾案例研究和需要改进的图表。使用这个练习来练习使用标志维度分析图表。确保使用模板中的分析问题，这些问题如下重复。在你应用了三个原则之后，你将能够回答以下问题：

沿着这些维度分析出的视觉问题是什么？

沿着所有这些维度可以采取哪些措施来改进视觉？

1. 标志：使用标志和符号是否恰当？

2. 通信：信噪比是否高？

3. 功能：图表是否功能上具有信息性，而不是仅仅美观的艺术？

分析案例 17.3：目的

考虑信息需求：图表是否满足组织的信息需求？

我们使用我们的演示和嵌入的图表来满足请求者和组织的需求。我们应该确保我们的视觉满足组织的信息需求。我们应该只提供对组织及其使命至关重要的数据。图表必须针对组织的信息需求。我们还应该考虑请求者是否会满足这一层次的信息和您带来的新闻。最重要的是，视觉是否帮助他们做出决定？换句话说，它是否足够教育您的请求者和受众，以满足他们的需求？

考虑受众：图表是否允许受众的偏见、需求和旅程？

与受众的信息需求一起，我们应该考虑我们观众和听众的所有其他方面。他们的偏见是什么，他们在什么样的旅程中，他们会如何使用这些信息？然后，我们必须将视觉风格与受众的偏见、需求和旅程相匹配。视觉必须考虑他们的观点，并考虑到他们的偏见、教育、培训。它应该帮助他们完成旅程，使他们的数字更加清晰。任何不匹配都会引入噪声，可能使解释数据中的主要思想变得困难。

回答良好框架的分析问题：图表是否回答了一个良好框架的分析问题？

最后，为了满足信息需求，我们必须展示我们回答那些源于这些需求的良好框架分析问题的结果。分析问题是在分析过程中提出并回答的。创建沟通视觉集的时间不是发现或寻找答案的时候。我们从许多用于告知我们答案的分析问题中，选择那些最重要的几个。它们包含了支持我们结论的主要证据，即事实。这些重要的事实必须在图表中清晰明显。

案例分析：目的

审查要改进的案例研究和图表。使用这个练习来练习沿着目的维度分析图表。确保使用模板中的分析问题，以下将重复列出。在你应用了三个原则之后，你将能够回答以下问题：

在这些维度上，被分析的视觉有什么问题？

在所有这些维度上，我们可以做些什么来改善视觉效果？

1.需求：图表是否满足组织的信息需求？

2.受众：图表是否允许受众的偏见、需求和旅程？

3.框架：图表是否回答了一个良好框架的分析问题？

分析案例 17.4：感知

使用“眼脑视觉系统”：观众的眼睛是否聚焦于正在阐述的最重要点？

视线会无意识地被图像中的强烈焦点吸引。因此，你应该决定哪些是最重要的信息，你希望观众关注，并使它们明显。你可以使用格式塔原则、色彩理论、使用正确的图表、移除图表垃圾和其他方法来帮助集中注意力。你必须引导你的观众如何查看图表中的数据。

应用感知的格式塔原则 - 在视觉中是否深思熟虑地应用了格式塔心理学的感知原则？

确保我们引导视线到我们设计的图表中最重要的元素的一种方法，是使用格式塔“感知心理学”的原则。这些原则是否被最大限度地利用了？对我们来说最重要的原则是确保视觉有良好的图形/背景差异。主要观点在视觉上是否突出？然后我们可以考虑次要效果，例如询问分组是否被最有效地使用。连接性是否被有效地使用？流动是否被恰当地使用？

以质量设计：视觉是否向观众传达信息并消除他的无知？

一个高质量的图表是信息丰富的；换句话说，我们的视觉必须“生动”。为了“生动”，一个视觉必须提供一种服务。这种服务是解决观众带到图表中的紧张感。他们想知道。如果图表传达了信息，紧张感就会缓解，观众随后“知道”。如果观众在观看后仍然对信息感到困惑，图表就没有传达和释放无知“紧张感”的“生动”品质。

案例分析：感知

检查要改进的案例研究和图表。使用这个练习来练习从感知维度分析图表。确保使用模板中的分析问题，以下将重复列出。在你应用了三个原则之后，你将能够回答以下问题：

沿着这些维度分析视觉时出了什么问题？

为了改善视觉在所有这些维度上可以做些什么？

1. 观察：观众的视线是否聚焦于正在阐述的最重要观点？

2. 心智：在视觉中是否深思熟虑地应用了格式塔“感知心理学”的原则？

3. 质量：视觉是否向观众传达信息并消除他的无知？

分析案例 17.5：方法

有效使用颜色：颜色是否被明智且稀疏地使用？

颜色应谨慎使用，并应增强图表效果。例如，如果你使用 Excel，程序会根据某些内部公式选择要显示的颜色。这并不总是导致最佳的颜色组合。应尽量少用颜色。你的图表大部分应该是黑白。颜色应留给那些你想用来吸引观众注意力的元素。例如，你可以将坐标轴稍微变灰，使其融入背景。你的颜色使用是否吸引了观众的注意力？颜色还应使用语义正确的方式。

移除图表垃圾：视觉上是否清晰，没有不必要的视觉元素，这些元素不会导致明确的观点？

图表垃圾是任何会分散观众对图表理解的东西。正如我们必须在准备出售家庭时清理杂乱一样，你应在视觉中尽可能清理观看空间。使用图表制作器的重做和撤销功能。尝试将某个功能放入图表中，然后删除它，看看它如何影响图表的视觉冲击力。来回尝试，反复放入和取出，以确定如果没有它是否会丢失有价值的信息。是否有更简单的方式来表达这个观点？移除图表和图形中不必要的或令人困惑的视觉元素。如果它们不是传达信息所需的最小视觉元素集的一部分，任何标记和视觉元素都可以称为“图表垃圾”。

用标题讲述故事：图表的标题是否传达了图表所表达的观点？

麦肯锡公司（McKinsey and Company）的顾问以某种方式命名他们的演示文稿幻灯片。幻灯片的标题（或甚至视觉元素，但不包括两者）明确地表达了图表的商业观点。它告诉观众图表在标题中的含义。他们不允许观众自己尝试理解，因为他们可能会得出错误的结论。你需要在幻灯片顶部明确说明图表的确切含义。要简洁但完整地表达图表的主要思想。图表还应具有对系列的直接标注。避免使用使观众的眼睛来回移动的图例，因为他们可能无法理解最重要的点。直接告诉他们每个图表特征是什么。

案例分析：方法

审查案例研究和要改进的图表。使用这个练习来练习沿着方法维度分析图表。确保使用模板中的分析问题，这些问题如下重复。在你应用了三个原则之后，你将能够回答以下问题：

沿着这些维度分析视觉有什么问题？

可以采取哪些措施来改善所有这些维度的视觉？

1. 颜色：颜色是否被谨慎且少量使用？

2.图表垃圾：视觉元素是否清晰，没有不必要的视觉元素，以便能够表达最重要的观点？

3.标题：图表的标题是否传达了图表所表达的观点？

分析案例 17.6：图表

使用正确的图表：所使用的图表类型是否与所需的判断水平相匹配？

研究人员已经开发了一个用于基本感知任务的有用量表，我们将它应用于决定应使用何种图表来满足所需的精度水平。这个功能量表告诉我们，编码方法越高，它所促进的比较就越准确。线性图表，如柱状图、折线图和散点图，提供了最高水平的准确比较。饼图适用于一般比较，但不是非常准确。它们更适合鼓励其他类型的判断，如整体贡献。最不准确但仍然有用的是在 GIS 图表中用于数据着色的颜色量表。这应该指导我们根据所回答的问题选择使用哪种图表类型。使用这个量表，我们可以提出以下问题。是否使用了正确的图表来达到预期的目的？视觉元素是否使用了适当的编码水平来满足所需的准确判断水平？

有效选择图表类型：所使用的图表类型是否与所回答的业务问题相匹配？

考虑回答一些关于所选图表类型的基本问题。图表是否回答了正确的问题？图表是否与所提出的问题相匹配？是否正确使用了基本的四种图表类型（柱状图、折线图、饼图和散点图）？每种图表类型最适合展示某些类型的问题的答案。例如，帕累托柱状图非常适合展示特定贡献者的 80/20 百分比贡献。饼图最适合展示整体贡献。将你试图表达的观点与最适合该类型信息的图表类型相匹配。

增强表格数据以强调：可参考的视觉元素（表格）是否可以通过适当的条件格式和缩略图图表进行强调而易于阅读？

当我们在视觉元素中使用表格时，我们必须提出以下问题。我们是使用表格来分析还是来讲述？使用可参考或可快速浏览的视觉元素是否合适？可参考的视觉元素是否设计得易于阅读和识别？表格是否有足够的空白空间？表格的阴影是否被适当地和少量地使用？是否通过条件格式适当地添加了强调？是否使用了缩略图图表，如 Sparklines，以增加洞察力？

案例分析：图表

审查要改进的案例研究和图表。使用这个练习来练习沿着图表维度分析图表。确保使用模板中的分析问题，这些问题如下重复。在你应用了三个原则之后，你将能够回答以下问题：

沿着这些维度分析的可视化有什么问题？

沿着所有这些维度可以做什么来改进可视化？

1.正确的图表：所使用的图表类型是否与所需的判断水平相匹配？

2.选择：所使用的图表类型是否与要回答的业务问题相匹配？

3.表格：可引用的可视化（表格）是否使用适当的条件格式化和缩略图图表用于强调？

分析案例 17.7：整合所有内容

创建一个新的图表，你将向你的公司提议替换他们原本打算使用的图表。这样做时不要看专家生成的解决方案图表。确保你的修改后的图表能够实现以下目标：

1.它讲述了一个“好”的故事。

2.它可以作为道具使用。

3.它模仿了专家制作的传统图表。

4.它是一个好的标志。

5.它发出了强烈的信号。

6.它是实用的，而不是艺术的。

7.它满足了组织需求。

8.它允许观众有偏见和旅程。

9.它回答了一个精心构建的分析问题。

10.观众的注意力集中在最重要的元素上。

11.它采用了适当的全景感知原则。

12.消除观众的认知盲点。

13.它适当地使用了颜色。

14.无图表垃圾。

15.它有一个合适的标题。

16.所使用的图表类型支持所需的判断水平。

17.你使用的图表类型与要回答的业务问题相匹配。

18.如果有表格，确保它具有适当的条件格式化和缩略图图表以强调，以便观众可以快速理解信息。

一种可能的解决方案

图 17.2 显示了正在分析的图表的重新设计结果（如图 17.1 所示）。

图表 17.2：案例研究幻灯片修改后更具吸引力

利用生成式 AI 改进数据可视化

大型语言模型可以用于审核数据可视化。我们利用本章中的原则微调了一个 LLM：ChatGPT。然后，我们向它展示一张图表并请求批评，询问图表的问题以及如何修复这些问题，同时使用我们在本章中开发的 18 点清单。

第一个提示需要上传第十七章的副本，该副本位于案例数据存储库中，并设置模型为“数据可视化专家”。

提示：“请扮演一位准备就如何增强你展示的图表提供建议的领先数据可视化专家。你已经开发了一个 18 点分析模板，用于审查图表，并且它已作为一组原则上传。我们希望使用这些原则来指导我们如何改进数据可视化。”

ChatGPT 的回复：

很好，让我们首先利用 18 点分析模板来审计和改进你的数据可视化。请上传你希望我审查的图表或数据可视化。一旦我有了它，我们就可以应用模板中的原则来提高其有效性。

现在请上传一个数据可视化供分析。让我们使用章节中分析的那个，以便我们可以在数据可视化专家、作者和模型之间进行合理的比较。使用这个提示并上传图表。

提示：“我想使用这个图表向客户，纽约市，展示他们多年来在我们这里花费的金额。这将证明我们一直是他们的好供应商，并且我们希望继续作为他们的合作伙伴。沿着 18 个维度分析图表，以确定它的问题以及如何改进。”

ChatGPT 的回复：

让我们使用 18 点模板分析提供的图表并提出改进建议：

故事

1.创建视觉故事

• 当前：图表没有清楚地传达作为有价值供应商的整体信息。

• 改进：添加一个明确的标题或注释，强调关键信息，例如，“展示我们与纽约市强大的合作伙伴关系。”

2.将其作为道具

• 当前：视觉元素杂乱，可能会分散对主要故事的注意力。

• 改进：通过聚焦最重要的数据点简化图表。考虑使用更少的颜色并移除 3D 效果。

3.模仿传奇故事讲述者

• 当前：图表缺乏与成熟的视觉叙事技巧的联系。

• 改进：使用条形图或其他更有效的视觉方法来更清晰地突出关键机构和它们的支出。

符号

4.符号

• 当前：使用符号和标志的效果不是很有效。

• 改进：使用一致且易于区分的颜色为不同部分着色。避免 3D 效果。

5.沟通

• 当前：由于 3D 效果和多种颜色，信噪比低。

• 改进：将图表简化为 2D，并使用有限的调色板来提高清晰度。

6.功能

• 当前：图表看起来更像装饰性而非信息性。

• 改进：通过使用更直接的图表类型和更清晰的标签来使图表功能化。

目的

7.需求

• 当前：图表没有完全满足组织信息需求。

• 改进：确保图表突出显示强调合作伙伴价值的最重要数据。

8.受众

• 当前：图表没有充分考虑受众的需求和偏见。

• 改进：使用观众可以快速理解的格式，例如柱状图，通常比饼图更容易阅读。

9.框架

• 当前：图表未能回答一个精心设计的分析问题。

• 改进：将数据框架化以回答特定问题，例如“哪些部门是我们的主要服务对象？”或“支出是如何随时间变化的？”

感知

10.观察

• 当前：眼睛不会自然地聚焦于最重要的点。

• 改进：使用色彩和大小来吸引对关键数据点的注意。

11.思维

• 当前：感知的格式塔原理没有得到充分利用。

• 改进：将相似数据分组并使用视觉层次结构引导观众的注意力。

12.质量

• 当前：图表未能有效地通知观众。

• 改进：确保图表提供清晰且富有洞察力的信息，可能需要添加注释或突出显示。

方法

13.色彩

• 当前：色彩使用过多且不够明智。

• 改进：使用更为节制的色彩调色板，专注于关键色彩以突出重要数据。

14.图表杂项

• 当前：图表包含不必要的元素，如 3D 效果。

• 改进：移除 3D 效果和其他任何非必要视觉元素。

15.标题

• 当前：标题未能充分传达图表的观点。

• 改进：使标题更具描述性，并直接与图表信息相关。

图表

16.正确图表

• 当前：饼图可能不是处理此类数据的最佳选择。

• 改进：考虑使用柱状图以更好地比较各机构的支出。

17.选择

• 当前：图表类型与业务问题不完全匹配。

• 改进：使用更好地回答业务问题的图表类型，例如累积数据的堆积柱状图或随时间变化的趋势折线图。

18.表格

• 当前：饼图各部分难以比较。

• 改进：如果使用表格，确保其格式适当且可读，可能包括条形图或折线图以强调重点。

改进总结

• • 将图表类型改为柱状图或堆积柱状图以提高清晰度。

• • 简化色彩方案以突出关键数据点。

• • 移除 3D 效果以减少杂乱并提高可读性。

• • 增强标题以清晰地传达图表信息。

• • 添加注释以强调重要数据点和趋势。

• • 通过关注最相关的数据并针对特定问题进行框架化，确保图表满足观众的需求。

通过这些调整，图表将成为展示您对纽约市价值的一种更有效的工具，并加强合作伙伴关系。

现在让我们要求 ChatGPT 生成一个替代图表的草案，以解决所有这些问题。

提示：“生成一个替代图表，以解决所有这些问题。”

ChatGPT 的回复：

这是基于分析改进的图表（图 17.3）：

图 17.3 案例研究幻灯片由 ChatGPT 修改和改进。将此图表与作者在图 17.2 中的解决方案进行比较。

应用改进

• • 图表类型：从 3D 饼图更改为水平条形图，以提高可读性和比较

• • 颜色使用：简化为单一颜色方案，以避免干扰并专注于数据

• • 数据标签：在条形上直接添加数据标签，以便轻松读取值

• • 标题：增强了标题，以清楚地传达图表的目的

• • 网格线：添加了轻网格线以提高可读性，而不造成视觉上的杂乱

• • 轴：反转 Y 轴，将最重要的值放在顶部，与典型的阅读模式相一致

图表摘要

• • 标题：纽约市与 ACME 的机构合作（自 2014 年以来）

• • Y 轴：机构

• • X 轴：美元支出

• • 数据标签：每个条形上显示的支出金额

此图表现在有效地传达了纽约市各机构与 ACME 的支出情况，对观众来说清晰易懂。

参考文献

Du Bois, W. E. B. (1900). The Exhibit of American Negroes: A sociological study by charts, maps, and graphs [数据可视化]. 1900 年巴黎世界博览会。

Minard, C. J. (1869). Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812–1813 [地图]. 可在：Tufte, E. R. (1983). The visual display of quantitative information (pp. 40-41). Graphics Press.

Nightingale, F. (1858). Notes on matters affecting the health, efficiency, and hospital administration of the British army: Founded chiefly on the experience of the late war (pp. 1–16). Harrison and Sons. (Original charts published in 1857).

Priestley, J. (1765). A chart of biography. W. Bowyer.

Rosling, H., Rosling, O., & Rönnlund, A. R. (2018). Factfulness: Ten reasons we’re wrong about the world—and why things are better than you think. Flatiron Books.

Snow, J. (1855). On the mode of communication of cholera (2nd ed.). John Churchill. (Original map published in 1854).

第十八章

数据分析技术概述

商业问题和解决它们的分析技术

表 18.1 基本技术

表 18.2 中级技术

表 18.3 高级技术

附录

数据来源

1. 数据集 ORDERS.CSV。此数据集由 Tableau, Inc. 提供，作为开源数据集，并源自他们的 Sample-Superstore 训练数据集。数据集可在community.tableau.com/servlet/JiveServlet/downloadBody/1236-102-2-15278/Sample%20-%20Superstore.xls找到。

2.数据集 BankComplaints.csv。此数据集是由美国消费者事务部作为其消费者投诉数据库的一部分提供的，这是一个公开的、不受限制的数据集。数据集可在catalog.data.gov/dataset/consumer-complaint-database找到。

3.数据集 SFOCustomerSurvey.csv。此数据集是由旧金山机场作为开放数据集提供的，可在data.sfgov.org/browse?q=sfo找到。

4.数据集 Football.csv。此数据集是在迈克尔·B·拉弗蒂（Michael B. Lafferty）的许可下提供的，他是原始新闻文章《OSU 科学家从体育争议中获得乐趣》的作者，《哥伦布信使报》（The Columbus Dispatch，1993 年 11 月 21 日），B7。数据集可在www3.nd.edu/~busiforc/handouts/Data%20and%20Stories/t%20test/Helium%20Footballs/Helium%20Football%20Data.html找到。

5.数据集 courses.csv。此数据集是由哈佛数据集项目提供的，项目编号为 DVN/26147_2014，哈佛 X，出版商：哈佛数据集，标题：哈佛 X 2013-2014 学年人员-课程去标识化数据集，版本 5.0，UNF = {UNF:6:WSoYmsP5KeX2t/6g2JiEuw==, year: 2014, version: V11, doi: 12.7910/DVN/26147, url: doi.org/10.7910/DVN/26147}。

6.数据集 calcium.csv。此数据集是在克利夫兰州立大学约翰·P·霍尔科姆（John P. Holcomb, Jr., Ph.D.）的许可下提供的。数据集可在academic.csuohio.edu/holcombj/clean/cleaningassignment.htm找到。

索引

A/B 测试，335–337

定义，337–339

使用 Excel 进行试验的设计和分析，342–343

电子商务按钮颜色测试，340–342

分析，341

假设，340

解释，341

结果，340

测试设置，340

元素，339–340

控制和变体，339

持续时间，339

假设，339

指标，339

多变量测试，340

样本组，339

样本量，339

划分，340

统计显著性，340

变量，339

Excel，分析使用

订单，343–347

旧金山国际机场调查数据，347–349

泰坦尼克数据，350–351

精算师，数据分析员，9

高级技术，数据分析，412

聚合，7

AI 辅助方法，数据可视化，85

算法技术，9

与数据分析相关，8–9

算法和活动，3–4

alpha，274

方差分析（ANOVA），60–61，270，274–276，280–283

分析工具包，61–62，64–66，84，95，114，191，196–197

分析工具

ChatGPT，68–71，77

Excel，与 Excel 分析，61–62

安装和激活，64–66

探索性数据分析（EDA），71–75

生成式 AI，63–64，68–71

大型语言模型（LLMs），63–64

R 分析，62–63

Jamovi，67–68

泰坦尼克数据，提示分析，75–76

分析师，6

-信息化的决策组织团队，6

ARIMA，239

人工智能（AI），385

资产和利润/销售额，相关性，199

假设，相关性分析和线性回归，193

结果保证，推断统计

ChatGPT，282–283

Excel，与 Excel 分析，276–279

生成式 AI，281–282

R，分析，279–281

受众，392

大数据

大数据集分析，373–375

和机器学习，238

箱，115

直方图，116

品牌监控，357

商业分析，2–3，7

以及商业智能，7–8

数据分析的商业应用，11–13

聚类，13

描述性统计，11

直方图、帕累托图和相关性，11–12

推断分析，12–13

线性回归和时间序列分析，12

商业环境，20

商业信息需求，19

商业智能（BI），2–3，7

商业问题和分析技术，410–411

分类别变量，302

中心趋势，度量，82

图表

将数据与石油进行比较，5

废弃物，395

饼图，396–397

类型，397

ChatGPT，60，68–71，77，164，315–318，329–330

使用练习的分析结果，89

使用类型通过 EDA 提示生成的箱线图结果，94

列联分析，315–318，329–330

龙哥盟

人最大的痛苦就是说一些自己都不相信的话。

商业决策的数据分析

商业决策的数据分析

配对 t 检验的结果如下：

结论

公告