决策者的数据科学指南-全-
决策者的数据科学指南(全)
原文:
annas-archive.org/md5/b3a133f0ed788ec9b45a772b13dd1082译者:飞龙
前言
数据科学、机器学习和人工智能(AI)正在改变商业格局。
各行各业的组织正在利用这些强大的工具来挖掘洞察、做出预测,并获得竞争优势。随着大语言模型和生成式人工智能的兴起,这一趋势更是加速发展。
但是对于没有数据科学背景的决策者,或者从数据科学家晋升为数据团队领导的人来说,面临着各种挑战。理解统计学、机器学习和人工智能的基本概念可能具有挑战性;有效管理数据团队;最重要的是,将复杂的模型转化为可衡量的商业成果——这些商业成果为组织带来真正的底线价值,而不仅仅是虚荣的指标和炫目的演示。
本书是你的指南。在数据科学与决策者中,你将获得在人工智能时代领导所需的基本知识和技能。通过清晰的解释和实际的示例,你将学会如何解读机器学习模型、识别有价值的应用场景,并推动可衡量的结果。一步步地,你将学习统计学和机器学习的基础。你将发现如何从头到尾规划和执行成功的数据科学项目。
在这个过程中,你将掌握构建和赋能高效团队的最佳实践。最重要的是,你将学会如何弥合数据科学的技术世界与组织商业需求之间的鸿沟。无论你是高管、经理,还是从事数据科学工作准备走向领导岗位的人,这本书都将帮助你利用数据驱动的洞察力来指导决策,推动公司前进。
本书适合谁阅读
你是想利用数据科学和人工智能的高管吗?是渴望带领数据驱动团队取得成功的经理吗?还是准备步入领导岗位的数据科学家?如果是的话,这本书适合你。
数据科学与决策者是为希望有效利用数据洞察力的领导者设计的。你不需要具备统计学或机器学习的正式背景。你需要的是理解这些概念的愿望、提出正确问题的能力,以及做出明智决策的能力。
如果你与数据科学家和机器学习工程师合作,这本书将帮助你自信地解读他们的模型。你将学习如何识别人工智能的宝贵机会,并规划能够带来真正商业价值的项目。
高管将获得扎实的数据科学方法基础。经理将发现如何构建并指导高效团队。数据科学家将培养成为有影响力领导者的技能。无论你处于职业生涯的哪个阶段,这本书都将帮助你在人工智能时代取得成功。
本书内容
本书分为三部分。首先,我们涵盖了数据科学及其在统计学中的基础。然后,我们涵盖了机器学习及其与数据科学的关系,包括核心机器学习概念、应用和需要避免的陷阱。最后,我们讨论了如何领导成功的数据科学项目和团队。如果您已经熟悉了数据科学的基础和第一部分中涵盖的核心统计概念,您可能希望直接跳到第二部分或者回顾您的知识。
第一部分:理解数据科学及其基础
第一章,引介数据科学,将为您提供对数据科学的基础理解,以及其与人工智能和机器学习的关系,以及关键统计概念。探讨了描述性和推断统计学、概率和数据分布,为读者建立了一个共同的语言。
第二章,表征和收集数据,将使您了解如何区分不同类型的数据,包括第一方、第二方和第三方数据,以及结构化、非结构化和半结构化数据。探讨了收集、存储和处理数据的技术和方法,并提供了在数据解决方案领域中导航的指导,包括云端、本地和混合解决方案。
第三章,探索性数据分析,介绍了探索性数据分析(EDA)的过程及其在理解数据、发展假设和构建更好模型中的重要性。本章提供了 Python 的实际代码示例,以加强这些概念,并为没有 Python 经验的读者提供逐步解释。
第四章,显著性的重要性,探讨了统计显著性的概念及其在数据驱动决策中的重要性。涵盖了假设检验,也称为显著性检验,并提供了实际示例,以说明其在业务场景中的应用,例如减少客户流失和评估机器学习模型改进。
第五章,理解回归,介绍了回归作为一种在数据中揭示模式和关系的强大统计工具。探讨了在业务环境中回归的各种用例。本章从趋势线的基础概念开始,深入探讨了回归分析的复杂性。
第二部分:机器学习 – 概念、应用和陷阱
第六章,机器学习简介,概述了机器学习及其在数据驱动决策中的重要性。内容涵盖了从传统统计学到机器学习的演变、各种机器学习技术类型以及训练、验证和测试模型的过程。
第七章,监督机器学习,重点讲解了机器学习中最常用且最有益的子领域之一。内容讨论了训练和部署监督机器学习模型的步骤、核心的监督学习算法,以及训练和评估这些模型时需要考虑的因素和它们的应用。
第八章,无监督机器学习,探讨了无监督学习领域,在该领域,算法能够从无标签数据中发现隐藏的模式和洞察。章节介绍了无监督学习的实际示例、涉及的关键步骤以及如聚类、异常检测、降维和关联规则学习等技术。它强调了无监督学习与监督学习的不同性质,并突出了其在没有预先训练的情况下揭示数据中有价值信息的潜力。
第九章,机器学习模型的解释与评估,为读者提供了评估机器学习模型准确性和可靠性所需的技能。你将学习如何使用评估指标来衡量模型表现,并理解使用持出(测试)数据进行无偏评估的重要性。本章深入探讨了回归和分类模型评估指标的差异,帮助读者有效解释和验证机器学习模型的质量,确保它们在实际应用中的成功实施。
第十章,机器学习中的常见陷阱,为读者提供了识别和解决开发和部署机器学习模型时常见挑战的知识。内容包括不充分或低质量的训练数据、过拟合与欠拟合、训练-服务偏差、模型漂移、以及偏差与公平性等问题。你将学习如何应用实际策略来避免这些陷阱,确保你的模型可靠、准确且公正,最终帮助你做出更好的商业决策和结果。
第三部分:成功领导数据科学项目 与团队
第十一章,数据科学项目的结构,提供了一个全面的框架,用于规划和执行数据科学项目,重点是交付有影响力的数据产品。你将学会如何识别、评估和优先考虑与组织目标对齐、能够驱动实际业务价值的使用案例。该章节涵盖了数据产品开发的关键阶段,从数据准备到模型设计、评估和部署。你还将学会如何通过选择相关的度量标准和关键绩效指标(KPI)来评估数据产品的业务影响,从而展示你的项目的实际价值和投资回报率(ROI),并为你的项目争取持续的支持。
第十二章,数据科学团队,考察了组建高效数据科学团队的艺术与科学。你将了解构成成功团队的关键角色,包括数据科学家、机器学习工程师和数据工程师,以及每个角色带来的技能和专业知识。该章节还探讨了在大规模组织中构建数据科学团队的不同运营模式。
第十三章,数据科学团队管理,探讨了有效领导数据科学团队所面临的独特挑战和最佳实践。它涵盖了快速实验、管理不确定性、平衡研究和生产工作、有效沟通、促进持续学习以及促进协作的策略。该章节还讨论了常见的挑战,如将项目与业务目标对齐、模型的扩展与部署、确保公平性和伦理性,以及推动数据科学解决方案的采纳。
第十四章,作为数据科学领导者的持续成长,为在快速发展的数据科学、机器学习和人工智能领域中导航提供了指导。它探讨了如何跟上新兴技术的步伐、专注于特定行业或领域以及拥抱持续学习的策略。该章节还讨论了保持对最新趋势和新闻的关注的重要性,以及数据科学领导者如何在组织内部推广数据驱动思维。
为了从本书中获得最大收益,了解一些基本的数学概念,如代数、概率和统计学是有帮助的,但并非必需。真正的先决条件是好奇心、学习的意愿以及使用数据为组织带来益处的动力。如果你具备这些素质,本书将为你提供所需的知识和实践技能。一步步地,你将学会以清晰、自信和目标明确的方式运用数据科学和人工智能的工具。
| 书中涉及的软件/硬件 | 操作系统要求 |
|---|---|
| Python(Google Colab) | Windows、macOS 或 Linux 需要 Google 账户(用于访问 Google Colab)以及现代网页浏览器(如 Google Chrome、Mozilla Firefox、Microsoft Edge 或 Apple Safari) |
设置说明将在包含代码练习的章节中提供。
使用的约定
本书中使用了若干文本约定。
文本中的代码:表示文本中的代码词、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟 URL、用户输入和 Twitter 账号。例如:“点击单元格激活它,输入 print(“Hello, world!”),然后点击播放按钮运行代码。”
代码块如下所示:
# Calculate median (middle value)
median_sales = sales_data_year1.median()
print(f"The median monthly sales, a typical sales month, is {round(median_sales)} units.")
当我们希望引起你对代码块中特定部分的注意时,相关的行或项目将以粗体显示:
# Calculate standard deviation (measure of the amount of variation)
std_dev_sales = sales_data_year1.std()
print(f"The standard deviation, showing the typical variation from the mean sales, is {round(std_dev_sales)} units.")
粗体:表示新术语、重要词汇或屏幕上显示的词汇。例如,菜单或对话框中的词汇通常以粗体显示。举个例子:“点击 文件,然后从下拉菜单中选择 新建笔记本。”
提示或重要说明
如此显示。
联系我们
我们总是欢迎读者的反馈。
一般反馈:如果你对本书的任何方面有疑问,请通过 customercare@packtpub.com 与我们联系,并在邮件主题中提到书名。
勘误:虽然我们已经尽最大努力确保内容的准确性,但错误难免会发生。如果你在本书中发现了错误,我们非常感激你能向我们报告。请访问 www.packtpub.com/support/errata 并填写表格。
盗版:如果你在互联网上发现任何形式的非法复制品,我们会非常感激你提供该材料的位置或网站名。请通过 copyright@packt.com 与我们联系,并附上该材料的链接。
如果你有兴趣成为作者:如果你在某个领域具有专长,并且有兴趣写书或为书籍贡献内容,请访问 authors.packtpub.com。
分享你的想法
阅读完《决策者的数据科学》后,我们很希望听到你的想法!请点击这里直接访问 Amazon 书评页面并分享你的反馈。
你的书评对我们和技术社区非常重要,帮助我们确保提供优质的内容。
下载本书的免费 PDF 版本
感谢你购买本书!
你是否喜欢在外出时阅读,但又无法随身携带纸质书籍?
你的电子书购买是否与你选择的设备不兼容?
不用担心,现在每本 Packt 书籍都会附赠该书的 DRM-free PDF 版本,完全免费。
在任何地方、任何设备上阅读。直接从你喜欢的技术书籍中搜索、复制并粘贴代码到你的应用程序中。
好处还不止这些,你可以独享折扣、新闻通讯以及每日送达的精彩免费内容。
按照以下简单步骤来获得好处:
- 扫描二维码或访问下面的链接

packt.link/free-ebook/9781837637294
-
提交你的购买证明
-
就是这些!我们将免费 PDF 和其他好处直接发送到你的电子邮件中。
第一部分:理解数据科学及其基础
本部分涵盖了数据科学的基础,包括关键的统计学概念、数据类型、收集方法、探索性数据分析、统计显著性和回归等内容。本部分包含以下章节:
-
第一章**,数据科学简介
-
第二章**,数据的表征与收集
-
第三章**,探索性数据分析
-
第四章**,重要性的重要性
-
第五章**,理解回归
第一章:引入数据科学
数据科学并不是一个新词;事实上,它是在 1960 年代由丹麦计算机科学先驱彼得·诺尔(Peter Naur)创造的,他使用“数据科学”这一术语来描述在数学、统计学和计算机科学等多个领域中与数据打交道的过程。
然而,数据科学的现代应用在 1990 年代和 2000 年代初期开始成形,数据科学家作为一种职业,越来越普遍地出现在各行各业中。
随着人工智能的指数级发展,有人可能会认为数据科学变得不那么相关了。
然而,理解数据的科学方法,即定义数据科学的方法,是成功构建基于机器学习和人工智能的解决方案的基础。
本书将探索这些不同的术语,提供统计学和机器学习理论的坚实基础,以及可以应用于统计学、机器学习和人工智能模型的概念,并讨论如何引导数据科学团队和项目走向成功。
本章向读者介绍了统计学和数据科学如何交织在一起,以及一些统计学的基本概念,这些概念可以帮助你更好地处理数据。
我们将探讨数据科学、人工智能和机器学习之间的区别,解释统计学与数据科学的关系,阐明描述性统计与推论统计的概念,以及概率和理解数据形态(分布)的基本方法。
尽管某些读者可能会觉得本章涉及的是基础性知识,但其目的是为所有读者,尤其是那些来自非技术背景的读者,提供对这些概念的坚实理解,帮助他们在深入数据科学的世界之前打下基础。对于更有经验的读者,本章作为快速回顾,帮助建立贯穿全书的共同语言。
在接下来的部分,我们将详细讨论数据科学、人工智能和机器学习这些术语,它们之间的关系,以及它们的不同之处。
本章涵盖以下主题:
-
数据科学、人工智能和机器学习——它们有什么区别?
-
统计学与数据科学
-
描述性统计与推论统计
-
概率
-
描述我们的样本
-
概率分布
数据科学、人工智能和机器学习——它们有什么区别?
你可能听过“数据科学”、“人工智能”和“机器学习”这些术语被交替使用,但它们是不同的概念,具有独特的特点。
人工智能是一个广泛的领域,专注于开发能够执行通常需要人类智能的任务的计算机系统,如视觉感知、语音识别、决策和语言翻译。机器学习是人工智能的一个子集,它涉及训练计算机系统从数据中学习,并在特定任务上改进其表现,而无需明确编程。
机器学习算法使计算机系统能够从数据中学习并识别模式,进而用于进行预测或决策。虽然所有机器学习都属于人工智能的范畴,但并非所有人工智能都包含机器学习,因为某些人工智能系统可能依赖于基于规则或符号推理的方法。
深度学习是机器学习的一种特定类型,它利用具有多层的人工神经网络从原始数据中提取更高层次的特征。这种技术在图像和语音识别等任务中非常有效。
数据科学是一个多学科领域,涉及从数据中提取和分析相关的洞见。它专注于发现数据中的隐藏模式和关系,以得出有意义的结论。数据科学家利用机器学习算法进行预测并指导决策。
所有这些领域都建立在数学、概率论和统计学的基础上。理解这些核心概念对于任何有意从事数据科学、人工智能或机器学习事业的人来说都是至关重要的。
以下是试图可视化这些领域之间关系的尝试:

图 1.1:数据科学、机器学习和人工智能之间关系的可视化表示
在这里,深度学习是机器学习的一个子集,而人工智能是一个更广泛的领域,它包括机器学习以及其他执行智能任务的方法。
作为一种实践,数据科学与所有这些领域有所交集,因为它可以利用最适合的任何方法,从数据中提取洞见、预测和建议。
所有这些领域都建立在数学、概率和统计学的基础上。因此,在接下来的章节中,我们将探讨数据科学的这些数学和统计学基础。
数据科学的数学和统计学基础
本书面向的是以商业为导向的决策者,而不是技术专家,因此你可能会想,为什么我们从谈论数学开始。
事实上,数据科学的核心基于数学和统计学基础,因此即使你不是数据科学家或机器学习/人工智能工程师,拥有基本的数学和统计学概念理解,仍然是与数据科学家合作或领导数据科学、机器学习或人工智能项目时最重要的工具之一,无论是在解读数据科学家和机器学习工程师带来的模型和结果时,还是在更好地理解某些数据和模型的局限性时,或者在评估哪些业务场景适合使用数据科学时。
研究发现,87%的数据科学项目永远无法投入生产。换句话说,只有大约十分之一的项目能够进入到为公司带来实际价值的阶段。
这些结果乍一看可能不尽如人意,但其中也有积极的一面。在许多情况下,缺失的关键部分是强有力的执行领导力,能够判断哪些应用场景适合数据科学,提供高质量、相关的数据,并以一种数据科学能够成功应用的方式来框定使用场景。
了解一些关于数据科学所需的数学和统计学核心概念,不仅能帮助你更好地理解数据科学,还能为你提供规划和引导数据科学项目的方向,确保从一开始就能够取得更成功的结果。
在本书中,我们不会试图提供与人工智能和机器学习相关的全面数学基础,因为这需要完成整个学位才能达到。然而,在本章中,我们将帮助你理解统计学的基础知识。
统计学与数据科学
英国数学家卡尔·皮尔逊曾说过:“统计学是科学的语法。”
如果你正在开始领导组织中的数据科学、机器学习或人工智能项目,或者仅仅是与数据科学家和机器学习工程师合作,那么拥有统计学基础知识是非常必要的。
对统计学知识的基础理解对于那些准备领导数据科学领域项目或团队的人至关重要。它使他们能够在从数据中提取有价值见解时获得竞争优势。统计学在此过程中发挥着重要作用,它提供了多种工具和技术来识别模式并深入挖掘现有数据中的洞察力。掌握统计学能够帮助人们批判性思考、创造性地解决问题,并做出数据驱动的决策。在本节中,我们将涵盖与数据科学相关的基本统计学知识。
什么是统计学?
在深入讨论之前,定义统计学的含义会很有帮助,因为这个术语可以有多种不同的含义。它可以用于以下几种情况:
-
表示整个统计学学科
-
指代用于收集、处理和解释定量数据的方法
-
指代收集的各类数据
-
指代用于解释收集到的数据的计算数据(例如均值)
在本书中,我们采用第二种定义来解释统计学——即用于收集、处理和解释定量数据的方法。
今天,几乎没有哪个行业不受统计思维的影响。例如,在市场调研中,统计学用于抽样调查并比较各组之间的结果,以了解哪些见解具有统计显著性;在生命科学中,统计学用于衡量和评估药物的有效性;在金融服务中,统计学用于建模和理解风险。
我相信你对许多统计学的应用都很熟悉,可能曾在学校、大学或职业生涯中学习过统计学,本章接下来的内容对你来说可能并不完全是新信息。即使如此,复习一遍仍然很有帮助,因为不幸的是,职业生涯中不可能暂停去完成一门统计学课程。
当你领导数据科学、机器学习(ML)或人工智能(AI)项目时,理解统计学是一项基本技能,无论你是使用简单的统计模型,还是理解所使用的数据,或者在训练和评估深度学习 AI 模型时了解模型的表现。
牢记这一点,让我们深入探讨概率与统计学中的一些核心概念。
描述性统计与推论性统计
理解有两种不同类型的统计学是很重要的:描述性统计学(用于总结或描述观察结果的方法)和推论性统计学(利用这些观察结果作为做出估计或预测的基础)——也就是说,关于尚未调查的情况的推论。
看看以下两个示例陈述。它们哪个是“描述性”统计,哪个是“推论性”统计?
-
根据我们的预测,我们预计明年的销售收入将增长 35%。
-
我们在客户群体中的平均评分为 8 分(满分 10 分)。
第一个陈述是推论性的,因为它超越了过去的观察,对未来做出推论,而第二个陈述是描述性的,因为它总结了历史观察。
在数据科学中,通常首先通过描述性统计学来探索数据,这属于所谓的探索性数据分析(EDA)的一部分,旨在对数据进行概况化和理解。之后,可以利用在数据集上训练的统计模型或机器学习(ML)模型(称为模型训练)对未见过的数据进行推论(称为模型推论或执行)。当我们在本书后面介绍机器学习基础时,我们将再次探讨这一主题。
描述性统计学和推论性统计学的区别取决于样本和总体之间的差异,这两个术语是统计学中的两个重要概念。
在统计学术语中,群体不仅指的是人群的群体,也同样可以指交易、产品或零售店的群体。关键是“群体”指的是研究组中的每一个示例。数据科学家未必对群体中的每个属性感兴趣——他们可能只对零售店的销售收入或产品的价格感兴趣。
然而,即使数据科学家对群体的某一特征感兴趣,他们通常也无法研究群体中的所有成员。通常,他们必须从群体中选择一个样本——一个相对较小的样本。这通常是由于时间和费用的限制,或者由于数据的可用性,仅能获得数据样本。
在这种情况下,可以使用描述性统计学来总结样本数据,而推断性统计学则使数据科学家能够超越可用数据,将信息推广到整个群体。
总结一下,描述性统计学涉及总结一个样本,而推断性统计学则关注将样本推广到整个群体,进行推断。
从样本到群体的这些推论有多准确?这正是统计学的核心内容之一:衡量不确定性和误差。在使用统计模型或甚至机器学习模型的结果时,理解不确定性的概念并能度量它是非常有用的,不应回避这一点。有时候,商业利益相关者可能不想看到误差范围与简单统计技术的输出结果,因为他们想要完全确定的结果。否则,任何不确定性与结果一起展示时,可能会被过度放大。
然而,在进行推断时,我们很少能够观察到整个群体,也无法让模型泛化到每个可能的边缘情况,从而对任何结果有绝对的确定性。
然而,我们可以比人类直觉做得更好,更科学的做法是采取更科学的立场,理解和衡量推断和预测中的误差范围和不确定性。我们每天在无意识中都会做出部分信息和一定不确定性的决策。例如,如果你曾预定过酒店,你可能查看了一些酒店的样本,并阅读了一些顾客的评论,但最终仍然需要基于这些样本做出选择。你可能看到一家酒店只有一个五星级评论,另一家酒店有 1,000 条评论,平均评分为 4.8 星。虽然第一家酒店的平均评分更高,但你会选择哪一家酒店?大概是后者,因为你可以推测评分的误差范围较小,但更重要的是,仍然存在一些误差范围,因为并非每个顾客都可能留下评论。
在数据科学、机器学习(ML)和人工智能(AI)领域,调查和理解不确定性是至关重要的,尤其是在处理数据科学时,明确哪些误差范围对于你的业务案例是可以接受的,这对于决定是否将模型部署到生产环境中至关重要。
抽样策略
在数据科学中,抽样是从更大的人群中选择一个数据子集的过程。抽样可以是决策者得出推论并对总体进行预测的强大工具,但选择正确的抽样策略以确保结果的有效性和可靠性至关重要。
随机抽样
随机抽样是最常见且直接的抽样策略。在这种方法中,总体中的每个成员都有相等的机会被选入样本。这可以通过多种技术实现,例如简单随机抽样、分层随机抽样或聚类抽样。
简单随机抽样是从总体中随机选择个体而不进行任何限制或分层。分层随机抽样则是根据某些特征将总体划分为不同的层或子群体,然后从每个层中随机选择个体。聚类抽样则是将总体划分为多个聚类,并随机选择整个聚类纳入样本。
随机抽样在总体庞大且同质时非常有用,即所有成员具有相似特征。然而,当总体多样且子群体之间存在显著差异时,它可能不是最佳策略。
方便抽样
方便抽样涉及从总体中选择那些容易接近或可用的个体。这可以包括位于方便位置的个体,如在同一个办公室或大楼中的人,或者是那些可以轻松参与研究的个体。
尽管方便抽样可以是一种快速简便的数据收集方式,但它并不是最可靠的策略。样本可能无法代表总体,因为它可能会排除某些子群体或过度代表其他子群体。
分层抽样
分层抽样涉及根据某些特征将总体划分为子群体,然后从每个子群体中选择个体纳入样本。当总体多样且子群体之间存在显著差异时,这一策略可能会非常有用。
在分层抽样中,样本的大小与总体中每个子群体的大小成比例。这确保了每个子群体在样本中得到充分代表,从而使结果能够更准确地推断到总体。
聚类抽样
簇抽样涉及将总体分成簇,并随机选择完整的簇纳入样本中。当总体地理分布较广,或访问簇比访问个体更容易时,这一策略非常有用。
簇抽样涉及将总体分成簇,簇通常基于地理位置接近或其他共同特征。然后,从这些簇中随机选择几个簇,并将所选簇内的所有成员纳入样本中。当总体分布较广,或更容易访问和调查整个簇而非个体时,这一策略特别有用。
簇抽样通常比其他抽样方法更具成本效益和效率,尤其是在处理分布广泛的大规模人群时。然而,如果簇的代表性不足,簇抽样可能会导致比简单随机抽样更高的抽样误差:

图 1.2:分层随机抽样和簇抽样
抽样是决策者用于推断和预测总体的一个重要工具。抽样策略的选择取决于总体的特征和所提出的研究问题。随机抽样、分层抽样和簇抽样都是有效的策略,但需要考虑每种方法可能带来的偏差和局限性。通过选择合适的抽样策略,决策者可以确保其结果的可靠性和有效性,并能基于数据做出更有信息支持的决策。
随机变量
一旦我们拥有了样本的成员,接下来该怎么做呢?
这就是随机变量概念的应用场景。
在数据科学中,随机变量是由机会决定其值的变量。随机变量常用于建模不确定事件或结果,它们在统计分析、机器学习和决策制定中起着至关重要的作用。
随机变量是用来为随机过程的每个可能结果分配数值的数学函数。例如,掷硬币时,可以将 0 分配给反面,1 分配给正面,从而使随机变量X取值为 0 或 1:
X = {1, 如果是正面;0,如果是反面}
随机变量有两种类型:离散型和连续型。离散型随机变量只能取有限个或可数个值,而连续型随机变量可以取指定范围内的任意值。
例如,掷一个六面骰子的结果是一个离散型随机变量,因为它只能取值 1、2、3、4、5 或 6。而一个人的身高是一个连续型随机变量,因为它可以在某个范围内取任意值。
随机变量通常在抽样策略的上下文中使用,因为它们提供了一种建模和分析样本中不确定结果的方法。
例如,假设决策者想要估计某大学学生的平均身高。一种可能的抽样策略是简单随机抽样,从该大学所有学生的总体中随机选取一个学生样本。
概率分布
随机变量的概率分布描述了该变量每个可能值的发生概率。对于离散随机变量,概率分布通常通过概率质量函数(PMF)表示,给出每个可能值的概率。对于连续随机变量,概率分布通常通过概率密度函数(PDF)表示,给出每个点在范围内的概率密度。
概率
概率是一种衡量某件事发生可能性的方法。如前所述,在数据科学、机器学习和决策制定中,我们通常会处理不确定的事件或结果。概率帮助我们理解和量化这种不确定性。
例如,当我们抛硬币时,我们不知道它是会正面朝上还是反面朝上。它正面朝上的概率是 50%,反面朝上的概率也是 50%。
概率分布
概率分布是一种展示每个可能结果的可能性的方法。例如,当我们掷一个六面骰子时,每个数字出现的概率是相同的——1/6。意味着概率分布对于每个结果是均等的。
条件概率
条件概率是指在已知另一个事件或结果已经发生的情况下,某个事件或结果发生的可能性。例如,如果我们知道一个人的身高超过六英尺,那么他成为篮球运动员的条件概率要高于随机选中的人是篮球运动员的概率。
假设有两个不同的事件 A 和 B,它们在一个称为样本空间 S 的范围内有一定的发生概率,样本空间 S 包含所有可能发生的事件。
例如,A 可以是消费者购买某个品牌产品的事件,而 B 可以是消费者访问该品牌网站的事件。在下面的图示中,事件 A 的概率 P(A) 和事件 B 的概率 P(B) 通过下图中阴影区域表示。事件 A 和 B 同时发生的概率由 A 和 B 重叠的阴影区域表示。在数学符号中,这可以写作 P(A ∩ B),表示 A 和 B 的交集的概率。这个交集意味着 A 和 B 都发生:

图 1.3:一个维恩图,展示了两个事件(A 和 B)在样本空间(S)中发生的概率。
事件 A 发生的条件概率,给定事件 B 已发生,可以通过以下公式计算:
在我们的例子中,这将是给定消费者访问了品牌网站后购买该品牌产品的概率。通过理解不同事件的概率及其相互关系,我们可以计算条件概率等内容,这有助于我们基于数据理解事件发生的可能性。
描述我们的样本
现在我们已经理解了总体、样本和随机变量的概念,我们可以使用哪些工具来描述和理解我们的数据样本呢?
集中趋势度量
期望值是一个统计度量,表示随机变量的平均值,按其发生的概率加权。它提供了一种估计概率分布集中趋势的方法,并且对决策制定和预测不确定事件或结果非常有用。
集中趋势度量,包括均值、中位数和众数,是描述数据集的中心值或典型值的统计度量。
均值是数据集的算术平均数,通过将所有数值相加并除以数值的数量来计算。它是常用的集中趋势度量,且对离群值(显著高于或低于大多数数据点的数值,通常远离均值)敏感。均值可能会受到极端值的影响,如果存在离群值,可能无法代表整个数据集。
中位数是数据集中的中间值,具有相等数量的值在其之上和之下。它是一个稳健的集中趋势度量,比均值更不容易受到离群值的影响。中位数对于偏斜的数据集很有用,因为均值可能无法准确地代表数据的中心。
众数是数据集中出现频率最高的值。它是另一种集中趋势度量,对于具有离散值的数据集或当最频繁的值特别重要时很有用。众数可用于分类数据和数值数据。
下图展示了均值、中位数和众数在两种不同数据分布中的差异。假设这个数据集显示了消费者产品的价格范围,例如一个在线酒商的葡萄酒瓶价格。
对于对称分布,这三种度量值是相等的;然而,对于不对称的数据,它们是不同的。选择使用哪种度量可能取决于数据的分布。均值常常会被极端离群值所偏移——例如,一瓶非常昂贵的葡萄酒价格并不能反映网站上大多数瓶葡萄酒的售价,因此,你可能希望使用中位数来更好地理解数据集中的平均值,而不是因价格较高的个别产品而对商店产生恐惧!

图 1.4:对称分布和非对称分布的众数、中位数和均值
总体而言,期望值和集中趋势的度量是重要的统计概念,在数据科学、机器学习和决策中起着至关重要的作用。它们为你提供了一种理解和描述数据集特征的方法,并帮助决策者根据不确定事件或结果的分析做出更明智的决策。
离散度的度量
离散度度量是描述数据集分布广度或变化性的统计指标。它们为我们提供了一种理解数据变异性的方法,并可以用于比较不同的数据集。
范围
范围是一个简单的离散度度量,它表示数据集中最大值和最小值之间的差异。它的计算方法简单,能提供数据分布的大致估计。例如,班级学生身高的范围将是最高和最低学生身高之间的差值。
方差和标准差
方差和标准差是更高级的离散度度量,它们提供了数据变异性的更准确和精确的估计。
方差是衡量数据集中每个值与均值之间距离的指标。它的计算方法是将每个值与均值之间的差的平方求和,然后除以数据集中的总值数:

标准差是方差的平方根:

例如,假设一家公司想比较两个不同部门的工资。可以计算每个部门工资的标准差,以确定各自部门内工资的变动情况。标准差较大的部门,其工资变动性较大,标准差较小的部门则变动性较小。
四分位距
四分位距(IQR)是衡量离散度的指标,它表示数据集的第 75 百分位数与第 25 百分位数之间的差值。换句话说,它是数据中间 50%的范围。对于存在离群值的数据集,它比范围更不容易受到极端值的影响。
例如,假设一位老师想比较两班学生的考试成绩。一班有几位学生成绩极高或极低,而另一班的成绩则较为均衡。可以计算每班的 IQR,以确定大多数学生成绩的范围。
离散度度量是重要的统计指标,它们为我们提供了关于数据集变异性的信息。
自由度
自由度是统计学中的一个基本概念,指的是在分析中可以变化的独立值或数量的个数,而不破坏任何约束条件。在进行各种统计检验和模型分析时,理解自由度至关重要,例如 t 检验、方差分析(ANOVA)和回归分析。
更简单地说,自由度代表的是在估算统计参数时,你的数据中可以自由变化的信息量。这个概念在假设检验中非常重要,用于确定在零假设成立的情况下,观察到的结果发生的概率。
例如,假设你有一个包含十个观测值的样本,并且想要计算样本均值。计算出均值后,你还剩下九个自由度(10 - 1 = 9)。这是因为如果你知道九个观测值和样本均值,你就可以计算出第十个观测值的值。
计算自由度的通用公式如下:
df = n − p
在这里,我们有以下内容:
-
n 是样本中的观测值数量
-
p 是从数据中估算的参数数量
自由度在各种统计检验中被用来确定检验统计量和 p 值的临界值。例如,在进行两样本均值比较的 t 检验时,自由度用于从 t 分布表中选择合适的临界值。
理解自由度对于数据科学领域的领导者至关重要,因为它帮助他们解读统计检验结果并根据数据做出明智的决策。它还在确定模型的复杂性和避免过拟合方面起到重要作用,过拟合是指模型过于复杂,开始拟合数据中的噪声而不是潜在的模式。
相关性、因果性和协方差
相关性、因果性和协方差是数据科学、机器学习和决策制定中的重要概念。它们都涉及两个或多个变量之间的关系,可以用来进行预测和指导决策。
相关性
相关性是衡量两个变量之间关系的强度和方向的指标。它是一个统计度量,范围从 -1 到 1。相关性为 1 表示完全正相关,相关性为 0 表示没有相关性,相关性为 -1 表示完全负相关。
例如,假设我们想了解一个人的年龄与其收入之间的关系。如果我们观察到随着一个人年龄的增长,他们的收入也趋向增加,这就表明年龄与收入之间存在正相关关系。
因果性
因果性指的是两个变量之间的关系,其中一个变量导致另一个变量发生变化。因果性通常是从相关性中推断出来的,但需要注意的是,相关性不一定意味着因果性。
例如,假设我们观察到冰淇淋销售数量与城市中溺水人数之间的相关性。尽管这两个变量存在相关性,但假设其中一个导致另一个是不正确的。相反,可能存在一个第三个变量,例如温度,导致冰淇淋销量和溺水人数同时增加。
协方差
协方差是衡量两个变量联合变异性的指标。它衡量两个变量共同变化的程度。正协方差表明这两个变量倾向于一起增加或减少,而负协方差则表明这两个变量倾向于朝相反方向变化。
例如,假设我们想了解一个人的身高和体重之间的关系。如果我们观察到随着身高的增加,体重也倾向于增加,这将表明身高和体重之间存在正协方差。
相关性、因果关系和协方差是数据科学中的重要概念。通过理解这些概念,决策者可以更好地理解变量之间的关系,并基于数据分析做出更为明智的决策。
协方差衡量两个变量如何共同变化,指示它们之间线性关系的方向。然而,协方差值难以解释,因为它们受变量尺度的影响。相关性则是一个标准化的度量,范围从-1 到+1,使得理解和比较变量之间线性关系的强度和方向变得更加容易。
需要注意的是,相关性并不一定意味着因果关系,其他因素可能是导致变量间观察到的关系的原因。两个变量之间的强相关性并不自动意味着一个变量导致了另一个变量,因为可能存在影响这两个变量的隐藏混杂因素。
数据的形态
在处理数据样本时,了解数据的“形态”或数据的分布方式是很有帮助的。在这方面,我们可以考虑连续数据和离散数据的概率分布。这些概率分布可以用来描述和理解你的数据。概率分布可以帮助你识别数据中的模式或趋势。例如,如果你的数据遵循正态分布,这表明大多数值集中在均值附近,极端值较少。识别这些模式可以帮助决策或进一步分析。
概率分布
概率分布是描述随机事件或过程不同结果的可能性的数学函数。它们帮助我们理解随机变量的行为,并对未来事件做出预测。概率分布有两种主要类型:离散分布和连续分布。
离散概率分布
当随机事件的可能结果是可数的或有限的时,使用离散概率分布。让我们看一些常见的离散概率分布示例。
伯努利分布
这是最简单的离散概率分布。它模拟了一个单次试验,只有两种可能的结果:成功(通常表示为 1)或失败(通常表示为 0)。例如,抛硬币具有成功(正面)概率为 0.5 的伯努利分布。
二项分布
该分布模拟在固定数量的独立试验中成功的次数,其中每次试验成功的概率相同。例如,如果你抛硬币十次,你观察到的正面次数遵循参数为 n = 10(试验次数)和 p = 0.5(成功概率)的二项分布。
负二项分布
该分布模拟在具有相同成功概率的独立试验中,指定数量的成功之前的失败次数。例如,如果你玩一个需要赢三次才能结束的游戏,第三次赢之前的失败次数遵循负二项分布。
几何分布
这是负二项分布的特例,其中成功次数固定为 1。它模拟了在每次成功的独立试验中获得第一个成功之前的失败次数。例如,投掷骰子直到获得一个 6 的次数。
泊松分布
该分布模拟在固定时间或空间间隔内事件发生的数量,给定平均发生率。它通常用于建模罕见事件,如一年内地震次数或一小时内到达商店的客户数量。
连续概率分布
当随机事件的可能结果是连续的,如测量或时间时,使用连续概率分布。让我们看一些常见的连续概率分布示例。
正态分布
也称为高斯分布,这是最知名的连续概率分布。它模拟具有对称、钟形分布的连续变量,如身高、体重或智商分数。许多自然现象都服从正态分布。
标准正态分布
这是正态分布的一个特例,均值为零,标准差为一。它通常用于标准化变量并比较不同正态分布的值。
学生 t 分布
这个分布类似于正态分布,但尾部更重。它用于样本大小较小(通常小于 30)或人群标准差未知的情况。它通常用于假设检验和构建置信区间。
伽玛分布
该分布模型用于正值的连续变量,并且具有右偏分布。它通常用于建模等待时间,例如机器故障的时间或客户到达的时间。
指数分布
这是伽马分布的特例,其中形状参数等于 1。它模拟事件发生间隔的时间,这些事件以恒定的速率发生,例如客户到达的时间或放射性粒子衰变的时间。
卡方分布
该分布用于正值变量。它通常用于假设检验以及估计样本方差的置信区间。它也用于卡方独立性检验和拟合优度检验。
F 分布
该分布用于正值或非负变量。它通常用于检验两个方差的相等性或回归模型的显著性。它是两个卡方分布的比值。
概率分布使我们能够理解和量化随机事件或过程中的不同结果的概率。通过了解不同类型的概率分布及其应用,数据科学领导者可以更好地对数据进行建模和分析,做出明智的决策,并改善预测。了解在特定情境下使用哪种分布对于准确的数据分析和决策至关重要。
概述
本章中,我们已涵盖了统计学中的许多核心概念,为您提供了更好地理解和解释数据的工具,并能够与数据科学家的输出结果合作。
在下一章中,我们将介绍不同类型的数据、需要注意和管理的数据质量问题,以及收集、存储和处理数据的不同方法。
第二章:数据的表征与收集
在上一章中,我们集中讨论了概率和统计的基本概念,但这些概念如何转化为你组织内或项目中的数据呢?
在本章中,我们将涵盖你在组织内可能找到的不同类型的数据,如何收集和处理这些数据以应用上一章中介绍的统计技术,以及我们将在后续章节中讲解的更高级的机器学习和深度学习技术。
在我们深入讨论数据的不同类别以及收集、存储和处理数据的方法之前,我们需要提出一个根本性的问题:
“我组织中的哪些数据是有价值且有用的?”
起初,这可能看起来是一个琐碎且显而易见的问题,但许多数据科学项目在开始时未能正确评估数据的可行性,从而无法通过现有数据实现商业目标。
经常有决策者错误地认为现有数据可以用于已识别的商业应用场景。
外面的数据很多,但并非所有数据都是平等的,因此值得了解数据是否符合你的商业应用场景的标准。
在本章中,你将学习不同类型的数据,以及收集和处理数据的方法,以便为数据科学的应用场景做准备。
为了让你更清楚地了解如何挖掘组织内外有价值的数据,我们将讨论以下主题:
-
评估数据时需要考虑的关键标准
-
第一方数据、第二方数据和第三方数据之间的区别
-
结构化数据、非结构化数据和半结构化数据之间的区别
-
收集数据的技术和方法
-
存储和处理数据的技术与方法
-
我的团队如何在云、现场部署和混合解决方案等数据驱动解决方案的环境中找到合适的路径?
为了更好地理解如何挖掘组织内外有价值的数据,让我们探讨评估数据集时需要考虑的关键标准。
评估数据集时需要考虑的关键标准是什么?
在本节中,我们将理解评估数据集时需要考虑的关键标准。
数据量
如果你正在使用数据样本进行工作,是否有足够的数据来训练一个准确的模型,或对更广泛的群体做出推断?正如上一章所提到的,在统计学中,你通常需要使用有限的数据样本,而这个样本代表更广泛群体的能力通常取决于样本的大小。在机器学习中,基于更大数据集训练的模型通常比那些基于小样本训练的模型表现得更好。有一些更先进的技术,如数据增强和迁移学习,能够在这种情况下提供帮助,稍后会讨论这些技术,但初步的考虑是是否有足够的数据来满足关于准确度的业务需求。
以一个客户流失模型为例,该模型旨在预测哪些客户有可能流失。为了有效地泛化到当前和未来的客户,重要的是要评估是否有足够的历史数据以及足够多的客户关闭账户的案例。
数据速度
另一个需要考虑的因素是数据速度,也就是数据生成或传输的频率。有些数据可能更新不频繁,例如公司每季度的盈亏报告,而其他数据可能非常频繁,甚至是实时的,例如股票价格。数据团队构建的解决方案需要能够处理数据传输的频率。例如,批处理系统可能需要每天处理数据,而流处理系统(如 Kafka)则可能是处理实时数据所必需的。
数据的速度或频率也取决于业务使用场景。例如,一个监控新闻和社交媒体情感的公关问题追踪器可能需要每分钟获取一次数据,以便快速检测到新兴问题。另一个例子是预测性维护,制造设备中的物联网传感器数据输出将受益于实时流式传输,以便快速检测问题和缺陷,从而尽快解决。
数据多样性
对于某些使用场景,单一的数据来源可能不足以对群体做出准确的推断或为最终用户提供有力的洞察。例如,在市场调研行业中,单一调查的数据可能不足以提供品牌或公司所需的关于消费者行为的深入见解,结合其他数据源,如产品评论、消费者社交媒体数据或销售数据,将为理解消费者行为提供更丰富的背景。
数据质量
最后,需要评估的关键标准之一是数据的质量。数据质量和治理是一个独立的领域,但你必须考虑的一些方面如下:
-
准确性:数据是准确的,当它能反映现实情况时。这可以指财务交易的价值准确地反映了实际花费的金额,消费者调查的回应反映了受访者的真实意见,或者 CRM 中的客户详情为特定客户准确填写。数据不应总是被假定为准确,高数据准确性能够使模型训练和推理得到信任。“垃圾进,垃圾出”这一表达常用于描述这一事实。
-
完整性:数据是“完整的”,当某一特定使用场景所需的所有字段都已存在时。这并不意味着所有字段都必须完全填写。例如,如果一家公司希望了解不同供应商的产品平均价格,那么价格、数量和包装尺寸等字段是重要的,但其他字段,如成分、产品描述或产品图片 URL,在这种使用场景下就不那么重要。
-
唯一性:数据是唯一的,如果它在给定的数据集中只出现一次。有时,重复数据是可以预期的。例如,在一组财务交易数据中,同一客户可能会多次出现在不同的交易中,这是可以理解的。然而,在其他情况下,例如 CRM 中的客户主列表中,每个客户应当是唯一的,重复数据可能导致报告不准确。
-
一致性:一致性是数据中一个重要因素,它确保单个记录中的值以及多个数据集之间的值不相互冲突。例如,邮政编码应始终以代表地址所在地区的字符开头,任何给定个体的出生日期在不同数据集中应保持一致。通过确保数据一致性,可以将来自多个来源的信息关联起来,这可以增加数据集的价值,为数据提供更多的洞察。
-
时效性:与数据速度标准相关,数据的时效性也是数据质量的一个重要考虑因素。可能需要更近期的数据来准确反映当前的情况。例如,银行可能会有一个贷款违约模型,用于预测客户违约的概率。如果该模型是在旧的历史数据上训练的,而那时的宏观经济环境不同,利率较低,那么用于训练的数据可能不足以准确推断当前客户的情况。
-
有效性:有效性是衡量数据是否符合预期格式、类型和范围的标准。例如,一个有效的美国邮政编码必须在 00001 到 99950 之间,一个有效的电子邮件地址必须由电子邮件前缀和“@”符号分隔的电子邮件域名组成。通常,可以使用正则表达式(检查数据是否匹配某种模式的方式)或与标准数据集(如 ISO 标准)进行交叉验证来确保数据有效。拥有有效数据意味着它可以与其他来源的数据和谐地使用,并有助于确保自动化数据处理流程高效运行。
现在我们已经讨论了评估数据集的关键标准,了解数据可以来自不同的来源非常重要,比如第一方、第二方和第三方。接下来我们来看看这些不同类型的数据。
第一方、第二方和第三方数据
在任何中型或大型组织中,你都可以找到大量不同类型的数据,这些数据具有独特的用途,当有效利用时,可以提供有价值的洞见。即使你的组织没有容易获取或有用的内部数据来满足你已经确定的业务用例,仍然可以向外部数据来源寻求帮助。这时,理解第一方、第二方和第三方数据的概念就非常有用。
以下图表表示你的数据(较深色)与外部组织的数据(较浅色)如何交互,从而定义第一方、第二方和第三方数据:
-
第一方数据是你组织内部的数据,比如客户数据或员工数据。
-
第二方数据是与其他组织通过数据共享伙伴关系或协议共享的数据。
-
第三方数据是从外部来源收集的数据,比如专有或开源的 API:

图 2.1:第一方、第二方和第三方数据如何与外部组织交互
让我们更详细地看看每一种数据。
第一方数据 —— 内部宝藏
首先,我们从第一方数据开始——即你的组织直接从客户、用户或其他来源收集的数据。你是否考虑过你们系统中蕴藏的丰富信息?客户互动、销售交易、网站分析,甚至员工记录,都是第一方数据的例子。这些数据非常宝贵,因为它们为组织提供了对客户、产品和服务的独特视角。
但是,为什么第一方数据如此重要呢?答案在于其准确性、相关性和控制力。由于这些数据是直接从来源处收集的,因此通常被认为是最可靠和准确的数据类型。此外,这些数据本身与您组织的特定需求和目标密切相关。最后,您的组织对第一方数据拥有完全的控制权,确保遵守隐私法规,并最大限度地减少潜在的数据泄露风险。
举个例子,考虑分析客户购买历史或网站行为所获得的洞察力。这些洞察如何帮助制定营销策略、产品开发,甚至客户支持?通过有效利用第一方数据,组织可以解锁大量的见解和机会。
第二方数据——通过合作架起桥梁
接下来,我们将讨论第二方数据,它本质上是另一家组织的第一方数据,这些数据为了互利而被共享或购买。虽然这最初可能看起来有些不合常理,但数据共享可以带来富有成效的合作和伙伴关系,扩展您的组织的影响力和知识储备。
那么,为什么第二方数据如此有价值呢?答案在于其独特性和合作潜力。第二方数据能够提供在公共领域中不易获得的独特见解,从而为您的组织提供竞争优势。此外,数据共享的过程可以带来合作机会,并促进战略伙伴关系的建立。
举个例子,假设一个零售公司与支付处理平台合作,目的是更好地理解客户的消费习惯和偏好。通过共享数据,两家组织都能从增强的洞察力和更明智的决策中获益。然而,确保所有参与方在共享第二方数据时都遵循严格的数据隐私和安全标准是至关重要的。
第三方数据——通过外部专业知识拓宽视野
最后,我们来看第三方数据,它是由专门从事数据聚合和出售业务的组织收集的。这些数据可以提供市场趋势、人口统计信息以及其他可能难以或耗时收集的宝贵信息。
为什么组织应该考虑第三方数据呢?答案在于其广泛性、专业化以及发掘新机会的潜力。第三方数据能够提供一系列广泛的数据集,包括行业特定信息、人口统计数据和地理位置数据。这些数据提供商通常在收集和分析数据方面具有专业知识,确保提供高质量的见解。
举个例子,想象一个快速消费品行业的公司希望扩展其产品种类。通过获取关于消费者偏好和市场趋势的第三方数据,公司可以做出关于产品开发和市场营销策略的明智决策。
另一个例子可能是公司希望了解如何通过社交倾听了解公司在网上如何谈论他们的品牌。这将涉及从诸如 X(前 Twitter)和 Reddit 等来源收集和分析第三方社交媒体数据。
然而,值得注意的是,第三方数据的质量可能有所不同,组织必须仔细评估他们购买的数据的可靠性和准确性。
虽然基于数据源对数据进行分类至关重要,但理解数据如何以不同方式进行结构化同样重要。在下一部分,我们将探讨结构化、非结构化和半结构化数据之间的差异。
结构化、非结构化和半结构化数据
在处理来自数据源的数据时,如何有效地对其进行分类?数据有三种主要分类:结构化数据、非结构化数据和半结构化数据。
作为决策者,理解结构化、非结构化和半结构化数据的细微差别及其应用,对于做出关于数据存储、管理和分析的明智决策非常有帮助。
结构化数据
结构化数据是以特定格式(如关系型数据库)组织的,易于搜索和分析。这类数据可以包括各种信息,例如客户姓名、地址、年龄和交易金额等等。结构化数据的优势在于它定义明确,更易于数据科学家和工程师使用,通常比其他形式的数据需要更少的预处理:

图 2.2:SQL 表中结构化数据的示例
非结构化数据
另一方面,非结构化数据没有预定义的格式或组织,涵盖了各种信息,包括文档、电子邮件、社交媒体帖子、图像和视频。非结构化数据可以带来价值。例如,您可以分析电子商务产品评论、电子邮件、社交媒体帖子或法律合同,以识别模式或洞察,或者分析图像或视频,用于如制造业中的质量控制等应用。
深度学习技术以及其在自然语言数据中的应用(通过自然语言处理(NLP))已经取得了巨大的进展,包括大型语言模型(LLMs)如 GPT-4。深度学习模型在图像和视频数据(计算机视觉)的应用也取得了很大进展。这种能力的爆炸性增长意味着,尽管由于相对于传统结构化数据的复杂性,非结构化数据有时会被大型、缓慢发展的组织忽视,但现在它对组织的价值比以往任何时候都更高。其他形式的非结构化数据,如音频数据和传感器数据,也可以通过深度学习模型进行分析。
本书稍后将更详细地介绍 NLP 和计算机视觉的一些应用:

图 2.3:以法律合同形式呈现的非结构化数据示例
半结构化数据
半结构化数据弥合了结构化数据和非结构化数据之间的差距,提供了更灵活的数据组织方式。虽然它不像关系数据库中常见的数据模型那样遵循严格的结构,但它包含有助于组织数据的标签或标记。半结构化数据的例子包括 XML、JSON 或 HTML 文件,这些都是常见的数据标准。可以通过网络抓取从多个网站收集此类数据,例如产品价格和描述,用于竞争分析。此外,数据集成项目在将来自不同来源或系统的信息整合时,可以受益于半结构化数据的适应性。物联网设备通常生成半结构化数据,这些数据可以用于监控和优化各个领域的性能,如能源使用、制造或交通运输:

图 2.4:以 HTML 网页文件形式呈现的半结构化数据示例
为了成功应对数据世界的挑战,决策者应该考虑一些关键要点。
首先,了解您的组织所处理的数据类型,以便您可以就数据存储、管理和分析做出明智的决策。其次,利用结构化数据进行传统的业务分析,同时使用非结构化数据和半结构化数据进行更复杂的分析,如自然语言处理(NLP)或计算机视觉。最后,促进数据科学家、IT 专业人员和业务利益相关者之间的协作,确保不同类型数据在您组织的数据驱动项目中的高效理解、存储和使用。
通过理解结构化、非结构化和半结构化数据的区别和应用,您将更好地准备好引领您组织的数据科学、机器学习或人工智能项目走向成功。
现在,您已经清楚了解了不同类型和结构的数据,接下来的步骤是探索最能满足您组织需求的数据收集方法。
数据收集方法
想象您站在一片辽阔的田野边缘,您希望发现埋藏在地下的隐藏宝藏。您知道宝藏就在那儿,等待被发现,但如何开始寻找呢?这是组织在数据收集过程中面临的挑战。数据是数据驱动决策的命脉,收集数据的过程与最终能够提供的洞察同样重要。那么,如何收集准确、相关且有价值的数据呢?如何确保收集的数据能帮助您做出明智的决策?
作为决策者,了解收集数据的方法和最佳实践对于最大化数据科学在组织中的潜力至关重要。在本节中,我们将探讨数据收集、面临的挑战以及它所带来的机会,帮助您为数据驱动的旅程奠定坚实的基础。
如何判断哪种类型的数据适合您的组织?如何确保您收集的数据是相关的、准确的和可靠的?
解答这些问题的关键在于了解您组织的独特需求和目标。从明确您想要回答的具体问题、解决的难题或做出的决策开始。例如,零售商可能希望了解客户偏好,以优化产品供应,而医院可能希望研究患者结果,以提高护理质量。一旦您清楚了解了目标,就能确定哪些数据最能满足您的需求,并指导您的数据收集工作。
在收集数据时,选择适合您特定目标的数据收集方法是至关重要的。在市场研究中,调查、访谈、焦点小组和观察是一些最常用的方法,每种方法都有其优点和局限性。例如,调查能够从大量样本中提供丰富的定量数据,但可能缺乏通过访谈或焦点小组获得的定性数据的深度和细节。在选择数据收集方法时,您需要考虑诸如研究规模、可用资源以及所需的详细程度等因素。
您还可以考虑从组织的其他部门或外部收集数据,方法包括数据传输服务、应用程序接口(APIs)(不同应用程序之间高效互通的方式),或更间接的数据收集方法,如网页抓取。
想一想在收集数据时可能面临的挑战。样本足够大,能代表总体人口吗?数据收集过程中可能存在的偏差或错误来源是什么?如何确保您收集的数据是代表性和可靠的?数据收集的一个至关重要的方面是确保您的样本多样化且代表您研究的人口。
要注意可能导致结果偏倚的潜在抽样偏差,例如非响应偏差或自我选择偏差。
非响应偏差发生在某些人群不太可能回应您的调查或参与您的研究时,导致一个不具代表性的样本。自我选择偏差则是指个体自愿选择参与研究,这些自我选择的参与者可能在重要方面与总体人口不同。
为了减少这些偏差,考虑使用概率抽样方法,如我们在前一章中讨论的随机抽样。跟进非响应者以鼓励参与,并分析回应者和非响应者之间的差异。此外,避免仅依赖自愿参与,并积极招募来自不同背景的参与者。
一旦您使用适当的方法收集了这些数据,下一个关键步骤就是存储和处理它,以便您可以提取有意义的洞察。
存储和处理数据
如果您走进一家图书馆,您会发现书架上摆满了成百上千本书,每一本书都包含着宝贵的知识。现在,想象一下如果它们都随意散落在地板上,要找到您需要的确切书籍会有多困难。这就是企业在存储和处理数据时面临的挑战。组织、分类、处理和标记数据是将原始信息转化为有价值洞察力的重要步骤,这些洞察力可以推动有效的决策。
作为决策者,了解数据存储和处理的方式将使您能够在组织中充分释放数据科学的潜力。那么,您如何确保公司的数据被正确存储和处理,以促进准确且可操作的洞察力?为您的团队提供易于访问、可解释和可操作的数据的最佳实践是什么?让我们深入探讨数据存储和处理的世界,以回答这些问题。
想象一下贵公司的数据就像是一个庞大的信息海洋,持续增长和变化。为了航行在这片海洋中,你需要一个强大且可靠的存储系统,能够应对数据的体量、多样性和速度。现在有许多数据存储选项可供选择,从传统的数据库,如 SQL 和 NoSQL,到基于云的存储解决方案,如 Amazon S3 和 Google Cloud Storage。你如何为你的组织选择合适的选项?在选择数据存储系统时应考虑哪些因素?答案在于了解你的数据特性、组织的独特需求以及存储系统的能力:

图 2.5:数据存储和数据库类型
关系型数据库
关系型数据库长期以来一直是商业数据管理系统的基石,这得益于其有组织的表格、行和列结构,这些结构使得通过 SQL 进行高效查询和数据检索变得更加容易。它们是一种经过验证的解决方案,广泛的应用使得找到资源和人才变得更加容易。它们适用于管理结构化数据和复杂查询,并且遵循 ACID 原则,使得它们在确保数据完整性和一致性方面是一个稳固的选择。然而,关系型数据库在横向扩展方面可能会面临挑战,尤其是在处理大数据集时,它们并不设计用来处理非结构化或半结构化数据。一些著名的关系型数据库包括 MySQL、PostgreSQL 和 Microsoft SQL Server:

图 2.6:关系型数据库
对象存储
相较之下,对象存储为管理非结构化数据提供了一种灵活的解决方案,如图像、视频和大文档。对象存储将数据作为对象而非文件或块进行处理,这使得它在扩展性和成本效益上具有优势,特别适合长期存储需求。对象存储在分布式系统和基于云的环境中表现出色,尽管它并不专为结构化数据管理或复杂查询设计,且与块存储相比,它的性能可能稍有滞后。Amazon S3、Google Cloud Storage 和 Microsoft Azure Blob Storage 是典型的对象存储解决方案:

图 2.7:对象存储
文档数据库
文档数据库提供了一种灵活的数据存储方法,能够处理半结构化数据,并且它们比关系型数据库提供了更灵活的架构。它们以文档的形式存储数据,支持横向扩展和分布式系统。尽管文档数据库功能强大,但它们比关系型数据库还不够成熟,并且可能不适合处理复杂的关系查询。MongoDB、Couchbase 和 Amazon DocumentDB 是一些流行的文档数据库示例:

图 2.8:文档数据库
图数据库
对于需要复杂数据关系的应用,图数据库在表示和查询数据实体之间的复杂连接方面表现优异。它们采用由节点、边和属性组成的图形结构,是社交网络、推荐系统和欺诈检测应用的绝佳选择。然而,图数据库相比关系型数据库还不够成熟,可能不适用于不需要复杂关系的场景。一些知名的图数据库包括 Neo4j 和 Amazon Neptune:

图 2.9:图数据库
键值数据库
键值数据库注重简洁性和速度,将数据存储为键值对。它们最适合用于需要基于单一键进行数据检索并且不需要复杂查询的场景。凭借快速且高效的低延迟性能,它们能够轻松扩展,且非常适合用于缓存和实时应用。它们的局限性在于查询能力,并且无法处理复杂的关系或数据模型。Redis、Amazon DynamoDB 和 Riak 是键值数据库的例子:

图 2.10:键值数据库
数据仓库
数据仓库是集中的存储库,旨在存储和管理来自各种来源的大量结构化数据,使企业能够执行复杂查询、生成报告并提取有价值的洞察。与前面提到的优化用于实时事务处理和频繁更新的在线事务处理(OLTP)关系型数据库不同,数据仓库是为读密集型操作和复杂的分析工作负载而构建的。它们采用写时模式(schema-on-write),即数据在加载之前进行转换和结构化,以确保数据的一致性和质量。数据仓库有助于支持数据驱动的决策制定,并设计用于处理大规模数据处理和分析,使其成为现代商业智能和数据科学生态系统中的重要组成部分。一些知名的数据仓库包括 Google BigQuery、Amazon Redshift、Snowflake 和 Azure Synapse Analytics:

图 2.11:数据仓库
向量数据库
向量数据库是一种新型的数据库,将数据存储为高维向量,这些向量是数据点在多维空间中的数值表示。与传统的处理结构化数据(如表格和行)的数据库不同,向量数据库擅长管理非结构化数据,如文本、图像和音频。它们支持快速准确的相似性搜索,非常适合推动高级应用,如推荐系统、语义搜索和问答系统。当与大型语言模型(LLM)通过检索增强生成(RAG)技术结合时,向量数据库通过帮助 LLM 快速访问最语义相似的信息,提供高度相关和上下文丰富的结果。这一强大的组合正在彻底改变许多自然语言处理和信息检索任务。向量数据库领域的关键玩家包括 pgvector、Pinecone、Milvus 和 Weaviate:

图 2.12: 向量数据库
理解各种数据库类型、它们的优缺点以及适用场景,将使决策者能够为组织的独特需求选择最合适的数据库技术。
云、局域网和混合解决方案——导航数据存储和分析的格局
作为高层管理人员和决策者,了解数据存储、分析和机器学习的各种选项对贵组织的数据驱动型战略的成功至关重要。在本章中,我们将探讨云、局域网(on-prem)和混合方式的优缺点,深入研究它们在业务决策中的独特应用和影响。
云计算——云端的可扩展服务
想象一下,无需投资昂贵的基础设施或管理复杂的硬件,就能访问几乎无限的计算资源、可扩展的存储和先进的分析能力。这就是云计算的承诺,一个使组织能够通过互联网上托管的远程服务器存储、处理和分析数据的范式。云计算彻底改变了企业对数据科学、机器学习和人工智能的应用方式。
那么,为什么云计算对组织如此具有吸引力呢?答案在于其灵活性、成本效益和易用性。云平台提供根据需要扩展资源的能力,确保组织仅为实际使用的资源付费。此外,云服务提供商负责维护、保护和更新其基础设施,从而节省了 IT 人员的宝贵时间。更重要的是,云计算使无缝协作成为可能,团队几乎可以在任何地方访问数据和分析工具。
例如,考虑一家希望分析大量客户数据以改进其营销策略的公司。通过利用基于云的机器学习工具和存储,该公司可以快速且高效地处理和分析数据,从中获得有价值的洞见,而无需承受过高的成本或让其本地基础设施不堪重负。云服务提供商通常提供不同的存储和计算层级,并具备按需扩展和缩减服务的能力,允许客户仅使用所需资源,从而节省成本。许多云服务提供商还提供现成的解决方案,处理复杂的人工智能任务,例如语音转文本(如 Amazon Transcribe)或翻译(如 Amazon Translate),这比在内部自行构建解决方案节省了客户的时间。
本地解决方案 —— 在自己的墙内保持控制
尽管云计算有诸多优势,一些组织仍然倾向于将他们的数据和分析基础设施保持在本地。本地解决方案包括将数据存储、处理和分析工具安置在组织的数据中心或设施中。
为什么一个组织会选择本地解决方案而非云计算?答案在于控制、安全性和定制化。本地解决方案允许组织完全控制其基础设施、数据和应用程序。这对于那些有严格安全或合规要求的公司,或处理敏感数据的公司尤为重要。此外,本地解决方案提供了更大的定制化潜力,使组织能够根据其特定需求量身定制基础设施。
想象一家金融机构,处理敏感的客户数据并必须遵守严格的规定。在这种情况下,本地解决方案可能更为合适,因为它允许组织对其数据保持控制,并确保符合行业标准。
混合解决方案 —— 兼具两全其美?
对于一些组织来说,云计算和本地解决方案之间的选择并非非黑即白。相反,他们选择采用混合方式,结合了云计算和本地基础设施的元素。混合解决方案使组织能够利用两种模式的优势,提供灵活性、可扩展性和控制力。
为什么一个组织应该考虑混合方案?答案在于它的多功能性和适应性。混合解决方案使组织能够在本地控制敏感数据,同时也能利用云资源的可扩展性和成本效益,用于处理不太敏感或资源密集的任务。
想象一个医疗保健组织,必须安全地存储病人记录,同时处理大量的医学研究数据。混合方案使组织能够将敏感的病人数据存储在本地,同时利用基于云的资源进行计算密集型的研究任务,从而有效平衡安全性和性能。
通过了解各种类型的数据库、它们的应用,以及云端、本地和混合解决方案的优缺点,你和你的团队可以做出明智的决策,选择最适合你们业务用例的数据存储和处理方式。
在正确的基础设施上收集和存储数据并不是故事的结局。数据只有在被处理、分析、建模并用于业务目的后,才变得有用。在接下来的章节中,我们将讨论数据处理。稍后在本书中,我们将深入探讨数据分析和机器学习,以便你能从数据中获取更多价值。
数据处理
一旦数据被安全存储,下一步就是处理数据以提取有意义的见解。数据处理包括清理、转换和分析数据,使其适合数据科学和决策制定。那么,如何确保数据的处理既准确又高效呢?可以使用哪些工具和技术将原始数据转化为有价值的信息?
数据处理通常涉及三个主要阶段:数据准备、数据转换和数据分析。在数据准备阶段,你的数据会被清理,任何不一致、错误或缺失的值都会被处理。这是一个重要步骤,确保你后续的分析基于准确和可靠的数据。现有许多专有和开源解决方案可以帮助你和团队完成这一过程。通常,邀请业务领域的专家也很有帮助,他们可以识别并协助解决数据中的任何问题。
接下来,数据转换涉及将数据转换为适合进一步分析的格式。这可能包括汇总数据、归一化变量或编码分类变量等任务。考虑一个零售公司,它希望分析销售数据以识别趋势并做出明智的决策。原始销售数据可能包括交易层级的信息,如客户姓名、产品 ID 和购买金额。为了使这些数据有意义,需要将其转换为一种易于解读和分析的格式,比如按产品类别汇总销售数据或计算每个客户的平均购买金额。
最后,数据分析和建模阶段涉及使用统计学和机器学习技术来发现数据中的模式、关系和趋势。这将是后续章节的主题。
总结
在数据收集、存储、处理、分析和机器学习的领域中导航并非易事。然而,理解不同的数据来源和类别、各种数据库,以及云端、本地和混合解决方案的优缺点,将使你能够做出明智的决策,更好地理解你所在组织的数据环境。
请考虑以下关键问题:
-
评估数据时需要考虑的关键标准是什么?
-
第一方、第二方和第三方数据有什么区别?
-
结构化数据、非结构化数据和半结构化数据有什么区别?
-
数据收集的方法有哪些?
-
存储和处理数据的方法有哪些?
-
如何在数据解决方案的领域中导航,并了解每种方法的优缺点?
这些知识将帮助你和你的团队就数据收集和技术做出正确决策,以最有利的方式服务于你的业务用例,并从数据中获得实际价值。
既然你已经对数据环境有了扎实的理解,下一步是通过探索性数据分析(EDA)来探索和理解你所收集的数据。EDA 使你能够总结数据集的主要特征,通常使用可视化方法,并在进行更高级的分析或建模之前,深入理解数据中的模式、趋势和潜在问题。
EDA 将帮助你发现有价值的见解,识别潜在的偏差或异常,并有效地将你的发现传达给利益相关者。这些基础知识将使你能够自信地做出数据驱动的决策,并为成功的机器学习和统计建模项目奠定基础。
让我们进入下一章,看看 EDA 如何帮助你解锁数据更多的潜力。
第三章:探索性数据分析
在上一章中,我们介绍了用于表征和收集数据的方法。那么,现在你已经收集了一些数据,接下来该做什么呢?嗯,这就是本章的主题。在本章中,我们将学习探索性数据分析(EDA)的过程。
EDA 是一种分析数据集的方法,可以总结数据集的主要特征,通常使用可视化方法。它用于理解数据,获取数据的背景信息,发展更多的假设,从而构建更好的模型和业务成果。
本章我们将更深入地进行实践,提供一些你可以尝试的代码示例。
如果你更愿意专注于阅读内容,可以跳过代码练习。这些练习是完全可选的,它们的目的是帮助强化我们在本书中将要学习的一些内容。
如果你从未使用过 Python,也不用担心;每个练习都会一步一步地讲解,并假设你没有任何 Python 使用经验。
本章涵盖以下主题:
-
开始使用 Google Colab
-
了解你拥有的数据
-
EDA 技巧和工具
让我们通过学习如何设置代码环境来开始,这样你就可以按照本章的练习进行操作。
开始使用 Google Colab
为了帮助你更好地理解本章将要涵盖的各种数据科学技巧,章节中将有一些可以用 Python 完成的实践练习。
为了设置一切,我们将使用Google Colab,因为如果你之前没有使用过 Python,它是一个很容易入门的地方。
什么是 Google Colab?
Google Colaboratory,通常称为 Google Colab,是一项免费的云服务,提供一个可以运行 Python 代码的环境。它就像在浏览器中拥有一台强大的计算机,特别适用于数据科学任务,包括但不限于统计学、机器学习和自然语言处理(NLP)。你无需安装任何东西,只要有网络连接的设备就可以使用。
设置 Google Colab 的逐步指南
按照以下步骤轻松设置 Colab:
-
首先,你需要一个 Google 账户。如果你还没有,可以在这里创建:
accounts.google.com/signup。 -
现在,打开你喜欢的网页浏览器,访问 Google Colab 网站:
colab.research.google.com/。 -
点击右上角的登录按钮,并使用你的 Google 账户登录。
-
登录后,你将看到一个顶部有菜单的页面。点击文件,然后从下拉菜单中选择新建笔记本。这将打开一个新标签页,其中包含你的新笔记本。
-
默认情况下,你的笔记本将被命名为
Untitled0.ipynb。你可以通过点击页面顶部的名称来更改它。会弹出一个对话框,你可以在其中输入你想要的名称。一个好的建议是按照章节的编号和名称来命名每个笔记本(例如,Chapter 3– ExploratoryData Analysis.ipynb)。 -
在笔记本中,你会看到一个带有播放按钮的单元格(它看起来像一个右箭头)。点击该单元格以激活它,输入
print("Hello, world!"),然后点击播放按钮运行代码。 -
要保存你的笔记本,你可以点击菜单中的文件并选择保存,或者直接使用Ctrl + S(Windows/Linux)或Cmd + S(Mac)快捷键。
就这样!你现在已经准备好开始使用 Python 在 Google Colab 上进行数据科学的旅程了。在阅读本书的过程中,你会发现一些已为你准备好的 Google Colab 笔记本,供你在考虑数据科学和机器学习的实际案例时练习技能。祝编码愉快!
现在,让我们回到本章的主题:EDA。
理解你所拥有的数据
一旦你完成了数据收集和存储的过程,你可能会想直接跳入训练机器学习模型或构建仪表板,以便向你的客户或利益相关者展示。
然而,在模型训练或展示结果之前,一个重要的阶段是探索和理解你所拥有的数据,以及数据的主要特征、模式和趋势,并识别潜在的异常值或离群点。
EDA 是数据分析过程中的一个基本步骤,涉及系统地检查数据集,以了解它们的主要特征,识别模式和趋势,并发现潜在的异常值或离群点。EDA 通常在更正式的统计或机器学习建模之前进行,它的主要目标是提供有助于进一步分析和模型开发的见解和背景。
EDA 的重要性不可过分强调。它不仅有助于决策者更好地理解他们的数据,还帮助识别数据中的潜在问题或偏差,这些问题或偏差可能会影响后续分析的准确性和可靠性。此外,EDA 还可以帮助开发出更有意义的数据可视化和表示方式,从而能够轻松地与利益相关者和团队成员进行沟通。
既然我们已经理解了 EDA 的重要性,让我们来探索一下可以用来执行 EDA 的各种工具和技术。
EDA 技术和工具
数据科学家、分析师和决策者有许多 EDA 技术和工具可供使用。
以下小节提到了最常用的一些 EDA 方法。
描述性统计
最简单的探索性数据分析包括计算我们在前一章节中介绍的汇总统计,如均值、中位数、众数、标准差和范围,以提供对数据中心趋势和分散的初步理解。
代码示例
这里,我们将展示一个示例,展示如何计算一个年度月销售数据集的均值、中位数、众数、标准差和范围。
对于每个代码片段,你可以将其复制粘贴到 Google Colab 中,然后按下Shift + Enter来运行它们。
打开你的代码编辑器,并运行以下代码来计算均值:
import pandas as pd # Define a toy dataset representing monthly sales figures for a year
sales_data_year1 = pd.Series([12000, 15000, 11000, 14000, 13000, 15000, 16000, 17000, 16000, 15000, 14000, 18000])
# Calculate mean (average)
mean_sales_year1 = sales_data_year1.mean()
print(f"The average monthly sales across the year is {round(mean_sales_year1)} units.")
预期输出是"年度平均月销量为 14667 units.".
现在,计算中位数(中间值):
median_sales_year1 = sales_data_year1.median()
print(f"The median monthly sales, a typical sales month, is {round(median_sales_year1)} units.")
预期输出是"中位数月销量,典型的销售月份,为 15000 units.".
接下来,计算标准差(衡量变化量的指标):
std_dev_sales_year1 = sales_data_year1.std()
print(f"The standard deviation, showing the typical variation from the mean sales, is {round(std_dev_sales_year1)} units.")
预期输出是"标准差,显示典型销售量与平均销售量的变化,为 2015 units.".
现在,计算众数(最常见的值):
# mode() returns a Series; we want the first value
mode_sales_year1 = sales_data_year1.mode()[0]
print(f"The most common monthly sales volume is {mode_sales_year1} units.")
预期输出是"最常见的月销售量为 15000 units.".
最后,计算范围(最大值与最小值之间的差):
range_sales_year1 = sales_data_year1.max() - sales_data_year1.min()
print(f"The range of monthly sales volumes is {range_sales_1} units.")
预期输出是"月销售量的范围为 7000 units.".
现在,让我们计算另一年的相同统计数据:
# A dataset representing the following year's sales
sales_data_year2 = pd.Series([11000, 12500, 13500, 17000, 18500, 17000, 16500, 15500, 16500, 18000, 19000, 21000])
[YOUR CODE HERE TO CALCULATE THE SUMMARY STATISTICS]
对于两年的月销售数据,你能说些什么?
在继续之前,思考一下从这些汇总统计中可以得出什么结论。
你观察到这里提到的任何差异了吗?
-
平均销售量似乎从第一年到第二年有所增加,对企业来说是个好消息。
-
中位数销量也增加了,表明销售总体上有所增长,而不仅仅是受到几个高销售月份的影响。
-
第二年的标准差更高,表明该年销售更为变化或分散。
-
从第一年到第二年,最常见的月销售量发生了变化,显示销售绩效的变化。
-
销售量的范围也增加了,显示第二年销售量的分布范围更广。
在分析数据时,另一个有用的描述统计量是缺失或空数据的比例。例如,如果你有一个客户关系管理(CRM)系统的数据集,你可能想知道公司名称或职位字段为空的客户比例。这可以帮助你了解数据中的空缺部分,可以通过更好的数据收集或标注填补,或在训练机器学习或统计模型时需谨慎对待这些特征。
数据可视化
除了描述性统计,探索数据的一种有用方式是通过可视化来进行。利用直方图、箱线图、散点图和热图等图形表示可以帮助识别数据中的模式、趋势和异常值。
这些可视化图表可以使用专门的仪表盘软件,如微软的 PowerBI 和 Tableau,或 Python 数据可视化库,如matplotlib和plotly,轻松创建。
代码示例
通过我们前面计算的汇总统计数据,我们还可以通过可视化销售数据来获得更深刻的见解。Python 中的matplotlib库为我们提供了一个出色的平台,可以创建不同类型的数据可视化图表。在这里,我们将使用条形图来表示每个月的销售数据,并使用折线图来标示均值和中位数销售额。
打开你的代码编辑器并运行以下代码。此代码基于之前练习中提供的代码,因此在运行此代码之前,请确保先完成那个练习,并将其放在同一个笔记本中运行:
import matplotlib.pyplot as plt
# Define the months
months = range(1, 13)
month_labels = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
# Define a figure to hold the subplots
fig, axs = plt.subplots(2, figsize=(10, 10))
# Add data for Year 1
axs[0].bar(months, sales_data_year1)
axs[0].plot([1, 12], [mean_sales_year1, mean_sales_year1], color='red', label='Mean') # Mean line
axs[0].plot([1, 12], [median_sales_year1, median_sales_year1], color='blue', label='Median') # Median line
axs[0].set_xticks(months) # Add ticks for every month
axs[0].set_xticklabels(month_labels) # Label the ticks
axs[0].set_xlabel('Month') # Add x-axis title
axs[0].set_ylabel('Units Sold') # Add y-axis title
axs[0].legend()
axs[0].set_title("Year 1 sales data")
# Add data for Year 2
axs[1].bar(months, sales_data_year2)
axs[1].plot([1, 12], [mean_sales_year2, mean_sales_year2], color='red', label='Mean') # Mean line
axs[1].plot([1, 12], [median_sales_year2, median_sales_year2], color='blue', label='Median') # Median line
axs[1].set_xticks(months) # Add ticks for every month
axs[1].set_xticklabels(month_labels) # Label the ticks
axs[1].set_xlabel('Month') # Add x-axis title
axs[1].set_ylabel('Units Sold') # Add y-axis title
axs[1].legend()
axs[1].set_title("Year 2 sales data")
# Show the plot
plt.tight_layout()
plt.show()
图表应如下所示:

图 3.1:第一年和第二年每月销售单位数
通过查看条形图,我们可以观察每个月的销售数据。红色线条代表均值,而蓝色线条代表中位数。正如你所看到的,第二年的销售数据更高,这与前一节的计算结果一致。
通过可视化,观察趋势、波动以及数据集中的其他特征变得更加容易,这些特征可能仅通过原始数据难以察觉。例如,在第二年,你可能会注意到销售数据存在某种波动,这导致了更高的标准差,或者你可能观察到均值和中位数之间的差距更大。
始终记住,数据可视化是数据探索过程中的关键步骤。它可以帮助你在进行更复杂的分析或建模技术之前,更好地理解数据。
直方图
直方图是一种简单易懂的可视化工具,帮助我们了解数据的分布情况和组织方式。可以将其视为一种条形图,其中每个条形代表一个数据范围或分组,称为“箱”。每个条形的高度显示该范围内有多少数据点。条形越高,表示该范围内的数据点越多。直方图可以帮助我们迅速理解数据的整体形态和分布,便于识别模式、趋势或发现异常值。
例如,假设我们有一组人的身高数据,单位为英寸。我们可以通过将身高分为若干组(如 150-159 厘米、160-169 厘米、170-179 厘米等)来创建直方图,以可视化这些信息。然后,我们可以统计每个身高范围内的人数,并用柱状图表示这些数据。例如,如果 150-159 厘米范围内有 12 人,那么该范围的柱状图就会有一定的高度;如果 160-169 厘米范围内有 20 人,那么该范围的柱状图会更高。
通过观察直方图,我们可以轻松看到大多数人的身高集中在哪些范围内(例如,如果许多人身高在 160-169 厘米之间,那个范围内的柱形条会更高),以及是否存在任何异常值(例如,如果只有一个人身高超过 190 厘米,那么该范围的柱形条会非常短)。这种可视化表示让即使是非技术人员也能快速掌握数据的分布和模式,使直方图成为理解和传达数据洞察的重要工具:

图 3.2:展示一组人群在不同身高范围内的计数的直方图
密度曲线
密度曲线是一条平滑、连续的线,代表数据分布的方式,易于非技术读者理解。它清晰地展示了数据的分布情况,并帮助我们可视化数据的整体形状和模式。曲线的绘制方式确保其下方的总面积为 1,这意味着它显示的是不同范围内数据点的相对频率或比例,而不是实际的计数。曲线在任何点的高度表示该值的密度,这意味着曲线较高的部分代表数据点更为集中的区域。
例如,假设我们有一组学生的考试成绩数据。
我们可以使用密度曲线代替直方图,后者通过条形图表示每个分数范围内学生的数量。密度曲线可以以更平滑、更具视觉吸引力的方式展示相同的信息。为了绘制这条曲线,我们需要估算考试成绩的频率分布,然后绘制一条平滑的线,紧密跟随数据的形状。曲线的峰值和谷值将分别指示成绩密集或稀疏的区域。
通过观察密度曲线,我们可以轻松看到考试成绩的总体分布,例如,大多数学生的成绩是否集中在某个特定范围内(该范围由曲线的峰值表示),或者是否存在一些异常模式,如多个峰值或分数分布较广。曲线还帮助我们识别数据的集中趋势(例如,众数,即曲线最高点的位置)和数据的离散程度(例如,较宽的曲线表示更大的分数范围)。这种平滑且直观的视觉表示使非技术读者也能轻松理解和解读数据的潜在模式和特征:

图 3.3:展示一组学生的考试成绩分布的密度曲线
箱型图
箱线图,又称为箱须图,是一种直观且易于理解的可视化工具,用于显示数据集分布的关键信息。它由一个矩形箱体和两条(须)线组成,代表数据的不同方面。箱线图特别适用于识别数据的中心趋势、分散度以及潜在的异常值,因此对非技术读者来说是优秀的工具。
要理解箱线图,让我们通过一个例子来解析其组成部分。想象我们有参加社区活动的人员年龄数据。我们可以使用箱线图清晰简洁地可视化年龄分布。图中的箱体代表数据的中间 50%,也称为四分位距(IQR)。箱体的下边缘称为第一四分位数(Q1),标志着 25%的参与者年龄更小;而上边缘,第三四分位数(Q3),标志着 75%的参与者年龄更小。箱体内部的线是中位数,代表数据集的确切中间年龄,其中 50%的参与者年龄更小,50%年龄更大。
从箱体伸出的须线帮助我们理解剩余数据的分布情况。通常来说,须线延伸至 1.5 倍 IQR 范围内的最小值和最大值。换句话说,它们显示了“典型”年龄范围,排除任何潜在的异常值。超出须线的任何数据点被视为异常值,通常作为单独的点或圆圈绘制。这些可以在图表中看作“X”。
通过观察箱线图,非技术读者可以快速掌握关于数据的重要信息,如中位数年龄(箱体内部的线)、年龄分布(箱体和须线的大小)以及与其他数据显著不同的异常年龄(异常值)。这种简单而强大的可视化工具提供了数据特征的清晰快照,对于理解和传达数据见解至关重要:

图 3.4:箱线图(箱须图),显示参加活动的人年龄的中位数、Q1、Q3 和较小及较大范围
热度图
热力图是一种直观易懂的数据表示方式,利用颜色显示二维网格中变量的值或频率。网格中的每个单元格对应两个变量的特定组合,单元格的颜色表示与该组合相关的值或频率。颜色范围通常从表示低值的某种颜色到表示高值的另一种颜色,中间有一个渐变。热力图特别适用于检查大数据集中的模式、趋势或变量之间的关系,因此对于非技术读者来说,是一个非常有价值的工具。
为了说明热力图的工作原理,我们来看一个例子。假设我们有一家商店不同产品在各个月份的销售数据。我们可以创建一个热力图来清晰简洁地可视化这些信息。在热力图中,一个轴(即行)表示产品,另一个轴(即列)表示月份。网格中的每个单元格对应特定月份某个产品的销售量。单元格的颜色表示销售额,颜色范围从浅绿色表示低销售额到深绿色表示高销售额。
通过查看热力图,非技术读者可以快速识别数据中的模式和趋势,例如哪些产品在某些月份销售较高,或者是否存在销售的季节性波动。颜色编码的单元格使得用户能够一目了然地发现高值和低值,帮助用户聚焦于感兴趣或需要关注的区域。例如,某个特定产品的一排深绿色单元格可能表示销售始终较高,而一列浅绿色单元格则可能表明某个特定月份的销售普遍较低。
总结来说,热力图提供了一种视觉上吸引人且易于解读的方式来展示复杂的数据,使非技术读者能够快速识别模式、趋势和变量之间的关系。这种强大的可视化技术简化了理解和传达数据洞察的过程,使热力图成为数据分析工具包中不可或缺的工具:

图 3.5:显示某示例时尚店不同产品类别每月销售情况的热力图
降维
降维是一种简化复杂数据的技术,它通过减少变量或维度的数量,同时尽可能保留原始信息。这一过程使非技术性读者更容易理解和分析数据,同时也提高了各种机器学习算法的性能。降维的思想是找到数据中最重要的特征或模式,并通过更少的维度来表示它们,有效地压缩数据的同时保留其本质结构。
一种流行的降维方法是主成分分析(PCA)。
PCA 是一种数学技术,它将原始数据转换为一组新的变量,称为主成分。这些主成分是以捕捉数据中最重要的模式和变化为标准来选择的。通过选择少数几个主成分,我们可以创建一个简化的数据表示,同时保留大部分关键信息。
为了说明这个概念,假设你有一个包含不同汽车信息的数据集,包括价格、燃油效率、马力和重量。这些属性中的每一个都代表数据中的一个维度。然而,这些维度中的一些可能是相关的或冗余的。例如,汽车的重量和马力通常是相关的——较重的汽车往往有更大的马力。
PCA 可以帮助识别这些关系,并将相关的维度合并为一个主成分。在这种情况下,PCA 可能会创建一个名为性能的新成分,结合马力和重量的相关信息。通过关注这个单一成分,我们可以简化数据,同时仍能捕捉到汽车性能的关键信息。
PCA 是一种复杂的数学技术,但作为决策者,你不需要理解所有技术细节。关键的 takeaway 是,PCA 通过识别最重要的模式并用更少的维度表示它们,帮助简化数据,使数据更容易理解和分析。
总之,像 PCA 这样的降维技术是简化复杂数据并使其更易于非技术性读者访问的宝贵工具。通过减少维度的数量,同时保留数据的本质结构,PCA 促进了数据洞察的更有效沟通,并提高了机器学习算法的性能。

图 3.6:基于客户偏好数据计算的主成分示意图
相关性分析
通过计算变量之间的相关系数,决策者可以识别数据特征之间的关系和依赖性,从而帮助做出进一步的分析和建模决策。
相关性分析是一种统计技术,用于评估两个变量之间关系的强度和方向。简而言之,它帮助我们了解一个变量的变化是否与另一个变量的变化相关,如果相关,那么它们之间的关系有多强。相关性分析对非技术性读者非常有价值,因为它提供了一种清晰易懂的衡量变量之间联系的方法。这可以用于识别模式、做出预测或为决策提供依据。
相关性分析的结果通常以相关系数的形式表示,这是一个介于-1 和 1 之间的数字。正相关系数(介于 0 和 1 之间)表示当一个变量增加时,另一个变量也趋向于增加。负相关系数(介于-1 和 0 之间)表示当一个变量增加时,另一个变量趋向于减少。相关系数越接近 1 或-1,变量之间的关系越强。相关系数接近 0 则表明变量之间几乎没有关系或没有关系。
例如,假设我们想要理解学生学习时间与考试成绩之间的关系。我们可以使用相关性分析来计算学习时间变量和考试成绩变量之间的相关系数。如果我们找到一个 0.8 的正相关系数,这表明学习时间和考试成绩之间存在强正相关关系,意味着学习时间更长的学生往往取得更高的成绩。相反,如果相关系数是-0.3,这表明存在弱负相关关系,意味着学习时间更多的学生可能成绩稍微较低:

图 3.7:一张图表,展示了学生群体中考试成绩与学习时间之间的相关性
需要注意的是,相关性并不意味着因果关系。两个变量之间的强相关性并不意味着一个变量导致了另一个变量的变化,它只是表明这两个变量之间存在某种关系。其他因素或变量可能是造成这种关系的原因。
总之,相关性分析是非技术读者评估变量之间关系的有力工具,提供了关联强度和方向的直接度量。通过这些信息,可以识别模式,指导决策,并为进一步研究生成假设,使相关性分析成为理解和传达数据洞察的重要方法。
异常值检测
识别和处理数据中的异常值可以帮助提高后续分析的准确性和可靠性。可以使用 Z 分数法或 IQR 方法等技术来检测和处理异常值。
根据数据的性质和分析的具体目标,选择最合适的探索性数据分析(EDA)技术和工具至关重要。
异常值检测是识别数据集中与大多数数据明显不同的数据点的过程。这些不寻常的数据点,称为异常值,可能是错误、异常或特殊情况的结果,需要进一步调查。识别异常值非常重要,因为它们可能对数据的分析和解读产生重大影响,可能导致结果偏差或得出错误结论。异常值检测对非技术读者尤其有价值,因为它有助于确保数据的准确性和可靠性,从而带来更好的洞察力和决策。
有几种方法可以用来检测异常值,包括 Z 分数法、IQR 方法和其他技术。
Z 分数法
Z 分数衡量数据点与数据集的均值(平均值)之间的距离,以标准差为单位(标准差是衡量数据分布范围的指标)。高 Z 分数表示数据点远离均值,可能成为异常值。通常会选择一个 Z 分数阈值(例如,2 或 3),Z 分数超过此阈值的数据点被视为异常值。当数据呈正态分布(即符合钟形曲线)时,这种方法最为有效。
举个例子,假设我们有一组人的身高数据。如果我们发现某人的 Z 分数为 3.5,这意味着他们的身高与平均身高相差 3.5 个标准差,表明这个人非常高,可能被认为是异常值。
IQR 方法
IQR 方法是另一种通过观察数据的分布来检测异常值的方法。IQR 是数据中 Q1 和 Q3 值之间的差异,表示数据中间 50% 的范围。通常,异常值被定义为低于 Q1 - 1.5IQR 或高于 Q3 + 1.5IQR 的数据点。这种方法比 Z 分数法更稳健,因为它对极端值不那么敏感,且适用于非正态分布的数据。
继续以身高为例,如果我们计算身高的四分位距(IQR),并发现有几个人的身高低于 Q1 - 1.5IQR 或高于 Q3 + 1.5IQR,我们会认为他们是异常值。
其他技巧
还有许多其他的异常值检测方法,包括机器学习算法,如聚类或分类模型,以及统计检验,如 Grubbs 检验或 Tukey 方法。选择哪种方法取决于数据的性质、数据的分布以及分析的具体目标。
总结来说,异常值检测是数据分析过程中的一个关键步骤,帮助非技术读者确保数据的准确性和可靠性。像 Z 分数和四分位距(IQR)等方法可以用来识别可能影响分析或揭示有趣模式的异常数据点。通过检测和理解异常值,数据科学团队可以做出更明智的决策,并从数据中获得更深刻的洞察:

图 3.8:一张展示包含患者体重(以千克为单位)数据集中的异常值的图表
概述
在本章中,我们学习了 EDA(探索性数据分析)是数据科学项目过程中的一个重要阶段,它为理解数据的特征和限制提供了手段,也可以在机器学习或统计模型开发之前发现数据中的有趣模式。
这种初步分析还使团队能够更有信心地展示结果并训练模型,因为他们对所处理的数据及其可能带来的问题有了更深入的理解。
在本章中,我们介绍了可以用于 EDA 的多种方法。并不是所有方法在每次分析中都需要使用,但希望这些工具能帮助你自己分析数据,并在面对这些可视化和分析时,给予你解释它们的知识。
在下一章中,我们将学习如何使用统计方法测试商业假设。这种技巧被称为显著性检验,它对于验证数据结果至关重要,确保你的决策基于统计严谨性。
第四章:显著性的意义
我们不断被新的数据和统计信息所轰炸,无论是在商业领域,我们可能会看到销售数字或消费者调查结果,还是在新闻中,我们可能会看到经济统计数据或政治民意调查。
我们如何理解这些信息,判断什么结果是显著的,什么只是统计噪音?
这就是统计显著性概念变得重要的地方,我们将在本章中了解统计假设及如何在实践中进行假设检验(也叫显著性检验)。通过掌握这些技巧,你将能够更有信心地做出数据驱动的决策,避免因误导性结果而导致的高昂错误。
为了说明显著性检验的重要性,让我们考虑一个常见的场景。假设你的数据科学团队负责减少公司内的客户流失率,并且他们观察到过去一个季度客户流失的百分比增加了 2%(即离开或取消订阅)。这个变化是否值得关注,还是可能仅仅是随机的偶然结果?
显著性检验帮助你回答这个问题,并对团队的努力方向做出有根据的决策。
另一个例子可能是,你的团队对一个新的机器学习模型进行了 A/B 测试,结果显示该模型在准确率上比之前的模型提高了 4%。
显著性检验可以告诉我们这个改进是否具有统计学意义。
在本章中,我们将学习如何制定商业假设,并通过统计方法来检验它们。我们将了解统计假设、统计显著性的概念,以及如何在实践中进行假设检验。
这些工具将帮助你判断所使用的数据和指标的可靠性和相关性,从而让你能更有信心地做出决策。
本章将涵盖以下主题:
-
假设检验的概念
-
针对人口比例的显著性检验
-
针对人口平均数(均值)的显著性检验
-
案例研究演练
假设检验的概念
在每个组织中,我们都有想要测试的想法和概念,以便做出更有根据的决策。在许多情况下,决策是基于直觉或“凭感觉”做出的,但人类的直觉是易错的,因此我们需要一个框架来在做出关键决策之前测试这些想法。
让我们考虑一个你可能会作为数据科学领导者遇到的场景。假设你管理一个在线品牌,正在考虑在一个电子商务平台上进行促销活动,以增加某个特定产品的销量。在投入资源进行促销之前,你希望先确定其潜在的有效性。
这就是假设检验的作用所在——它提供了一个数据驱动的决策框架,帮助避免基于假设做出的代价高昂的错误。
在本节中,我们将简要介绍假设检验以及它如何帮助你在不同场景下做出明智决策。
什么是假设?
假设是关于特定情境或现象的陈述或主张,我们希望对其进行检验或验证。在我们的产品促销示例中,我们的假设可能是,“促销活动将在市场上增加产品销量。”
假设检验是如何工作的?
假设检验是统计学和数据科学中用于检验主张或假设有效性的一种方法。其基本思路是收集数据,对其进行分析,然后判断证据是否支持或反驳假设。
为了更好地理解这一过程,让我们将其分解成四个简单的步骤,我们将在本章稍后详细讲解每个步骤:
-
制定假设:首先,我们需要陈述我们的替代假设,这就是我们想要检验的主张。此外,我们还需要定义原假设,它与我们原始的主张相反。在我们的品牌推广示例中,替代假设可能是,“新的促销活动增加了产品的销量。”
-
确定显著性水平:在我们开始检验假设之前,需要决定一个显著性水平,它是一个用于判断观察到的差异是否可能由偶然因素引起,还是由实际效果引起的阈值。
-
收集相关数据:现在,我们收集与假设相关的数据。在我们的示例中,我们可能会收集促销前后产品的销量数据。
-
进行统计检验:接下来,我们对数据进行统计检验,以确定促销前后销量是否存在显著差异。
-
做出决策:根据我们统计检验的结果,我们可以接受或拒绝原假设。如果检验显示销量有显著差异,我们可能得出结论认为促销活动有效,从而拒绝原假设。另一方面,如果检验结果没有显著差异,我们可能会接受原假设,即新的促销活动并未增加产品销量。
制定原假设和替代假设
在假设检验中,制定清晰且定义明确的原假设和替代假设对于做出准确和明智的决策至关重要。
在本节中,我们将深入探讨制定这些假设的过程,并解释它们为什么对有效的假设检验至关重要。
原假设(H0)
原假设,记作 H0,是一个假设,假定所研究的变量之间没有影响或关系。换句话说,它代表了“现状”或基线情景。原假设的目的是为假设检验提供起点,使我们能够评估证据,并决定它是否支持或反驳我们最初的主张。
在制定零假设时,确保它是可检验且具体的非常重要。
以下是一些零假设的例子:
-
“两种产品在顾客对质量的感知上没有差异”
-
“新的营销活动对产品销售没有影响”
-
“与上一季度相比,本季度品牌的认知度没有变化”
备择假设(H1)
备择假设,记作 H1,是与零假设直接相反的陈述,表示我们希望证明或调查的效应或关系。备择假设本质上是我们通过分析希望展示的内容。
与零假设类似,备择假设也应该是可检验的并且具体的。
以下是之前提到的示例的备择假设:
-
“两种产品在顾客对质量的感知上存在显著差异”
-
“新的营销活动对产品销售有积极影响”
-
“与上一季度相比,本季度品牌的认知度发生了变化”
选择正确的假设
选择适当的零假设和备择假设对于成功的假设检验至关重要。以下是一些帮助你选择正确假设的指导原则:
-
确保假设是互斥的。这意味着如果一个假设为真,另一个必须为假。
-
保持假设清晰和具体。模糊或不明确的假设可能导致混乱和错误的结论。
-
将假设与研究目标对齐。你的假设应当回答你希望通过分析解决的关键问题。
制定清晰的零假设和备择假设是假设检验过程中至关重要的一步。通过确立明确的起点(零假设)和期望结果(备择假设),你可以有效评估证据,并根据分析做出明智的决策。记住,保持假设的具体性、可检验性和互斥性,以确保假设检验的成功。
确定显著性水平
显著性水平,用符号 α(alpha)表示,是假设检验中的一个关键概念。它代表了犯第一类错误的概率,即当零假设为真时,我们却错误地拒绝了它。简单来说,它是我们在基于数据做决策时愿意承担的风险。
例如:假设你正在测试一个新的营销活动是否能提高销售额。显著性水平是指在营销活动无效时仍然得出其有效的结论的概率。
常见的显著性水平
显著性水平通常以百分比或小数的形式表示:
-
1% (0.01):这个严格的显著性水平用于当我们希望非常有信心并最小化第一类错误时使用
-
5% (0.05):这是最广泛使用的显著性水平,平衡了第一类错误和第二类错误的风险
这是一个例子:在一项市场研究中,如果采用 1%的显著性水平,就意味着得出客户喜欢新产品特性而实际并非如此的结论的概率仅为 1%。
选择合适的显著性水平
在选择显著性水平时,请考虑以下因素:
-
错误的后果:如果第一类错误更严重(例如发布有缺陷的产品),则使用较低的显著性水平。如果第二类错误更严重(例如未能检测出疾病),则使用较高的显著性水平。
-
样本大小:样本越大,可以使用较低的显著性水平;样本较小则可能需要较高的显著性水平,因为不确定性增加。
-
领域惯例:遵循你所在研究领域的既定惯例。
让我们考虑一个例子。
在一项评估新员工培训项目对生产力影响的研究中,实施一个无效的项目(假阳性)可能带来的后果,比未能采用一个有效的项目(假阴性)要轻微。在这种情况下,可能需要采用较高的显著性水平,例如 10%。
相反,考虑以下示例。
一家制药公司正在测试一种用于治疗严重疾病的新药。在这种情况下,推出一种无效的药物(假阳性)可能带来的后果,比未推出潜在有效的药物(假阴性)要严重得多。公司不想冒着危及患者健康的风险去发布一种无效或有害的药物,因此,采用较低的显著性水平,例如 1%,可能更为合适,以降低第一类错误的风险,并确保药物在推向市场前是安全有效的。
通过仔细考虑背景和潜在后果,你可以选择一个与目标一致的显著性水平,并为你的分析提供坚实的基础。
了解错误
在假设检验中,我们需要了解两种错误类型:第一类错误和第二类错误。当我们根据数据分析做出错误决策时,这些错误就会发生。让我们通过简单的解释和示例来探索这些错误。
第一类错误 – 假阳性
第一类错误发生在我们认为变量之间存在影响或关系时,但实际上并不存在。这就像是虚惊一场。
例如,假设你正在测试一种新药是否有效。如果你错误地得出结论认为药物有效,而实际上它无效,那就是第一类错误,也叫做假阳性。
第二类错误 – 假阴性
第二类错误发生在我们认为变量之间没有影响或关系时,但实际上是有的。这就像错失了一个机会。
以药物为例,如果你错误地得出结论认为药物无效,但它实际上是有效的,那就是第二类错误,也叫做假阴性。
你可以在这张图表中看到第一类和第二类错误的可视化:

图 4.1:第一类和第二类错误
在图表中,可以看到如果拒绝原假设,但没有关系或效应,那么这就是第一类错误(即假阳性)。
在图表中,可以看到如果接受原假设,但实际存在关系或效应,那么这就是第二类错误(即假阴性)。
图表还显示了正确的决策,真阳性和真阴性。
错误平衡
在假设检验中,我们希望尽量减少第一类错误和第二类错误,可以通过一些简单的策略来实现:
-
选择正确的显著性水平:这有助于管理第一类错误的风险。较低的显著性水平意味着较低的第一类错误概率,但可能会增加第二类错误的风险。
-
使用更大的样本量:更多的数据可以帮助减少发生第二类错误的风险。然而,由于时间或资源的限制,获取更多数据并非总是可行的。
-
设计好你的检验:一个好的检验可以帮助减少这两类错误。这可能涉及选择正确的统计检验方法或考虑其他可能影响结果的因素。
了解第一类错误和第二类错误对于准确的假设检验非常重要。通过考虑这些错误并做出明智的选择,你可以从数据中得出更好的结论。
理解 p 值
p 值是假设检验中的一个重要概念,它帮助我们理解数据与我们所检验的假设之间的关系。简单来说,p值是指在原假设为真时,观察到的数据(或更极端的结果)出现的概率。
我们将通过一个简单的解释,讲解 p 值及其与显著性检验的关系。
p 值作为证据的度量
p 值为我们提供了一种衡量反驳原假设证据的方法。较小的 p 值(通常小于 0.05)意味着如果原假设为真,观察到的数据不太可能发生。换句话说,较小的 p 值表明变量之间可能存在真实的效应或关系,原假设可能是错误的。
另一方面,大 p 值意味着如果原假设为真,观察到的数据很可能会发生。在这种情况下,证据不支持替代假设,我们无法拒绝原假设。
显著性检验,比较 p 值与显著性水平
在显著性检验中,我们将 p 值与预设的显著性水平(α)进行比较。显著性水平代表我们愿意接受的最大第一类错误(在原假设为真时拒绝原假设)的概率。
如果 p 值小于或等于显著性水平(p ≤ α),我们拒绝原假设,并得出替代假设更有可能为真的结论。这意味着观察到的效应或关系在统计学上是显著的。
如果 p-值超过显著性水平(p > α),我们不能拒绝原假设,观察到的效应或关系在统计学上不显著。
示例
假设我们正在测试一种新药物,原假设(H0)是该药物没有效果。备择假设(H1)是该药物有效果。我们选择显著性水平为 5%(0.05)。
在进行检验后,我们得到 p 值为 0.02。由于 p 值(0.02)小于显著性水平(0.05),我们拒绝原假设,并得出结论:该药物具有统计学显著性效应。
p 值在显著性检验中扮演着重要角色,帮助我们衡量反驳原假设的证据。通过将 p 值与显著性水平进行比较,我们可以就是否拒绝原假设并接受备择假设做出有根据的决策。请记住,尽管 p 值是一个有用的工具,但它们应谨慎解释,并结合所有可用的信息来考虑,而不是盲目地接受为假设的绝对证据。
我们已经讨论了 p 值这一重要话题,解释了它如何作为反驳原假设的证据的度量。理解 p 值对于解释假设检验结果至关重要,无论是评估市场营销活动的影响,还是衡量机器学习算法的效果。
以下是关键要点:
-
较小的 p 值表明在原假设下,观察到的数据不太可能发生,这为备择假设提供支持。
-
较大的 p 值表明没有足够的证据拒绝原假设。
-
在显著性检验中,我们将 p 值与预定的显著性水平进行比较,以便就假设做出有根据的决策。
通过理解这些原理,企业高管和决策者可以基于数据做出更准确、更可靠的结论,从而减少代价高昂的错误。
在下一节中,针对总体比例的显著性检验——就比例做出有根据的决策,我们将在此基础知识上进行拓展。我们将探讨如何在实际场景中应用 p-值,特别是聚焦于总体比例的检验。这对于根据样本了解较大群体的特征尤为重要,比如市场研究。
针对总体比例的显著性检验——就比例做出有根据的决策
作为决策者,你通常需要比较比例以做出明智的选择。例如,你可能想知道两条产品线中,顾客满意度比例是否有显著差异,或者一个新的营销活动是否比之前的活动有更高的成功率。在这里,总体比例的显著性检验非常有用,因为它们可以帮助你比较不同组之间的比例,看看它们是否存在显著差异。
举个简单的例子,假设你想进行两次不同内容的电子邮件营销活动,并比较哪一封邮件更成功。成功的营销活动可以扩展给更多的收件人。这就是所谓的 A/B 测试,在部署机器学习模型更新时也可以采用这种方法,通过比较新模型与现有模型的结果来进行评估。
一个可能有用的指标来衡量活动成功与否是点击率(CTR),即收到邮件的人中点击链接的比例。
请看以下示例:

图 4.2 – 比较两次营销活动的点击比例(CTR)
你可以看到第二次活动的 CTR 更高,但你怎么知道这个差异是否显著,还是仅仅由于随机机会?
为了进行检验,你需要知道发送的电子邮件数量和点击的电子邮件数量,凭借这些数据,你可以进行比例的显著性检验。
在本节中,我们将探讨两种常用的总体比例显著性检验方法:z检验和卡方检验。我们会简化解释,并提供大量示例,帮助你理解这些概念并将其应用到工作中。
z 检验 – 比较样本比例与总体比例
z 检验是一种统计工具,帮助你判断一个样本比例是否与预期的总体比例有显著差异。它回答了这个问题:“我在样本中看到的差异有意义吗,还是仅仅由随机机会造成的?”
理解 z 检验
在深入探讨 z 检验的原理之前,熟悉支撑这一统计方法的术语是很重要的。这些关键组成部分为有效解读结果打下基础:
-
原假设(H0):原假设就像我们的起始假设。我们假设总体比例(P)等于我们感兴趣的特定值(P0)。
-
备择假设(H1):备择假设与原假设相反。它表明总体比例(P)不等于、少于或大于特定值(P0)。
-
Z 分数:Z 分数是一个数值,表示我们的样本比例(P)与预期的总体比例(P0)相差多少标准差。
-
P 值:P 值帮助我们理解,如果零假设为真,观察到像我们这样极端的样本比例(或更极端的情况)有多大可能性。
执行 z 检验的简单步骤
所以,你已经掌握了z-检验的关键组成部分。接下来是什么?实际应用。无论你是在分析客户的行为和偏好,还是尝试比较两个机器学习模型的准确性,能够执行 z 检验都是一项不可或缺的技能。以下是帮助你完成这一过程的步骤:
-
设定假设:第一步是制定零假设和备择假设。记住,零假设是你的起点,假设不存在效应或差异。
-
计算样本比例(P):将成功结果的数量除以样本大小n。这个比例代表了你在样本中感兴趣的特征或效应。
-
确定标准误差(SE):使用以下公式:
SE = √ P0(1 − P0) / n
其中,P0 是预期的总体比例(不要与 P 值混淆)。标准误差衡量你的样本比例与实际总体比例之间的差异预期。
- 计算 Z 分数:Z 分数的计算公式为:
Z = (P − P0) / SE
它告诉你,样本比例离零假设比例有多少个标准误差。
-
查找 P 值:根据 Z 分数,确定 P 值。你可以通过查找表或在线计算器(
www.socscistatistics.com/pvalues/normaldistribution.aspx)来确定 P 值。这将告诉你,在零假设为真的前提下,获得一个像你这样的 Z 分数有多大可能性。你选择的编程语言或软件(如 Excel、Python、R)也会包含用于计算 P 值和执行 z 检验的函数。 -
与显著性水平比较:最后,将 P 值与预设的显著性水平(α)进行对比。如果 P ≤ α,那么你有理由拒绝零假设。

图 4.3 – 单尾 z 检验
上述图表展示了标准正态分布,这是用于执行 z 检验的分布。
由样本比例和总体比例计算得到的 Z 分数,决定了样本比例在该分布中的位置。
右侧的拒绝区域表示,如果样本比例与总体比例存在显著差异,Z 分数将落在该区域。
为了得出有显著性差异的结论,p 值(曲线下方超过 z 分数的区域)必须小于或等于显著性水平(0.05),这意味着 z 分数必须大于或等于临界值(在本例中为 1.645)。你可以说,样本比例与总体比例之间的差异不是由于随机机会造成的。
我们将通过一个更具体的例子来说明 z 检验。
简单易懂的 z 检验例子
现在我们已经了解了如何进行比例的 z 检验,接下来让我们看一个实际的例子。
假设我们认为 60%的人(P0 = 0.60)偏好某一品牌的咖啡,并希望通过实际数据检验这一假设。我们问了 200 人(n = 200),发现其中 130 人喜欢这个品牌(x = 130)。我们的样本比例为p = 130 / 200 = 0.65。
我们的原假设(H0)是总体比例(P)等于 0.60。备择假设(H1)是总体比例(P)不等于 0.60。
我们计算标准误差 SE 为 SE = √(0.60(1 − 0.6) / 200) ≈ 0.0346
接下来,我们计算 z 分数为 Z = (0.65 − 0.60) / 0.0346 ≈ 1.445
使用 z 表或软件,我们发现双尾 p 值约为 0.148。由于 p 值(0.148)大于显著性水平(假设为 0.05),我们不能拒绝原假设。换句话说,没有足够的证据表明偏好该品牌咖啡的人群比例与 60%不同。
现在我们已经展示了如何使用 z 检验来检验关于比例的假设,那么它还能用于什么呢?这是下一节的主题,我们将看到 z 检验如何用于检验关于总体平均值(均值)的假设。
总体均值(均值)显著性检验
在这一节中,我们将深入探讨关于均值的显著性检验,它用于判断一个样本均值是否显著不同于假设的总体均值。我们将涵盖各个方面,包括编写假设、t 检验的条件、何时使用 z 统计量或 t 统计量、示例,以及单尾检验和双尾检验。
编写关于均值的显著性检验假设
在进行均值的显著性检验时,你将首先制定原假设和备择假设:
-
原假设(H0):原假设声明总体均值(μ)等于一个特定值(μ0)。
-
备择假设(H1):备择假设声明总体均值(μ)不等于、小于或大于特定值(μ0),具体取决于研究问题。
关于均值的 t 检验条件
t 检验通常用于当总体标准差(σ)未知时检验均值的假设。进行t检验时应满足以下条件:
-
样本是随机选择的。
-
样本量较小(n < 30),或者总体分布是正态分布的。如果样本量较大(n ≥ 30),即使总体不是正态分布,t 检验仍然是稳健的。
在显著性检验中何时使用 z 或 t 统计量
-
当总体标准差(σ)已知,且样本量较大(n ≥ 30)时,使用 z 统计量
-
当总体标准差(σ)未知时,使用 t 统计量,并依赖样本标准差(s)作为估计值
示例 – 计算关于均值的 t 统计量
假设我们想测试样本中苹果的平均重量是否与假设的 150 克均值不同。我们有一个包含 25 个苹果的随机样本(n = 25),样本的平均重量为 155 克(x̄ = 155),样本标准差为 20 克(s = 20)。
零假设(H0)是总体均值(μ)等于 150 克。备择假设(H1)是总体均值(μ)不等于 150 克。
t 统计量可以使用以下公式计算:
t = (x̄ − μ0) _ s _ √ n
t = (155 − 150) _ 20 _ √ 25 = 5 _ 4 = 1.25
使用表格从 t 统计量估算 p 值
要根据 t 统计量找到 p 值,您需要使用 t 分布表或软件。在我们的示例中,t 统计量为 1.25,自由度(df)等于 n - 1,即 24。使用表格或软件,我们可以估算双尾的 p 值约为 0.22。
将 t 统计量的 p 值与显著性水平进行比较
现在,将 p 值与显著性水平(α)进行比较以做出决定。如果我们选择显著性水平 0.05,且 p 值(0.22)大于 α,那么我们无法拒绝零假设。这意味着我们没有足够的证据得出结论认为苹果的平均重量不同于 150 克。
单尾检验与双尾检验
在进行显著性检验之前,区分单尾检验和双尾检验这两种假设检验类型也是非常重要的:
-
单尾检验:单尾检验用于确定总体均值是否大于或小于假设的均值。在这种情况下,您将使用单尾的备择假设(例如,μ > μ0 或 μ < μ0)。单尾检验的 p 值表示在备择假设指定的方向上观察到如此极端或更极端的检验统计量的概率。
-
双尾检验:双尾检验用于确定总体均值是否与假设的均值不同,而不指定差异的方向。双尾的备择假设为 μ ≠ μ0。双尾检验的 p 值表示在任一方向上观察到如此极端或更极端的检验统计量的概率。
到目前为止,我们一直在考虑将显著性检验视为双尾检验。如果你想指定假设的方向,可以指定单尾检验,并且许多统计分析工具(如 Python、R、Excel)都允许你这样做。
总结来说,关于均值的显著性检验对于确定样本均值是否与假设的总体均值显著不同非常重要。我们已经覆盖了 t 检验的必要步骤和条件,何时使用 z 检验或 t 检验,以及单尾检验和双尾检验的区别。通过理解这些概念并将其应用于实际场景,你将能够有效地分析数据并得出有关总体均值的有意义结论。
通过案例分析
为了巩固我们在本章中所学的内容,让我们通过本章开始时使用的一个关于在线商店产品促销的例子来进行讲解。
假设我们有数据,显示了促销前 14 天和促销后 14 天的每日销售量。我们的假设是,促销后产品的每日销售量显著增加。
我们如何使用显著性检验来检验这个假设呢?
让我们回顾一下本章开始时设置的步骤:
-
制定假设:首先,我们需要陈述我们的原假设和备择假设。
问题:在继续阅读之前,你能尝试制定一个原假设和备择假设吗?
-
原假设 (H0):我们的原假设是促销后每日平均销售量没有显著增加。
-
备择假设 (H1):我们的备择假设是促销后每日平均销售量显著增加。
-
-
确定显著性水平:其次,我们确定一个显著性水平。
问题:在阅读以下内容之前,你能尝试决定一个显著性水平吗?
我们将使用 0.05 的显著性水平,这在统计学的商业应用中是常见的;然而,根据你对拒绝原假设的信心程度,其他选择也是可以接受的。
-
收集 相关数据:
现在,我们收集与我们的假设相关的数据。在我们的例子中,假设我们收集的数据表明,在促销前的 30 天里,平均每日销售额为 $9,000,而在促销后的 30 天里,平均每日销售额为 $9,200,样本标准差为 $50。
-
执行一个 统计检验:
接下来,我们对数据进行统计检验,以确定促销前后的销售量是否存在显著差异。
问题:在继续阅读之前,尝试回答以下问题:
-
我们是在测试总体比例的差异,还是总体均值的差异?
-
你认为哪种统计检验适用于这个案例呢?
-
我们应该使用单尾检验还是双尾检验?
在这种情况下,我们正在检验总体均值的差异。样本量较小(n = 14),因此使用 t 检验比较合适。由于我们的备择假设是有方向性的(即促销后每日销售更高),我们应该使用单尾 t 检验。
现在让我们使用我们的数据进行这个统计检验。我们有一个 14 天的随机样本(n = 14),样本平均重量为$9,200 (x̄ = 9,200),样本标准差为$75 克 (s = 75)。
零假设(H0)是总体均值(μ)等于$9,000。备择假设(H1)是总体均值(μ)大于$9,000。使用这些数值计算t统计量,我们得到:
-
t = (x̄ − μ0) / (s / √n) = (9200 − 9000) / (75 / √14) = 200 / 20.04 = 9.98
-
做出决策:根据我们统计检验的结果,我们可以接受或拒绝原假设。
将这些值输入到计算器中,例如,通过以下链接进行单尾 t 检验表格查找:
www.socscistatistics.com/tests/studentttest/我们发现 p < 0.001,这表明在促销后,产品的销量显著增加。
基于此次测试显示销售显著增长,我们可以得出结论,促销是有效的,并接受我们的原假设。这可能有助于未来在同一电商平台或其他平台上开展类似促销活动的决策。统计学为我们提供了一种更有信心和证据的决策机制,而非仅凭直觉或感觉,从而提高了做出正确决策的机会。
总结
恭喜你,成功应用了统计思维并测试了一个类似于真实商业用例的假设,今后在你的业务或生活中,可能也会有类似测试假设的应用场景。
在这一章中,我们学习了如何使用统计检验来验证不同的假设。我们了解了不同类型的错误、如何选择显著性水平,并理解了 p 值与显著性水平之间的关系。然后我们学习了总体比例的显著性检验和总体均值的显著性检验。最后,我们通过一个基于在线商店产品促销的案例研究,完成了一个实例分析。
在接下来的章节中,我们将转变方向,深入探讨回归分析。这一强大的统计技术不仅能够识别变量之间的关系,还能根据这些关系预测未来的结果。如果你曾想知道如何预测销售额、评估社交媒体营销的影响,或学习机器学习的基础技术,你绝对不容错过接下来的内容。
第五章:理解回归分析
在本章中,我们将学习回归分析,这是一种强大的统计工具,能够帮助决策者识别和理解变量之间的关系,发现趋势并预测未来趋势。
你可能会问自己以下问题:
我如何从理解回归分析中受益?
回归分析,简单来说,是一种统计方法,帮助揭示数据中的模式和关系。
在企业中,回归分析可以帮助决策者更好地理解不同因素或变量如何影响关键绩效指标,如销售额、收入或客户满意度。通过识别这些关系,企业可以做出更明智的决策,优化战略,并提高整体绩效。
以下是回归分析在商业环境中的一些应用场景:
-
预测:回归技术通过分析历史数据帮助企业预测未来趋势、销售额和需求。准确的预测对于战略规划、资源分配和预算编制至关重要。
-
识别关系:回归分析可以帮助企业揭示变量之间的关系,例如广告支出对销售的影响或定价对客户需求的影响。了解这些关系可以帮助企业优化战略。
-
高效的资源配置:通过理解不同因素如何影响企业绩效,公司可以更有效地配置资源,并做出更好的投资决策。
-
风险管理:回归分析可以帮助企业识别其运营中可能存在的风险和脆弱性,了解导致结果波动的因素。
-
评估绩效:企业可以通过回归分析评估不同部门、团队或员工的绩效,方法是分析投入(例如资源和时间)与产出(例如销售额和生产力)之间的关系。
-
价格优化:通过了解价格变化如何影响需求,企业可以使用回归分析来确定最佳定价策略,从而最大化收入和利润。
-
政策评估:回归分析可以帮助企业通过将结果与预期结果进行比较,评估各种政策和举措的有效性。
在深入回归分析的复杂性之前,首先了解一个基础概念是至关重要的——趋势线。尽管趋势线看似简单,但理解它们的细微差别可以带来丰富的洞察。
趋势线简介
在本节结束时,你将对趋势线有一个扎实的理解,这是回归分析的基础。
让我们从一个实际的例子开始。假设你拥有一家电子商务商店,并且已经记录了过去几个月的日销售额。手头有一份数字清单,你对数据中是否有任何模式感兴趣,这些模式可能会影响你的商业决策。这时,趋势线就派上用场了。
趋势线是一条表示数据集总体方向或模式的线。它使我们能够可视化数据点之间的关系,并帮助我们预测未来的数值。简单来说,它以最能说明整体趋势的方式连接这些点。
回到我们的电子商务商店场景,假设你将日销售额绘制在图表上,横轴表示天数,纵轴表示销售额。每天的销售额成为图表上的一个数据点。你的目标是绘制一条最佳拟合这些数据点的线,这些数据点代表你销售数据的一般趋势。正斜率表示销售额随时间增加,而负斜率则表示销售额减少。
你会如何拟合一条最佳匹配这些数据的线?它的斜率是正向的还是负向的?

图 5.1:一家电子商务商店的日销售额
然而,现实世界中的数据很少如此简单。由于节假日、促销甚至天气等各种因素,数据中可能会出现波动。这时,回归分析就显得尤为重要。回归分析帮助我们在拟合趋势线时考虑这些波动,从而更准确地表示整体模式。
再考虑另一个例子来进一步理解趋势线。作为市场经理,你可能对广告预算与产品销售之间的关系感兴趣。你可以将每月的广告预算绘制在横轴上,将每月的产品销售额绘制在纵轴上,每个数据点表示一个特定的广告预算及其相应的销售额。将趋势线拟合到这些数据上,能够让你看到是否存在一种趋势,表明更高的广告预算会带来更高的销售额:

图 5.2:比较每月广告预算与每月销售额时的正负趋势线
现在我们已经了解了什么是趋势,如何根据我们的数据估计趋势呢?这是下一节的主题。
将趋势线拟合到数据
在这一节中,我们将探讨将趋势线拟合到数据集的过程以及可以用来最小化误差并最大化准确性的技术。
拟合一条直线到数据上是一门艺术,它的核心是找到最能代表潜在模式或趋势的直线。那么我们如何定义“最佳”呢?答案就在于最小化趋势线生成的预测值与实际数据点之间的误差。实现这一目标的最常用方法被称为最小****二乘法技术。
想象你已经通过数据点绘制了一条直线,并且对于每个点,你测量了实际数据点与直线上相应点之间的垂直距离。这个距离被称为“残差”或“误差”。最小二乘法的目标是找到一条最小化残差平方和的直线。对残差进行平方处理至关重要,因为这样可以消除负值,并突出较大的偏差,确保拟合的直线尽可能地贴近数据。
看下面的图示,每个数据点由黑色圆点表示,我们尝试拟合的直线由一条长长的红线表示。我们尝试拟合的直线与数据点之间的“残差”或“误差”通过垂直于直线的红线来表示。我们在最小二乘法中最小化的正是所有这些距离的平方和:

图 5.3:通过一组数据点的最佳拟合直线及最佳拟合直线与数据点之间的残差/误差
为了说明这个过程,让我们回到我们的市场经理例子。当你绘制了广告预算和相应产品销售数据点后,你需要找到最能拟合数据的直线。通过应用最小二乘法技术,你将最小化趋势线预测销售值与实际销售数据点之间的总体误差。然后,这条直线将为你提供广告预算与产品销售之间关系的宝贵见解,帮助你做出更有依据的决策。
虽然将一条直线拟合到数据上起初可能看起来很复杂,但现代的软件工具和编程语言使这个过程比以往任何时候都更加简单。许多工具,如 Excel、Python 库、Tableau 和 PowerBI,提供了内置的函数,只需几次点击或几行代码就能拟合趋势线并执行回归分析。作为决策者,你不需要成为数学细节方面的专家,但理解这个概念及其应用对于有效地领导数据驱动的项目至关重要。
为数据集拟合趋势线是一项强大的技术,它帮助我们发现数据中的隐藏模式,从而做出更好的决策。通过最小化实际数据点和趋势线预测值之间的误差,我们可以提取有价值的洞见,推动商业决策并实现预期结果。在接下来的部分,我们将探索如何估计最佳拟合直线。
估计最佳拟合直线
在本节中,我们将深入探讨最小二乘法,这是估计最佳拟合直线的黄金标准。我们将探索这一技术背后的直觉,并通过各种例子展示其在揭示数据模式中的强大作用。
为了更好地理解最小二乘法,我们通过几个例子来进行讲解:
-
例子 1:一位校长想要了解学生学习时间与考试成绩之间的关系。校长将数据绘制在图表上,横轴表示学习时间,纵轴表示考试成绩。每个数据点代表一个学生的学习时间和相应的考试成绩。
应用最小二乘法,校长旨在找到一条线,该线最小化平方残差之和——即实际考试成绩与趋势线预测成绩之间的垂直距离的平方和。一旦确定了最佳拟合直线,校长可以识别数据中的模式,例如较长的学习时间是否通常会导致较高的考试成绩,并利用这些信息来指导学校政策和学习项目。
-
例子 2:一位健身教练想要评估一个人每日卡路里摄入量与体重减轻之间的相关性。教练将数据绘制在图表上,横轴表示每日卡路里摄入量,纵轴表示体重减轻。每个数据点代表一个人的每日卡路里摄入量和相应的体重减轻。
确定最佳拟合直线后,教练可以分析卡路里摄入与体重减轻之间的关系,并根据客户的目标和饮食偏好提供量身定制的建议。
作为决策者,理解最小二乘法的核心概念及其在各种情境中的应用至关重要。在接下来的章节中,我们将以此为基础,深入探讨更高级的回归技术和工具。
计算最佳拟合直线的方程
在本节中,我们将深入探讨计算简单线性回归和多元线性回归的最佳拟合直线方程的过程。虽然方程看起来可能令人生畏,但我们会逐步分解它们,以确保清晰的理解。通过掌握最佳拟合直线背后的方程,你将更深入地理解线性回归的基本机制。
对于简单线性回归,最佳拟合直线的方程可以表示如下:
y = a + bx
这里,y 是因变量,x 是自变量,a 是 y 截距(直线与 Y 轴的交点),b 是斜率(决定直线的陡峭度):

图 5.4:最佳拟合直线及其方程
要计算 a 和 b,我们可以使用以下公式:
b = ∑ i=1 n (x i − x̄)(y i − ȳ) _ (x i − x̄) 2
a = ȳ − bx̄
在这些公式中,xi 指定了各个数据点,x̄ 和 ȳ 分别表示 x 和 y 值的均值,Σ 表示求和。
我们通过一个示例来说明这一过程。
示例: 一位小企业主希望根据销售商品数量预测他们的月收入。该业主提供了过去 4 个月的数据:
-
第 1 个月: 销售商品数量 = 10, 收入 = $1,060
-
第 2 个月: 销售商品数量 = 15, 收入 = $1,400
-
第 3 个月: 销售商品数量 = 18, 收入 = $1,580
-
第 4 个月: 销售商品数量 = 26, 收入 = $2,150
-
第 5 个月: 销售商品数量 = 31, 收入 = $2,320
要找到最佳拟合直线的方程,按照以下步骤进行:
- 计算 x 值(销售商品数量)和 y 值(收入)的均值:
x̄ = (10 + 15 + 18 + 26 + 31) ________________ 5 = 20
ȳ = (1,060 + 1,400 + 1,600 + 2,150 + 2,320) ________________ 5 = $1,702
- 使用公式来找到斜率 b 和 y 截距 a,如前所示。在通过 a 和 b 的公式进行计算后,我们得到最佳拟合直线方程:
y = $467.03 + $61.75x
这是输出结果:

图 5.5:最佳拟合直线方程,估算了销售商品数量与收入的散点图
拥有最佳拟合直线方程 y = $467.03 + $61.75 后,小企业主可以自信地预测他们的月收入。例如,如果他们计划在下个月销售 22 件商品,可以通过将 x(销售商品数量)的值代入方程来估算收入:
y = $467.03 + $61.75(22) = $467.03 + $1,358.50 = $1,825.53
根据模型,企业主可以预期当他们销售 22 件商品时,月收入大约为$1,825.53。这个估算值对预算、资源分配和设定销售目标非常有用。通过不断更新模型并加入新的数据,企业主可以优化预测,做出明智的决策,促进小企业的增长与成功。
对于多元线性回归,过程更为复杂,因为它涉及多个自变量。一般方程如下所示:
y = a + b 1 x 1 + b 2 x 2 + … + b n x n
在这里,a 是常数,b1、b2、…、bn 是每个自变量 x1、x2、…、xn 的系数。在多元线性回归中,计算系数通常需要使用专业软件或编程语言,如 Python 或 R。
理解最佳拟合直线背后的方程对于理解线性回归的机制至关重要。通过计算这些方程,你将能够更好地解读和应用线性回归模型在实际场景中的结果。
现在我们知道如何估算最佳拟合直线(回归线)的方程,让我们学习如何解读方程中的参数。
有两个重要参数需要解读:回归线的 斜率 和 截距。
首先,我们将解释斜率;然后,我们将解释截距。
解释回归线的斜率
在本节中,我们将重点讨论回归线斜率的重要性,以及它如何帮助我们理解变量之间的关系。通过研究斜率,我们可以从回归模型中得出有意义的见解,并做出明智的决策。我们将通过各种例子来阐述这一概念,突出解释斜率的实际意义。
请记住,简单线性回归线的方程如下:
y = a + bx
斜率 b 表示因变量 y 在自变量 x 增加一个单位时的平均变化。换句话说,它告诉我们 y 会如何随着 x 的变化而变化。
让我们通过一些例子来更好地理解斜率的解释。
例子 1:一位健身教练开发了一个简单的线性回归模型,用来预测基于运动过程中消耗的卡路里数来预估体重减轻情况。最佳拟合直线的方程如下:
y = 5 − 0.01x
在这里,y 是体重减轻(以磅为单位),x 是消耗的卡路里数。斜率 -0.01 表明每增加一卡路里消耗,预计体重减轻平均增加 0.01 磅。在这种情况下,负斜率是预期的,因为燃烧更多卡路里应该导致体重减轻。
例子 2:一家电子商务公司建立了一个模型,通过市场营销支出来预测收入。最佳拟合直线的方程如下:
y = $10,000 + 2x
在这个情境中,y 代表每月收入,x 表示网站访问者的数量。截距表明即使没有营销支出,基础收入也为 $10,000。斜率 2 表明每增加一美元的营销支出,预计每月收入会增加 $2,平均而言。在这里,正斜率表明营销支出与收入之间存在正相关关系。
理解回归线的斜率至关重要,因为它量化了因变量和自变量之间的关系。正斜率意味着随着自变量的增加,因变量也会增加,而负斜率则表明随着自变量的增加,因变量会减少。
现在我们已经了解了如何解释回归线的斜率,让我们来探讨截距。
解释回归线的截距
在本节中,我们将探讨回归线截距的重要性,它为理解当自变量为零时因变量的基准水平提供了至关重要的背景。我们将通过不同的例子来展示回归线截距在线性回归模型中的实际意义。
在我们这个简单线性回归方程中,我们有以下公式:
y = a + bx
截距,a,表示当自变量 x 等于零时,因变量 y 的预期值。
让我们通过一些例子来更好地理解截距的解释。
例子 1:一家能源提供商开发了一个简单的线性回归模型,用于预测家庭根据消耗的千瓦时数(kWh)计算的每月电费。最佳拟合线的方程如下:
y = $20 + $0.12x
在这个例子中,y 代表每月电费,x 表示消耗的千瓦时数(kWh)。截距 20 表示当家庭消耗零千瓦时(即 x = 0)时,预期的每月电费为 $20。这个值可以解释为家庭无论是否有电力消耗都需要支付的基本费用或固定费用。
例子 2:一位市场分析师建立了一个模型,用于预测基于广告预算所产生的销售线索数量。最佳拟合线的方程如下:
y = 30 + 5x
这里,y 代表销售线索的数量,x 是以千美元为单位的广告预算。截距 30 表示当广告预算为零时(即 x = 0),预期产生的销售线索数量为 30。这个值可以理解为通过有机的、非广告方式(如推荐或搜索引擎流量)产生的基准线索数量。
需要注意的是,解读截距可能并不总是有意义,特别是当自变量 x 的值不能为零,或者回归模型在该范围内无效时。例如,当根据客户的年龄预测保险索赔数量时,年龄不可能为零,因此截距与特定含义无关。在这种情况下,截距主要用于微调回归线的位置,而不是提供直接的见解。
作为决策者,解读回归线的截距有助于你理解当自变量为零时因变量的基准水平,为你的数据提供有价值的背景信息。这一理解使你能够做出更加明智的决策,并利用变量之间的关系。
到此为止,我们已经了解了关于最佳拟合线的很多内容,但实际数据与最佳拟合线的匹配程度如何呢?这将是下一节的主题,我们将通过残差来衡量最佳拟合线与实际数据之间的差异。
理解残差
在本节中,我们将深入探讨残差的概念,重点关注其在线性回归中的作用,以及在评估模型的准确性和质量时的重要性。我们将通过各种示例来说明残差的意义,确保你对回归分析这一关键方面有全面的理解。
残差是实际观察值(数据点)与回归模型预测值(最佳拟合线)之间的差异。简单来说,残差代表了我们模型中的误差——我们的预测与现实之间的偏差。通过分析残差,我们可以评估回归模型的表现,并识别潜在的改进空间。
计算特定数据点的残差的公式如下:
残差 = 观察值 − 预测值
让我们通过一个示例来探讨残差的概念。
示例:一位销售经理建立了一个简单的线性回归模型,用来预测基于销售电话数量的月度收入。最佳拟合线的方程如下:
y = $1,000 + $50x
这里,y 是预测的月度收入,x 是销售电话的数量。
对于某个月份,团队进行了 30 次销售电话并产生了 2,300 美元的收入。为了计算这个月的残差,我们必须使用以下公式来找出预测收入:
预测收入 = $1,000 + $50 * 30 = $2,500
现在,我们可以计算残差:
残差 = 观察值 − 预测值
残差 = $2,300 − $2,500 = − $200
在这种情况下,残差为 -$200,表明实际收入比模型预测的收入低了$200。
在分析残差时,重要的是要寻找可能表明回归模型问题的模式或趋势。理想情况下,残差应该随机分布在零附近,没有明显的模式。如果残差呈现出趋势或系统模式,可能表明模型未能充分捕捉变量之间的潜在关系,需要进行调整。
这里提供了一些常见的残差模式及其潜在原因:
-
U 型或倒 U 型模式:这可能表明需要向模型添加二次项(变量的平方)来更好地捕捉变量之间的关系。
-
残差随着预测值的增加或减少呈现增长或减少的模式:这可能表明变量之间的关系不是严格线性的,可能需要进行转换(例如对数变换)。
通过理解和分析残差,决策者可以评估回归模型的准确性和可靠性,从而做出更好的预测和更有效的数据驱动决策。
我们如何利用残差评估模型与数据的拟合程度?这是我们将在下一节中探讨的内容。
在最小二乘回归中评估拟合度
在本节中,我们将讨论如何评估最小二乘回归中的拟合度,这是确定模型准确性和效果的关键步骤。
通过了解我们的模型与数据的拟合程度,我们可以做出更明智的决策并改善预测能力。我们将研究各种例子,并介绍用于评估回归分析拟合度的关键指标。
拟合度是衡量回归线如何代表因变量和自变量之间关系的指标。高拟合度的模型能够准确描述底层数据,而低拟合度的模型可能未能捕捉变量间真实的关系。为评估拟合度,我们通常使用两个关键指标:确定系数(R-squared)和均方根误差(RMSE)。
-
确定系数(R-squared):R-squared 是一个从 0 到 1 的度量值,代表因变量 y 的总变异中有多少比例能被自变量 x 解释。接近 1 的 R-squared 值表明模型解释了数据中大部分的变异,而接近 0 的值则表明模型解释力较弱。然而,需要注意的是高 R-squared 值并不一定意味着模型好,可能是过度拟合或存在无关的变量导致的结果。
示例: 一个汽车租赁公司建立了一个回归模型,以预测基于租用车辆数的日收入。该模型的 R 平方值为 0.85。这表明 85%的日收入变化可以通过租用车辆数来解释,表明两个变量之间存在强关系。
-
RMSE: RMSE 是衡量实际观察值与回归模型预测值之间平均差异的指标。较低的 RMSE 值表明模型的预测值接近真实值,而较高的 RMSE 值则表明预测与实际数据之间存在较大差异。
示例: 一个服装零售商已经开发了一个回归模型,以预测基于广告支出的月销售额。该模型的 RMSE 为$500。这意味着,平均而言,模型预测的销售额与实际销售额相差$500。零售商可以利用这些信息评估模型的准确性,并确定是否需要调整。
评估拟合优度对于确定我们回归模型的有效性至关重要。通过理解诸如 R 平方和 RMSE 之类的关键指标,决策者可以评估其模型的可靠性。
总结
在本章中,我们介绍了趋势线的概念及其在数据集中可视化模式中的重要性。我们探讨了最小二乘法用于估计最佳拟合线,讨论了理解残差的重要性,并解释了如何解释回归线的斜率和截距。最后,我们讨论了如何使用 R 平方和 RMSE 评估模型的拟合优度。这些知识使您能够执行(或解释您团队的)回归分析,并将其应用于各种业务场景中。这些场景可能包括销售预测,优化广告预算以及评估不同因素对关键绩效指标的影响,从而进行基于数据的明智决策和业务增长。
随着我们进入本指南的第二部分,我们将打开分析能力的新维度:机器学习。您将学习如何从理解变量之间的关系转向预测未来结果,甚至进行自动化决策。
机器学习算法在许多行业中有着大量的应用,从优化供应链到帮助客户细分和目标营销,甚至自动化从文本数据中获取见解的过程。随着机器学习模型能力的增长,应用数量不断扩展,其中涵盖了太多应用以至于无法在此列举。然而,通过理解核心概念和一些众所周知的应用案例,您将能够更好地识别哪些业务问题可以恰当地作为机器学习问题来框定,并避免陷阱。
下一章将从机器学习简介开始,为更先进的技术和应用奠定基础。重点将放在机器学习如何为数据分析和商业决策带来可扩展性和自动化。
第二部分:机器学习——概念、应用与陷阱
本部分聚焦于机器学习,涵盖其重要性、机器学习技术的类型、监督学习与非监督学习、模型评估与解释,以及常见的陷阱和避免方法。本部分包含以下章节:
-
第六章**, 机器学习简介
-
第七章**, 监督式机器学习
-
第八章**, 非监督式机器学习
-
第九章**, 解释与评估机器学习模型
-
第十章**, 机器学习中的常见陷阱
第六章:介绍机器学习
在数据驱动决策迅速发展的世界中,机器学习已经成为一个颠覆性的游戏规则改变者。作为决策者,理解这一强大工具的基础知识对于充分利用其潜力并在今天的竞争环境中保持领先地位至关重要。
在本章中,我们将揭开机器学习的神秘面纱,探索其在统计学中的根基以及它在人工智能(AI)中的关键角色。我们将细分不同类型的机器学习技术,并逐步讲解模型的训练、验证和测试过程。此外,我们还将深入探讨深度学习的激动人心的世界及其在各个行业中的变革性影响。
到本章结束时,你将掌握以下主题:
-
从传统统计学到机器学习的演变
-
机器学习在数据驱动决策中的重要性
-
机器学习在不同领域的多种应用
-
机器学习过程中的关键步骤
-
利用机器学习处理非结构化数据
-
深度学习与人工智能的关系
机器学习不仅仅是一个流行词,它是一个研究领域,能够帮助你发现隐藏的洞察,做出准确的预测,并自动化复杂的决策过程。
从统计学到机器学习
在这一部分,我们将超越已知的统计学范畴。我们即将探讨一个已经成为商业智能和创新的核心领域——机器学习。
什么是机器学习?
机器学习是人工智能(AI)的一个子领域,它利用统计技术使计算机系统能够从数据中学习。它的核心在于开发能够从数据中学习模式的算法,从而进行预测或决策。这里的关键词是学习,因为与计算机科学中的基于规则的算法不同,机器学习系统通过基于输入数据训练模型,然后利用该模型进行预测或理解数据中的模式,而不是遵循静态的程序指令。
简单来说,可以把它想象成一个孩子刚开始学习说话的过程。在听到父母、亲戚和朋友等人说话后,孩子无需被教导语言的具体语法规则,就能够学会语言和语法。
令人难以置信的是,孩子们能够学会母语中的所有语法复杂性——不同的时态、格和动词变化。而相比之下,成年人即便已经学习了外语的语法规则,也往往很难掌握一门外语。
机器学习算法的工作方式类似,通过从数据中的示例学习,而不是通过遵循硬编码的规则。
另一个例子是思考一个孩子学习识别动物的过程。孩子在看到几只狗的例子后,每次被告知这只动物是狗,孩子开始理解什么特征定义了狗。后来,当他们遇到一只与之前例子相似的新动物时,他们可以将其识别为狗。
需要注意的是,机器学习系统并非针对特定任务进行明确编程。相反,它们依赖于从数据中提取的模式和推理来完成这些任务。因此,机器学习系统的有效性在很大程度上取决于其训练数据的数量、质量和相关性。
机器学习的根本目标是创建能够独立学习、适应和改进的系统,从而减少人为干预和错误,同时提高在各个任务中的效率和准确性。
机器学习与统计学有什么关系?
在统计学方面,你可以将机器学习视为一种应用统计学,专注于预测和决策。统计学强调推理和理解变量之间的关系,而机器学习则侧重于预测的准确性。
让我们考虑一个例子:预测房价。统计学家可能会使用诸如面积、房间数量和位置等变量来创建一个模型,推断这些因素如何相互关联并影响价格。另一方面,机器学习模型将利用相同的数据,但其主要目标是尽可能准确地预测价格。它可能会发现复杂的关系,甚至是人类未能察觉的关系,从而提高预测的准确性。
理解统计学与机器学习之间的微妙差异和总体联系,将成为我们在这一激动人心的领域继续前行的宝贵指南。必须记住,两者都是你决策工具箱中的工具,各自有其独特的力量,并且在一起使用时会更强大。
为什么机器学习重要?
在当今快速变化的数字化环境中,机器学习是推动企业运营、竞争和成长的关键技术。其重要性不仅仅在于自动化日常任务。机器学习正在重塑各行各业,使企业能够从数据中提取有价值的洞察,从而做出更智能的决策,提高生产力,并获得竞争优势。以下是一些突显机器学习重要性的当前应用。
客户个性化与细分
当今的消费者期望个性化的体验。机器学习在实现这一目标方面发挥着重要作用。通过分析大量的客户数据,机器学习算法可以基于各种因素(包括购买行为、偏好或人口统计特征)识别出独特的客户群体。如此精细的细分使得企业能够提供具有上下文关联的优惠、推荐和服务,提升客户满意度和忠诚度。例如,像 Netflix 和 Spotify 这样的流媒体服务使用机器学习来提供个性化的内容推荐,根据每个用户的独特口味量身定制服务。
欺诈检测与安全
机器学习在欺诈检测和安全领域发挥着越来越重要的作用。传统的基于规则的系统可能不够灵活,无法应对复杂多变的威胁。而机器学习算法能够从欺诈事件中学习,检测可能表明欺诈活动的模式和异常。例如,信用卡公司利用机器学习来识别异常交易,这些交易可能表明信用卡欺诈,从而提高安全性并减少误报。
供应链与库存优化
高效的供应链管理和库存控制对企业至关重要,尤其是在零售和制造等行业。机器学习通过分析历史销售数据、市场趋势和其他相关因素,能够提供准确的需求预测。这些预测有助于保持最佳库存水平,减少持有成本,并防止缺货或过剩库存的情况发生。机器学习还可以优化供应链中的路径规划,缩短交货时间并降低成本。
预测性维护
由机器学习驱动的预测性维护可以在设备运行时间至关重要的行业中成为颠覆性技术,如制造业、航空业或能源行业。机器学习算法可以分析设备传感器的数据,检测到导致故障的模式,从而在设备发生故障之前安排维护。这样的预防性维护减少了停机时间,避免了不必要的问题和维修,节省了时间和资源。
医疗诊断与治疗
机器学习正在医疗领域掀起波澜,特别是在诊断方面。深度学习模型可以分析医学影像来检测疾病,有时其准确率甚至超过人类专家。例如,已经开发出可以检测医学影像中某些类型癌症的算法。机器学习还被用于预测患者风险,帮助医生做出更为明智的治疗决策。
在数据驱动决策的时代,机器学习是企业的重要工具。它能够从大量数据中提取可操作的洞察力,从而做出更明智的决策,提高运营效率,并带来显著的竞争优势。通过理解和利用机器学习,企业领导者可以推动组织的创新和增长。
问题
你能想到在你的行业或业务中,机器学习可以应用于哪些地方,或者你听说过它被应用的场景吗?在思考机器学习在你组织中的应用案例时,通常可以通过查看你所在行业中的典型应用来开始,而不是试图找到新的应用,因为并不是每个商业问题都能轻松地框定为机器学习问题。
现在我们已经理解了机器学习的定义并探讨了一些常见的应用,在接下来的章节中,我们将更深入地介绍机器学习内部的不同领域。
机器学习的不同类型
类似于一位工匠的工具箱,里面充满了为特定任务设计的各种工具,机器学习并非一种通用的解决方案。它是一个涵盖不同方法的广泛领域,每种方法都针对不同类型的问题和数据。 本节将探讨四种主要类型:
-
监督学习
-
无监督学习
-
半监督学习
-
强化学习
监督学习
想象一下在有导师的情况下学习一门新语言,导师会纠正你的错误并在你练习时指导你。监督学习的原理类似。你为机器提供输入数据(特征)和正确的输出(目标)。机器学习一个模型,将输入映射到输出,然后使用该模型对新的、未见过的数据进行预测。这种学习类型被称为“监督学习”,因为你在用正确的答案监督模型的学习过程。
一个常见的例子可能是你的银行账户使用的欺诈检测。数据可能包括你的交易信息、交易金额、交易时间、收款人等。一个在历史交易数据上训练的监督式机器学习模型(包括正常交易和欺诈交易)能够区分你的交易是更可能是正常交易还是欺诈交易,银行可能会冻结账户,直到调查清楚为止。
无监督学习
想象一下在没有导师的情况下学习一门语言,只使用目标语言的书籍或媒体。这种情况类似于无监督学习,其中机器接收到输入数据,但没有相应的输出标签。目标是识别数据中的潜在模式或结构。
一个例子是市场营销中的客户细分。一个无监督学习算法可以识别具有相似行为、偏好或特征的客户群体或“簇”,而无需明确告知这些群体可能是什么。
半监督学习
在理想的世界里,我们可以为每一条数据都打上标签。但现实中,标注数据的获取可能既昂贵又费时。这就是半监督学习的作用所在。它利用少量标注数据和剩余的未标注数据进行训练。
想象一个社交媒体公司试图识别有害内容。他们可能只有一小部分被标记为“有害”或“安全”的帖子,但却有数百万条未标记的帖子。半监督学习可以利用未标记的数据,提升对有害内容的理解。
强化学习
最后,考虑一个强化学习的场景。一个智能体通过在环境中执行动作来学习决策,以最大化累积奖励。
一个经典的例子是使用机器学习下棋。机器或智能体通过下许多局游戏来学习,赢了会获得奖励,输了会受到惩罚。随着时间的推移,智能体会学习哪些动作可能会最大化赢得比赛的机会。

图 6.1:不同类型的机器学习
迁移学习
最后,机器学习中还有一种引人注目的方法:迁移学习。这个概念基于这样一种思想:在一个领域中学到的知识可以迁移并应用到另一个相关的领域。
想象一下:你是一名熟练的网球选手,想要学习壁球。你在打网球时所培养的许多技能和技巧,如球拍处理、灵活性和战略性场地移动,都可以转移并适应到壁球上。你并不是从零开始——你是在将自己在一个领域(网球)学到的知识迁移到另一个领域(壁球)。
类似地,机器学习中的迁移学习利用从大型数据集(例如识别数百万张图像中的物体或动物)中获得的预训练模型知识。它将这种理解应用到另一个但相关的问题(例如从医学图像中诊断疾病)。
当你在特定任务上有有限数据,或者从零开始训练一个复杂模型在计算上代价过高或不可行时,迁移学习提供了显著的优势。在深度学习中,模型拥有数百万个参数已不罕见,迁移学习已经成为许多应用(从图像识别到自然语言处理任务)的事实标准。
通过应用迁移学习,模型可以实现更好的性能,减少训练数据需求,并节省宝贵的计算资源,从而在各种现实世界场景中提供实际的解决方案。
每种类型的机器学习都有其优势和应用,理解何时应用每种方法是有效利用机器学习进行决策的基本方面。
随着我们继续深入,我们将探讨如何应用这些工具为你的商业提供可操作的洞察。
常见的机器学习算法
机器学习使用许多算法来建模和理解复杂数据。在从数据中学习时,这些算法可以被看作是机器的“食谱”。虽然不需要理解每个算法的复杂运作,但了解一些常用算法及其一般应用是有帮助的。
线性回归
在第五章中,我们探讨了线性回归,这是一种传统上根植于统计学的技术。然而,线性回归也可以被视为监督式机器学习技术中最简单的例子之一。
线性回归,在机器学习的背景下,涉及训练模型以预测一个依赖变量(例如销售额),基于一个或多个独立变量(例如广告支出和市场状况)。该算法通过历史数据进行学习,识别模式和关系。例如,在商业环境中,公司可能会使用线性回归来预测销售额,基于过去的销售数据和其他相关因素,如市场营销预算、季节性趋势或经济指标。这种预测性的洞察可以帮助决策制定,例如预算分配或战略规划,展示了一个经典统计方法如何有效地适应现代商业分析的动态需求。

图 6.2:线性回归
逻辑回归
逻辑回归是用于在有两个可能结果时做出决策的工具,类似于在“是”和“否”之间做选择。与线性回归不同,后者预测的是值(例如房子可能卖多少钱),而逻辑回归预测的是某个事件发生的可能性,例如贷款是否会违约,或者电子邮件是否为垃圾邮件。
在此模型中,我们使用数据(例如支付逾期多少天)来计算一个介于 0 和 1 之间的概率。这告诉我们我们关注的事件(例如逾期支付)发生的可能性。这个过程涉及一个特殊的 S 形曲线,称为 Sigmoid 函数,你可以在图表中看到。该曲线表明,最初违约的概率较低,但随着支付逾期时间的增加,违约的可能性显著增加。

图 6.3:逻辑回归
例如,在前述的商业场景中,逻辑回归可以帮助预测公司未能按时支付发票的可能性,基于支付逾期的天数。
图表中的曲线展示了 S 形逻辑函数,也就是著名的 Sigmoid 函数。在逾期周数较低时,违约的概率较低;在大约 8 周时,违约概率为 0.5(50%)。我们可以把这个视为一个临界点,即公司违约的可能性大于支付账单的可能性。
随着周数的增加,违约的概率逐渐上升,直到达到一个点,此后进一步的延迟不再显著改变违约的概率。这是因为模型识别到了一种模式:一旦付款严重逾期,违约的可能性已经很高并且趋于稳定。
逻辑回归可以是一种实用的风险评估和决策方式,提供了复杂数学预测与易于理解且可操作的见解之间的平衡。
决策树
决策树是直观且易于理解的算法,广泛用于回归和分类任务。它们通过学习特征上的一系列明确的“如果-那么”规则来预测目标变量。它们就像在和数据进行“20 个问题”游戏,帮助你通过提问正确的问题来推断答案。
例如,在客户服务管理中,决策树可以帮助根据投诉的严重性对客户投诉进行分类。

图 6.4:投诉严重性决策树
可以从简单的问题开始,例如,“投诉是否与产品质量或服务相关?”根据答案,接着提出更具体的问题,比如“产品缺陷是设计问题还是故障问题?”这种一步步的提问方法有效地将投诉分类,从而提供量身定制的回复并加速解决过程。
通过将复杂的决策过程分解为一系列简单的问题,决策树提供了清晰且可操作的见解,使其在商业运营中无价。
随机森林
随机森林是一种“集成”方法,结合了多个决策树的见解,以提高预测准确性。你可以把它们看作是一支专家团队(各个决策树),每个专家提供自己的意见,最终的决策基于多数票。这种方法增强了单一决策树的优点,并平衡了它的弱点,从而产生更可靠的结果。
在实践中,随机森林通过让森林中的每棵树给出预测,并将最常见的结果作为最终预测来工作。
集成技术,如随机森林,通常甚至超越深度学习模型,尤其是在处理结构化的表格数据时。它们在多个领域中证明了其有效性,从检测欺诈活动到预测客户流失,展示了其在解决复杂问题中的多样性和鲁棒性。
支持向量机
支持向量机(SVM)是一种监督式机器学习技术,当你需要进行分类或预测某些结果时,它特别有用。
想象一下你有一堆属于两类的数据点。SVM 通过找到最大间隔超平面来帮助分隔这些类别——这是一条线(或者在数据更加复杂时是一个更复杂的边界),它最好地将这两个类别分开,并且在两侧拥有最大的间隔,这个间隔就是所谓的最大间隔。
最大间隔很重要,因为它帮助支持向量机(SVM)找到类别之间最稳健的分隔。通过最大化间隔,SVM 确保决策边界尽可能远离数据点,这使得分类对噪声不太敏感,并且更可能很好地推广到新的、未见过的数据。
举个商业例子,考虑一个银行,它想决定是否批准贷款。它们有诸如信用评分、收入水平和贷款金额等信息。SVM 可以通过分析这些数据并找到最大间隔超平面,将申请者分成两组:一组是可能还款的,另一组是高风险的。最大间隔确保银行的决策边界是稳健的,不太可能错误分类申请者。这种分隔帮助银行做出更明智、更安全的贷款决策,减少违约的风险。

图 6.5:支持向量机
k-最近邻
k-最近邻(k-NN)是一种机器学习方法,用于根据数据进行预测或分类。可以把它想象成找到最接近的匹配项。在 k-NN 中,基本思想是相似的项目通常彼此靠近。
例如,在商业环境中,如客户服务,k-NN 可以帮助分类客户咨询。如果一个新的咨询进来,算法会查看与其最相似(或“最近”)的过去咨询。然后,根据最相似的咨询对新的咨询进行分类。这就像是说:“这个新的客户问题与这些以前的问题最相似,所以可能需要类似的回应。”这种方法通过使用过去数据中的模式,帮助快速分类和回应客户需求。

图 6.6:k-最近邻
神经网络
神经网络,特别是深度神经网络,是今天人工智能热潮的核心。它们是大多数现代机器学习的支柱,从语音识别到图像分类。它们通过模拟一个互联神经元网络,灵感来源于人脑,以学习数据中的模式。

图 6.7:一个简单的人工神经网络
想象一个生产电子组件的工厂。可以训练一个神经网络来检查这些组件,利用高分辨率相机拍摄的图像,检查它们在流水线上生产出来的情况。
网络学习如何识别一个完美组件应该是什么样的,然后将每个生产出来的物品与这个标准进行比较。它能够检测到即使是最小的偏差或缺陷,比如错位、不正确的尺寸或表面瑕疵,这些是人工检查员可能难以始终如一地发现的。
除了像这样的计算机视觉任务,神经网络也是许多先进机器学习模型的核心,例如语音识别模型和大型语言模型,包括 OpenAI 的 GPT 系列模型。
这些只是机器学习中使用的众多算法的一部分,每种算法都有其优缺点和应用领域。机器学习的魅力在于其灵活性:可以根据手头的问题选择或定制适当的算法。这种多样性使得机器学习在许多行业和领域中都具有应用价值。
在下一部分,我们将逐步讲解训练、测试和部署机器学习模型的过程。
机器学习过程
机器学习是一个广泛的领域,涵盖了多种训练模型的方法。每种机器学习方法都有其独特的模型开发和优化过程。
在无监督学习中,模型通过无标签数据来学习,发现隐藏的模式或结构。这个过程通常包括数据预处理、模型训练、模型评估和模型调优。
强化学习是一种机器学习类型,其中智能体通过与环境互动来学习做出决策。该过程包括环境设置、智能体训练、策略评估和策略改进。
对于有监督学习和迁移学习,建立一个可靠的机器学习模型涉及三个关键阶段:训练、验证和测试。这些阶段代表了一种结构化的方法,旨在使模型得以实现、优化其性能,并确保其适用于实际应用。
我们将重点介绍有监督机器学习模型的训练过程。
训练有监督的机器学习模型
训练是初始阶段,在此阶段有监督的机器学习模型从数据中学习。我们将一个“训练数据集”输入给模型,数据集包含输入数据和正确的输出。模型的任务是识别输入和输出之间的模式和关系。
例如,假设我们正在构建一个预测天气的机器学习模型。在训练阶段,我们将模型暴露于历史天气数据,如温度、湿度、风速以及天气状况,如“晴天”、“雨天”或“雪天”。模型将尝试识别这些天气变量与相应天气状况之间的模式。
监督学习模型的验证
模型训练完成后,我们需要对其进行微调。在这里,验证阶段起着至关重要的作用。我们使用一个单独的“验证集”来调整模型的参数,从而提升性能。
让我们回到天气预测模型的例子。在验证阶段,我们可能会使用另一部分历史天气数据,以观察模型基于训练阶段学习到的模式如何预测天气。如果它没有达到预期,我们将调整模型的参数或复杂性。这个过程会重复进行,直到模型在验证集上的表现令人满意为止。
测试监督学习模型
在训练和验证后,我们进入最后阶段——测试阶段。这一阶段是对我们模型性能的试金石。我们将模型暴露于一个“测试集”,这是一个模型之前没有见过的独立数据集。其目的是确保模型在训练和验证数据上表现良好,并且能很好地推广到新的、未见过的数据。
在我们的天气预测场景中,可能会有一组模型之前从未见过的最新天气数据。我们将使用这些数据来测试模型预测天气状况的准确性。如果模型表现良好,我们就可以放心地将其用于实时天气预测。
这三个阶段——训练、验证和测试——构成了开发和部署机器学习模型的基础。它们帮助我们确保模型有效学习、良好推广,并且在实际环境中能够进行可靠的预测。这通常是一个漫长的迭代过程,需要进行多次实验来训练、验证和测试模型,直到模型达到可以部署到生产环境的准确性水平。
评估机器学习模型
一旦机器学习模型训练完成,评估其性能是至关重要的,这有助于确定模型的有效性和可靠性。了解模型评估技巧有助于你判断模型的表现是优秀,还是需要调整和优化。本节概述了模型评估中使用的一些关键概念和指标。
训练集、验证集和测试集
构建机器学习模型涉及将可用数据分成三组:训练集、验证集和测试集。模型从训练集中学习,这是数据中最重要的一部分。验证集用于调整参数以提高模型在调优过程中的表现。测试集是模型在训练阶段未见过的数据,用来评估模型的最终表现,并提供模型对未见数据的泛化能力的衡量标准。
分类指标
对于目标是预测离散标签的分类问题,会使用几个指标:
-
准确率衡量所有预测中正确预测的比例。当类别平衡时,这是一个很好的衡量标准,但在类别不平衡时可能会产生误导。
-
精准度是所有正向预测中真正正向预测(正确预测的正例)所占的比例。它是模型精确度的衡量标准。
-
召回率(灵敏度)是所有实际为正例的预测中真正正例预测所占的比例。它衡量了模型的完整性。
为了说明为什么在类别不平衡时准确率可能会产生误导,考虑一个假设问题,即预测一种只影响 1% 人口的罕见疾病。
一个仅预测“没有疾病”的模型可能会获得 99% 的准确率,但却无法识别出任何实际的疾病病例。在这种情况下,精准度和召回率提供了更具信息量的评估模型表现的方式。
准确率、精准度和召回率可以基于我们在前一章节讨论过的第一类错误(假阳性)和第二类错误(假阴性)来计算。下图提供了这些指标如何与不同类型的预测相关的可视化表示:

图 6.8:准确率、精准度与召回率
列表示预测的类别(0 或 1),行表示实际的类别(0 或 1)。
绿色象限表示正确的预测:
-
真阴性(TN):实际为 0;预测为 0
-
真阳性(TP):实际为 1;预测为 1
红色象限表示错误的预测:
-
假阴性(FN):实际为 1;预测为 0
-
假阳性(FP):实际为 0;预测为 1
底部的公式展示了如何根据这四个象限中的计数计算准确率、精准度和召回率。
除了准确率、精准度和召回率,以下指标对于理解监督学习模型的表现非常有用,并且不容易受到类别不平衡问题的影响,从而避免准确率成为误导性指标:
-
F1 分数是精准度和召回率的调和平均数,当类别分布不均时,它提供了一个平衡的衡量标准。
-
ROC 曲线下面积 (AUC-ROC) 是分类问题的综合性能度量。它指示模型区分类别的能力。
回归指标
对于回归问题,目标是预测连续值,我们有以下内容:
-
平均绝对误差 (MAE) 衡量预测集合中误差的平均幅度,而不考虑它们的方向。
-
均方误差 (MSE) 类似于 MAE,但是在求平均值之前会对误差进行平方。它对较大的误差给予更大的权重。
-
R 平方(决定系数) 表示因变量方差中可预测部分与自变量的关系。它指示模型的拟合优度。
了解这些度量标准对评估机器学习模型的质量和可靠性至关重要。重要的是要注意,没有单一的度量标准能够完整地反映全部情况。评估指标的选择应与业务目标和问题的性质相一致。
在接下来的部分中,我们将考虑在使用机器学习模型时非常重要的一点,即机器学习的风险和局限性。
机器学习的风险和局限性
尽管机器学习在商业和社会的各个方面都产生了革命性的影响,但认识到它带来的风险和局限性至关重要。了解这些可以指导决策者更好地采取、更明智地行动,并减少潜在的负面影响。
过拟合和欠拟合
过拟合发生在模型对训练数据学习过度时。它对训练集中的特定细节和噪音过于关注,导致在未见数据上表现不佳。过拟合模型具有低偏差但高方差。
另一方面,当模型过于简单以至于无法捕捉数据中所有相关关系时,就会发生欠拟合。它可能在训练数据和未见数据上表现不佳。欠拟合模型具有高偏差但低方差。
在创建能够很好泛化到未见数据的模型中,平衡过拟合和欠拟合之间的权衡是至关重要的。
偏差和方差
机器学习模型中的偏差指其倾向于通过不考虑数据中的所有信息而始终学习错误的东西。而方差则指模型对训练集中小波动的敏感性。高方差可能导致过拟合,使模型捕捉训练数据中的随机噪声。

图 6.9: 显示过拟合、欠拟合和正确拟合模型偏差-方差权衡的图表
平衡数据集
训练数据的质量和组成会显著影响机器学习模型。假设数据集不平衡,即某一类输出比其他类过于占优,那么模型可能会偏向于多数类,并在少数类上表现不佳。诸如过采样少数类、欠采样多数类或使用合成数据增强方法等技术可以帮助解决这个问题。
模型是现实的近似
重要的是要记住,机器学习模型本质上是对现实的近似。它们是基于所训练的数据和所做的假设构建的。因此,它们本质上是不完美的,存在一定的不确定性。它们不应被视为绝对的真理先知,而是帮助决策的工具,始终需要审视、修订和验证。
了解这些风险和局限性可以促使我们以更谨慎和负责任的方式对待机器学习。这种理解提醒我们,尽管机器学习可以成为强大的工具,但人类监督、持续监控和伦理考虑依然至关重要,以确保其积极和公正的应用。
机器学习在非结构化数据上的应用
传统上,机器学习主要应用于结构化数据——整齐的、表格化的数据,适合放入电子表格。然而,大多数数据的创建和存储都是非结构化的——它并没有预先整理成友好、整齐的格式。非结构化数据的例子包括文本文件、图像、音频文件和视频。幸运的是,机器学习能够很好地处理这种类型的数据,从而促使了自然语言处理(NLP)和计算机视觉等专业领域的发展。
自然语言处理(NLP)
NLP 是计算机科学、人工智能和语言学交叉的一个领域,专注于计算机如何以有价值的方式理解、解读和生成自然语言。
以下是自然语言处理(NLP)的应用:
-
情感分析:公司经常使用情感分析来了解客户对其产品或服务的意见。例如,NLP 可以分析社交媒体帖子、客户评论和反馈,判断客户对某产品的情感是积极的、消极的还是中立的。
-
聊天机器人:聊天机器人在客户服务中变得越来越受欢迎。它们利用 NLP 理解客户的查询,并有效地做出回应。
-
自动摘要:对长文档进行总结可以非常有价值,节省时间和精力。例如,企业可能会使用这一技术快速了解冗长市场研究报告的要点。
计算机视觉
计算机视觉旨在赋予机器理解和解读视觉数据的能力,类似于人类如何使用视力。
以下是计算机视觉的应用:
-
图像识别:计算机视觉最常见的应用之一是识别图像中的内容,从识别照片中的物品到在人群中识别面孔。
-
医学影像:计算机视觉在医疗领域被广泛使用,特别是在医学影像的解读方面。算法可以帮助检测 X 光、MRI 或 CT 扫描中的异常,这些异常可能表明存在癌症或脑损伤等疾病。
-
自动驾驶车辆:自动驾驶汽车在导航时极度依赖计算机视觉。它们使用计算机视觉来识别交通标志、行人和其他车辆,并理解路况。
与非结构化数据的工作打开了一个广阔的可能性世界。它使我们能够解决更复杂的问题,并从更广泛的数据源中生成洞察。理解如何应用自然语言处理(NLP)和计算机视觉技术可以显著提升你做出数据驱动决策的能力。
深度学习与人工智能
人工智能在近年来经历了巨大的进步,主要得益于深度学习这一领域的突破。随着我们继续探索机器学习,理解这些概念、它们之间的关系以及它们对现代技术景观的深远影响是至关重要的。
人工智能
人工智能的核心是追求创造能够执行需要人类智能的任务的机器。这些任务包括理解自然语言、识别模式、做出决策和感知环境。
人工智能可以大致分为两类:
-
狭义人工智能:这些系统被设计用来执行特定任务,如在音乐流媒体应用中推荐歌曲,或在导航应用中提供驾驶路线。目前我们所接触的大部分人工智能都属于这一类别。
-
通用人工智能:这些系统能够像人类一样理解、学习、适应并应用知识处理各种任务。尽管这一概念令人兴奋,并且在科幻小说中经常被夸大,但我们距离实现这种级别的人工智能仍然遥远。
深度学习
深度学习是机器学习的一个子集,在人工智能领域引起了轰动。它利用具有多层的人工神经网络(因此称为“深度”学习)来建模和理解数据集中的复杂模式。深度学习模型在处理大规模、高维度的数据集(如图像、音频或文本)时表现出色。
深度学习的显著应用包括以下内容:
-
语音识别:深度学习模型是语音助手(如 Siri、Alexa 或 Google Assistant)核心的一部分,帮助它们理解并回应各种语音命令。
-
图像识别:先进的图像识别技术,如生物识别安全系统中使用的面部识别,或是医学影像中用于识别疾病的技术,主要由深度学习驱动。
-
自然语言处理:虽然我们之前讨论过 NLP,但值得注意的是,该领域许多最近的进展,包括机器翻译和情感分析,都是由深度学习推动的。
深度学习对人工智能的影响是颠覆性的。通过使机器能够从大量数据中学习,它显著扩展了人工智能能够实现的可能性。它是许多看起来像科幻小说的人工智能应用背后的推动力。
然而,必须理解的是,人工智能不仅仅是深度学习。人工智能包括许多技术和方法,其中深度学习是最突出的例子之一。人工智能的格局仍在迅速发展,紧跟这些变化对于希望有效利用人工智能力量的决策者至关重要。
总结
在本章中,我们介绍了机器学习,了解了机器学习的不同类型,介绍了一些常见的机器学习算法,讲解了机器学习的流程,并讨论了一些机器学习的风险和局限性。我们已经涵盖了相当多的内容!
现在你已经对机器学习有了一个较为高层次的了解,在下一章中,我们将进一步深入探讨有监督学习,更好地理解它是什么,以及它的使用案例和技术。
第七章:监督机器学习
在机器学习领域,监督学习是最常用且最有用的子领域之一。它通常是学生学习机器学习时接触的第一个领域,也是人们首次听到机器学习时所想到的,因为它涉及在标注或有标签的数据上学习,这类似于我们从正确的例子中学习。
监督机器学习的应用广泛多样。从邮箱中的垃圾邮件检测,到在你最喜欢的流媒体服务上推荐电视节目和电影的推荐系统,再到当银行的系统认为可能检测到欺诈交易时打来的电话,这些都是监督机器学习的应用。
本章将更详细地讨论训练和部署监督机器学习模型的步骤、一些核心的监督机器学习模型、训练和评估监督机器学习模型时需要考虑的因素,以及监督机器学习的应用。
本章涉及以下内容:
-
定义监督学习
-
监督学习中的步骤
-
回归和分类算法的特点
-
监督学习的应用
定义监督学习
在上一章所涵盖的基础上,我们将深入探讨监督学习。如前所述,监督学习涉及使用有标签数据训练模型,其中正确答案已经知道。这个过程类似于学生在知识渊博的老师指导下学习。
在商业背景下,假设你正在尝试根据历史数据预测未来的销售额。历史销售数据以及影响销售的因素(如营销支出、季节性等)构成了你的标注数据。你的机器学习模型从这些数据中学习,以预测未来的销售情况。
在深入了解监督机器学习的过程以及不同的监督学习算法之前,我们先来看看一些常见的应用。
监督学习的应用
监督学习在各行各业中都有广泛的应用,以下是一些示例:
-
消费品 与零售:
- 需求预测:零售商可以利用监督学习来预测产品需求。通过在历史销售数据上训练模型,数据包括产品特征、店铺位置、促销活动以及天气和假期等外部因素,再结合相应的销售数据,模型可以学习影响需求的模式。这使得零售商能够优化库存管理,减少缺货现象,并提高供应链效率。
-
金融服务:
- 信用风险评估:金融机构可以使用监督学习来评估贷款申请人的信用状况。通过训练一个模型,使用历史贷款还款数据,以及相关特征如信用评分、收入和就业状况,模型可以学习预测申请人违约的可能性。这帮助机构做出明智的贷款决策并管理风险。
-
公用事业:
- 客户流失预测:公用事业公司,如电力、燃气和水务公司,以及电信和宽带公司,可以使用监督学习来预测哪些客户可能会流失(即,转向竞争对手)。通过训练一个模型,利用历史客户数据,包括使用模式、客户服务互动和人口统计信息,以及流失标签,模型可以识别出流失风险较高的客户。这使得公司能够主动提供个性化的激励措施,如折扣或忠诚奖励,或根据识别出的流失驱动因素改善其服务的针对性方面,从而减少客户流失。
监督学习的两种类型
监督学习可以进一步分为两大类:回归分析和分类分析。它们之间的关键区别在于预测的输出类型。
回归分析
回归分析用于当输出变量是连续值时。目标是根据输入特征预测一个数值。以下是一些例子:
-
销售预测:公司可以利用回归分析,根据历史销售数据、营销支出和经济指标来预测下一个季度的销售数据。该模型学习这些输入特征与连续输出变量(销售数据)之间的关系。
-
房价预测:房地产公司可以使用回归分析,根据房屋的特征如建筑面积、卧室数量、位置和房龄来预测房价。模型通过过去的房产数据来估算连续的输出变量(房价)。
分类分析
分类分析用于当输出变量是分类值时。目标是预测输入属于哪个类别。以下是一些例子:
-
人才招聘:人力资源部门可以使用分类分析来筛选和甄选求职者。该模型通过训练过去申请人的数据集,包括他们的简历、资格和面试表现,以及招聘决策标签。根据新申请人的信息,模型可以预测他们是否有可能被接受为该职位,从而简化招聘流程。
-
调查欺诈检测:在市场研究调查中,尤其是在线提供的调查中,常常会出现大量的欺诈性回答,因为虚假的受访者试图通过填写调查来获取奖励,而不提供准确的答案。为防止这种情况,可以使用监督学习来分类和筛选欺诈性回答,关注的方面包括回答调查所花费的时间、选择的答案,甚至是 IP 地址的地理位置。
监督学习中的关键因素
正如我们在上一章中提到的,训练机器学习模型时有许多因素和风险需要考虑。像偏差-方差权衡、训练数据量、输入空间的维度以及目标值中的噪声等因素在监督学习中起着至关重要的作用。我们来探讨这些因素如何具体影响监督学习算法。
偏差-方差权衡——平衡简单与复杂
在监督学习中,重要的是找到模型过于简单(高偏差)和过于复杂(高方差)之间的平衡:
-
一个过于简单的模型可能会忽略数据中的重要模式,而一个过于复杂的模型可能会记住噪声和不相关的细节
-
目标是找到一个能捕捉潜在模式的模型,而不是被随机波动过度影响
训练数据量
-
用于训练模型的数据量对其表现至关重要。
-
一般来说,更多的训练数据能帮助模型更好地学习,并做出更准确的预测。
-
然而,还需要考虑数据点数量与输入变量(特征)数量之间的关系。如果特征的数量过多,而数据点的数量过少,模型可能会变得过于复杂,并且在新的、未见过的数据上表现不佳。
输入变量的数量
-
输入变量的数量,也称为特征或属性,可能会影响模型的性能
-
当处理大量输入变量(高维数据)时,模型变得更加复杂,可能需要更多数据才能有效学习
-
在这种情况下,诸如变量选择或维度缩减等技术可以用来识别最重要的变量并简化模型
目标数据的质量
-
用于训练的标注数据的质量对模型的表现至关重要
-
如果目标数据包含错误或不一致(噪声),它可能会在学习过程中误导模型,从而导致不准确的预测
-
数据清洗和异常值检测等技术有助于提高目标数据的质量,从而提升模型的性能
总结来说,在实施监督学习时,重要的是要考虑模型简洁性与复杂性之间的权衡,训练数据的数量和质量、输入变量的数量以及目标数据中的噪声存在。通过仔细管理这些因素,企业可以开发出有效的监督学习模型,做出准确的预测并支持决策。
监督学习中的步骤
在本节中,我们将更详细地探讨监督学习中的所有步骤。从数据准备到模型部署,我们将逐步介绍每个阶段,并提供见解和示例。
数据准备——奠定基础
任何监督学习项目的成功都取决于数据的质量。数据准备是一个重要的第一步,涉及以下内容:
-
数据清洗:识别并纠正错误、不完整或不一致的数据点,以确保数据集的完整性。
-
特征选择:选择对模型预测能力贡献最大的、最具信息量和相关性的属性,同时丢弃无关或冗余的特征。
-
数据转换:将原始数据转换为可以有效地被机器学习算法处理的格式。这可能涉及到数值特征的缩放、类别变量的编码或处理缺失值。
示例:一家零售公司在准备客户购买数据时,可能会清理不一致之处,选择关键特征,如购买历史和人口统计数据,并将它们转换为数值表示。
算法选择——选择合适的工具
由于有许多监督学习算法可供选择,选择最合适的算法至关重要。选择取决于问题的性质:
-
回归算法:用于预测连续目标变量。常见的选择包括线性回归、多项式回归、岭回归和套索回归。
-
分类算法:用于预测类别目标变量。常见的选择包括逻辑回归、支持向量机(SVM)、k-近邻(k-NN)、决策树和随机森林。
示例:一家房地产公司可能会使用回归算法,根据地点、面积和房产年龄等特征预测房价,而一家营销公司则可能使用分类算法,基于人口统计和互动数据预测客户行为。
模型训练——从数据中学习
一旦选择了算法,就该使用准备好的训练数据来训练模型了。这一步骤包括将输入特征和相应的目标值喂给算法,让它学习潜在的模式和关系。
在训练过程中,算法会迭代调整其内部参数,以最小化预测值与实际目标值之间的差异。这一过程使得模型能够捕捉输入与输出之间复杂的映射关系。
模型评估 – 评估性能
在部署您的训练模型之前,评估其性能至关重要。此步骤帮助您了解模型对未见数据的泛化能力,并确定改进的潜在领域。
-
回归指标:平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)常用于衡量预测值与实际值之间的平均差异。
-
分类指标:准确率、精确率、召回率和 F1 分数提供了关于模型在不同类别中正确分类实例能力的见解。
通过在独立的验证集上评估您的模型,您可以评估其性能,并对进一步的改进或参数调整做出明智的决策。
预测和部署 – 将模型投入实际运行
一旦您对模型的性能有信心,就可以将其部署用于真实世界的预测。这一步骤涉及将训练好的模型集成到您的应用程序或系统中,使其能够基于新的、未见过的输入数据生成预测。
示例:一家消费品公司可以利用训练好的销售预测模型,基于市场支出、季节性和竞争对手活动等因素来预测未来需求,从而实现积极的库存管理和资源配置。
通过仔细遵循数据准备、算法选择、模型训练、评估和部署的关键步骤,您可以充分发挥监督学习的潜力。
在接下来的章节中,我们将深入探讨监督学习的特定算法,包括回归和分类算法。我们将探讨它们的特征以及它们如何分别用于预测连续和分类数据。
回归和分类算法的特征
在本节中,我们将探讨一系列不同的回归和分类算法的特性。我们将探索它们的实际应用以及它们如何用于推动各个行业的决策制定。
回归算法
我们已经涵盖了回归,这是监督机器学习的一种形式。当输出或目标变量是连续或数值时,使用回归算法。它们主要用于预测、预测趋势和确定变量之间的关系。除了我们已经介绍的普通最小二乘回归之外,还有其他更先进的回归变体。这些变体可以用来考虑变量之间的不同交互作用,或者通过应用所谓的正则化来减少过拟合。
多项式回归
多项式回归通过增加额外的预测变量来扩展线性回归,这些变量是通过将每个原始预测变量提升到一个幂次得到的——例如,x²或 x³。这为拟合数据提供了更广泛的函数范围。
在市场研究中,多项式回归可以捕捉输入变量与销售之间的非线性关系。例如,它可能揭示销售额随着广告支出的增加而增加,直到某个临界点,但超过该阈值后会趋于平稳或下降,从而帮助优化预算分配。

图 7.1:多项式回归
以这张多项式回归图为例,该图已经拟合了一组数据点。请记住,在普通最小二乘回归中,我们只能拟合出数据点之间的线性直线关系。然而,多项式回归使我们能够建模更复杂的变量关系,这些关系可能不像前面的例子那样简单、线性。
岭回归
在回归分析中,通常会有许多输入变量需要考虑,这可能导致过拟合等问题,或者出现多重共线性的问题,即输入变量之间存在高度相关性。这会导致模型推断的可靠性降低。
为了应对这个问题,存在不同形式的“正则化”回归方法,它们通过在回归方程中加入额外项来帮助减轻上述问题。
岭回归是一种正则化方法,用于分析受多重共线性影响的多元回归数据——当预测变量之间高度相关时。通过在回归估计中加入一定的偏差,岭回归可以减少标准误差。这在零售业中可能很有用,比如在考虑到不同广告渠道之间的多重共线性时,了解广告支出与销售额之间的关系。
套索回归
套索(最小绝对收缩与选择算子)回归是另一种线性回归的正则化技术,它允许在回归模型中选择变量,使得并非所有输入变量都对结果变量产生影响。这可以减少过拟合的可能性,尤其在处理高维数据时特别有用。在消费品行业中,套索回归可以用来预测需求,根据多个因素进行预测,同时避免过拟合。

图 7.2:正则化回归(例如,岭回归/套索回归)
分类算法
分类算法用于输出或目标变量是分类的或离散的情况。它们主要用于将数据分类为特定的组。
支持向量机(SVM)
支持向量机(SVM)是一种强大的分类算法,它通过寻找最佳超平面来分离不同的类别。它在高维空间中尤其有效,适用于维度数量超过样本数量的情况。在营销领域,SVM 可用于将客户细分为不同群体,以便进行定向广告。

图 7.3:支持向量机
k-NN
k-NN 是一种简单、易于理解的算法,它根据邻近点的分类来对数据点进行分类。它广泛用于初步研究中,以便从数据中获得洞察。例如,在零售业中,k-NN 可用于预测客户是否会根据相似客户的行为进行购买。

图 7.4:k-NN
决策树与随机森林
决策树根据某些条件控制语句将数据划分为多个子集。它们易于理解和解释,非常适合用于探索性研究。随机森林是一种决策树的集成方法,可以提高预测准确性。在消费品行业,这些算法可以用于预测一个新产品是否会成功,基于价格、营销支出和竞争等特征。

图 7.5:决策树
以决策树为例,假设我们已将其拟合到数据上,预测一个患者是否患有较高或较低的 2 型糖尿病风险。我们可以看到,决策树可以基于它所训练的变量(例如年龄——他们是否大于或小于 45 岁?以及是否超重或是否有直系亲属患有 2 型糖尿病)来划分人群。这是一个简单的例子,但它说明了如何通过决策树进行预测。
监督学习中的关键考虑因素
在应用这些算法时,考虑诸如偏差-方差权衡、训练数据量、输入空间的维度以及目标值中的噪声等因素非常重要。在偏差和方差之间取得平衡,确保模型既不太简单(欠拟合),也不太复杂(过拟合)。拥有足够的训练数据、管理高维输入空间以及处理目标值中的噪声也是构建稳健模型的关键。
评估指标
评估指标在评估监督学习模型的性能中发挥着至关重要的作用。虽然上一章介绍了一些常见的指标,现在我们来探索它们在监督学习中的具体应用:
-
回归评估指标:
-
MAE:MAE 衡量预测值和实际值之间的平均绝对差异。它提供了对模型的平均预测误差的清晰解释,单位与目标变量相同。
-
均方误差(MSE):MSE 计算预测值与实际值之间的平均平方差。它强调较大的误差,并对异常值敏感。对 MSE 取平方根得到 RMSE,它与目标变量的单位相同。
-
R 方:R 方表示从输入特征中可以预测的目标变量方差的比例。其值范围从 0 到 1,值越高,表明模型对数据的拟合度越好。
-
-
分类指标:
-
准确率:准确率衡量的是正确预测与总预测之间的比例。它是一个简单直观的指标,但在处理类别不平衡时可能会产生误导。
-
精确率:精确率表示的是所有模型预测为正的结果中,实际为正的比例。它侧重于模型避免假阳性的能力。
-
召回率(敏感性):召回率衡量的是所有实际正例中被正确预测为正例的比例。它强调模型正确识别正例的能力。
-
F1 分数:F1 分数是精确率和召回率的调和平均数。它提供了一个平衡的模型性能衡量,尤其在处理不平衡类别时尤为有效。
-
ROC 曲线下面积(AUC-ROC):AUC-ROC 评估模型在不同概率阈值下区分各类别的能力。它在需要根据具体问题要求调整决策阈值时尤为有用。
-
通过理解和应用这些评估指标,企业可以获得有关其监督学习模型性能的宝贵见解,识别改进领域,并根据模型预测做出明智的决策。
监督学习的应用
监督学习已经在多个行业中得到了应用。它使得许多企业能够基于历史数据预测未来的结果。接下来我们将探索更多监督学习算法在不同行业中的实际应用案例。
消费品
在消费品行业,监督学习正在被应用于各种场景:
-
消费者趋势识别:通过分析来自电子商务平台、社交媒体、搜索引擎、销售数据和调查的数据显示,公司可以识别新兴的消费者趋势——例如,预计将来会增长的流行产品类别、成分、口味和声明。这有助于开发新产品或对现有产品进行调整,以更好地符合消费者的偏好,从而可能提高收入。
-
价格优化:通过考虑历史销售数据、竞争者定价和市场营销活动等因素,公司可以确定其产品的最佳定价,以最大化利润。
零售
在零售行业,监督学习正在改变业务的各个方面:
-
产品推荐:通过分析顾客的购买历史和产品相似性,零售商可以推荐可能吸引特定顾客的产品,从而潜在地提高销售额和顾客忠诚度。
-
顾客反馈分类:通过对来自各种渠道(如呼叫中心、社交媒体和网站表单)的顾客反馈进行分类,零售商可以识别常见问题和顾虑。这些信息可以用来优先处理客户服务工作,并解决需要改进的领域。
-
需求预测:通过分析历史销售数据,零售商可以预测未来产品的需求。这有助于优化库存管理,减少缺货或过剩库存,并提高整体运营效率。
-
劳动力优化:通过预测顾客流量和销售模式,零售商可以优化员工排班,确保在高峰时段有足够的人员覆盖,同时在较慢的时段减少劳动力成本。
制造业
监督学习正在通过多种方式改变制造业:
-
预测性维护:通过分析设备的传感器数据,监督学习算法可以预测机器可能出现故障的时间,从而实现主动维护并减少停机时间。
-
质量控制:通过分析产品数据并识别模式,监督学习可以帮助检测生产过程中的缺陷或异常,从而确保更高的产品质量并减少浪费。
这些只是监督学习在几个主要行业中应用的一些例子,它们帮助推动了商业价值。
思考在你感兴趣的行业中,监督学习的潜在应用场景。是否有现成的、常见的监督学习应用场景,其他公司已经成功地在你的行业中应用?
在评估组织内潜在的应用场景时,清晰地理解预期的收益和实施成本非常重要。通过明确的价值主张,监督学习可以帮助转变这些行业的各个方面,并推动成功的结果。
来源:www.qualifai.co.uk/post/ai-use-cases-in-consumer-goods-retail
总结
在这一章中,我们探讨了监督学习在各个行业中的应用,了解了监督学习的步骤,讨论了重要的注意事项,并简要介绍了不同的算法和评估标准。
通过这些知识,你现在已经具备了在业务中利用监督学习的能力。
但请记住,旅程并没有到此为止。在下一章中,我们将深入探讨无监督学习——机器学习的另一个令人兴奋的领域。
第八章:无监督机器学习
与更熟悉的监督学习(SL)不同,那里的数据已经整齐地标记,并且学习路径是预定义的,无监督学习(UL)则涉足未标记数据的领域,提供了发现隐藏模式和洞见的机会。
本章深入探讨 UL 领域,我们将学习一些 UL 的实际例子,UL 涉及的关键步骤以及聚类、异常检测、降维和关联规则学习等技术。
本章涵盖以下主题:
-
定义 UL
-
UL 中的步骤
-
聚类 - 揭示数据中的隐藏模式
-
关联规则学习
-
UL 的应用
定义 UL
UL 是一种机器学习(ML)类型,可以在没有任何先验训练的情况下发现数据中的模式。与其对应的 SL 不同,SL 中的模型使用标记数据进行训练,UL 算法处理未标记数据。其目的是对数据中的潜在结构或分布进行建模以了解更多信息。
想象一下,它就像一名侦探走进了一个犯罪现场,没有初始线索或嫌疑人。侦探的任务是揭示模式,找到隐藏的群体,或者建立场景中不同元素之间的关系。
UL 的实际例子
为了使这个概念更具体化,让我们看一些实际例子:
-
市场研究:一家公司希望更好地了解其客户群体,并根据不同的消费者细分来定制其营销策略。他们拥有大量的数据(例如客户数据或消费者调查数据),但没有具体的类别或标签。UL 可以帮助识别客户群体中的不同组或细分。公司可以更好地了解这些不同细分的人口统计学、行为和观点,从而制定更有针对性的营销策略。
-
消费品和零售:一家电子商务店铺希望了解其客户的购买行为。使用 UL,他们可以发现不同产品之间的关联。例如,他们可能发现购买某个品牌遥控器的客户也购买某种电池类型和包装规格,从而使电子商务店可以自动推荐消费者可能添加到订单中的商品。
-
供应商绩效分析:通过基于供货时间、货物质量、成本、客户支持和可靠性等绩效指标对供应商进行聚类,公司可以了解其供应链的优势和劣势。这有助于做出关于优先考虑哪些供应商或重新评估供应商的决策。
UL 是一种强大的工具,可以揭示数据中的隐藏模式和关联。它就像是你团队中的侦探,能够理解看似无关的信息。无论您是希望更好地了解您的客户、优化营销策略还是发现新机会,UL 都能提供宝贵的洞见。
现在我们已经对 UL 有了清晰的理解,接下来让我们更深入地探讨这个过程。在接下来的部分中,我们将探索 UL 中的各个步骤,从数据收集到结果解释。
UL 中的步骤
UL 是一种机器学习方法,它允许我们从没有标记响应的输入数据集得出推论。与 SL 不同,SL 有明确的目标或结果需要预测,而 UL 更侧重于发现数据中的隐藏模式和结构。那么这个过程是如何工作的呢?让我们将其拆解为易于理解的步骤:

图 8.1:无监督机器学习(UML)涉及的步骤
注
尽管图表呈现的是线性流程,但在实际操作中,这些步骤可能并不总是严格按照线性顺序进行。在整个过程中,数据评估等过程中获得的见解,可能会影响数据处理或模型选择的迭代和改进。
第一步 – 数据收集
与任何其他机器学习项目一样,UL(无监督学习)从数据收集开始。这可能是零售公司客户数据、医疗组织患者数据或科技公司用户行为数据。关键是收集尽可能多的相关数据,以帮助模型学习并做出准确的预测。
第二步 – 数据预处理
一旦数据收集完成,接下来需要对数据进行清洗和预处理。这一步包括处理缺失值、去除异常值和数据规范化。这一步非常重要,因为数据的质量直接影响模型学习的效果。
第三步 – 选择合适的模型
预处理之后,下一步是选择适合你数据的模型。有多种 UL 算法,例如 k 均值聚类、层次聚类和基于密度的空间聚类(DBSCAN)。模型的选择取决于当前的问题和数据的特性。
第四步 – 训练模型
现在进入激动人心的部分——训练模型。在这一过程中,模型通过没有监督的情况下学习识别数据中的模式和结构。例如,在市场调研的背景下,一个 UL 模型可以根据购买行为识别客户群体中的不同细分市场。
第五步 – 解释与评估
最后一步是解释结果并评估模型的性能。与有监督学习(SL)一样,无监督学习模型的性能也可以通过评估指标来评估。在 UL 中,评估指标可能有些棘手,因为我们没有明确的目标来与预测进行比较。然而,可以使用诸如轮廓系数(Silhouette Score)或戴维斯-博尔丁指数(DBI)来评估聚类质量。
在商业环境中,解释同样重要。例如,在零售环境中,了解不同客户细分的特征可以帮助为每个细分市场量身定制营销策略,最终提升销售额和客户满意度。
总结
到现在为止,您应该对无监督学习中的步骤有了一定了解,并知道它如何应用于商业背景。但我们仅仅是在表面上做了些探索。接下来,我们将深入探讨无监督学习中最常见的技术之一——聚类。敬请关注!
在下一节中,我们将深入探讨聚类算法的世界,了解它们如何工作、它们的应用以及如何将它们用于推动商业决策。
聚类——揭示数据中的隐藏模式
聚类是无监督学习工具包中的一项强大工具。那么它究竟是什么,又如何帮助商业决策者呢?让我们一起深入了解。
什么是聚类?
聚类是一种无监督学习(UL)方法,通过根据数据点的相似性将其分组。与有监督学习(SL)不同,后者有明确的目标或结果变量,UL(以及聚类)则完全是通过在没有预定义标签的情况下寻找数据中的隐藏结构和模式。
把聚类看作是一种发现和探索数据中未知领域的方法。这就像一个探险家在没有地图的情况下出发,只凭借他们的观察力去理解周围的景观。
聚类是如何工作的?
聚类过程涉及几个步骤:
-
特征选择
在此步骤中,您选择您认为有助于区分不同群体的数据特征或属性。例如,如果您正在对客户进行聚类,您可能会选择年龄、收入和购买历史等特征。
-
距离度量
-
要将相似的数据点聚集在一起,您需要定义“相似”的含义。这是通过衡量数据点之间的“距离”或“差异”来实现的。
-
一种常见的距离度量是欧几里得距离,即两点之间的直线距离。您可以把它想象成“鸟飞直线”的距离,而其他的距离度量,如曼哈顿距离或余弦相似度,则考虑数据的不同方面。余弦距离是两点之间夹角的余弦值。
-
-
聚类算法
-
一旦有了特征和距离度量,您就可以应用聚类算法将相似的数据点分组在一起。
-
不同的算法对簇的结构做出了不同的假设。以下是一些示例:
-
k-means 算法试图将 n 个观测值分成 k 个簇,其中每个观测值属于离其最近均值的簇。
-
层次聚类通过合并簇(聚合方法)或通过将数据集划分为更小的簇(分裂方法)来构建簇的层次结构。
-
DBSCAN 将紧密聚集在一起的点分为一组,并将处于低密度区域的点标记为异常值。
-
-
-
评估
-
聚类后,您需要评估簇的质量。这有助于确定您的聚类是否合理,并且对您的问题有用。
-
如 Silhouette Score 这类度量标准衡量一个对象与其所在聚类相比,与其他聚类的相似度。较高的轮廓系数表明该对象与其所属聚类匹配得较好,而与邻近聚类的匹配较差。
-
邓恩指数(DI)是另一个度量标准,它衡量最小的聚类间距离与最大的聚类内距离之间的比例。较高的 DI 值表示聚类效果更好。
-
记住——聚类是一种探索性技术。它可以帮助发现数据中的模式和结构,这些模式和结构你之前可能未曾意识到。尝试不同的特征、距离度量和算法,看看你能在数据中发现什么见解。
k-means 聚类
这里是一个名为 k-means 的聚类算法的示例:

图 8.2:k-means 聚类
在前面的图示中,我们来看看 k-means 过程前后每一侧的变化。
k-means 之前(左侧):
在这一侧,在执行 k-means 聚类之前,数据点分布在由 x1 和 x2 轴定义的二维空间中。这些轴可以是变量,比如顾客在商店的总消费(x1)和访问次数(x2)。
在这个阶段,数据是没有标签的,意味着我们尚不知道每个数据点属于哪个聚类。
k-means 之后(右侧):
在 k-means 聚类之后,数据点已根据它们之间的相似度分组为不同的聚类。这些聚类可以为数据中的潜在模式提供信息。
k-means 聚类过程
要执行 k-means 聚类,我们需要选择希望在数据中识别的聚类数量。假设我们已经将数据可视化,并决定 k=3,这意味着我们希望找到三个聚类。
k-means 算法遵循以下步骤:
-
初始化:从数据中随机选择 k 个点作为初始质心(每个聚类的中心)。
-
分配步骤:根据数据点与质心之间的距离,将每个数据点分配给最近的质心。
-
更新步骤:通过取分配给该聚类的所有点的均值,重新计算每个聚类的质心。
-
重复 步骤 2 和 3,直到质心不再显著移动,或达到最大迭代次数。这表示聚类已经稳定。
应用 k-means 算法后,数据点根据它们所属的聚类被赋予不同的颜色。在这个例子中,已经识别出三个聚类:聚类 A、聚类 B 和聚类 C。
k-means 算法广泛使用,因为它相对简单且高效。然而,它假定聚类是球形且大小均匀的,而在真实数据中这种情况并非总是成立。此外,需要事先指定聚类数 k,如果不知道最佳聚类数可能会成为一个缺点。尽管存在这些局限性,k-means 仍然是探索性数据分析(EDA)和各个领域模式识别的强大工具,我们将在接下来的部分中详细探讨。
聚类的实际应用
聚类在各行业中有广泛应用:
-
保险业中的风险评估:在保险行业,聚类算法可以根据各种风险因素对保单持有人进行分组。例如,聚类可以识别汽车保险中具有相似驾驶习惯的个体群体或寿险中的健康档案。这种分段允许保险公司根据风险水平更准确地制定其保单和定价策略,从而实现更高效的风险管理和定价策略。
-
公用事业中的能耗分析:公用事业公司可以使用聚类分析客户的能源使用模式。通过根据客户的消费模式、高峰使用时间和季节变化将客户分组成簇,公用事业公司可以更好地理解需求,规划能源分配,甚至设计定制的节能计划。这还有助于确定需要基础设施改进或能源节约措施最有效的地区。
-
数字媒体中的内容个性化:在数字媒体和娱乐行业,聚类用于分析用户的偏好和观看习惯。通过根据用户与不同内容类型(如电影、音乐或文章的流派)的互动情况对用户进行聚类,媒体公司可以提供个性化的内容推荐。这不仅增强了用户体验,还增加了用户的参与度,潜在地增加了订阅保持率。
聚类评估指标
作为决策者,了解您的聚类模型表现如何非常重要。以下是一些需要考虑的度量标准:
-
轮廓系数:轮廓系数度量了数据被分组成簇的好坏程度。它的取值范围是从-1 到 1。接近 1 的分数意味着数据点与同一聚类中的其他数据点非常相似,但与其他聚类中的数据点不相似,这是理想的情况。本质上,它衡量了每个数据点属于其所在聚类的适当程度:分数越高,每个数据点在自己的聚类中的适应度就越好,而不是其他聚类。这一分数有助于验证数据簇内的一致性,并可用于通过比较不同聚类数的分数来确定最佳聚类数。
-
DI:DI 是一个更细致的聚类质量衡量标准,它同时考虑了聚类的紧凑性和聚类之间的分离度。它通过检查不同聚类中点之间的最小距离以及同一聚类中点之间的最大距离来完成这一点。较高的 DI 值表明聚类更加紧凑(数据点聚集得更紧密)且分离良好(每个聚类之间的距离较远)。这个指标尤其适用于你希望确保聚类之间具有明显区别的同时,聚类内部也具有一致性。
请记住——选择度量标准应与你的商业目标相一致。例如,如果你的目标是为精准营销创建高度独特的客户细分群体,那么较高的轮廓系数将是一个理想的选择。
总结
聚类是一种强大的无监督学习技术,可以揭示数据中的隐藏模式和结构。通过了解其过程和应用,你可以利用它的力量做出更有根据的商业决策。
在下一节中,我们将探讨另一种关键的无监督学习技术:关联规则学习。这种方法可以帮助你发现大数据集中变量之间有趣的关系——这是任何数据驱动决策者的重要技能。
关联规则学习
假设你在超市购物,注意到购买尿布的人通常也会购买啤酒。这不是一个随机的观察,而是一个强大的无监督学习(UL)技术——关联规则学习的结果。它揭示了大数据集中的隐藏模式,使企业能够做出基于数据的决策。
什么是关联规则学习?
关联规则学习是一种机器学习方法,它识别出一组项目中经常出现的“如果-那么”关系,称为“规则”。就像是找出通常一起购买的产品之间的关系。这些规则可以用来预测未来的行为,从而帮助企业有效地制定营销策略。
Apriori 算法——一个实际的例子
在关联规则学习中,最常用的算法之一是 Apriori 算法。让我们通过一个实际的例子来解析它是如何工作的。
假设你是零售店的决策者,你希望了解客户的购买模式,以优化产品陈列并提升销售。以下是如何使用 Apriori 算法:
-
设置最小支持度 和置信度
这些是 Apriori 算法中的两个关键指标。支持度衡量一个项目集在所有交易中的频率,而置信度衡量当购买项目 X 时,购买项目 Y 的可能性。
-
生成 项目集
算法将首先创建一个符合最小支持度阈值的所有单个项目(项目集)列表。
-
创建规则
对于每个项目集,算法将生成符合最小置信度阈值的规则。
-
排名规则
规则随后按照提升度进行排序,提升度是另一项度量标准,用于衡量在购买了商品 X 后,购买商品 Y 的可能性有多大,相比于单独购买商品 Y。
通过遵循这些步骤,你可能会发现诸如{尿布} -> {啤酒}这样的规则,这表明购买尿布的客户也很可能购买啤酒。这一见解可以用于战略性地在商店中摆放商品,从而增加销售。
评估指标
在关联规则学习中,关键的评估指标是支持度、置信度和提升度。这些指标有助于识别最相关的规则。然而,重要的是要找到一个平衡点。高支持度可能导致显而易见的规则,而高置信度可能导致过于具体的规则。提升度则通过衡量规则的强度相对于项目集的随机发生来提供平衡。
总结
关联规则学习是 UL 工具包中的一项强大工具。它能够揭示大数据集中的隐藏模式,帮助企业做出战略决策。无论你是在零售、营销还是任何处理大数据集的行业,关联规则学习都能提供宝贵的洞察。
在下一节,UL 的应用中,我们将探讨 UL 的更多应用,深入了解这些技术如何在各种商业场景中发挥作用。
UL 的应用
正如我们所讨论的,UL 是一种不需要明确监督的机器学习方法,用于识别数据中的模式。它就像一名侦探,来到犯罪现场时没有目击者,但仍然必须从现有证据中拼凑出事件的经过。那么,这种“侦探工作”在商业世界中有哪些应用呢?让我们来探索一下。
市场细分
UL 最常见的应用之一是市场细分。拥有多样化客户群的企业使用聚类算法,根据客户的行为、人口统计特征和购买历史将其分组。这使得他们能够针对每个群体量身定制营销策略,从而最大化参与度和转化率。
以一家拥有数百万客户的全球零售品牌为例。他们可以使用 UL 将客户分为不同的群体,比如“年轻专业人士”、“父母”或“退休人员”,每个群体都有不同的购物习惯和偏好。公司随后可以为每个群体制定个性化的营销活动,提高客户满意度和忠诚度。
异常检测
UL 在检测数据中的异常值或离群点方面也非常出色。这在金融和网络安全等行业尤为重要,因为识别不寻常的模式可以防止欺诈或安全漏洞。
例如,一家银行可以使用无监督学习来监控交易,并标记出那些显著偏离客户常规行为的交易,如下图所示。无监督学习算法可以通过测量数据点与其分配聚类中心的距离来识别异常。距离聚类中心较远的数据点被认为是异常值。这可能表示存在欺诈活动,促使银行采取预防措施:

图 8.3:金融交易异常检测
特征提取
无监督学习(UL)也可以用于特征提取,通过减少数据的维度简化复杂数据集。这可以使其他机器学习(ML)任务变得更加高效和准确。
例如,一家汽车制造商可能拥有关于每辆车的数百个特征数据。无监督学习可以识别出最重要的特征,这些特征影响汽车的性能或受欢迎程度,从而让制造商在设计和营销过程中重点关注这些特征。
总结
我们已经了解到,无监督学习是一个多功能的工具,可以从数据中揭示隐藏的洞察,并且适用于许多商业用例,例如市场细分、异常检测和特征提取。
通过掌握无监督学习的能力,决策者可以利用它来揭示有价值的洞察,简化流程,并做出影响底线的基于数据的决策。
在本章中,我们已经涵盖了无监督学习的基本概念,概述了其关键步骤,并探讨了它在现实世界中的一些常见应用。我们还讨论了如何评估无监督学习模型在商业环境中的表现。
在这基础的机器学习知识上,下一章将更深入地探讨机器学习模型的解释与评估策略,帮助你掌握有效沟通洞察和依据机器学习项目做出决策的工具。
第九章:解释和评估机器学习模型
机器学习系统的承诺和潜力在于能够创建无需硬编码规则或启发式方法即可做出决策的系统,这是非常巨大的。然而,这个承诺往往并非那么简单,开发机器学习模型或领导开发团队时,需要非常小心,确保模型的准确性和可靠性。
在本章中,我们将探讨如何解释和评估不同的机器学习模型。
这是作为决策者,参与数据科学项目时,你能拥有的最重要的技能之一,甚至可能是最重要的技能。
尽管允许数据科学家自己评估模型并“批改自己的作业”可能很方便,但这是一个有风险的决定,最终不可避免地会导致问题。
本章内容包括以下主题:
-
我怎么知道这个模型是否准确?
-
理解评估指标
-
评估分类模型
-
解释机器学习模型的方法
我怎么知道这个模型是否准确?
作为决策者,你需要确保你所使用的机器学习模型能够提供可靠、准确的预测或洞察。然而,你如何才能确信呢?你应该使用哪些指标来评估你的模型?这些指标到底意味着什么?
让我们尝试理解评估机器学习模型时如何使用指标,并看看一些常见的例子。
在测试(留出)数据上评估
在我们深入了解不同类型的评估指标之前,你首先需要明白评估留出数据(即测试数据)的重要性。
模型评估的一个非常重要方面是使用留出数据(或测试数据)。这是模型在训练或验证过程中没有见过的数据子集。通过在留出数据上评估你的模型,你可以获得一个更真实的性能估计,反映其在现实世界中的表现。
这个测试数据应该遵循模型在实际生产环境中所遇到的数据分布。它不应当在训练过程中使用,甚至不能用来调整不同的模型超参数,并且需要小心避免数据在训练集和测试集之间,或者自变量与因变量(输出变量)之间泄漏。
只有通过一组好的测试数据,你才能准确评估模型,并对其在实际应用中的表现产生信心。
理解评估指标
在机器学习中,评估指标是用来量化模型预测质量的衡量标准。
如果能够正确理解和解释,它们可以为你提供一个衡量模型质量的标准,从而帮助你做出更明智的决策,判断是继续使用该模型,还是需要更多的工作来训练出一个更准确的模型。
机器学习中有许多评估指标,不同类型的机器学习模型需要不同的评估指标。
在考虑监督式机器学习时,我们在第七章中讨论过,模型分为两类:回归模型和分类模型,每种模型都有一套自己的评估指标。
首先,来看一些用于评估回归模型的常见指标。
回归模型评估
假设你是一个零售高管,正在预测下个季度的销售额。你已经为此目的建立了一个回归模型。那么,如何评估其准确性,以便你对下个季度的销售预测有一定信心呢?
三个常见的回归模型评估指标是 R-squared、均方根误差 (RMSE) 和 平均绝对误差 (MAE) 。我们将逐一讨论这些指标。
R-squared
R-squared 指标,也称为决定系数,是回归分析中的一种统计度量,表示模型解释的因变量方差的比例。简单来说,它衡量了回归预测值与实际数据点的拟合程度。
R-squared 公式
R-squared 的公式如下:
R² = 1 − SS res / SS tot
在这里我们看到以下符号:
-
SS res 是残差平方和,也叫做残差总和,衡量了模型预测的误差的变异性。
-
SS tot 是总平方和,衡量了因变量的总变异性。
平方和的计算如下:
-
SS res = ∑ (y i − ˆ y i )²
-
SS tot = ∑ (y i − _ y )²
在这些公式中,我们使用以下符号:
-
y i 是实际观察值
-
ˆ y i 是回归模型预测的值
-
_ y 是观察数据的均值
理解 R-squared
R-squared 为 1 表示回归预测完美地拟合了数据。
R-squared 为 0 表示模型没有解释响应数据围绕其均值的任何变化。
R-squared 计算示例
假设你在一家零售公司工作,并且拥有一个包含你公司某一热销产品过去六个月销售量的月度数据集,以及该回归模型对这些销售量的预测数据:
观察数据 (y):[725, 693, 654, 712, 722, 695]
预测数据 (ˆ y) :[720, 695, 660, 715, 724, 698]
首先,计算观察数据的均值 (_ y ):
_ y = 725 + 693 + 654 + 712 + 722 + 695 ________________________ 6 = 700.17
接下来,计算 SS res 和 SS tot:
SS res = (725 − 720)² + (693 − 695)² + (654 − 660)² + (712 − 715)² + (722 − 724)² + (695 − 698)² = 87
SS tot = (725 − _ y )² + (693 − _ y )² + (654 − _ y )² + (712 − _ y )² + (722 − _ y )² + (695 − _ y )² = 3442.8
R² = 1 − 87 / 3442.8 = 0.97
所以,在这种情况下,我们的 R-squared 值大约为 0.97,表示回归模型可以解释 97%的观测数据。这是一个较高的值,表明模型对数据的拟合非常好(这可能是由于过拟合,后续章节将讨论)。
在解释 R-squared 值时,并没有普遍的“好”R-squared 值标准,但理解值越接近 1,模型对数据的解释越好,这有助于比较不同模型。
两个更易解释的评估指标是RMSE和RAE,我们现在将讨论它们。
均方根误差
RMSE 是回归分析中广泛使用的指标,衡量模型预测值与观测值之间的误差的平均大小。它提供了预测误差的标准差的估计。
与 R-squared 不同,RMS 误差(RMSE)提供了一个绝对的测量尺度,能够直接解释模型预测精度,单位是感兴趣变量的单位。它特别适用于评估预测模型的精度,并且对大误差敏感,使其成为评估模型性能的有用工具。
RMSE 公式
计算 RMSE 的公式如下:
√ ____________ 1 / n ∑ i=1 n (yi − ˆyi)²
我们看到以下符号:
-
n 是观测值的数量
-
yi 是实际观测值
-
ˆyi 是模型预测的值
这个公式有效地衡量了实际值与预测值之间平方差的平方根,提供了清晰的模型精度度量。
RMSE 计算示例
继续使用 R-squared 示例中的零售商数据集,其中观测的月销售量(y)为[725, 693, 654, 712, 722, 695],预测的销售量(ˆy)为[720, 695, 660, 715, 724, 698],我们可以按以下方式计算 RMSE:
-
计算实际值与预测值之间的平方差。
-
计算这些平方差的平均值。
-
对这个平均值取平方根,得到 RMSE。
让我们计算这个数据集的 RMSE。根据 R-squared 计算结果,我们知道实际值与预测值之间的平方差之和为:
SSres = ∑ (yi − ˆyi)² = 87
此外,我们知道观测值的数量是 n = 6(即 6 个月)。
将这些数值代入 RMSE 公式,我们可以得到如下结果:
RMSE = √ ____________ 1 / n ∑ i=1 n (yi − ˆyi)² = √ 1 / 6 * 87 = 3.8
理解 RMSE 值
RMSE 值提供了对误差的平均了解,其单位与响应变量相同,因此更容易直观理解。较低的 RMSE 值表示模型与数据的拟合较好。
然而,像 R 方一样,RMSE 并没有绝对的“好”或“坏”阈值,因为它取决于数据的上下文以及其应用的具体领域。最好是进行比较性分析,以评估模型准确性的改进或跨不同模型或数据集的表现。
在我们的示例中,给定数据集的 RMSE 大约是 3.8。这意味着,平均而言,模型的预测与实际销售数据之间的差距为 3.8 单位。这看起来是一个非常准确的预测集合,但业务需求的背景以及它与其他模型的比较帮助我们更好地理解评估的准确性。
解释 RMSE 的实用提示
以下是一些解释 RMSE 的实用提示:
-
比较分析:使用 RMSE 来比较模型表现,特别是在调整模型或选择不同类型的模型时。
-
单位敏感性:记住 RMSE 对数据的尺度敏感,因此在解释时要考虑到你因变量的大小。
-
与其他指标互补:将 RMSE 与其他指标结合使用,如 R 方,以便更全面地了解模型的表现。虽然 RMSE 提供了响应变量单位内的准确性度量,R 方则提供了模型解释的方差的洞察。
现在,让我们考虑另一个回归模型评估指标:MAE。
平均绝对误差
MAE 是回归分析中用于量化预测值与实际观察结果之间误差平均大小的度量,且不考虑误差的方向。它计算预测值与实际值之间绝对差值的平均值,使其成为评估模型准确性的简单而清晰的指标。
MAE 公式
计算 MAE 的公式如下:
MAE = 1 / n ∑ i=1 n |y i − ˆ y i|
如我们之前所见,以下适用:
-
n 是观察值的数量
-
y i 是实际观察值
-
ˆ y i 是模型的预测值
该公式强调误差的绝对值,从而将所有误差视为等权重,无论其方向如何。
MAE 计算示例
继续使用之前为 R 方和 RMSE 计算所用的零售商示例,作为一个练习,你可以使用观察到的销售量数据(y)和预测数据(ˆ y)来计算 MAE,以便通过实际示例理解 MAE 是如何确定的。
提醒一下,差值的绝对值是该差值的正值。例如,|5 − 10| 的绝对值 = |− 5| = 5,另外,|7 − 4| 的绝对值 = |3| = 3。
该示例销售量数据及预测的 MAE 应该是这样的:
MAE = 3.5
看看你是否能利用先前提供的销售量值和预测来计算这个答案。
理解 MAE 值
MAE 提供了对平均误差大小的直观理解。较低的 MAE 值表明模型具有更好的预测精度。与 RMSE 不同,MAE 对异常值不太敏感,因为它在平均之前不会对误差进行平方处理。这一特点使得 MAE 在需要避免大误差的不成比例影响时尤其有用。
解读 MAE 的实用建议
以下是一些解读 MAE 的实用建议:
-
误差解读:使用 MAE 可以直接理解平均误差,其单位与数据相同。这使得它特别适合非技术型利益相关者。
-
异常值敏感性:考虑你的数据特性,判断是否需要强调或减少异常值的重要性。MAE 对所有误差一视同仁,使其成为对大误差具有鲁棒性的衡量标准。
-
互补指标:与 RMSE 一样,建议将 MAE 与其他指标一起使用,以全面了解模型的表现。MAE 在与 RMSE 结合使用时尤其有价值,因为这两个指标一起可以提供有关误差分布和异常值存在的洞察。
每个指标的使用时机和方法
现在我们已经了解了这些回归指标,值得讨论一下每个指标的使用时机以及它们如何互补:
R 平方:
何时 使用它:
-
它非常适合评估模型的解释能力
-
它对于将模型的表现与基准模型或同一数据集上的其他模型进行比较非常有用
如何 使用它:
更高的值(接近 1)表示拟合效果更好。
- 考虑将其与其他指标结合使用,以进行全面的模型评估
RMSE:
何时 使用它:
-
它最适用于那些大误差特别不可接受的模型
-
它适用于在不同模型或模型版本之间进行比较,以评估预测精度的改进
如何 使用它:
-
较低的值表示模型更准确
-
将其作为精度的主要指标,但要与 R 平方一起分析,以了解模型的拟合度和准确性
MAE:
何时 使用它:
-
当你需要一个简单易懂的度量标准时使用它
-
在异常值存在但不应过度影响模型误差指标的情况下使用
如何 使用它:
-
较低的值越好,表示预测值与实际值之间的契合度更高
-
考虑将 MAE 与 RMSE 结合使用,以便从多个角度了解误差分布并评估异常值的影响
实用的评估策略
以下是一些最受欢迎的策略:
-
平衡方法:利用这些指标的组合来获得模型性能的全面视图。R 平方提供了模型解释数据的能力的见解。RMSE 有助于识别错误的平均大小,并对较大错误施加惩罚。MAE 提供了一个简单的平均错误大小,方便了解典型错误的规模。
-
情境解释:始终将这些指标放在特定的业务或研究目标的背景下进行解释。一个良好的指标值在某个情境中可能是可接受的,但在另一个情境中可能不可接受,这取决于所需的精度或错误的成本。
-
对比分析:不仅要单独使用这些指标,还要在不同的模型或同一模型的不同迭代之间进行对比。这有助于选择最佳模型或优化模型以更好地达成目标。
-
错误敏感性:考虑预测任务的性质以及错误的后果。如果较大的错误问题更严重,那么 RMSE 将特别有用。如果一贯的错误,无论大小,都令人担忧,那么 MAE 将提供有价值的见解。
回归模型评估总结
通过合理利用 R 平方、RMSE 和 MAE,作为决策者,您可以在单一的准确性或拟合度维度之外,批判性地评估模型性能。这种多维度的评估方法使得回归模型的理解和评估更加细致,有助于选择、开发和优化模型,使其与特定的商业目标对齐。
现在我们已经了解了回归模型的评估指标,接下来我们将转向分类模型及其评估方法。
评估分类模型
假设您经营着一个拥有大量客户的业务,并且正在尝试预测哪些客户可能会在未来一年内停止使用您的服务。这是一个常见的二分类模型,称为客户流失模型;许多公司,无论是银行、电信公司、保险公司还是流媒体服务,都可以从了解哪些客户最有可能流失中受益,从而采取措施挽留这些客户。
例如,您可能已经在测试(留存)集上评估了您的客户流失模型的预测结果,比如上一年,您知道某个客户是否确实离开或留在公司。
重要说明
在这个例子中,我们将客户流失视为“正”结果,因为这是我们试图预测的结果(在此语境中,“正”或“负”与结果的情感或好坏无关)。
在评估模型预测结果时,您会观察到四种不同的结果类型:
-
真正例:真正例是指当我们的模型预测客户流失时,客户确实流失了(即,正确预测)。
-
假阳性:假阳性,也称为一类错误,是指我们的模型预测客户流失;然而,实际情况是客户没有流失。
-
真阴性:真阴性是指模型预测客户没有流失,实际情况也是客户没有流失(即另一个正确预测)。
-
假阴性:假阴性,也称为二类错误,是指我们的模型预测客户没有流失,但实际情况是客户确实流失了。
这四种结果中的每一种都能帮助我们了解模型(在测试集上的表现)在预测不同结果时的准确性。
我们可以使用不同的评估指标来计算这些结果的计数,稍后我们将展示这些指标。一种有用的方式是通过混淆矩阵来可视化分类结果:

图 9.1:二分类的混淆矩阵
为了加深我们对混淆矩阵的理解,接下来我们将把例子中的结果映射到混淆矩阵上:

图 9.2:客户流失二分类的混淆矩阵
从这些不同结果在测试(验证)数据集上的计数中,我们可以计算出有用的评估指标来评估机器学习分类模型。
让我们深入了解一些这些度量标准,并了解它们如何帮助我们理解模型的预测能力。
分类模型评估指标
首先,让我们考虑客户流失模型的例子。假设在我们的测试数据中,我们预测了 1,000 个客户的结果。在这些客户中,150 个被预测会流失,并且确实流失了(真阳性),而我们预测会流失的 50 个客户没有流失,仍然是客户(假阳性)。我们还预测了 600 个客户不会流失,结果他们确实没有流失(真阴性)。然而,我们预测不会流失的 200 个客户却流失了(假阴性):

图 9.3:客户流失二分类的混淆矩阵结果
从这些值中,我们可以计算出几个有用的指标,帮助我们评估模型。让我们看看这些评估指标的一些内容。
精准度、召回率和 F1 分数
我们将首先查看的度量标准是精准度。
精准度让我们评估我们的模型在做正预测时的精确度。
更正式地说,精准度是正确预测的正例数量与分类模型所做的所有正预测数量之比。
它回答了这样一个问题:在所有被我的模型标记为正例的实例中,实际为正例的有多少?
精确度计算
计算精确度的公式如下:
精确度 = 真阳性(TP) ____________________________ 真阳性(TP) + 假阳性(FP)
在我们的示例中,精确度的计算方式如下:
精确度 = 150 / (150 + 50) = 0.75
精确度的范围从 0 到 1,精确度为 1 表示模型在预测正向结果(即客户流失)时非常精准。在这里,精确度意味着当模型预测客户会流失时,实际上有四分之三的概率他们会流失。
理解精确度
精确度专注于模型在准确预测正类方面的表现。高精确度分数表示模型在其正类预测中的可靠性,即当它预测正向结果时,你可以相当有信心它的准确性。然而,精确度并没有考虑假阴性(实际上是正例,但被预测为负例),这部分会被另一个度量——召回率所涵盖,我们将在后续讨论。
何时使用精确度
下面是一些关于何时最好使用精确度的例子:
-
高假阳性代价:当假阳性的代价较高时,精确度尤其有用。例如,在电子邮件垃圾邮件检测中,要求高精确度,因为将重要电子邮件错误地标为垃圾邮件(假阳性)可能意味着错过关键信息。
-
不平衡数据集:在正例稀缺(不平衡数据集)的数据集中,精确度成为一个至关重要的度量,以确保模型做出的正向预测确实是正确的。
精确度是分类中的一个关键指标,帮助评估模型对正向预测的可靠性,在假阳性代价较大的情境下非常有用。
召回率
召回率,也称为敏感度或真正率,是一种关键的性能度量,用于分类任务中评估模型正确识别特定类别所有相关实例的能力。它在错过正例(假阴性)的代价较高的情况下尤为重要。
这是一个详细的解释:
召回率衡量的是模型正确识别的实际正例的比例。它回答了一个问题:在数据集中所有实际为正的实例中,有多少是被模型正确识别为正例的?
召回率公式
计算召回率的公式如下:
召回率 = 真阳性(TP) ___________________________ 真阳性(TP) + 假阴性(FN)
在我们的示例中,召回率将根据以下方式计算:
召回率 = 150 / (150 + 200) ≈ 0.43
这意味着我们的模型正确识别的流失客户不到一半。
理解召回率
召回率关注模型在数据集中找到所有相关案例的能力。高召回率得分表示模型能够有效捕获大多数正类实例,最小化假阴性的数量。然而,它并未考虑负类预测的正确性,这一点由特异性来涵盖。
在我们这个例子中,可能召回率比精确度更重要,因为我们可能希望准确识别所有即将流失的客户,以便采取补救措施尝试挽留他们,即使这会导致一些潜在的假阳性。
在这种情况下,有时可以通过改变模型预测真假结果的阈值,以牺牲精确度为代价提高召回率,或反之亦然。
了解对于你的业务案例,哪一个更重要:减少假阳性(即提高精确度)还是减少假阴性(即提高召回率)是很重要的。
何时使用召回率
下面是一些适合使用召回率的例子:
-
假阴性的高成本:在一些情况下,召回率至关重要,尤其是当漏掉一个正类实例比错误地将负类实例识别为正类更为严重时。例如,在医学筛查疾病时,高召回率是必要的,以确保尽可能多地识别出阳性病例进行进一步检测。
-
不平衡数据集:在正类稀有的数据集中,最大化召回率可以确保模型不会忽视那些少数存在的正类实例。
-
全面覆盖:当目标是确保不漏掉任何正类实例,即使以增加假阳性为代价时,这个指标也很有用。
实际应用
虽然召回率是评估模型识别正类案例全面性的一个重要指标,但仅仅关注召回率可能会导致模型将过多实例分类为正类(高假阳性),从而降低精确度。这就是为什么召回率通常与精确度一起使用,以了解在捕获所有正类实例和正类预测的准确性之间的权衡。
召回率和精确度之间的平衡通过 F1-score 来量化,F1-score 提供了一个单一的指标,用来评估当召回率和精确度都被认为重要时的模型表现,我们现在就来看看。
F1-score
F1-score 是一个有助于评估二分类模型的指标,尤其在精确度和召回率之间需要平衡的情况下特别有用。它在处理类别不平衡的数据集,或者当假阳性和假阴性的成本差异很大时,特别重要。
F1-score 的定义
F1 分数是精度和召回率的调和平均数,提供了一个单一的度量,平衡了模型正确识别正例的能力(召回率)和这些正例识别的准确性(精度)。与算术平均数不同,调和平均数对较小的数值赋予更高的权重,这意味着 F1 分数会更多地受到较低精度或召回率的影响。这使得 F1 分数成为衡量模型准确性的严格标准,尤其是在你需要在精度和召回率之间找到平衡时非常有用。
F1 分数的公式
计算 F1 分数的公式如下:
F1 分数 = 2 × 精度 × 召回率 _____________ 精度 + 召回率
理解 F1 分数
F1 分数的范围从 0 到 1,其中 1 表示完美的精度和召回率,0 表示最差。较高的 F1 分数表明模型在精度和召回率之间有良好的平衡,能够准确识别较大比例的实际正例,同时最小化假阳性和假阴性的数量。
何时使用 F1 分数
以下是 F1 分数最佳使用时机的一些例子:
-
类别不平衡:在某些场景中,当一个类别的实例远多于另一个类别,而且假阳性和假阴性的成本都非常关键时,F1 分数特别有用。
-
权衡分析:当你需要根据模型在精度(正向预测的质量)和召回率(正向预测的完整性)之间的平衡来评估模型时,这种方法是理想的。
-
比较模型评估:在比较模型并希望在精度和召回率之间找到平衡时,F1 分数提供了一个单一的度量来评估性能,从而简化了决策过程。
实际应用
F1 分数是模型评估过程中的一个重要工具,能够提供比单独评估精度或召回率更为细致的评估。然而,考虑到你的应用的具体背景,仍然非常重要。
在某些情况下,精度可能比召回率更重要,反之亦然。可能需要根据情况调整对其中一个的重视程度。
F1 分数假设精度和召回率同等重要,但这可能并不总是与商业目标或成本考量一致。
F1 分数是评估二分类模型准确性的强大指标,特别是在复杂场景中,其中既需要正确识别正例的能力,也需要保证这些识别的精确度。
除了评估机器学习模型的准确性之外,理解它们做出决策的方式也很重要。这通常是一个困难的过程,因为许多机器学习模型对用户来说可能看起来像一个“黑匣子”。然而,一些机器学习模型比其他模型更容易解释,并且即使对于那些不太容易解释的模型,也存在一些“可解释人工智能”领域的技术,旨在揭示这些不透明模型决策过程的一些技术。
解释机器学习模型的方法
将解释和解释机器学习模型的方法纳入您的分析工具包可以提高透明度,并提供有关机器学习模型决策过程的见解。
在一些行业中,可解释性是需要考虑的重要方面;例如,在敏感领域(如医学和法律),不透明的“黑匣子”模型在需要了解机器学习模型如何做出预测的推理背后的场景中是不足够的。
让我们首先看一个简单的例子,使用系数来理解回归模型。
理解回归模型 - 系数的力量
想象一下,您正在使用回归模型根据各种因素(如营销支出、季节性和产品价格)预测未来销售。在这种情况下,解释系数变成了解码每个因素对销售直接影响的方式。
营销支出的正系数表明增加营销预算可能会促进销售,而产品价格的负系数可能表明较高的价格可能会阻止客户购买。理解这些系数使您能够有效地优先考虑投资和战略举措。
解码分类模型 - 揭示特征重要性
在部署分类模型时,例如识别哪些客户最有可能流失或标记潜在的欺诈交易时,理解特征重要性至关重要。该方法根据它们对模型预测影响的程度对属性(例如客户行为模式和交易大小)进行排名。通过专注于最具影响力的因素,您可以更精确地制定干预措施,无论是通过个性化的留存策略还是有针对性的欺诈防范措施。
想象一下,您有一个机器学习模型,预测客户在接下来的一年中的预期支出。这个机器学习模型已经通过一系列不同的特征训练来预测客户的价值。通过生成特征重要性图(通过模型训练)可以解释哪些特征对模型在预测中更为重要:

图 9.4:特征重要性图
在前面的例子中,可以看到与客户之前交易次数和支出相关的特征在预测其下一年支出时对模型更为重要,这与页面浏览量和是否启用 cookies 等较为冗余的信息形成对比。
超越特定模型——使用 SHAP 值获得普遍洞察
无论是处理回归、分类还是任何其他预测模型,SHAP(SHapley Additive exPlanations)提供了一种强大的、与模型无关的解释方法。SHAP 值剖析每个预测,揭示每个特征的贡献。
例如,如果贷款申请被预测为高风险,SHAP 可以准确展示诸如申请人的信用评分、收入和贷款金额等因素如何影响这一评估。这种洞察力对于优化风险模型、解答客户关于决策结果的疑问,以及确保符合可解释性监管要求至关重要。

图 9.5:SHAP 值瀑布图
例如,在前面的图表中,展示了一个关于房价数据集的个体预测的 SHAP 图。此时,可以看到每个特征对最终预测的贡献。例如,可以看到房屋的年龄(HouseAge)对预测的房价产生了负面影响。
这是一个非常有用的工具,特别适用于解释那些本身并不具备可解释性的模型的单个预测。你可以想象,在某些情况下,可能需要对模型的决策进行审计或解释,例如在投诉或调查之后,没有像 SHAP 这样的工具,企业可能会面临一个困难的局面。
总结
本章关于解释和评估机器学习模型的内容强调了在数据科学项目中理解、解释和评估机器学习(ML)模型的关键重要性。它突出了机器学习系统在没有硬编码规则的情况下做出决策的潜力,这带来了重大的机会,但要实现这一潜力是复杂的,需要仔细评估模型以确保准确性和可靠性。
本章的主要收获包括以下几点:
-
在测试(保留)数据上评估机器学习模型是必须的,以便获得其在现实世界情境中表现的实际估算。
-
回归模型中诸如 R 方、RMSE 和 MAE 等各种评估指标的重要性,以及分类模型中的精度、召回率和 F1 分数。这些指标帮助决策者理解模型的准确性、拟合数据的效果及其预测能力。
关于特征重要性和解释预测的方法,如 SHAP 值,讨论了理解不同特征如何影响模型结果的工具。这对于解释复杂模型以及基于模型预测做出明智决策至关重要。
本章总结时强调,有效地评估和解释机器学习模型对于做出明智的商业决策至关重要。通过理解评估指标、使用保留数据以及解释特征重要性,利益相关者可以增强对模型准确性和实用性的信心。
在进入下一章《机器学习中的常见陷阱》时,我们在评估和解释模型的基础上,探讨了机器学习项目中常见的挑战。这包括过拟合、欠拟合、数据质量、维度灾难、模型复杂度以及模型准确性与可解释性之间的权衡。理解这些挑战对于开发稳健、可靠且与业务目标一致的有效机器学习解决方案至关重要。
下一章将深入探讨这些挑战,提供有关如何应对机器学习项目复杂性的见解,并提出减轻常见陷阱的策略,从而提升机器学习应用在实际应用中的成功和影响力。
第十章:机器学习中的常见陷阱
想象一下:一位经验丰富的数据科学经理刚刚推出了一款新的推荐引擎来促进产品销售。该模型在测试中表现出色,但现在,客户兴趣却冷淡。问题是什么?模型过于精确地模拟了训练数据——早期采用者的独特口味,并未反映更广泛客户的偏好。
机器学习(ML)承诺带来令人难以置信的成果,但它也极易让人跌倒。根据一项对 500 多位开发者进行的调查(https://www.civo.com/newsroom/ai-project-failure),超过一半(53%)的受访者已经放弃了 1%到 25%的机器学习项目,另外 24%的受访者则放弃了 26%到 50%的项目。只有 11%的开发者表示他们从未放弃过项目。第一课是:机器学习不是一个只需要数据的魔法算法。它关乎理解哪种模型适合任务,确保你的数据真正传授正确的知识,并了解什么时候你的模型可能会出错。
本章涵盖以下主题:
-
理解复杂性
-
脏数据,损坏的模型——数据的数量和质量如何影响机器学习
-
克服过拟合和欠拟合
-
精通过拟合和欠拟合以实现最佳模型性能
-
训练-服务偏差和模型漂移
-
偏差和公平性
理解复杂性
首先,让我们承认机器学习是一个复杂的领域,它不仅仅是处理数字。它涉及复杂的算法、大量的数据以及解释和应用结果的能力。
想象一下,你是一个消费品公司的市场营销主管。你可以访问大量客户数据,并希望利用机器学习(ML)预测哪些客户最有可能购买你的新产品。
听起来很简单,对吧?但在许多地方,复杂性可能会悄然出现。我们将简要解释一些关键的考虑因素,然后再详细探讨每一个:
-
数据质量与数量:你的数据是否干净,并且能够代表你的目标群体?你是否拥有足够的高质量数据?
-
模型选择与调优:你是否为你的数据选择了合适的模型?你是否正确训练或微调了你的模型?
-
过拟合和欠拟合:你的模型是否过于复杂,仅仅记住了训练数据(过拟合)?还是它过于简单,错过了重要的模式(欠拟合)?
-
训练-服务偏差:你的模型在现实世界中的表现是否和在训练数据上表现的一样好?
-
模型漂移:随着底层数据的变化,你的模型会随着时间推移如何表现?
-
公平性:你的模型是否对某些群体存在偏见?它是否根据性别、年龄和种族等特征公平地对待不同的子群体?
这些是训练机器学习模型时需要牢记的一些关键因素,初看上去可能会让人感到有些压倒性。然而,通过逐一探讨每个问题,并结合一些具体的例子,到了本章结束时,你应该会更清楚该关注哪些问题。你还将了解你自己或你的团队可以采取哪些步骤来缓解将机器学习模型部署到生产环境中的挑战。
脏数据、损坏的模型——数据的数量和质量如何影响机器学习
在训练或使用机器学习和人工智能模型时,数据不仅是资产,也是成功的基础。没有高质量、具代表性的数据,即使是最复杂的机器学习模型也无济于事。但当你没有足够的数据,或者你拥有的数据存在偏见或不准确时,会发生什么呢?
以一个假设的例子为例,许多银行使用机器学习来标记潜在的欺诈交易并根据交易信息封锁账户。假设该模型仅在某些类型的账户上进行训练,例如有更多常规、小额交易的活期账户。假设银行决定将该模型也应用于储蓄账户,这些账户可能有较大且较少见的交易。此时,模型可能会错误地将大多数典型的储蓄账户交易标记为误报,导致客户感到沮丧,客服团队也感到压力山大。
以另一个例子为例,假设有一个基于大型语言模型的客户服务聊天机器人。假设这个聊天机器人主要在客户表达沮丧或不满时进行训练。该聊天机器人学会将大多数客户查询与负面情绪关联。结果可能是,聊天机器人变得过于道歉或防御,即使在中立的对话中也会如此。它可能误解简单的请求,曲解客户的意图,从而阻碍有效的客户支持。
在这一部分中,我们将探讨影响机器学习模型的数据数量和质量的常见因素,以及如何应对这些问题。
足够训练数据的重要性
想象你是一个教练,在为篮球比赛训练一支队伍。如果你只训练他们投罚球,那么当面对比赛中的其他方面(如防守或三分投篮)时,他们会表现得很吃力。类似地,使用不充分或不具代表性数据训练的机器学习模型,也难以做出准确的预测。
例如,在市场研究和消费品等行业,如果一个模型只用城市消费者的数据进行训练,那么当应用于农村消费者时,模型可能表现不佳。
对于许多机器学习模型,特别是深度学习模型,数据的数量至关重要。
缓解挑战
为了缓解这个挑战,我们必须采取以下措施:
-
收集足够的数据量:这可能看起来像是一种蛮力方法,但在许多情况下,提升机器学习模型,特别是深度学习模型准确度的最佳方式,是增加模型训练所用数据的数量。实现这一目标的一种方法是通过在更长时间内收集数据。
-
收集多样化的数据:确保你的训练数据涵盖模型可能遇到的广泛场景。这可以通过扩展数据获取的来源来实现,可以是内部数据源(第一方数据)或外部数据源(第二方和第三方数据)。然而,重要的是要扩展数据覆盖面,只包括与你模型在生产环境中会接触到的相关数据。例如,在前面的聊天机器人案例中,扩展数据以涵盖所有类型的客户互动可能有助于提升模型的准确性和可靠性。然而,添加无关的聊天机器人数据,例如来自不同公司或行业的数据,可能会产生相反的效果,导致模型的可靠性下降。
-
使用数据增强技术:数据增强是调整或增加你已有数据样本的过程。这些技术可以通过创建现有数据点的变体,人工扩大你的数据集。例如,在图像识别中,一种常见的数据增强方法是通过旋转、缩放、模糊和裁剪现有图像来增加训练数据的量。
-
生成合成数据:合成数据是指人工创建的数据,能够紧密模拟现实世界数据的特征和模式。当现实世界的数据稀缺、敏感或难以获取时,这种数据尤其有益。以大型语言模型(LLM)为例,这些模型可以用来生成逼真的合成数据,以便为特定任务对模型进行微调。LLM 擅长创建基于文本的数据,并可以微调以产生多样化和有针对性的变体,从而填补原始数据集的空白,确保模型更好地为各种现实世界场景做好准备。
处理不良数据质量
较差的数据质量,如缺失值、不一致性和明显错误,会显著阻碍机器学习模型的表现。想象一下,如果你用一本充满错别字和不正确公式的数学教材教别人数学——他们将难以正确理解概念。同样,基于有缺陷数据训练的模型将产生不可靠的结果。
以医疗技术行业中的一个图像识别模型为例,该模型被训练用来从 MRI 扫描中检测肿瘤。如果这个模型训练所用的图像标签不准确,可能会导致灾难性的后果,例如肿瘤未被检测到,或错误地标记为假阳性。在像这样的关键应用中,确保数据质量非常高是最重要的考虑因素之一,甚至可以说是最重要的。
再举一个例子。一个自然语言处理模型可能经过微调,用于社交媒体平台上的内容审核。如果训练数据标注不准确(例如,讽刺性的言论被标记为仇恨言论),或者缺乏多样的示例,模型就会遇到困难。这可能导致假阳性,合法内容可能被错误删除,从而限制言论自由。此外,数据质量差还可能导致模型产生假阴性,真实的仇恨言论可能会漏网,使平台对用户不安全。
缓解挑战
缓解数据质量差挑战的方法有很多,我们将在本节中描述这些方法。然而,通常,解决数据质量问题的最佳地方是在数据源头。
例如,考虑一个被训练用来在客户关系管理(CRM)系统中对客户进行分类的机器学习模型,判断其是否可能流失。客户及其所有信息是否已准确输入 CRM 系统?表单上是否有任何验证机制,确保未输入无效数据,或者是否有些客户的重要数据缺失?业务团队在输入数据时是否有流程可遵循?如果数据质量差或缺失数据,是否可以由业务团队手动修复,或者由数据科学团队自己修复?
这都是一些琐碎的工作,但如果等到数据进入数据科学家和机器学习工程师手中时,已经是低质量数据,那么通过我们将在这里解释的自动化过程也只能做得有限。正如那句著名的谚语所说,垃圾进,垃圾出。
以下是数据科学家、工程师和分析师可以用来缓解数据质量差的技术:
-
数据清洗:数据科学家可以在训练机器学习模型之前,应用多种技术来清洗数据,包括以下几种:
-
缺失值:决定是删除缺失数据的条目,还是用估算值(例如均值或中位数)替代缺失值
-
重复数据:删除冗余的条目,以免扭曲结果
-
不一致性:纠正格式错误(例如日期格式),并标准化条目以便模型更好理解(例如将所有地址转换为小写字母)
-
-
数据验证:数据科学家可以应用技术来验证数据,并在训练机器学习模型之前排除或修复无效数据。同样重要的是,在模型投入生产后(即训练后和推理期间),也要应用相同的数据清洗和验证过程:
-
范围检查:确保数值在可接受的范围内(例如,某人的年龄不能是负数)
-
格式检查:验证数据是否符合特定格式(例如,电话号码、邮政编码)
-
跨领域检查:确保相关数据字段的一致性(例如,如果国家是“美国”,州字段应该与美国各州的列表匹配)
-
结论
糟糕的数据会破坏你的机器学习模型,这一点非常简单。解决这些问题对成功至关重要,我们已经介绍了一些你可以在下一个数据科学项目中利用的技术。这些技术包括通过扩展训练数据的范围和覆盖面来改善数据收集、增加数据量以及在适当情况下合成数据,还包括通过数据清理和验证来提高数据的质量。这些艰苦的努力将为你的项目奠定成功的基础。数据的重要性无法过分强调,甚至有一个日益增长的方法叫做数据中心人工智能(datacentricai.org/),这是系统性地工程化构建人工智能系统所使用的数据的学科。
接下来,我们将探讨另一个关键挑战:确保你的模型不仅仅是记住训练数据,而是能够学习如何推广到新的情况。这意味着要理解和避免过拟合与欠拟合。
当我们进入下一个部分时,我们将探讨机器学习中的一个关键方面——过拟合和欠拟合。我们如何确保模型不仅在当前数据上表现良好,而且在新的、未见过的数据上也能表现得很好?
克服过拟合和欠拟合
为模型选择合适的复杂度是一项微妙的平衡工作。如果模型过于复杂,可能会对训练数据过拟合,这意味着它在训练数据上表现很好,但在新的、未见过的数据上表现较差。另一方面,如果模型过于简单,可能会欠拟合数据,错过重要的模式,导致不准确的预测。
想象一下,你是一个市场研究员,试图预测消费者趋势。一个过拟合的模型可能会捕捉到过去趋势中的每一个微小波动,但无法推广到未来的趋势。而一个欠拟合的模型可能会完全错过重要的趋势。
导航训练-服务偏差和模型漂移
在理想的世界里,你的模型在现实世界中的表现应该和在训练数据上表现得一样好。但现实中很少发生这种情况。这种差异被称为训练-服务偏差。
此外,随着基础数据随时间变化,你的模型性能可能会下降。这就是所谓的模型漂移。
假设你正在开发一个机器学习模型,用于预测电信公司客户流失。在模型训练阶段,你使用的数据集包括客户信息,如人口统计数据、使用模式和客户服务互动。然而,当模型部署到生产环境(服务阶段)时,你发现供给模型的数据管道缺少一些重要特征,比如最新的客户服务互动数据。这种训练数据和服务环境中数据之间的不一致性是典型的训练-服务偏差问题。
在这种情况下,由于模型是在比服务环境中可用的数据集更全面的数据集上训练的,模型在生产中的表现可能会受到影响。服务阶段缺少的特征可能导致预测不准确,从而做出次优的决策。
为了解决训练-服务偏差问题,确保训练数据与服务环境中可用数据的一致性至关重要。这可能涉及定期化数据管道、监控数据质量以及实施数据验证检查,以便尽早发现任何不一致之处。
确保公平性
最后,确保模型公平性并避免歧视某些群体是很重要的。这尤其具有挑战性,特别是当训练数据本身存在偏见时。
比如,假设你是一个人力资源经理,使用机器学习筛选求职者。如果你的训练数据存在对某些群体的偏见,模型可能会不公平地拒绝这些群体中的合格候选人。
在本节中,我们探讨了机器学习为何难以实现,讨论了数据质量与数量、过拟合与欠拟合、训练-服务偏差、模型漂移和公平性等挑战。但不要气馁。在接下来的章节中,我们将深入分析这些挑战,并提供实际的解决策略。
精通过拟合和欠拟合,实现最佳模型性能
在机器学习中,获得可靠预测通常是主要目标。过拟合和欠拟合是实现这一目标的两个常见障碍。我们将详细分析这些概念,并概述构建更好模型的具体方法。
过拟合——当你的模型过于具体时
想象你的模型是一个准备考试的学生。当学生完美地记住了练习题,但在实际考试中难以回答同类问题的变化时,就会发生过拟合。类似地,过拟合模型过于关注训练数据的细节,包括随机噪音,而无法把握整体情况。
现实世界的后果
-
市场调研:一个过于依赖现有客户数据的模型无法预测具有不同特征的新客户行为。
-
零售推荐:一个仅基于忠实客户购买历史训练的系统,在试图吸引新顾客时,可能会提供不相关的建议。
欠拟合——当你的模型过于简单时
将欠拟合想象为一个仅掌握最基础概念的学生。不管考试题目是来自练习题还是新内容,他们都将不及格。同样,一个欠拟合的模型会忽略数据中的重要关系,整体表现较差。
现实世界的后果
- 销售预测:忽略季节性或营销推广等因素的模型会始终低估或高估潜在销售额
发现问题
-
警示信号:在训练数据上表现优秀,但在新数据上表现糟糕,是过拟合的典型迹象
-
警告信号:如果你的模型在训练数据和新数据上都表现不佳,可能是由于欠拟合
构建更好模型的解决方案
以下是一些构建优秀模型的解决方案:
-
更多数据 = 更强的基础:更大、更具多样性的数据集帮助模型识别真实的趋势,而不是训练样本中的随机波动。
-
特征选择 = 激光聚焦:仔细选择最相关的数据特征。去除那些只会增加混乱而非提供洞察的特征。
- 示例 – 预测客户流失:假设你正在预测电信公司客户的流失。你的数据集包括了相关特征,如每月费用和客户服务电话,但也有一个无关的特征:最喜欢的冰淇淋口味。包含“最喜欢的冰淇淋口味”会增加噪声,使算法更难识别重要的模式。通过仅选择相关特征,你可以创建一个专注的模型,专注于推动流失的关键因素。记住,更多数据不一定更好。质量和相关性才是最重要的。
-
正则化 = 防护栏:正则化是一种技术,在训练过程中对模型添加惩罚,以防止其变得过于复杂并过度依赖训练数据的特殊性。
- 示例 – 预测房价:在构建房价预测模型时,正则化起到了保护作用。它避免模型过度关注训练数据中一些特殊且昂贵的房屋,这些房屋具有独特的特征。通过添加这些惩罚,正则化帮助模型更好地对新、未见过的数据进行泛化,而不是被训练数据的细节所困扰。
-
交叉验证 = 现实检查:交叉验证是一种方法,帮助评估模型在新数据(即未见过的数据)上的表现,模拟现实世界的条件。
- 例子——电影评论的情感分析:当构建一个预测电影评论情感的模型时,交叉验证提供了一个现实检查。你将数据拆分成多个子集,而不是在所有数据上训练模型并假设其表现良好。你在某些子集上训练模型,并在其他子集上进行测试。通过多次这样做,你可以更实际地估计模型在新数据上的表现。这有助于你发现模型是否仅仅是在记忆训练数据,而不是学习如何推广到新的评论。
观察欠拟合与过拟合之间权衡的一个方法是查看偏差-方差权衡图:

图 10.1:偏差-方差权衡
图表(图 10.1)展示了模型的复杂度、泛化能力和在未见数据上的准确性之间的关系。对于专注于业务的决策者,尤其是在数据科学、机器学习和人工智能领域,这是一个非常重要的概念,因为它直接影响到他们模型的实际表现。
理解坐标轴
-
X 轴(模型复杂度):这表示你的模型的灵活性或复杂性。较简单的模型位于左侧,而更复杂的模型位于右侧。
-
Y 轴(误差):这表示模型的整体误差,它是两个关键因素——偏差和方差——的结合。
图表的关键部分
让我们通过一个实际例子来探索这个图表。假设你正在构建一个模型,用来预测哪些客户可能停止使用你的产品或服务(流失):
-
偏差:这指的是模型本身引入的系统性误差。它是模型预测与实际值之间的持续差异。高偏差意味着无论具体的数据点如何,模型总是会偏离正确答案。一个非常简单的模型可能只关注一个特征,比如客户的平均购买金额。这个模型很可能有高偏差,因为它忽略了许多复杂的因素,这些因素也在推动客户流失(例如,客户支持体验,竞争者产品)。
-
高方差(过拟合):一个非常复杂的模型,具有大量特征,可能会完美地拟合训练数据。然而,它可能会捕捉到与你的历史数据无关的模式或随机波动,从而导致对新客户的预测不稳定(就像飞镖四处乱飞)。这个模型在训练数据上表现良好,但无法推广并可靠地预测新的流失客户。
-
最佳平衡:理想的模型应该足够复杂,能够捕捉到驱动客户流失的关键因素,同时不会对训练数据的具体细节过拟合。这个平衡将导致最低的整体误差率(图表中的总误差),成功地识别出那些真正面临流失风险的客户。
权衡
这个图表的关键要点是偏差和方差之间的权衡:
-
更简单的模型(左侧):这些模型往往具有高偏差(系统性地偏离目标)但低方差(预测一致)。这是因为它们不够灵活,无法捕捉数据中的所有复杂性。
-
更复杂的模型(右侧):这些模型往往具有低偏差(更好地拟合数据),但具有高方差(对于相似数据点,预测波动较大)。这是因为它们更加灵活,能够很好地拟合训练数据,但也有可能会记住数据中的噪声或无关模式,导致在新数据上表现不佳。
寻找最佳模型
目标是找到在偏差和方差之间取得平衡的最佳模型复杂度,以实现最低的总误差。这通常通过正则化等技术实现,正则化帮助约束模型的灵活性,减少方差,同时避免引入过多的偏差。
与商业决策的相关性
对于以业务为中心的决策者来说,理解偏差-方差权衡是非常有用的,因为这有助于你做到以下几点:
-
评估模型的泛化能力:你的模型在面对它从未见过的真实数据时,表现如何?
-
对模型复杂度做出明智选择:平衡准确预测的需求与过拟合和差的泛化能力的风险。
-
避免常见陷阱:了解欠拟合(高偏差)和过拟合(高方差)的迹象,可以帮助你诊断和解决模型的问题。
通过理解这种权衡,你可以做出更好的决策,确保你的数据科学项目和模型具有较好的泛化能力,并且对你的业务产生积极影响。
结论
最佳的机器学习模型并非完美地模仿过去,而是揭示帮助你做出准确预测的模式。通过理解和应对过拟合和欠拟合,你将使模型能够提供推动更好商业决策的洞察力。
随着我们深入探讨,我们将研究机器学习的另一个重要方面:训练-服务偏差和模型漂移。这些概念将进一步帮助你在业务中部署高效且可靠的机器学习模型。
训练-服务偏差和模型漂移
作为决策者,理解将机器学习模型部署到生产环境中的潜在陷阱非常重要。训练-服务偏差和模型漂移是其中的两个挑战。让我们一起探索这些概念,理解它们的影响,并学习如何减轻它们的影响。
训练-服务偏差
训练-服务偏差发生在用于训练模型的数据与用于提供预测的数据不一致时。这可能导致模型性能显著下降。比如,你是一家零售巨头,你已经训练了一个基于历史数据预测客户购买行为的模型。如果你的模型是用在线销售数据训练的,但却用于预测店内销售,偏差可能会导致预测不准确。
减轻训练-服务偏差
我们如何应对这个问题?以下是一些解决步骤:
-
确保一致性:确保用于训练和服务的数据是一致的。这包括数据源、特征提取方法和数据分布等方面。
-
监控性能:定期监控模型的性能。如果性能突然下降,可能是由于训练-服务偏差。
-
定期更新模型:使用最新的数据更新你的模型,确保其保持相关性和准确性。
模型漂移
模型漂移是指由于基础数据分布的变化,模型性能随时间发生变化。例如,一个营销公司使用模型预测消费者趋势。如果消费者行为发生突然变化,模型的预测可能会随着时间的推移变得不那么准确。
缓解模型漂移
解决模型漂移包括以下几个方面:
-
监控模型性能:密切关注模型的性能指标。如果模型性能逐渐下降,可能是由于模型漂移。
-
重新训练模型:定期使用新数据重新训练模型,确保它们跟上最新趋势。
-
使用强健的模型:某些模型比其他模型更容易受漂移影响。使用能够处理数据分布变化的强健模型可以帮助缓解这个问题。
关键要点
在本节中,我们探讨了部署机器学习模型时常见的两个陷阱:训练-服务偏差和模型漂移。我们学习了如何识别这些问题,并了解了缓解其影响的步骤。通过确保训练和服务数据的一致性、监控模型性能以及定期更新模型,我们可以确保它们保持有效且相关。
在接下来的内容中,我们将探讨机器学习模型的另一个关键方面:偏见与公平性。这将帮助我们理解模型如何可能对不同子群体产生偏见,以及如何确保我们的模型公平。
偏见与公平性
在机器学习中,偏见和公平性不仅仅是伦理考虑,它们是影响机器学习模型有效性的关键因素。我们已经遇到了偏见与欠拟合和过拟合的关系。接下来,我们将探讨模型如何完全且准确地代表数据中的所有群体——例如,数据集中不同的客户群体。
理解偏见
机器学习中的偏见指的是模型由于训练数据或模型设计的局限性,系统性地产生错误。产生这种偏见的原因可能有多种,包括以下几种:
-
训练数据不足或不具代表性:如果你的数据集未能充分捕捉现实世界的复杂性和多样性,模型可能会做出不准确的假设。
-
数据收集过程中的固有偏见:如果数据收集方式中存在历史偏见,模型可能会延续这些偏见。
示例 —— 贷款审批中的偏见
假设有一家银行使用机器学习模型来批准或拒绝贷款申请。如果用于构建该模型的训练数据中,某一特定群体的成功还款示例较少,模型可能会更频繁地拒绝该群体的申请,而不考虑申请人的个人信用状况。这就是偏见的一个例子。
理解公平性
公平性是一个更广泛的概念,关注模型决策的影响。如果一个模型系统性地偏袒某一群体而非另一群体,即使这种偏见本身并非故意的,仍然被认为是不公平的。
示例 – 广告中的公平性
想象一家在线零售商使用机器学习模型来决定将哪些客户作为促销对象。如果该模型系统性地排除某些群体的客户,导致他们无法收到促销优惠,那么这可能被认为是不公平的,从而错失机会并可能疏远顾客。
减少偏见并确保公平性
这里是一些解决这些问题的关键策略:
-
代表性数据:确保你的训练数据尽可能地代表真实世界中的群体。这可能涉及收集更多的数据,使用过采样等技术来补充代表性不足的群体,并且仔细处理现有数据集中的固有偏见。
-
关注公平性的算法:探索使用专门设计的算法,这些算法在训练过程中考虑公平性。
-
监控与评估:使用评估指标,如差异影响和机会平等差异,来衡量模型预测中潜在的偏见和差异。定期监控这些指标,识别公平性可能受到影响的领域。
关键要点
通过理解偏见和公平性,你可以采取措施构建既准确又公正的机器学习模型。这不仅出于伦理原因重要,也能确保你的模型做出有利于所有利益相关者的明智商业决策。
总结
在本章中,我们探讨了训练和部署机器学习模型中的一些常见问题,包括训练数据不足、数据质量差、过拟合和欠拟合、训练-服务偏差以及模型漂移。我们还探讨了偏见和公平性的概念、它们对商业结果的影响,以及如何减轻这些问题。
随着我们不断前进,请记住,数据科学不仅仅是构建模型,更是确保这些模型是可靠、公平并能造福所有利益相关者。
在下一章中,我们将探讨你可能遇到的不同类型的数据科学项目,并探讨如何应对它们。
第三部分:领导成功的数据科学项目和团队
本部分探讨了数据科学中的领导力方面,包括项目结构、团队组成、管理策略,以及持续学习和跟进新兴技术的重要性。本部分包含以下章节:
-
第十一章**,数据科学项目的结构
-
第十二章**,数据科学团队
-
第十三章**,管理数据科学团队
-
第十四章**,继续作为数据科学领导者的旅程
第十一章:数据科学项目的结构
数据科学项目在范围、目标和交付物方面可能会有很大差异。从探索性数据分析和构建报告、仪表板,到开发并将机器学习和人工智能模型部署到生产环境——数据科学项目的结构和方法需要根据具体情况量身定制。
在本章中,我们将探讨常见的数据科学项目类型及其相关流程和交付物。这将使你作为数据科学项目的领导者,具备规划和确定数据科学项目范围的知识,并了解在研究、开发、测试和部署数据产品中涉及的关键步骤。
到本章结束时,你将能够完成以下任务:
-
确定、优先排序和构建数据科学用例
-
区分不同类型的数据科学项目及其交付物
-
确定数据科学项目的范围和计划,并创建有用的文档,如需求文档、项目计划和测试策略
-
理解与数据科学项目相关的研究和开发过程
-
认识到在交付或部署数据产品之前彻底测试它的重要性
-
在生产环境中安全地部署并监控数据产品
无论你是在管理一个短期的数据科学项目,还是开发一个基于机器学习的软件应用程序,理解本章所涵盖的关键阶段和最佳实践,将帮助确保你的数据科学项目能够顺利成功。
各种类型的数据科学项目
在讨论数据科学项目的结构之前,让我们先来了解你可能遇到的不同类型的数据科学项目。数据科学、机器学习或人工智能项目的类型可能会大幅改变项目的结构方式。
数据科学项目的三个最广泛的类别如下:
-
数据产品
-
报告和分析
-
研究与方法论
在这些类别下有各种不同的项目,但这种区分非常有用。因为数据产品是部署并随着时间推移进行维护的,而一次性的报告、分析或研究则有有限的生命周期。
让我们更详细地了解这些内容。
数据产品
数据产品是可以利用数据、机器学习算法和人工智能技术,提供有价值的功能、洞察力或自动化决策能力的软件应用或系统,面向最终用户或其他系统。
这些产品旨在部署、维护并随着时间的推移不断改进。
以下是数据产品的一些关键特征:
-
它们由数据驱动,并通过机器学习或人工智能算法提供动力
-
通过功能、预测、推荐或自动化为用户持续提供价值
-
它们需要持续的维护、更新和监控,以确保性能和可靠性
-
它们通常涉及与其他系统或 API 的集成
-
可扩展性和效率是重要考虑因素
举个具体的例子,数据产品可能是食品送货应用中的交货时间预测模型。该模型可以通过 API 提供从下订单到送达用户食物所需时间的估计,根据餐馆到客户位置的距离、司机的位置和可用性以及交通状况,在送货过程中持续提供这些信息。在使用 Uber Eats、DoorDash 或 Deliveroo 等应用时,您可能已经看到了其中一个模型的输出。
正如你可以想象的那样,部署一个能够实时为成千上万客户提供服务的评分模型将是一个巨大的工程项目。大多数数据产品并不复杂;然而,这个例子的重点在于强调数据产品需要设计、工程、测试和维护的层次,而报告和纯研究则不需要。
数据产品不是“发布即忘记”;它们在部署后必须得到支持和维护。因此,请从最终目标出发,考虑如何以及由谁来维护一个成功的产品,以服务用户。
本章将主要关注如何规划和交付数据产品,我们稍后将在本章中介绍。但在此之前,让我们看一下您可能会遇到的另外两种数据科学项目的广泛类别。
报告和分析
报告和分析项目专注于分析和从数据中得出洞察,以支持决策或跟踪业务绩效。这些项目通常涉及收集、处理和可视化数据,为利益相关者提供有意义和可操作的信息。
报告和分析的一些关键特征如下:
-
重视数据探索、分析和解释
-
利用统计方法、数据可视化技术和商业智能工具
-
旨在揭示数据中的模式、趋势和关系
-
支持数据驱动的决策和战略规划
-
可交付成果通常包括报告、演示或交互式可视化
这些可交付成果中的许多是一次性的、临时性的输出,具有有限的生命周期,因此您可以相应地规划项目。这可能按以下结构进行:
-
收集需求:收集业务和数据需求,并规划分析或建模方法。
-
收集数据:从内部或外部来源收集所有相关数据。
-
处理数据:清理和整理数据,使其符合分析和/或建模所需的结构。
-
分析与建模:进行数据分析和统计或机器学习建模,以提供对数据的洞察和理解,从而支持业务需求。
-
报告:利用数据可视化技术制作报告交付物,无论是报告、演示文稿还是互动可视化,目的是以一种易于观众解读的方式总结数据,并提供可操作的洞察和建议。
这个结构可能并非严格线性,可能在每个阶段都会有数据收集的迭代,或从业务中收集额外的需求或输入,直到最终交付物呈现出来。
最终的交付物应强调可操作的洞察和建议,并鼓励最终用户根据你有信心的洞察采取行动。通常,报告只是被浏览而没有采取进一步行动,这对业务的价值有限。
最后,让我们来看看第三种类型的数据科学/机器学习项目:研究与方法论。除非你在学术界或专注于推动机器学习或人工智能领域发展的研究公司或实验室工作,否则你可能不会遇到这种类型的项目。在行业中,许多公司依赖经过验证的技术或模型来开发他们的应用场景。
研究与方法论
研究和方法论项目旨在通过开发新的算法、技术或方法来推动人工智能、机器学习或数据科学领域的发展。这些项目通常涉及实验、基准测试和评估不同的方法,以突破可能性的边界并改进现有技术。
研究和方法论项目的一些关键特点如下:
-
强调创新、实验和推动当前技术的极限
-
涉及开发新的算法、模型或优化技术
-
需要对基础的数学和统计原理有深入理解
-
通常涉及比较分析和评估不同的方法
-
旨在通过出版物、开源代码或研究论文为科学界做出贡献
这种类型的项目可能遵循一个包含以下阶段的方法:
-
文献综述:审查现有研究,识别其中的空白或改进的领域。
-
假设制定:制定明确的研究问题和假设。
-
方法论开发:设计并实现新的算法、模型或技术。
-
实验设置:准备数据、定义评估指标并设置实验。
-
评估与分析:进行实验,分析结果,并将其与最先进的模型进行比较。
-
文档编写与传播:撰写研究论文、准备演示文稿,并与公司或更广泛的研究社区分享代码和发现。
现在我们已经看到了数据科学项目的主要类型,让我们重点关注旨在交付数据产品的数据科学项目的结构和阶段。这是公司和团队常常犯错的地方,因为设计和开发机器学习或人工智能解决方案充满了挑战。规划项目时需要具备适当的专业知识和资源至关重要。
数据产品的阶段
在领导新机器学习或基于人工智能产品的开发时,你将遇到几个阶段,理解这些阶段非常有用。本节将为你提供框架和工具,帮助你与机器学习和人工智能团队合作,开发成功的数据产品:

图 11.1:数据科学产品的阶段
虽然数据科学产品的阶段可以大致概括为识别、评估、规划、构建和维护,但需要注意的是,现代产品开发通常遵循敏捷方法论。实际上,这些阶段并不是严格的顺序进行,而是迭代和相互关联的。
团队通常在短期冲刺中工作,持续收集反馈、重新评估优先级并调整计划。这种方式提供了更多的灵活性、更快的迭代速度,并能在需要时做出调整,最终有助于开发出更符合用户需求和商业目标的产品。
因此,尽管这个框架提供了每个阶段关键考虑因素的有用概述,但请记住,这个过程比线性更具周期性,后期阶段的洞察往往会反过来影响和完善早期的假设和决策。
识别用例
在数据科学项目生命周期中,一个常被忽视的阶段是花时间识别“正确”的用例。许多组织从错误的前提开始,想要“做人工智能”、“做机器学习”或“做数据科学”,却没有明确的商业目标。这些公司最终投入了大量时间、精力和人力资源,却很少获得实际价值。
这可能看起来显而易见;然而,许多组织未能通过数据科学、机器学习或人工智能项目实现投资回报(ROI)。导致这种情况的一个重要因素是开发的解决方案未能对企业的盈利产生实质性影响。说起来容易,做起来难。
在识别正确的用例并预测其财务影响时,投入足够的时间和精力,这是任何数据科学项目的基础步骤。如果做到正确,你将为项目成功奠定基础。如果做错了,你可能会浪费时间和资源在无法带来实际价值的项目上。
在这个背景下,用例是指数据科学技术应用于解决商业问题或抓住机会的具体实践。然而,重要的是要认识到,数据科学并不总是最佳的解决方案。在许多情况下,传统的商业智能、软件工程,甚至简单的流程改进可能更为有效。
为了识别既具有技术可行性又能提供清晰商业价值的用例,最好遵循一种结构化的方法:
- 理解价值链:从了解你组织内的关键职能和流程开始。识别数据科学/机器学习/人工智能可以潜在提供价值的领域,无论是通过降低成本、增加收入、提高效率,还是降低风险。解决方案最终应该通过以下一种或多种方式直接或间接地为商业底线作出贡献:

图 11.2:数据科学用例目标
在这个阶段,开发一个潜在的数据科学、机器学习或人工智能用例的长清单。
尝试在不同的情境下估算每个用例的财务价值,例如通过基本情境、更乐观的情境和更悲观的情境。
- 与利益相关者沟通:与商业利益相关者进行研讨会和访谈,获取关于他们挑战、痛点和数据科学、机器学习/人工智能机会的见解。询问数据可用性、当前的分析能力和决策过程:

图 11.3:识别用例的示例商业问题
- 框定数据科学用例:根据这些洞察,开始框定与关键商业目标一致的潜在用例。重要的是,这些用例需要被框定为数据科学、机器学习或人工智能可以现实地解决的问题。邀请数据科学/机器学习专家来验证技术可行性。
评估用例
一旦你确定了一个长长的用例清单,你可以评估每个用例,决定团队应在哪些方面集中精力,并且能够自信地做出决策:
-
根据价值和可行性优先排序:收集每个潜在用例的信息,包括数据需求、技术需求和商业价值估算。利用这些信息,根据用例的潜在影响和成功的可能性进行优先排序。
-
原型设计和测试:在完全投入一个用例之前,如果有时间,可以通过使用样本数据开发一个快速原型,测试其技术可行性和潜在价值。如果原型表现出前景,可以批准该用例进行全面开发。
以下是一个示例用例的模板评分卡,你可以利用它来评估你已识别的用例:

图 11.4:用例评估模板评分卡
通过遵循这种务实的用例识别方法,你可以生成与业务目标紧密相关、具有清晰可衡量 KPI 的数据科学项目管道。这有助于避免常见的陷阱,比如追求那些不适合数据科学或不太可能产生有意义结果的用例。
在接下来的部分中,我们将探讨在识别出一个有前景的用例后,进行数据科学项目范围界定和规划的最佳实践。
规划数据产品
在规划数据产品时,顶尖的人工智能/机器学习团队摒弃了大量文档和僵化的长期计划。相反,他们采用更加敏捷、迭代的方法,强调协作、适应性以及增量交付价值。实践中是这样的:
-
确定清晰、可衡量的目标:
-
与利益相关者合作,制定数据产品的具体、可实现的目标
-
确保这些目标与组织的整体战略保持一致
-
聚焦于结果,而不仅仅是输出
-
-
建立一个技术精湛、跨职能的团队:
-
确定项目所需的关键技能(例如,机器学习/人工智能、数据工程、领域专长、UX/UI 设计和开发)
-
组建一个精简、敏捷的团队,具备这些技能的混合
-
引入团队外部的专业知识和见解,无论是来自客户、其他业务部门,还是外部顾问
-
-
评估数据和技术需求:
-
确定支持产品所需的数据和基础设施
-
规划数据治理、安全性和隐私
-
选择能够快速实验和迭代的工具和平台
-
-
制定路线图:
-
将项目拆分为可管理的小阶段,每个阶段都有明确的交付成果
-
根据功能和任务的价值及可行性来进行优先级排序
-
保持开放的心态,根据反馈和学习调整计划
-
-
培养协作的工作环境:
-
使用工具来促进规划和沟通,包括团队文档空间(如 Notion)或沟通渠道(如 Slack)
-
根据需要召开会议,但避免为了开会而开会,或引入官僚主义,这会在没有明确利益的情况下拖慢团队进度
-
在团队成员之间推广同行评审文化,例如数据科学家、机器学习工程师和数据工程师,共同提高团队工作的质量
-
鼓励开放沟通、持续反馈,并专注于迭代改进
-
实际案例——在营销领域规划一个数据科学项目
让我们考虑一个实际案例,规划一个营销行业的数据科学项目。一家公司希望利用数据科学优化其数字广告策略:
-
问题定义为“我们如何利用数据科学提高数字广告活动的效果?”相关利益方包括营销团队、销售团队和公司高层。
-
交付物是一个最小可行产品预测模型,能够预测不同广告策略的效果。所需的数据包括历史广告数据、销售数据和客户人口统计数据。
-
成功的衡量标准将是通过优化的广告策略带来的销售增长。约束条件包括 6 个月的时间表、技术团队的预算以及广告测试的预算,并且需要遵守数据隐私法规。
考虑你可能需要的团队、你和你的团队需要访问的数据和系统,以及团队如何部署和维护解决方案。
通过专注于规划的核心要素并拥抱敏捷思维,人工智能/机器学习团队可以有效地规划和执行数据产品开发,同时保持对变化的响应能力。重点是合作、灵活性,以及持续为用户和利益相关者提供价值。
开发数据产品
在开发数据产品时,遵循最佳实践可以决定解决方案是否真正创造价值,还是会让人失望。既然你对数据科学有一些了解,你明白数据产品能够推动业务成果的潜力,但你也知道,开发过程并不总是简单直白的。
在这一部分,我们将介绍数据产品开发的关键阶段,并探讨顶尖人工智能/机器学习团队在创建成功解决方案时所依赖的最佳实践。
数据准备与探索性分析
开发数据产品的第一阶段涉及获取和分析产品所依赖的数据。我们在第二章和第三章中介绍了许多此阶段的技术。
数据准备与探索性分析阶段包括以下任务:
-
确定并获取相关的数据来源
-
执行数据清洗、集成和预处理
-
进行探索性数据分析,以获取见解并指导特征工程
-
建立数据验证和质量控制流程
-
为训练和推理开发数据管道
最佳实践
投资于构建强大、可扩展的数据管道,以满足数据产品的需求,并确保训练与推理之间的数据质量和一致性。
模型设计与开发
第二阶段通常涉及机器学习和人工智能工程师最感兴趣的部分,因为他们有机会在设计和开发(训练)模型方面展现自己的专业技能。
这可能包括执行以下操作:
-
根据问题类型和数据特征选择合适的算法和建模技术
-
设计模型架构和超参数
-
使用适当的编程语言和框架实现模型
-
进行模型训练、调优和验证
最佳实践
采用交叉验证、正则化和集成方法等技术来提升模型性能和泛化能力。
评估与测试
在将模型部署到生产环境之前,确保彻底评估和测试模型是最重要的一步。
我们在第九章中讨论了许多评估指标。
以下是该阶段可能包括的一些步骤:
-
定义相关的评估指标和测试程序
-
使用适当的验证技术(例如,留出验证和 k 折交叉验证)评估模型性能
-
进行彻底的测试以验证模型行为并识别潜在问题
-
进行敏感性分析和压力测试,以确保模型的稳健性
最佳实践
使用定量指标和定性分析的结合,全面了解模型性能和局限性。
部署并监控数据产品
最后,您的团队进入了将模型部署到生产的阶段。这应该是每个成功的机器学习或人工智能产品项目的目标,但必须谨慎操作。需要遵循几个步骤和最佳实践:
-
集成:将模型集成到更广泛的系统架构中。这涉及确保模型能够与系统的其他组件(如数据库、API 和用户界面)进行通信。
-
部署基础设施:建立部署流程和基础设施。这包括设置必要的服务器、容器或云服务来托管模型。自动化工具,如 Docker、Kubernetes 和特定云服务,可以简化这一过程。
-
在线测试:除了离线评估和测试外,部署到生产之前一个重要的过程是在线测试——即在部署之前对实时数据进行测试。有多种策略可以实现这一目标:
-
A/B 测试:如果您想比较两个或更多模型的性能,可以通过将流量随机分配到不同模型之间并测量关键指标来进行 A/B 测试。您应当使用 A/B 测试来进行模型选择和迭代改进。
-
金丝雀部署:经过成功的影子测试后,执行金丝雀部署,将模型发布给少量用户或流量,同时将大多数用户保持在现有系统上。监控模型的表现,并收集来自这一有限发布的反馈。
-
-
部署策略:将模型部署到生产环境是一个关键步骤,任何机器学习或人工智能模型开发的目标应是成功部署。经过评估和测试后,您可以直接将模型部署到生产环境。然而,为了增加额外的安全层级,蓝绿部署是您可以实施的一种策略,以确保连续性:
- 蓝绿部署:如果金丝雀部署成功,继续进行蓝绿部署。设置两个相同的生产环境(蓝色和绿色),将新模型部署到一个环境中,同时将现有系统保留在另一个环境中。将流量切换到新环境,并监控是否有任何问题。如果出现问题,快速切换回先前的环境。
-
监控和日志记录:为已部署的模型实施全面的监控和日志记录。这包括跟踪模型性能指标、系统健康状况和用户交互。设置警报以便在发现任何问题或异常时通知团队。
-
反馈循环:建立反馈循环,持续从生产系统收集数据和洞察。这些数据可以用来重新训练和更新模型,确保模型随着时间的推移保持准确和相关。
创建良好的控制测试是部署过程中的一项挑战性但至关重要的任务。它需要精心设计,以确保测试能准确反映现实世界的条件并提供有意义的洞察。
记住,具体的部署步骤和最佳实践可能会根据您组织的基础设施、需求和约束有所不同。重要的是将这些通用指南适应到您的具体背景。
最佳实践
采用 DevOps 和 MLOps 实践,简化数据产品在生产环境中的部署和管理。
数据产品开发的一般最佳实践
为确保成功的结果并保持高标准,顶级的数据科学、人工智能和机器学习团队在整个开发过程中都会采用以下跨领域的最佳实践:
-
版本控制 和可重复性:
-
实施强大的版本控制系统来管理代码、数据和模型。对于代码版本控制,Git 及其衍生软件如 GitHub、GitLab 和 Bitbucket 是常用的工具。对于数据和模型版本控制,像数据版本控制(DVC)和 MLflow 等软件也是跟踪数据、模型工件和模型训练实验的常用方法。
-
通过记录依赖项、配置和实验设置来确保可重复性。
-
使用容器化技术创建可重复的开发和部署环境。
-
-
清晰的文档和 知识管理:
-
为数据、代码和模型保持清晰和全面的文档
-
建立知识共享实践,如维基、教程和内部论坛
-
鼓励团队成员记录他们的工作、洞察和经验教训
-
-
持续集成和持续 交付(CI/CD):
-
实施 CI/CD 流水线,以自动化构建、测试和部署过程
-
通过自动化测试、代码审查和静态代码分析确保代码质量
-
实现模型和应用程序快速、可靠地部署到生产环境中
-
-
遵守负责任的机器学习/人工 智能原则:
-
优先考虑机器学习/人工智能开发中的公平性、透明性和问责制
-
进行彻底的测试和验证,以识别并减轻模型中的偏差
-
提供模型决策的清晰解释,并在必要时确保可解释性
-
为人工智能的开发和部署建立治理框架和伦理指南
-
-
以用户为中心的方法:
-
将最终用户置于所有开发工作的核心
-
收集用户反馈,并将其纳入迭代开发过程
-
持续与用户验证解决方案,确保其满足他们的需求和期望
-
通过遵循这些最佳实践并根据具体情境进行调整,您可以应对数据产品开发中的许多复杂性。始终专注于为用户提供价值,拥抱持续学习和改进的文化,并促进一个鼓励创新和卓越的数据科学、人工智能和机器学习项目的协作环境。
在遵循所有开发和部署成功解决方案的流程和最佳实践之后,还有一个不容忽视的重要步骤:评估业务影响。
作为数据科学从业者,我们的工作只有在为我们服务的组织带来实际利益时才有价值。在开发这些解决方案时投入的时间、精力、成本和资源必须带来实际且可衡量的结果;否则,工作就只是一项技术性练习。
在下一部分,我们将探讨评估业务影响的方法,并讨论扩大解决方案影响力的策略。
评估影响
除了评估模型的准确性,还必须衡量数据产品的业务影响。这涉及到选择与组织目标和任务相符的相关指标或关键绩效指标(KPIs)。
这些指标或 KPIs 应提供清晰的图像,展示解决方案如何影响业务的底线。
让我们来看一些跨不同行业的数据科学、机器学习和人工智能解决方案的具体业务例子,以及如何衡量业务影响。
制造业中的预测性维护
-
应用场景:在制造公司内实施机器学习模型预测设备故障并优化维护计划
-
指标/KPI:为了衡量制造业的影响,可以跟踪以下指标:
-
降低计划外停机时间
-
提高设备可用性和运行时间
-
降低维护成本
-
提高整体设备 有效性(OEE)
-
银行业的欺诈检测
-
应用场景:部署人工智能驱动的欺诈检测系统,识别和防止欺诈交易
-
指标/KPI:银行欺诈检测模型的 KPI 可以包括以下内容:
-
降低欺诈交易
-
提高欺诈检测准确率
-
降低假阳性率
-
通过预防欺诈活动节省成本
-
电信行业的客户流失预测
-
应用场景:使用机器学习模型预测客户流失并实施有针对性的保留策略
-
指标/KPI:与定制的流失与保留解决方案相关的 KPI 可能包括以下内容:
-
降低客户流失率
-
提高客户保持率
-
提高客户生命周期 价值(CLV)
-
增加来自保留客户的收入
-
零售中的需求预测
-
应用场景:利用机器学习算法预测产品需求并优化库存管理
-
指标/KPI:为了衡量需求预测模型的影响,可以跟踪以下内容:
-
降低库存持有成本
-
降低缺货和销售损失
-
提高库存周转率
-
提高预测准确性
-
电子商务中的个性化推荐
-
应用场景:实施机器学习驱动的推荐引擎,为客户个性化推荐产品
-
指标/KPI:为了跟踪电子商务推荐引擎的效果,可以跟踪以下指标:
-
提高转化率
-
提高平均订单 价值(AOV)
-
提高客户参与度和忠诚度
-
增加交叉销售和追加销售机会
-
能源领域的预测性维护
-
应用场景:应用机器学习技术预测设备故障并优化能源生产设施的维护
-
指标/KPI:
-
降低计划外停机时间
-
能源生产效率提升
-
降低维护成本
-
提高安全性和合规性指标
-
快餐餐厅的员工优化
-
应用场景:利用机器学习算法优化餐厅的人员配置和排班
-
指标/KPI:
-
提高员工利用率和生产力
-
降低加班和代理费用
-
提升患者满意度和护理质量
-
提高员工满意度和保留率
-
聊天机器人辅助的客户支持
-
应用场景:实施大语言模型(LLM)驱动的聊天机器人,为客户提供即时支持并处理常见查询
-
指标/KPI:
-
降低客户支持成本
-
客户响应时间的改善
-
提升客户满意度
-
转接率和人工代理的生产力
-
扩展支持覆盖范围
-
这些额外的例子进一步说明了数据科学、机器学习和人工智能在各个行业中的广泛应用,以及可以用来衡量其影响的具体业务指标和 KPI。
通过将数据驱动的举措与关键业务目标对齐,并跟踪相关指标,组织可以展示其数据科学/机器学习/人工智能投资的实际价值和投资回报率。
想一想你所在组织或行业的核心业务指标和 KPI。哪些指标和 KPI 与企业的最终利润最为相关?
哪些使用案例将对这些 KPI 和整体业务表现产生最大的影响?
通过持续监控和报告这些业务影响指标,数据科学团队可以展示他们为组织带来的价值,并为其项目的投资提供正当理由。这不仅有助于确保对持续项目的支持,还为在整个企业扩展成功解决方案的影响铺平了道路。
总结
在本章中,我们涵盖了构建数据科学项目的基本要素,重点是开发有影响力的数据产品。
我们讨论了三种项目类别,强调了选择与组织目标一致且有潜力带来实际价值的使用案例的重要性。
我们提供了一个框架,用于基于可行性和影响评估及优先排序使用案例,确保你将资源投入到推动业务发展的项目中。
我们还探讨了数据产品开发的关键阶段,从数据准备到模型设计、评估和部署,同时遵循最佳实践,如负责任的人工智能原则、清晰的文档、版本控制和 CI/CD 实践。
最后,我们讨论了通过选择与公司目标一致的相关指标和 KPI 来评估数据产品的业务影响。通过展示数据科学项目的实际价值和投资回报率,你可以确保持续的支持,并扩大你解决方案在组织中的影响力。
现在你应该更清楚如何构建和运营一个数据科学、机器学习或人工智能项目。
然而,真正的实践经验无可比拟。当你将这些概念应用到你的项目中时,你将遇到独特的挑战和机遇,这将进一步提升你的技能。拥抱这些经历,从成功和失败中学习,并不断调整你的方法。
在下一章,我们将重点讨论如何建立和管理一个高效的数据科学团队,同时探索关键角色、技能、协作策略,以及培养创新和持续学习文化的最佳实践。
第十二章:数据科学团队
随着数据科学从一个新兴领域发展成为关键的商业职能,组织已经意识到,组建一个梦幻团队并不像雇佣一堆博士并指望一切顺利那样简单。
注意事项
数据科学不是一个人的努力,而是一个团队运动。
决策的质量不仅仅取决于个人的卓越,还取决于团队的集体智慧。
这需要一组富有远见的才能组合,从数据工程师的技术能力到产品经理的商业头脑,所有成员共同努力提取洞察、构建稳健的解决方案并推动影响。
通过与数据科学领导者和从业者的互动,我观察到,最有效的团队是那些拥抱认知多样性和心理安全原则的团队。它们将拥有不同背景、技能组合和思维方式的个体聚集在一起,为创新和问题解决创造了肥沃的土壤。它们还营造了一种环境,让团队成员感到有权利发言、挑战假设并从失败中学习。
在接下来的章节中,我们将深入探讨组成高效数据科学团队的关键角色,结合现实世界的例子和研究支持的洞察。我们将探讨每个角色如何参与决策过程,从框定问题到传达结果,以及这些角色之间的互动如何成就或破坏一个项目。
本章内容包括以下主题:
-
组建你的数据科学团队——关键角色与考虑事项
-
中心辐射模型
-
招聘的艺术
-
高效数据科学团队的运作方式
组建你的数据科学团队——关键角色与考虑事项
构建一个成功的数据科学团队需要精心策划的角色和技能组合。自从公司开始将数据科学、机器学习和人工智能引入其业务流程和产品以来,许多角色已发展壮大。
现在有许多不同的、 sometimes 重叠的角色,并非所有这些角色对每个团队都是必要的。
这里是组建团队时需要考虑的角色的细分,以及来自领先科技公司的洞察。
数据科学家
数据科学家是许多数据科学团队的核心,专注于将商业问题框定为机器学习任务,开发预测模型,并从数据中提取有价值的洞察。
职责
-
将商业问题框定为机器学习任务
-
开发预测模型
-
从数据中提取有价值的洞察
技能与知识
-
扎实的统计学、编程和领域知识基础
-
在某一领域的深厚专业知识与对整个数据科学流程的广泛理解
行业洞察
谷歌的数据科学团队强调“T 形”技能的重要性,每个成员在某一领域拥有深厚的专业知识,并对整个数据科学流程有广泛的理解。
机器学习工程师
机器学习工程师弥合了数据科学与软件工程之间的鸿沟,确保机器学习模型能够高效部署、扩展,并集成到生产环境中。
职责
-
在生产环境中部署和扩展机器学习模型
-
弥合数据科学与软件工程之间的鸿沟
-
确保模型高效、可靠,并能与现有系统无缝集成
技能与知识
-
精通机器学习和软件工程
-
了解生产级模型部署和扩展
行业洞察
Netflix 开创了“机器学习平台工程师”这一概念,负责构建工具和基础设施,以加速机器学习模型的部署。
数据工程师
数据工程师负责设计、构建和维护支持整个数据科学管道的数据基础设施,确保数据的高效收集、存储和处理。
职责
-
设计、构建和维护数据基础设施
-
确保数据的高效收集、存储和处理
-
使数据科学家能够专注于分析和建模
技能与知识
-
精通数据管道开发和管理
-
了解数据存储、处理和检索技术
行业洞察
Uber 在其数据工程能力上进行了大量投资,构建了一个强大的数据平台,支持组织内部的实时决策。
MLOps 工程师
MLOps 工程师专注于简化机器学习模型的端到端生命周期,从实验到生产部署和监控,确保机器学习系统的可靠性、可扩展性和性能。
职责
-
精简机器学习模型的端到端生命周期
-
构建和维护用于机器学习模型持续交付的基础设施和流程
-
确保机器学习系统的可靠性、可扩展性和性能
技能与知识
-
机器学习运维和基础设施的专业知识
-
了解 DevOps 实践和工具
行业洞察
Uber 还在构建一个名为 Michelangelo 的 MLOps 平台上进行了大量投资,以支持其数据科学工作。
分析工程师
分析工程师将软件工程的最佳实践应用于数据管道和分析模型的开发,专注于构建和维护支撑商业智能和报告的数据基础设施。
职责
-
将软件工程的最佳实践应用于数据管道和分析模型
-
构建和维护支持商业智能和报告的数据基础设施
-
确保数据的可靠性、一致性和可访问性,支持决策制定
技能与知识
-
数据工程和数据分析的专业知识
-
了解软件工程的最佳实践
行业洞察
Airbnb 在开发分析工程角色方面走在了前沿,认识到需要一种专业技能来支持其数据驱动的文化。
软件工程师(全栈、前端、后端)
软件工程师在构建和维护利用机器学习和人工智能的 web 应用程序基础设施中发挥着重要作用,确保性能顺畅并提供个性化的数据驱动用户体验。
职责
-
构建并维护 web 应用程序基础设施
-
将机器学习模型集成到应用程序中
-
确保性能顺畅并提供个性化的数据驱动用户体验
技能和知识
-
精通 web 开发(全栈、前端或后端)
-
了解将机器学习模型集成到应用程序中的知识
行业洞察
Spotify 和 Netflix 等公司强调了软件工程与数据科学团队紧密合作的重要性,以提供个性化的数据驱动用户体验。
产品经理
产品经理定义数据驱动产品的愿景和路线图,优先排序功能,收集需求,并确保团队为最终用户提供价值。
职责
-
定义数据驱动产品的愿景和路线图
-
优先排序功能并收集需求
-
确保团队为最终用户提供价值
技能和知识
-
商业敏锐度和以客户为中心的方式
-
了解数据驱动产品的技术和商业方面
行业洞察
Meta(Facebook)强调了“数据产品经理”的角色,这些经理深刻理解数据驱动产品的技术和商业方面。
商业分析师
商业分析师充当数据科学团队与更广泛组织之间的桥梁,将业务需求转化为分析需求,支持数据映射,并帮助利益相关者理解数据驱动洞察的影响。
职责
-
充当数据科学团队与更广泛组织之间的桥梁
-
将业务需求转化为分析需求
-
支持数据映射并帮助利益相关者理解数据驱动洞察的影响
技能和知识
-
了解业务流程和需求
-
能够与技术和非技术利益相关者进行有效沟通
行业洞察
Airbnb 首创了“数据科学大使”的概念,这些大使嵌入到业务单元中,推动数据驱动决策的采纳。
数据故事讲述者/可视化专家
数据故事讲述者和可视化专家通过引人入胜的叙事和可视化,将复杂的数据洞察传达给非技术利益相关者,确保数据驱动的建议被理解并付诸实践。
职责
-
将复杂的数据洞察传达给非技术背景的利益相关者
-
创建引人注目的叙事和可视化
-
确保数据驱动的建议被理解并付诸实践
技能和知识
-
数据可视化和讲故事的专业知识
-
能够将复杂的概念简化,面向非技术受众
行业洞察
Spotify 已经投入大量资源,建立了一个强大的数据可视化实践社区,认识到在推动数据驱动文化中,有效沟通的重要性。
组建团队时的考虑事项
在组建数据科学团队时,考虑以下因素,以确保团队能够有效应对数据驱动项目的挑战:
-
项目需求:评估数据科学项目的具体需求。如果重点是开发数据产品,优先考虑机器学习工程师和数据工程师等角色。如果目标是推动战略决策,强调数据科学家和业务分析师等角色。
-
业务领导力:指派一位业务负责人,负责根据业务、最终用户和客户的需求设定优先级。此人应清楚地了解项目目标,并能够与数据科学团队及其他利益相关者进行有效沟通。
-
技术领导力:指派一位经验丰富的技术负责人,负责整体技术解决方案。此人应当深入了解数据科学流程,并能够指导团队做出符合项目目标的技术决策。
-
协作与沟通:在团队内培养协作与开放沟通的文化。鼓励团队成员分享知识、讨论挑战并共同寻找解决方案。定期的站立会议、代码评审和知识共享会议有助于建立一个强大而团结的团队。
-
持续学习:数据科学是一个快速发展的领域,因此支持团队成员的持续学习和技能发展至关重要。鼓励团队成员参加会议、研讨会和培训课程,保持对最新技术和最佳实践的了解。
-
伦理考量:由于数据科学和人工智能项目通常涉及敏感数据,并且有可能影响人们的生活,因此必须优先考虑伦理问题。确保团队了解数据隐私法规、机器学习中的公平性问题,以及数据和算法中的潜在偏见。培养负责任和透明的数据科学实践文化。
通过仔细考虑这些因素,并组建一个多样化、具备强大领导力的技能团队,你将能够推动成功的数据科学项目,为组织带来有意义的影响。
大型组织中的数据科学团队
一旦组织从只有一个数据科学团队发展到有多个团队时,就会出现如何构建团队结构以及团队间如何互动的问题。
或许你的数据科学或机器学习团队是唯一的团队,这个问题与你无关,但如果你领导一个需要组织多个团队的部门,理解不同的运营模型可以为你提供一些关于如何做的指导,具体取决于你希望实现的目标。
数据科学和分析部门有许多不同的运营模式,每种模式都有其优缺点。
其中包括以下几种:
-
集中式:一个庞大的数据科学中心团队,服务于业务的各个部门,通常隶属于 IT、技术或数据部门。
-
联邦式:嵌入在业务单元中的小型数据科学团队
集中式部门的优势在于部门内共享数据和技术、更专门化的角色以及改善的知识共享和内部能力开发。然而,这也意味着缺乏对业务需求和领域知识的深入理解。
联邦式团队更接近业务单元,因此更能理解其需求并具备更多的领域特定知识。
对于有多个数据科学团队的大型公司,还有一种适用的组织结构,这就是所谓的轮毂和辐条运营模型。
轮毂和辐条模型
轮毂和辐条运营模型可以在集中式部门(有助于内部能力开发和技能集中)与联邦式模型(更贴近不同业务部门)之间提供一个折衷方案。
什么是轮毂和辐条模型?
想象一下自行车轮。中心是轮毂,向外辐射的是辐条,连接到外圈。在数据科学的背景下,轮毂代表一个集中的数据科学、机器学习或人工智能团队,而辐条代表不同的业务单元或职能部门。该模型允许集中制定战略、治理和能力开发,同时为各个业务单元提供量身定制的支持。
-
中心团队:这是你的数据科学中心团队,由数据科学家、机器学习工程师、数据工程师和其他角色组成。他们负责制定整体数据战略、维护数据治理,并提供高层次的支持和专业知识。
-
辐条:这些是嵌入到各个业务单元中的数据专业人员。他们了解所在单元的具体需求和挑战,并与中心团队紧密合作,实施数据驱动的解决方案。他们可能是数据科学家,或仅仅是业务分析师/数据分析师。他们的工作可能涉及数据科学和分析,或者与所在部门合作,了解中央团队应提供的解决方案和洞察。
该模型在集中化与分散化之间提供了一种平衡,既保证了战略对齐,又提供了操作灵活性。
通常,组织会先建立一个集中式的数据科学、机器学习或人工智能团队来打造一项能力,然后再扩展到服务或在不同部门内运营。
以下是一个关于大型组织中中心辐射模型的示例说明,涵盖了不同的业务部门:

图 12.1:中心辐射模型
中心辐射模型的实际应用
让我们来看一下这个模型如何在不同的行业中发挥作用:
-
制造业:一家大型制造公司可能会建立一个机器学习团队,开发预测性维护解决方案(使用传感器数据准确预测何时机器可能出现故障或效率下降,进而需要维护或修理)。这一成功的解决方案可能会引起公司其他部门的兴趣,寻求符合他们需求的用例。例如,制造公司的供应链部门可能需要供需预测,以减少一次性所需库存量,减少缺货、缩短交货周期,并提高产品可用性。随后,财务部门可能也需要更准确的财务预测,以改善公司的资产负债表,并了解何时何地需要减少成本。随着时间的推移,一个服务于特定部门的小团队可以发展成为组织内部的核心能力,并服务多个用例。
-
消费品与零售:中心可以创建一个统一的消费者洞察和客户细分解决方案,而市场营销、销售和客户服务的辐射部门可以将这一模型应用于其具体职能。
构建中心辐射模型
创建一个成功的中心辐射模型需要精心规划和执行。以下是一些需要考虑的步骤:
-
识别中心:首先识别你集中式数据科学团队所需的角色和技能。这包括数据科学家、机器学习工程师和数据工程师。
-
识别辐射部门:接下来,识别那些可能从嵌入式数据专业人员中受益的业务单位。这些可能是如市场营销、销售、财务和运营等职能部门。
-
招聘合适的技能:对于中心,你需要结合技术技能(如机器学习和数据工程)和战略技能(如数据治理和项目管理)。对于辐射部门,你需要既懂数据科学,又了解他们业务单元需求的人。
-
建立治理:为中心和辐射部门如何协同工作创建明确的指导方针。这包括沟通协议、数据共享政策和决策流程。
-
衡量成功:最后,建立衡量中心与辐射模型成功的指标。这些可以包括完成的数据驱动项目数量、决策速度和准确度的改善,以及收入或成本节约的增加。
中心与辐射模型是组织您的数据科学团队的强大方式,提供战略对齐和运营灵活性。这不仅仅是建立一个技术熟练的团队,还要创建一个能推动业务发展的凝聚力量。
随着我们进入下一节,我们将探讨在构建数据科学团队时如何招聘我们提到的角色。
招聘的艺术
组建一个高效的数据科学团队既是艺术也是科学。这不仅需要深入了解所需的技术技能,还需要能够识别出能在贵组织独特文化中蓬勃发展的个人。微软、OpenAI、Meta 和 Netflix 等顶尖科技公司已经掌握了这门艺术,构建了不仅技术精湛而且高度协作和商业敏锐的数据科学团队。
Jerome Pesenti,前 Meta AI 副总裁,曾表示:“在招聘人工智能和机器学习角色时,我们寻找具有坚实技术基础的人,同时也需要创造力、灵活性和真正能对社会产生影响的动力。最佳候选人不仅能开发强大的算法,还能批判性地思考如何负责任地部署 AI 系统,使之造福社会。”
寻找既有深厚技术专长又有真正影响力驱动力的人才是具有挑战性但又必不可少的,因为这是构建对业务有实质性影响的解决方案的关键。
成功招聘的一个关键方面是超越简历。尽管技术技能无疑很重要,但它们并非唯一需要考虑的因素。Google 前人力运营高级副总裁 Laszlo Bock 强调候选人“智力谦逊”的重要性。这意味着寻找那些不仅聪明而且能承认错误并向他人学习的个体。
强大的解决问题能力和建立令人难以置信解决方案的动力也是成功候选人的重要指标。DeepMind 的联合创始人兼 CEO Demis Hassabis 表示:“我们寻找那些对解决难题和构建了不起事物充满激情的人。AI 研究是一个长期的游戏,因此重要的是雇佣那些乐于不断学习并推动 AI 边界的人。”
在构建数据科学团队时,考虑到您组织的具体需求也很重要。您是希望构建数据产品、推动战略决策,还是两者兼顾?您的首次招聘将是最重要的,拥有优秀而敬业的技术负责人将有助于引领未来的招聘工作。
在哪里找到技术人才
在寻找顶尖数据科学/机器学习/人工智能(DS/ML/AI)人才时,虽然有更多的地方可以找到人才,但竞争也非常激烈。通常,表现出色的团队有一个强大的全职员工核心,并根据需要利用兼职或合同工以及外部顾问。这些人才池各有其优缺点。
全职员工
全职员工对于构建一个具有深厚机构知识并与公司目标长期对齐的强大核心团队至关重要。在招聘全职员工时,公司应超越传统渠道,如顶尖计算机科学项目,同时也应考虑以下内容:
-
来自顶级科技公司或创新型初创企业的经验丰富的员工,专注于前沿 AI 技术
-
拥有物理学、应用数学、统计学等定量学科的高级学位(MS、PhD),并具备强大的可转移技能的候选人
-
来自医疗、金融、机器人等行业的领域专家,他们可以为 AI 应用带来有价值的专业知识
兼职员工
利用合同工和兼职员工是一种快速引入专门技能、应对波动性工作量并测试潜在全职员工的有价值方式。一些优秀的合同 DS/ML/AI 人才来源包括:
-
专注于匹配顶尖技术自由职业者与公司合作的专业平台,如 Toptal、Upwork 和 Arc
-
顶级计算机科学、统计学等领域的 MS/PhD 项目校友网络
-
顾问市场平台,如 Catalant 和 Malt
-
专注于为 DS/ML/AI 人才提供招聘服务的人员配置公司
顾问和供应商合作伙伴
顾问和供应商合作伙伴在提供外部专业知识、加速关键项目并带来新视角方面具有巨大的价值。在以下几种情况下,利用顾问是非常有意义的:
-
启动高风险的“登月” AI 项目,在这些项目中,必须从一开始就拥有世界级的专业知识
-
实施重大的新机器学习平台或数据基础设施项目,需要具体技术的实际经验
-
为内部 DS/ML/AI 团队提供有针对性的培训和技能提升
-
对现有 AI 系统进行客观审计,以评估其公平性、稳健性、隐私保护等方面
一些顶尖的 DS/ML/AI 咨询公司和供应商合作伙伴包括:
-
麦肯锡分析(McKinsey Analytics)和 QuantumBlack
-
QualifAI 和 Stradigi AI(精品 AI 咨询公司)
无论使用哪种具体的人才来源组合,确保有明确的 DS/ML/AI 能力建设路线图,并确保全职团队、合同工和顾问之间有强有力的知识转移和协作都至关重要。多样化的视角和背景是关键,但团队必须在共同的目标和工作方式上保持一致。
高效能数据科学团队的运作方式
很少有团队能够发挥其最大潜力,即使是由高素质个体组成的团队,如果缺乏有效的合作、压抑的官僚主义或不完善的工具,项目也可能会崩溃。
以下是运营高效数据科学团队的一些指导原则。
跨职能合作至关重要
最具影响力的 DS/ML/AI 项目涉及数据科学家、ML 工程师、软件开发者、产品经理、设计师和主题专家之间的紧密合作伙伴关系。培养合作文化,打破这些职能之间的壁垒至关重要。
观点的多样性驱动创新
顶尖团队将来自不同背景的人汇聚一堂——不仅仅是在人口统计学方面,还包括学术训练、行业经验和思维方式。认知多样性帮助团队以更具创造性的方式解决问题。
从正确的问题开始
高效的团队不会仅仅跳进数据或算法中——他们首先确保深刻理解他们要解决的用户需求和业务目标。事先让产品、设计和业务利益相关者参与其中是关键。
投资于工具、基础设施和工作流程
随着现代 ML/AI 系统的复杂性,拥有正确的工具来管理数据、跟踪实验、版本控制模型等,对生产力有巨大的提升。标准化工作流程有助于团队扩展。通常,改进工具和基础设施的额外成本可以抵消团队为“让它运作”而花费在优化不完善工具上的额外时间。记住,数据科学/机器学习团队每花费一个小时在处理表现不佳的工具和基础设施上的成本,都可能大于使用更好的工具的成本。
持续适应和学习是必需的
鉴于 DS/ML/AI 领域的快速发展,高绩效团队会专门腾出时间进行学习——通过学术论文、会议、在线课程、内部知识分享等方式。好奇心是一个必备特质。
无情地专注于结果,而不是活动
最有效的 DS/ML/AI 团队专注于交付可衡量的影响,而不仅仅是发布代码或发表论文。这通常需要与官僚惯性作斗争,并抵制处理那些在智力上很有趣但无法创造实际价值的问题的诱惑。
例如,Google Brain 创始人 Andrew Ng 曾谈到在构建 Google AI 能力过程中,"战略性地专注于结果,而不仅仅是研究" 的重要性。他指出,许多公司犯了一个错误,把 AI 仅仅视为研究活动,而实际上,最具变革性的突破往往来自于研究团队与产品团队之间紧密合作,专注于现实世界的影响。
总结
在本章中,我们探讨了组建高效数据科学团队的关键角色和考虑因素,强调数据科学是一项需要多样化技能和专业知识的团队运动。我们讨论了组成数据科学团队的不同角色,包括数据科学家、机器学习工程师、数据工程师等,以及团队结构的不同模型,如嵌入式、集成式、轴心与轮辐模型。构建成功的数据科学团队需要仔细考虑您组织的具体需求,所需的技能和专业知识,以及最适合您项目的结构。
在深入了解这些角色和考虑因素之后,我们现在准备进入下一个关键步骤:引入数据科学团队。
第十三章:管理数据科学团队
在管理数据科学团队时,你必须走一条与传统领导场景截然不同的道路。数据科学的不确定性——尤其是其对机器学习和人工智能的依赖——不仅需要技术专长,还要求有一种细致的领导方法。本章将简要探讨针对数据科学这一高风险、高创新环境的有效管理策略。
我们将从探讨数据科学团队的日常管理开始,强调创建一种重视快速实验、并从失败中积极学习的文化。
我们还将讨论如何管理数据科学项目中的固有不确定性,并通过 Netflix 的案例来帮助逐步交付价值。
此外,本章还将讨论研究导向型和生产导向型数据科学工作之间的平衡问题,重点介绍像 DeepMind 和 Google Brain 等组织采用的协作模式。伦理考量,尤其是在人工智能应用中的重要性,也将被讨论,并通过 Microsoft 和 Uber 的案例展示数据和模型治理的最佳实践。
目标是为领导者提供必要的理解和工具,以有效管理数据科学团队,确保在这个复杂且快速发展的领域中,项目成功和团队成长。
本章涵盖以下主题:
-
数据科学团队的日常管理
-
管理数据科学团队中的常见挑战
-
授权并激励你的数据科学团队
数据科学团队的日常管理
领导一个数据科学团队是一个独特的挑战,需要平衡创新和务实。为了推动具有影响力的数据科学,你必须营造一种实验文化,同时确保团队的努力能够创造商业价值。
促进快速实验和创新
成功的数据科学团队拥抱快速实验,并从失败中学习。作为领导者,要鼓励冒险精神,并庆祝从不成功的尝试中获得的经验教训。提供强大的工具和平台支持,如云计算服务,加速实验过程。Meta 以其“快速行动”的文化而闻名,这种文化鼓励在公司各个方面,包括人工智能和机器学习领域,进行快速实验和迭代。
管理固有的不确定性
数据科学项目本质上是不确定的,结果往往在开始时不明确。通过将项目结构化为一系列实验和里程碑来管理这种模糊性,每个里程碑都能产生新的洞察。对利益相关者保持透明,告知不确定性和潜在风险。敏捷方法有助于提供增量价值并维持利益相关者的参与。Netflix 的个性化算法展示了如何通过接受不确定性和持续迭代来推动显著的收益。
平衡研究和应用
数据科学团队必须平衡开放性研究与部署和维护生产模型。可以考虑创建专门的研究和应用工作流,同时促进两者之间的交叉影响。研究突破应为应用工作提供指导,而现实世界中的挑战应引导研究议程。DeepMind 和 Google Brain 等组织便体现了研究与应用之间的这种共生关系。
在数据科学和人工智能中有效沟通
有效沟通对于数据科学领导者至关重要。在讨论项目的技术方面时,使用精确的语言,明确说明算法、模型架构和评估指标。清晰解释模型的假设、局限性和潜在偏差。在与非技术性利益相关者沟通时,使用类比和可视化手段来传达复杂的概念,如神经网络或强化学习。突出团队工作的商业影响,例如改善客户定位或减少运营成本。定期分享项目进展,包括成功与面临的挑战。鼓励团队内部的开放对话,以促进协作和知识共享。
培养好奇心和持续学习的文化
顶尖科技公司认识到在其数据科学团队中培养好奇心和持续学习文化的重要性。正如 Google Brain 联合创始人、前百度首席科学家 Andrew Ng 所说:“我相信创新能力和创造力是可以教授的过程。有方法可以让人们系统地创新或系统地 变得有创造力。”
为了培养这种文化,鼓励你的团队保持与最新研究和行业趋势的同步。提供参加会议、研讨会和在线课程的机会。通过定期的报告、午餐交流和内部论坛促进知识共享。鼓励团队成员追求个人项目并探索新想法,即使这些想法与当前的商业目标不完全一致。
接受同行评审和协作
建立同行评审与合作的文化对于维持高质量的工作并推动持续改进至关重要。鼓励团队成员定期与同事分享他们的代码、模型和发现,接受反馈和建议。实施结对编程或代码审查实践,以便发现错误、分享知识,并确保遵守最佳实践。创造一个心理安全的环境,让团队成员能够自由地给予和接收建设性的批评,并理解这些批评旨在改善工作,而非针对个人。通过拥抱同行评审与合作,你可以在数据科学团队中创造一种卓越和共同拥有的文化。
领导一个数据科学团队需要应对该领域独特的挑战。通过培养实验精神、管理不确定性、平衡研究与应用、有效沟通、培养好奇心和持续学习的文化,并拥抱同行评审与合作,你可以使团队在这个动态的领域中取得成功。
在下一部分,我们将探讨管理数据科学团队中的一些常见挑战以及如何应对它们。
管理数据科学团队的常见挑战
管理数据科学团队可能是一个复杂的任务,尤其是对于刚接触该领域的人来说。数据科学是一个多学科的领域,需要独特的技能组合,管理这样的团队可能会面临多个挑战。让我们探讨一些这些挑战以及如何克服它们。
挑战 1 – 招聘和留住顶尖人才
正如我们在上一章中讨论的,招聘和留住一支优秀团队是解决数据科学团队可能遇到的所有挑战的基础。
引用谷歌首席决策科学家 Cassie Kozyrkov 的话:“找到并留住熟练的数据科学家是一个主要挑战,因为需求 和竞争非常激烈。”
一个强有力的入职培训过程对于让新员工成功至关重要,它帮助他们熟悉公司的工具、流程和文化。
克服这一挑战
有几种方法可以帮助你克服招聘和留住优秀人才的挑战:
-
招聘:
-
不要只局限于从传统计算机科学背景的候选人中寻找人才,可以从技术初创公司、学术界或大型科技公司中寻找具有强大机器学习和领域专长的候选人。
-
寻找具有“知识谦逊”的个人,他们能够从他人那里学习。
-
在面试时,了解面试者在以前的职位上产生了什么影响。 他们建造了什么? 他们取得了什么成就? 这比他们担任过的职位或拥有的证书更为重要。
-
建立一个全职员工基础,并根据需要利用兼职合同工和顾问来扩展团队。
-
-
入职培训:
-
制定清晰的入职流程和文档,帮助新员工了解公司文化、工具和工作流程。这将帮助他们更快、更有效地融入团队。
-
组织新员工与团队其他成员的会议,让他们建立必要的联系,并获得与工作相关的重要知识。
-
为新员工提供一个初步的小项目,由资深团队成员进行一些监督,帮助他们快速上手并通过实践积累与工具和技术的熟悉度。
-
-
留住人才:
-
给予值得信任的顶尖人才自主权,让他们发挥创造力并进行创新。优秀的人才希望能对自己的工作负责,而不是受到微观管理。前 Yahoo!总裁兼 CEO 玛丽莎·梅耶提到创新过程中良好环境的重要性,她说,“在技术领域,关键是人,招募到最优秀的人,留住他们,培养创造性的环境,帮助找到创新的方式。”苹果已故 CEO 史蒂夫·乔布斯也相信聪明员工的自主权:“雇佣聪明的人并告诉他们该做什么没有意义;我们雇佣聪明的人是为了让他们告诉我们该做什么。”
-
向团队展示明确的使命,告诉他们你们正在努力实现的目标是什么。特斯拉和 SpaceX 的埃隆·马斯克提倡挑战性工作来留住顶尖人才:“当人们知道目标是什么以及为什么时,他们工作会更好。”
-
为团队提供成长和发展的机会。理查德·布兰森曾说,“好好训练员工,让他们有足够的能力离开,但对待他们要好到他们不想离开。”
-
-
解雇员工:
-
在情况不合适时果断行动:OpenAI CEO、前 Y Combinator 总裁 Sam Altman 强调,当员工显然不适合时,迅速解雇的重要性。在他关于招聘与解雇的博客中,Altman 表示,“你不可能 100%正确地招聘到合适的人。当显然不行时,不太可能会变得好起来。与其拖延不如迅速分开,这样对所有人都有好处,而不是抱有不现实的希望事情会变得更好。”他认为,拖延只是让所有人处境更糟。
-
要有同情心但要清晰明确:虽然解雇员工从来不是一件容易的事,但重要的是要以同情心和清晰度来处理这种情况。正如 Altman 所建议的,“解雇员工是创始人最痛苦的事情之一,但你必须尽早处理,信任这一切会比拖延更好。”在传达这一决定时,要直接而诚实地说明解雇的原因,并为员工提供必要的支持,如遣散费或求职帮助。记住,你处理这些情况的方式将影响团队的士气和对领导的信任。
-
通过采取一种全面的人才管理方法,平衡技术技能、软技能和团队组成,数据科学领导者可以构建出能够带来变革性业务影响的高效团队。招聘和留人的基础对克服我们将要探讨的其他挑战至关重要。
挑战 2 – 将项目与业务目标对齐
数据科学领导者面临的关键挑战之一是确保他们团队的项目与公司的战略目标对齐。如果没有这种对齐,即使是最具技术含量的项目也可能无法带来有意义的业务价值。
克服挑战
为了将数据科学项目与业务目标对齐,请考虑以下策略:
-
理解业务:花时间深入理解公司业务模型和战略优先事项。参加领导会议,阅读公司报告,并与其他部门的同事互动,以获得业务的整体视角。
-
与利益相关者合作:与业务利益相关者密切合作,识别能够解决他们最紧迫挑战和机会的高影响力项目。在项目规划过程中让他们参与其中,确保项目范围和交付物能够满足他们的需求。
-
优先排序与迭代:采用数据驱动的方法,根据项目的潜在影响、可行性和与业务目标的对齐度来优先排序。愿意根据变化的业务需求对不再对齐的项目进行调整或停止。
-
传达价值:定期沟通你的团队项目为业务带来的价值。使用指标和案例研究来展示你的工作如何推动关键结果,例如收入增长、成本节约或提升客户体验。
通过将数据科学项目与业务目标对齐,领导者可以确保他们的团队交付具有高影响力的工作,推动组织的有意义结果。
挑战 3 – 管理固有的不确定性
数据科学项目通常涉及较高的不确定性,因为实验和模型的结果往往难以预测。管理这种不确定性是数据科学领导者面临的一个关键挑战,他们必须在探索与创新的需求与有限资源和时间表的现实之间找到平衡。
克服挑战
为了管理数据科学项目的固有不确定性,请考虑以下方法:
-
拥抱风险:
-
鼓励你的团队采取经过深思熟虑的风险,进行实验来测试新想法和方法。创造一种重视学习和快速迭代而非完美的文化。
-
特斯拉和 SpaceX 的 CEO 埃隆·马斯克强调了管理风险的重要性:“当某件事足够重要时,即使概率不利于你,你也会去做。”
-
-
快速原型设计:
-
创建一个快速创建实验和原型功能的系统。对于机器学习,数据科学家和机器工程师能够快速运行实验、训练、评估并迭代机器学习模型是至关重要的。目标是尽可能减少训练和评估模型的周期时间。减少这个周期时间将使机器学习工程师能够训练出高性能模型并快速投入生产,之后这些模型可以迅速迭代和改进:
-
投资时间创建可重用的管道来训练、评估、比较和部署机器学习模型,从长远来看可以节省时间
-
开源软件,如 MLflow,和云平台,如 Azure AI Studio、AWS SageMaker、AWS Bedrock 和 Google Vertex AI,提供了训练和微调机器学习模型的功能,同时跟踪这些实验
-
-
亚马逊创始人兼首席执行官杰夫·贝索斯强调实验的重要性:“如果你每年做的实验数量翻倍,你的创造力也会翻倍”
-
-
快速失败:认识到失败是创新过程的自然部分。重要的是不要让失败的项目拖延下去。一旦实验显然无法带来结果,或者项目正在失败,你必须迅速切断它。许多项目往往在这个时候仍然持续,浪费宝贵的时间和资源,而显然它们无法带来任何价值。有时,这种情况可能是模糊的,不确定是坚持还是转向。如果有任何数据表明项目不会带来明确、可衡量的价值,就要果断行动。如有必要,凭直觉做决定。
通过拥抱不确定性并使用管理风险的策略,数据科学领导者可以创建一个促进创新并推动突破性成果的环境。
挑战 4 – 扩展和实现模型
一旦数据科学团队开发出了成功的模型,接下来的挑战是将其扩展并实现实际应用。这不仅涉及基础设施和部署等技术问题,还包括将模型融入现有业务流程,并确保其长期可持续性的组织挑战。
克服挑战
为了有效地扩展和实现模型,请考虑以下策略:
-
为生产做好计划:从项目开始之初,就要规划模型如何部署和维护在生产环境中。这包括考虑数据管道、基础设施需求以及监控和维护需求等因素。
-
消除机器学习 与运营之间的差距:
-
在传统的软件工程中,DevOps 的概念引发了革命。这个概念消除了开发软件的团队与部署和操作它的团队之间的隔阂,形成了一个对产品端到端负责的团队。
-
这一概念现在已扩展到基于机器学习的软件,其中机器学习运维(MLOps)提供了一个框架,帮助团队将机器学习模型投入生产,并在此过程中进行维护、迭代和改进。如图 13.1所示,MLOps 周期涵盖了开发、测试、部署和监控机器学习模型的关键阶段。
-
诸如机器学习工程师、人工智能工程师和 MLOps 工程师等角色,已经与数据科学家一同崛起,并且现在期望这些职位的从业者具备工程技能,能够在生产环境中部署和监控可靠、稳健的模型:
-

图 13.1:机器学习模型的 MLOps 生命周期示例
-
建立治理:建立明确的模型部署、监控和维护的治理流程。这包括明确角色与责任,设定绩效指标和阈值,并创建模型更新与再训练的流程。
-
持续监控和改进:一旦模型投入生产,需持续监控其性能,并寻找改进的机会。这可能涉及用新数据重新训练模型、调整其超参数,或探索新的架构和技术。
通过为生产做好规划、与工程团队协作、建立治理流程,以及持续监控和改进模型,数据科学领导者可以确保他们团队的工作对业务产生持久影响。
挑战 5 – 以伦理方式部署稳健、可靠、公平的模型
随着数据科学模型日益融入关键业务流程和决策制定,确保这些模型稳健、可靠、公平成为一个主要挑战。存在偏见、脆弱或不透明的模型可能会导致意外后果,并破坏组织的信任。
克服这一挑战
为了部署稳健、可靠、公平的模型,请考虑以下策略:
-
优先考虑模型可解释性:开发可解释且易于理解的模型,以便其决策过程能够被理解和审计。使用特征重要性分析、决策树或 SHAP 值等技术,提供模型如何得出预测结果的可见性。
-
测试公平性和偏见:使用人口平衡、均等机会或反事实公平等技术,严格测试模型的偏见和公平性问题。积极主动地识别并减轻对受保护群体的任何不公平影响。
-
建立伦理指南:为人工智能模型的开发和部署制定明确的伦理指南和原则。这可能包括数据隐私、知情同意、人类监督和问责等方面的考量。
-
促进跨学科协作:将来自不同学科的专家汇聚在一起——不仅包括数据科学和工程,还包括社会科学、法律和伦理——以为人工智能模型的开发和部署提供支持。培养跨学科合作与对话的文化。
通过优先考虑模型的可解释性、测试公平性和偏见、建立伦理指南以及促进跨学科合作,数据科学领导者可以确保他们团队的模型以负责任和可信赖的方式部署。
赋能和激励你的数据科学团队
有效地赋能和激励数据科学团队需要激发他们内在的动力。正如丹尼尔·平克在他的书《Drive》中所讨论的,知识工作者的关键动机因素是自主性、精通和目标。
通过赋予数据科学团队自主决策的权力,使他们在自己领域中达到精通,并将他们的工作与更大目标联系起来,你可以挖掘出内在动机的深层潜力。一支赋能且富有动力的团队不仅会交付更好的结果,还能在工作中找到成就感和意义,从而促进长期的参与感和创新。
在接下来的部分中,我们将探讨数据科学团队如何与其他团队和利益相关者合作,并如何赋能其他团队使用数据。这将进一步提升你领导数据驱动型组织的能力。
与其他团队和外部利益相关者合作,并赋能他们使用数据
作为数据科学领导者,你的团队工作影响力必须超越你们自身。你们训练的机器学习模型、发现的统计见解或开发的人工智能应用需要在组织的其他部分或直接影响公司客户方面产生影响。
要真正推动数据驱动的决策,你必须与其他团队有效协作,赋能他们在工作中利用数据。这需要技术翻译、关系建设和推广的结合。
推动数据科学工作的采纳和影响
最终,数据科学的价值在于解决方案的采纳和推动业务影响。为此,数据科学领导者必须与工程、产品和业务团队密切合作,将解决方案整合到生产工作流中。
首先明确界定成功的指标,并将其与预期结果对齐。早期并频繁地让利益相关者参与,收集需求和反馈。在解决方案开发过程中,定期提供演示和试点结果,以建立认同感和信任。
在过渡到生产环境时,不要只是将模型交给工程团队。与团队密切合作,确保正确的部署、监控和维护。提供文档和培训,以便实现长期的所有权。
部署后,评估并传达解决方案的影响。广泛分享成功案例并与利益相关者庆祝胜利。Airbnb 将其数据科学成功的大部分归因于专注于量化和传达影响的这一焦点。
一个出色的机器学习团队将影响力模型交付至 Uber 工程团队的生产环境中。
这个团队开发了一个名为 Michaelangelo 的内部平台,用于部署安全和登录认证的机器学习模型,搜索自动完成和结果排序,接送预计时间和地图路线,定价,行程预计时间,产品个性化,乘客/司机匹配,安全派遣,支付欺诈检测,退款预防和客户支持:
您可以在Uber 的实时机器学习应用中查看。Uber 乘客应用中几乎每个客户接触点都融入了某种机器学习技术。作为一个以技术为先的公司,Uber 拥有强大的工程团队优势,但未来最成功的公司,无论是银行、零售商还是保险公司,也将在其核心产品中部署机器学习和人工智能功能。
授权其他团队利用数据
除了直接交付解决方案外,数据科学领导者还可以通过授权其他团队有效处理数据来放大其影响。这涉及提供正确的工具、培训和支持,以实现常见数据任务的自助服务模型。
为团队提供培训和资源,提升其数据基础知识。创建一个实践社区,让人们能够相互学习并分享最佳实践。
通过授权其他团队直接处理数据,您可以扩展数据科学在整个组织中的影响。这实现了一个良性循环,更多人员开始对数据提出问题,发现新的机会,并推动数据驱动决策文化。
与其他团队有效合作并授权他们使用数据是数据科学领导力的关键方面。通过与专家合作,推动解决方案的采用,并为其他团队提供自助服务,您可以放大数据科学的影响并加速组织的数据成熟度。
总结
在本章中,我们探讨了管理数据科学团队时面临的独特挑战和机遇,包括培养快速实验的文化、管理固有的不确定性、平衡研究与生产工作、有效沟通、培养好奇心和持续学习、实施同行评审与协作、赋能团队、使项目与商业目标对齐、扩展和运营化模型、部署稳健、可靠、公正且伦理的人工智能、推动数据科学工作被采纳,以及赋能其他团队利用数据。尽管在管理数据科学团队时追求战术卓越至关重要,但实现数据科学的全部潜力需要那些能够驾驭推动数据驱动转型的战略挑战的领导者。
在下一章中,我们将探讨作为数据科学领导者,您如何在本书之外继续成长与学习,如何在不感到不知所措的情况下,保持与机器学习和人工智能发展的同步,如何运用您作为数据科学领导者所获得的技能来领导开发和部署未来解决方案的团队,无论是在生成性人工智能领域还是更广泛的领域。
第十四章:继续作为数据科学领袖的职业旅程
作为数据科学领袖开始一份新职业,或者继续你已有的职业,既令人生畏,又充满激动。这本书为你提供了广泛的数据科学工具包。然而,这个领域正在不断发展。机器学习和人工智能正在迅速进步。
本章的最终目标是为你提供指导。你将学习如何与新兴技术保持同步。你可以专注于某一领域,成为该领域的思想领袖。或者,你也可以在数据科学、机器学习或人工智能等不同领域成为专家。
我们将讨论如何在组织内外建立网络,并推动数据驱动的思维。我们将探讨一些资源,帮助你保持对趋势的了解,并在职业生涯中持续学习。
数据科学、机器学习和人工智能的进展可能会让人感到不知所措。在本章中,我们将提供一些保持更新的建议,帮助你专注于重要的进展,并过滤掉杂音。
浏览新兴技术的领域
数据科学、机器学习和人工智能的进展速度非常快。每周都有开创性的研究论文发布,每月都有最先进的大型语言模型发布,每月也有新的深度学习框架发布。跟上这些进展可能感觉非常困难。整个领域广阔且多样,了解所有内容几乎不可能。
请看下面的机器学习、人工智能和数据技术工具及其在 2024 年的可视化图表。试图学习这些所有技术将是一项艰巨的任务。

图 14.1:2024 年机器学习、人工智能和数据领域的全貌
跟上最新动态是一个巨大的挑战。你如何保持更新?你如何在职业生涯中不断进步?
首先,记住这一点:你不需要知道所有的内容。你不需要精通每一个工具。专注于与你相关的内容。专注于你的工作和兴趣。
在接下来的部分中,我们将讨论如何将你的关注点缩小到与数据科学/机器学习/人工智能相关的行业和领域,这对你的职业生涯最为有益。
专注于某一行业
数据科学、机器学习和人工智能领域正在以指数速度发展。每天都有新的突破和发现。然而,尽管这些技术快速进步,它们在各行业的应用往往滞后于这些进展的速度。原因有很多,包括监管、数据隐私问题和合规要求。
然而,限制机器学习和人工智能在不同领域广泛应用的最重要因素之一是技能和知识的短缺,以及不知道如何应用它们。除非你在一个前沿实验室从事人工通用智能的研究,否则你很可能会聚焦于在某一特定行业内应用数据科学、机器学习或人工智能。
作为数据科学领导者,你可以通过拥有扎实的 DS/ML/AI 技术和发展趋势的理解,同时具备特定行业的领域专业知识来脱颖而出。这样的技能组合将使你能够识别最合适的应用场景,将 DS/ML/AI 技术应用于推动价值和创新。
确定应该聚焦于哪些行业或领域可能是一个困难的任务。你可能在职业生涯中跨足了不同的行业,但不确定自己是否会在某些行业中感到满意。为了帮助你做出决策,可以考虑以下因素:
-
经验:你在哪些行业工作过?是否有特别偏好的行业?如果有,为什么?你的经验可以为你提供宝贵的见解,帮助你识别哪些行业最适合你的技能和兴趣。
-
兴趣:是否有特别感兴趣的行业,无论你是否已经在其中工作过?例如,你是否对汽车行业、教育行业或医疗行业充满热情,愿意在这些领域工作?追随你的兴趣可能会带来更加充实和富有挑战性的职业生涯。
-
技能组合:你的技能是否最适合某一特定行业?例如,如果你对预测和时间序列分析有深入的理解,那么在金融行业工作可能会提供丰富的机会来运用这些技能。或者,如果你对自然语言处理和大语言模型有扎实的理解,那么涉及大量文本的行业,如法律或出版媒体,可能会引起你的兴趣。如果你有丰富的计算机视觉经验,在医学影像领域工作可能会是一个很好的知识应用方向。尝试将你的技术兴趣和专业知识与特定行业对接,以最大化你的影响力和价值。
-
地点:你的地理位置可能会影响你所能获得的机会。例如,如果你在伦敦工作,作为全球金融中心,你可能会在金融服务领域找到许多机会。类似地,如果你住在华盛顿 D.C.附近,你可能会在法律和政府部门找到很多机会。尽管远程工作和 DS/ML/AI 的数字化特性使得地理位置的限制有所减少,但仍然值得考虑你所在地区的本地机会。
-
伦理学:最后,你的伦理原则可能会鼓励或劝阻你在某些领域工作。例如,如果你反对赌博,你可能会想避免在博彩行业工作,而这个行业确实需要数据科学家。或者,如果你是和平主义者,你可能会选择避免在国防行业工作。相反,如果你有道德上的驱动力,希望在那些造福社会的行业工作,你可能会倾向于选择可再生能源、医疗保健或教育等行业。将你的工作与价值观对齐,能够带来更强的使命感和职业满足感,比如你若有意愿为社会作出贡献,可以选择可再生能源、医疗保健或教育等行业。
正如在某个行业内的专业化能够使你成为数据科学领域的领导者,同样,在数据科学、机器学习和人工智能这个广泛领域内专注于某个具体子领域,也能让你脱颖而出。在下一节中,我们将探讨数据科学/机器学习/人工智能中的一些子领域,帮助你思考可能希望专注的方向。
专业化某个领域
当“数据科学”这一术语还较为新颖,并且公司开始雇佣数据科学家时,数据科学家需要了解的领域范围要狭窄得多。拥有扎实的统计学理论与应用知识,以及有监督和无监督机器学习的知识——这些内容是我们在本书中已经涉及的——可能足以应对大多数应用型数据科学项目。
在学术界,情况有所不同,深度学习领域取得了快速进展,像自然语言处理、计算机视觉和强化学习等领域也取得了巨大突破。部分进展得益于理论上的突破,特别是在神经网络架构方面,另一部分则归功于研究人员可获取的大量计算资源和数据的增加。
这种学术进展使得数据科学、机器学习和人工智能等领域在各行业中的应用范围大大扩展。
数据科学、机器学习和人工智能的每个子领域,都可能是博士学位课题或整个学术生涯的主题,因此对于行业内的从业者来说,几乎不可能在每个子领域都获得超过表面层次的理解。
鉴于数据科学/机器学习/人工智能(DS/ML/AI)领域的广泛性,专注于对工作最有用的主题并专业化你的知识是非常有意义的。
让我们探讨一些子领域以及它们在实际场景中的应用。思考一下你所在的行业,以及每个领域的潜在应用,这样你就可以规划职业生涯中应该关注的重点:
-
自然语言处理(NLP)和大型语言模型(LLM):自然语言处理和大型语言模型彻底改变了我们与文本数据互动的方式。像 OpenAI 和 Anthropic 这样的公司开发了强大的语言模型,如 GPT-3 和 Claude,这些模型能够生成类人文本、回答问题,甚至编写代码。这些模型被广泛应用于聊天机器人、虚拟助手、内容创作和语言翻译等领域。例如,受欢迎的语言学习应用 Duolingo 使用 NLP 提供个性化学习体验,并评估用户的口语能力。
-
计算机视觉:计算机视觉改变了机器感知和解释视觉数据的方式。它在自动驾驶、面部识别、医学影像等领域有着广泛的应用。例如,特斯拉在其自动驾驶功能中大量依赖计算机视觉,使其车辆能够在道路上导航并避开障碍物。在医疗保健领域,像 Zebra Medical Vision 这样的公司使用计算机视觉分析医学影像,检测癌症和骨质疏松等疾病的迹象。
-
强化学习:强化学习是机器学习的一个子领域,智能体通过在环境中做出决策来最大化奖励信号。它已被应用于机器人技术、游戏玩法,甚至是优化复杂系统,如数据中心。Alphabet 旗下的人工智能研究公司 DeepMind 使用强化学习训练智能体,使其能够在围棋和星际争霸 II 等游戏中达到超人水平。在能源领域,谷歌通过强化学习优化数据中心的冷却,减少了多达 40% 的能耗。
-
时间序列分析与预测:时间序列分析与预测在金融、经济学和供应链管理等领域至关重要。公司利用这些技术预测股价、预测需求并优化库存水平。Facebook(现为 Meta)使用时间序列分析预测用户互动,并检测平台中的异常情况。在零售行业,像沃尔玛和亚马逊这样的公司使用时间序列预测来预测需求并优化其供应链。
-
推荐系统:推荐系统用于根据用户的偏好和行为提供个性化推荐。它们在电子商务、流媒体服务和社交媒体中无处不在。例如,Netflix 使用推荐系统根据用户的观看历史推荐电影和电视节目。Spotify 使用类似的技术来创建个性化播放列表并向用户推荐新艺术家。在电子商务中,亚马逊的推荐系统通过根据用户的浏览和购买历史推荐产品,负责其销售的显著一部分。
-
图形分析与图神经网络:图形分析和图神经网络用于分析和学习以图形或网络形式表示的数据。它们在社交网络分析、欺诈检测和药物发现等方面有应用。LinkedIn 利用图形分析为用户的职业网络提供见解,并推荐潜在的联系。在制药行业,像诺华和辉瑞这样的公司利用图神经网络来发现新药,并预测其疗效和安全性。
-
地理空间分析:地理空间分析涉及分析和可视化具有地理组件的数据。它在城市规划、环境监测和物流等领域有广泛应用。Uber 利用地理空间分析来优化其共享出行服务,通过预测需求并高效地为司机规划路线。在农业领域,像拜耳和孟山都这样的公司利用地理空间分析来监测作物健康并优化肥料和农药的使用。
-
边缘计算与边缘人工智能:边缘计算与边缘人工智能涉及在网络边缘的设备上处理数据并运行机器学习模型,而不是在云端进行。这在物联网、自动驾驶汽车和工业自动化等领域有着广泛应用。特斯拉利用边缘计算和边缘人工智能,使其汽车能够基于来自摄像头和传感器的数据实时做出决策。在制造业,像西门子和博世这样的公司利用边缘人工智能来监测设备健康状况并预测维护需求。
-
MLOps:MLOps,或机器学习运维,是一个新兴领域,专注于机器学习模型在生产环境中的部署、监控和管理。它借鉴了 DevOps 的原则,并将其应用于机器学习生命周期。像 Uber 和 Netflix 这样的公司已经在 MLOps 方面投入了大量资源,以确保其机器学习模型的可靠性、可扩展性和可维护性。像 Kubeflow 和 MLflow 这样的工具已经出现,帮助组织优化其 MLOps 工作流程。
专注于这些领域之一可以让你成为那些希望利用数据科学/机器学习/人工智能力量的组织中的宝贵资产。通过在特定领域中发展深厚的专业知识,你可以把自己定位为那些寻求创新并希望领先一步的公司的首选资源。无论你选择专注于自然语言处理、计算机视觉、强化学习,还是其他任何激动人心的子领域,你都能找到大量机会,应用你的技能并在世界上产生真正的影响。
在数据科学、机器学习和人工智能这一迅速发展的领域中,持续学习不仅是有益的——它是必不可少的。在接下来的部分,我们将探讨如何有效地继续学习而不至于感到不堪重负,同时仍然专注于职业成长。
拥抱持续学习
作为数据科学的领导者,了解最新的进展、技术和工具对于推动创新和保持竞争力非常重要。然而,随着数据科学、机器学习和人工智能的快速发展,跟上进度可能会让人感到不堪重负。
这里有一些有效的学习方法,可以让你在不感到不堪重负的情况下继续学习,同时专注于职业发展。
在线课程
在线课程是学习新技能或加深对特定主题理解的好方法。Coursera、edX 和 Udacity 等平台提供来自顶级大学和行业领袖的各种数据科学、机器学习和人工智能课程。一些值得注意的课程包括:
-
数据科学课程:
-
约翰霍普金斯大学数据科学专业课程(Coursera):这个综合性系列课程涵盖从数据处理到创建数据产品的内容,适合初学者。
-
密歇根大学应用数据科学与 Python(Coursera):这个专业课程涵盖使用 Python 库如 pandas、Matplotlib 和 scikit-learn 进行数据分析、可视化和机器学习。
-
加州大学圣地亚哥分校数据科学微硕士(edX):这个课程非常适合那些希望理解数据科学核心概念的人,包括数据整理、分析和机器学习。
-
-
机器学习课程:
-
斯坦福大学机器学习(Coursera):由 Andrew Ng 教授,这是最受欢迎和最受推崇的机器学习入门课程之一。
-
deeplearning.ai 深度学习专业课程(Coursera):由 Andrew Ng 主讲,这个系列深入探讨神经网络和深度学习技术。
-
国立研究大学高等经济学院高级机器学习专业课程(Coursera):该课程专为具有坚实机器学习基础的学员设计,涵盖了贝叶斯方法和强化学习等高级主题。
-
-
AI 课程:
-
人工智能:现代方法(Peter Norvig 和 Sebastian Thrun 著,Udacity):该课程提供了 AI 技术的广泛概述,包括搜索算法、游戏玩法和优化。
-
哈佛大学 CS50 人工智能与 Python 入门(edX):作为专业证书项目的一部分,本课程是理论与实践 AI 知识的绝佳结合。
-
deeplearning.ai 深度学习专业课程(Coursera):聚焦于深度学习的基础和高级概念,涵盖神经网络、优化和超参数调整。
-
-
生成式 AI 课程:
-
Google Cloud 生成式 AI 入门:本课程介绍了生成式 AI 的基础,包括大语言模型和伦理考虑,适合初学者。
-
AWS 生成式 AI 开发者工具包:提供使用 AWS 产品的实践培训,适合那些已经在 AWS 生态系统中工作并希望扩展技能的人。
-
云认证
主要云服务提供商提供的认证可以帮助你了解如何在云平台上构建数据科学/机器学习/人工智能解决方案,并向雇主展示你的专业能力。以下是一些与数据科学、机器学习和人工智能相关的受认可认证:
AWS(亚马逊 Web 服务)
-
AWS 认证机器学习 - 专业:
-
概览:该认证验证了你设计、实施、部署和维护机器学习解决方案的能力。它涵盖了使用 AWS 服务进行模型训练、调优和部署的最佳实践。
-
涵盖的技能:数据工程、探索性数据分析、建模、机器学习实施和操作。
-
Azure(微软 Azure)
-
微软认证:Azure 人工智能 工程师助理:
-
概览:该认证专注于实施利用 Azure 认知服务、Azure 机器学习和知识挖掘的人工智能解决方案。
-
涵盖的技能:分析解决方案需求、设计人工智能解决方案、将人工智能模型集成到解决方案中,以及部署和维护人工智能解决方案。
-
-
微软认证:Azure 数据 科学家助理:
-
概览:验证应用数据科学和机器学习来实现并运行 Azure 上的机器学习工作负载的专业知识。
-
涵盖的技能:数据准备、特征工程、建模和模型管理。
-
GCP(谷歌云平台)
-
谷歌云专业机器学习 工程师:
-
概览:该认证证明了使用 GCP 设计、构建和生产化机器学习模型以解决业务挑战的能力。
-
涵盖的技能:机器学习模型设计、开发与部署、扩展、自动化和监控。
-
如果你知道自己将与这些云服务提供商之一合作,这些认证可以帮助你或你的团队学习相关技能,以开始开发基于云的数据科学、机器学习和人工智能应用。
技术教程和文档
实践教程和官方文档在学习新工具或框架时是宝贵的资源。当你使用新技术、框架或库时,最佳的信息来源通常是官方文档或教程。
学习计划框架
以下检查清单可作为学习新主题、学习理论以及获得实践经验的简单框架。

图 14.2:学习计划检查清单
除了正式学习关键主题外,了解数据科学、机器学习和人工智能领域中的新兴发展、新闻和趋势也非常有用。在接下来的部分中,我们将探讨一些你可以用来保持更新的渠道,因为这是一个不断变化和发展的领域。
紧跟当前数据科学/机器学习/人工智能新闻和趋势
除了通过在线课程和认证进行持续学习外,保持对数据科学、机器学习和人工智能领域最新发展、趋势和新闻的了解对于数据科学领袖来说也至关重要。
这里有一些有效的方式帮助你保持最新动态:
行业博客和出版物
关注报道 DS/ML/AI 话题的信誉良好的博客和出版物,如以下内容:
-
Towards Data Science
-
KDnuggets
-
Machine Learning Mastery
-
Google AI Blog
-
OpenAI Blog
这些资源提供了关于领域内最新进展和应用的见解、教程和新闻。
播客
听播客和观看提供 AI 新闻、采访专家并讨论数据科学、机器学习和人工智能趋势的 YouTube 频道,如以下内容:
-
Two Minute Papers
-
Data Skeptic
-
Matthew Berman
-
The AI Podcast by Lex Fridman
-
Matt Wolfe
-
Hard Fork
-
AI Explained
播客是通勤或休息时间学习的好方式。
会议和网络研讨会
参加或观看主要会议和网络研讨会的录制,如以下内容:
-
NeurIPS(神经信息处理系统大会)
-
ICML(国际机器学习会议)
-
KDD(知识发现与数据挖掘大会)
-
AI 峰会
这些活动展示了领域内最新的研究、技术和最佳实践。
AI 影响者
在社交媒体平台上关注思想领袖、研究人员和意见领袖,如 Twitter 和 LinkedIn。以下是一些值得关注的领先影响者:
-
Andrew Ng (@AndrewYNg): AI 先锋,Coursera 联合创始人,Landing AI 创始人
-
Fei-Fei Li (@drfeifei):斯坦福大学教授,斯坦福人本 AI 研究所的联合主任
-
Yann LeCun (@ylecun):Meta 的首席 AI 科学家,纽约大学教授
-
Cassie Kozyrkov (@quaesita):Google 首席决策科学家
-
Andrej Karpathy (@karpathy):特斯拉前 AI 部门总监,具有影响力的研究员
-
Demis Hassabis (@demishassabis):DeepMind 的首席执行官和联合创始人
-
Jeff Dean (@JeffDean):Google Research 和 Google Health 的资深研究员及高级副总裁
-
Sam Altman (@sama):OpenAI 的首席执行官,OpenAI 的联合创始人
-
Ian Goodfellow (@goodfellow_ian):Apple 的机器学习总监,GANs 的发明者
-
Ilya Sutskever (@ilyasut):OpenAI 的前联合创始人和前首席科学家
通过将这些方法融入到你的日常中,你可以有效地跟上数据科学、机器学习和人工智能快速发展的步伐。记得选择你消耗的内容,专注于高质量、相关的信息,确保它与你作为数据科学领袖的目标和兴趣相契合。
在接下来的部分中,我们将探讨如何在你的组织内成为数据科学、机器学习和人工智能的倡导者,推动其采纳和影响。
在你的组织内推广数据驱动的思维
作为数据科学领导者,你的角色不仅仅是保持对最新趋势和技术的关注。你还肩负着在组织内部推广数据驱动文化的机会和责任。通过宣扬数据科学、机器学习和人工智能的价值,你可以帮助同事和决策者理解这些技术的潜力,并激励他们接受数据驱动的思维。以下是一些实现这一目标的实际方法:
主办内部学习会议
-
定期组织午餐学习会或研讨会,向同事介绍数据科学/机器学习/人工智能的概念、工具和案例研究
-
邀请其他部门的嘉宾或外部专家分享他们的经验和见解
-
鼓励开放讨论和问答环节,促进互动并解答任何疑问或误解
在跨职能项目中进行合作
-
积极寻求与其他团队合作的机会,如市场营销、运营或产品开发
-
展示如何将数据科学/机器学习/人工智能应用于解决现实问题,并在这些领域推动商业价值
-
通过与来自不同背景的同事紧密合作,你可以帮助揭开数据科学的神秘面纱,并展示其实际应用
分享成功案例和经验教训
-
定期向组织内更广泛的受众传播数据科学项目的成功经验和教训
-
使用内部通讯、公司博客或团队会议分享数据科学/机器学习/人工智能如何有助于改善流程、做出更好的决策或推动创新
-
对所面临的挑战及实施的解决方案保持透明,以建立围绕数据驱动方法的信任和可信度
指导和提升同事的技能
-
为有兴趣学习更多数据科学及其应用的同事提供指导和建议
-
帮助他们培养基本的数据素养技能,并提供进一步学习的资源,如在线课程或推荐阅读材料
-
鼓励持续学习和实验的文化,让每个人都能在工作中自由探索和应用数据驱动技术
建立数据科学实践社区
-
为数据科学爱好者创建一个内部实践社区,包括数据科学家、分析师、工程师和业务相关方
-
定期组织聚会、讨论论坛或黑客马拉松,促进合作、知识分享和创意生成
-
利用此平台讨论最新的行业趋势、分享最佳实践,并为数据科学/机器学习/人工智能在组织中的潜在应用进行头脑风暴
通过积极推动数据驱动的思维,并在组织内宣传数据科学、机器学习和人工智能的价值,你可以帮助创造一个拥抱创新、持续学习和基于证据决策的文化。你的热情和专业知识可以成为转变同事解决问题方式并在数据和人工智能时代推动业务成功的催化剂。
虽然在组织内推广数据驱动思维非常重要,但同样重要的是在公司之外拓展人脉。在接下来的部分,我们将探讨如何在组织外建立一个支持你整个职业生涯的网络,并为你打开意想不到的机会。
在组织外拓展人脉。
与数据科学、机器学习和人工智能领域的专业人士建立强大的联系,能够为学习、合作和职业发展带来宝贵的机会。
以下是一些在组织外有效拓展人脉的方法:
参加行业会议和活动。
-
参加重要的 DS/ML/AI 会议,如 Big Data LDN 或 AI Summit,及时了解最新的研究和趋势。
-
参加研讨会、演讲和社交活动,与来自不同行业和背景的专家及从业者建立联系。
-
在活动中参与有意义的对话,交换想法,并在活动后与有价值的联系人跟进。
加入在线社区和论坛。
-
成为 LinkedIn、Reddit 或 Kaggle 等在线社区的活跃成员,这些平台汇聚了数据科学专业人士,大家分享知识并在项目上进行合作。
-
参与讨论,提供见解,并为开源项目做贡献,以建立你的专业声誉并与志同道合的人建立关系。
-
加入专注于特定 DS/ML/AI 主题或行业的相关小组或论坛,扩大你的社交圈并随时了解新兴趋势和机会。
参与本地聚会和用户小组。
-
参加你所在地区专注于数据科学、机器学习或人工智能的本地聚会和用户小组。
-
这些聚会提供了一个与来自不同公司的专业人士建立联系、分享经验,并相互学习成功与挑战的绝佳机会。
-
考虑展示你的工作或主持一场会议,展示你的专业知识并为社区做贡献。
合作开展副业项目或研究。
-
寻找与组织外的专业人士在副业项目、开源计划或研究论文上的合作机会。
-
与拥有互补技能或专业知识的潜在合作伙伴建立联系,共同解决有趣的问题或探索新想法。
-
这些合作能够带来宝贵的学习经验、拓展人脉,并为未来提供潜在的职业机会。
提供指导或寻求导师。
-
随着你在这一领域积累经验和专业知识,可以考虑为有志于数据科学的专业人士或学生提供指导。
-
分享你的知识,提供指导,帮助他们应对在数据科学/机器学习/人工智能领域建立成功职业生涯的挑战。
-
或者,寻找经验丰富的导师,他们可以提供宝贵的建议、支持和资源,帮助你在职业生涯中成长。
通过积极地在组织外进行人脉建设,你可以接触到丰富的知识、机会和关系,这些都能大大促进你作为数据科学领袖的成长。建立强大的职业网络需要时间和努力,但与多元化人才建立联系、保持对行业趋势的更新、发现新机会的好处是值得投资的。
总结
恭喜你完成了这本书的阅读,并踏上成为数据科学领袖的旅程。你现在应该已经牢固掌握了统计学和机器学习中的关键概念,以及成功作为数据科学领袖所需的技术和最佳实践。
我们涵盖了从基础到高级应用的广泛话题。我们还探索了建立团队、推广数据驱动文化以及紧跟最新发展动态的实际方面。
在过渡到新角色时,保持持续学习,与技术高超、志同道合的人合作,推动团队创新。
别忘了人类因素。要负责任地、伦理地使用这些强大的工具,造福社会。
带着自信和好奇心前行,永不停止学习,并将你的专业知识应用到实际中,产生真正的影响。
数据科学、机器学习和人工智能的未来充满希望,我们需要强有力的领袖来将这一承诺变为现实。成为一位拥有诚信、热情和动力的领导者——我相信你将能够创造伟大的事业。


浙公网安备 33010602011771号