IBM-数据科学-III-笔记-全-
IBM 数据科学 III 笔记(全)
001:《数据科学方法论》导论

在本节课中,我们将学习数据科学方法论的基本概念和框架。我们将了解为什么在数据科学项目中遵循一套系统化的方法至关重要,并初步认识由IBM资深数据科学家John Rawlins提出的10个核心问题。通过本课程的学习,你将掌握如何从问题定义到解决方案验证的完整流程,确保数据被正确且有效地用于解决实际问题。
🎯 什么是数据科学方法论?
欢迎来到《数据科学方法论101》。

这是一个故事的开始,一个你未来多年都会向他人讲述的故事。这个故事的形式并非你在此处体验的课程,而是你将与他人分享的经历,解释你如何通过对一个问题的理解,得出了改变某种做事方式的答案。
尽管过去几十年计算能力和数据获取途径显著增加,但我们在决策过程中利用数据的能力要么丧失,要么未能最大化。原因常常在于,我们对所提问题缺乏扎实的理解,也不知道如何将数据正确应用于手头的问题。
以下是“方法论”一词的定义。思考这一点很重要,因为人们常常倾向于绕过方法论,直接跳转到解决方案。然而,这样做会阻碍我们解决问题的初衷。
🧭 课程目标与核心框架
本课程只有一个目的,即分享一种可在数据科学中使用的方法论,以确保用于解决问题的数据是相关的,并且经过恰当处理以应对当前问题。
本课程讨论的数据科学方法论由John Rawlins概述,他是一位经验丰富、目前在IBM任职的高级数据科学家。本课程基于他的经验,阐述了他对遵循方法论以取得成功的重要性的立场。
简而言之,数据科学方法论旨在按规定的顺序回答10个基本问题。
从这张幻灯片可以看出,有两个问题旨在定义问题,从而确定要使用的方法。接着有四个问题帮助你围绕所需数据进行组织。最后,还有四个额外问题,旨在验证所设计的数据和方法。
现在请花点时间熟悉这10个问题,它们对你的成功至关重要。
📚 课程结构与学习组件
本课程由几个部分组成。共有五个模块,每个模块讲解方法论的两个阶段,并解释每个阶段为何必要。
在同一模块内,会分享一个支持你所学内容的案例研究。还有一个实践实验室,帮助你应用所学材料。最后,有三个复习问题来测试你对概念的理解。当你准备好时,参加期末考试。
课程中包含的案例研究重点展示了数据科学方法论如何在具体情境中应用。它围绕以下场景展开:用于向公众提供医疗保健的预算有限。因反复出现问题而导致的医院再入院,可被视为系统在患者初次出院前未能妥善处理其状况的失败迹象。核心问题是:分配这些资金的最佳方式是什么,以最大化其在提供优质护理方面的效用?
正如你将看到的,如果新的数据科学试点项目成功,它将通过为医生提供新工具,将及时的数据驱动信息纳入患者护理决策,从而提供更好的患者护理。
案例研究部分会在屏幕右上角显示这些图标,以帮助你在每个模块中区分理论与实践。

💡 辅助资源与学习支持
还提供了一个数据科学术语表,以帮助澄清课程中使用的关键术语。
在参与课程时,如果你遇到一些挑战或有一些问题,请探索讨论区和Wiki部分。
现在你已经准备就绪,调整好耳机,让我们开始吧。


📝 总结

本节课中,我们一起学习了《数据科学方法论》课程的导论部分。我们明确了方法论在数据科学项目中的核心价值,认识了由10个关键问题构成的框架,并了解了课程的整体结构、案例研究场景以及可用的学习资源。掌握这套方法论,是确保数据科学项目从问题定义到成果验证都能系统、高效进行的关键。在接下来的模块中,我们将深入探讨这10个问题的具体内容。
002:业务理解

在本节课中,我们将学习数据科学方法论的第一步:业务理解。这一步骤的核心在于明确问题、设定目标,并确保所有相关方对任务有共同的理解,从而为后续的数据收集和分析奠定坚实基础。
🎯 概述:从问题到方法
你是否曾遇到过这种情况:老板紧急召开会议,布置一项重要任务,截止日期非常紧迫,必须按时完成。你们反复讨论,确保考虑了任务的各个方面,会议结束时双方都信心满满,认为一切顺利。然而,当天下午,当你仔细研究各种问题时,你意识到需要提出几个额外的问题才能真正完成任务。不幸的是,老板要到第二天早上才有空。此时,紧迫的截止日期仍在耳边回响,你开始感到不安。那么,你该怎么办?是冒险继续前进,还是停下来寻求澄清?

数据科学方法论的第一步就是花时间寻求澄清,以获得所谓的“业务理解”。
🔍 为什么业务理解至关重要
将业务理解放在方法论的开头,是因为明确要解决的问题有助于确定哪些数据将用于回答核心问题。Roawin指出,拥有明确定义的问题至关重要,因为它最终决定了解决问题所需的分析方法。很多时候,人们花费大量精力去回答他们认为是问题的问题。虽然用于解决该问题的方法可能很合理,但它们无助于解决实际问题。

建立明确定义的问题始于理解提问者的目标。例如,如果企业主问:“我们如何降低执行某项活动的成本?”我们需要理解目标是提高活动效率,还是增加企业的盈利能力。
🧩 明确目标与分解目标


一旦目标明确,下一步就是找出支持该目标的具体目标。通过分解目标,可以进行结构化讨论,确定优先级,从而组织和规划如何解决问题。根据问题的不同,需要让不同的利益相关者参与讨论,以帮助确定需求并澄清问题。
📊 案例研究:医疗预算分配
现在,让我们看一个关于应用业务理解的案例研究。
在案例研究中,提出的问题是:“如何最佳分配有限的医疗预算,以最大化其在提供优质护理方面的使用?”这个问题成为美国一家医疗保险公司热议的话题。随着公共资金对再入院的资助减少,这家保险公司面临不得不弥补成本差额的风险,这可能导致客户费率上升。
知道提高保险费率不会受欢迎,这家保险公司与其所在地区的卫生当局坐下来,并请来IBM的数据科学家,看看如何将数据科学应用于当前的问题。甚至在开始收集数据之前,就需要定义目标和具体目标。在花时间确定目标和具体目标后,团队将患者再入院作为审查的有效领域。

考虑到目标和具体目标,团队发现大约30%完成康复治疗的人会在一年内再次入院康复中心,50%的人会在五年内再次入院。在审查了一些记录后,发现充血性心力衰竭患者位居再入院名单的首位。进一步确定可以应用决策树模型来审查这种情况,以确定为什么会发生这种情况。
为了获得指导分析团队制定和执行其第一个项目的业务理解,IBM数据科学家提出并举办了一次现场研讨会,以启动项目。关键业务发起人在整个项目中的参与至关重要,因为发起人设定了总体方向,保持参与,提供指导,并在需要时确保必要的支持。
最后,为将要构建的任何模型确定了四个业务要求,即:预测充血性心力衰竭患者的再入院结果、预测再入院风险、理解导致预测结果的事件组合,以及对新患者应用易于理解的流程来评估其再入院风险。


✅ 总结
本节课中,我们一起学习了数据科学方法论的第一步——业务理解。我们探讨了明确问题、设定目标以及分解目标的重要性,并通过一个医疗预算分配的案例研究,展示了如何在实际项目中应用这些概念。业务理解是数据科学项目的基石,确保我们从一开始就走在正确的道路上,为后续的数据收集、分析和建模工作打下坚实基础。
003:分析方法


在本节课中,我们将学习数据科学方法论的第二阶段:如何根据已定义的问题,选择合适的分析方法。我们将探讨不同类型的分析模式及其适用场景,并通过一个案例研究来具体说明如何应用决策树分类模型。

选择正确的分析方法取决于所提出的问题。这一阶段需要与提问者进行充分沟通,以明确问题细节,从而选择最合适的分析路径或方法。

上一节我们明确了要解决的问题,本节中我们来看看如何在业务需求的背景下,为这个问题选择恰当的分析方法。这是数据科学方法论的第二个阶段。
一旦对问题有了深刻理解,就可以选择分析方法。这意味着需要确定哪种类型的模式能最有效地解决问题。
以下是几种常见的分析模式及其适用场景:
- 预测模型:如果问题涉及预测某个事件发生的概率,则可能使用预测模型。
- 描述性方法:如果问题旨在展示数据间的关系,则可能需要描述性方法。例如,基于事件和偏好来寻找相似活动的聚类。
- 统计分析:适用于需要计数的问题。例如,如果问题需要一个“是”或“否”的答案,那么使用分类方法来预测响应是合适的。
- 机器学习:这是一个让计算机无需明确编程即可学习的领域。机器学习可用于识别数据中其他方法难以发现的关系和趋势。
- 聚类与关联方法:如果问题是为了了解人类行为,那么使用聚类和关联方法是合适的。
现在,让我们通过一个案例研究来看看分析方法的具体应用。
在该案例研究中,使用了一个决策树分类模型来识别导致每位患者特定结果的组合条件。
在这种方法中,沿着每条路径检查每个节点中的变量,会得到一个相应的阈值。这意味着决策树分类器不仅能提供预测结果,还能基于每组中主要结果(是或否)的比例提供该结果的可能性。
分析师可以从这些信息中获取每位患者的再入院风险(即结果为“是”的可能性)。如果某个叶子节点中的主要结果是“是”,那么风险就是该叶子节点中“是”的患者比例。如果主要结果是“否”,那么风险就是1减去该叶子节点中“否”的患者比例。
决策树分类模型易于非数据科学家理解和应用,可用于对新患者的再入院风险进行评分。临床医生可以清楚地看到导致患者被评分为高风险的条件,并且可以在患者住院期间的各个时间点建立和应用多个模型,从而动态地了解患者的风险及其随着各种治疗措施而发生的变化。
基于这些原因,该案例选择了决策树分类方法来构建充血性心力衰竭再入院模型。
本节课中,我们一起学习了数据科学方法论的第二阶段——分析方法。我们了解了如何根据问题的性质选择预测、描述、统计或机器学习等不同分析路径,并通过一个医疗案例深入了解了决策树分类模型的实际应用和优势。选择正确的分析方法是构建有效数据科学解决方案的关键一步。
004:数据需求

在本节课中,我们将学习数据科学方法论中的“数据需求”阶段。我们将了解如何根据已定义的问题和分析方法,明确所需的数据内容、格式与来源,为后续的数据收集与准备工作奠定基础。
上一节我们确定了分析问题并选择了分析方法。本节中,我们来看看如何根据所选方法,明确具体的数据需求。
如果把解决数据科学问题比作烹饪一顿意大利面,那么问题就是食谱,而数据则是食材。如果缺少正确的食材,就无法成功做出菜肴。因此,数据需求阶段至关重要,它确保我们拥有合适的“食材”来“烹饪”出解决方案。
基于对问题的理解以及所选的分析方法,数据科学家可以开始着手明确数据需求。在进入数据收集和准备阶段之前,必须为所选的分析方法(例如决策树分类)定义清晰的数据要求。这包括确定所需的数据内容、格式和初始收集来源。
以下是明确数据需求时通常涉及的几个关键方面:

- 数据内容:需要哪些具体的信息或变量?
- 数据格式:数据应以何种结构组织(例如,每条记录代表什么)?
- 数据来源:数据可以从哪里获取?
现在,让我们通过一个案例研究来具体看看如何应用数据需求阶段。
在该案例中,首要任务是为已选定的决策树分类方法定义数据需求。这涉及从医疗保险服务商的会员库中筛选合适的患者队列。
为了编译完整的临床病史,研究团队为该队列设定了三条入选标准:
- 患者必须在服务提供区域内住院,以确保能获取必要信息。
- 研究聚焦于在完整一年内,主要诊断为充血性心力衰竭的患者。
- 患者在因充血性心力衰竭首次入院前,必须至少有连续六个月的参保记录,以便汇编完整的病史。
同时,那些同时被诊断患有其他严重疾病的充血性心力衰竭患者被排除在队列之外。因为这些并发症会导致高于平均的再入院率,从而可能扭曲分析结果。
接下来,团队定义了决策树分类所需的数据内容、格式和表现形式。这种建模技术要求每个患者对应一条记录,记录的列代表模型中的变量。
为了对再入院结果进行建模,需要涵盖患者临床病史所有方面的数据。这些内容包括:入院记录、主要/次要/第三诊断、手术、处方以及在住院期间或门诊期间提供的其他服务。
因此,单个患者可能拥有代表其所有相关属性的数千条事务性记录。为了达成“每位患者一条记录”的格式,数据科学家需要将这些事务记录汇总到患者级别,并创建一系列新变量来代表这些信息。这部分工作属于后续的“数据准备”阶段,因此在数据需求阶段提前考虑并预见后续步骤非常重要。
本节课中,我们一起学习了数据科学方法论中的数据需求阶段。我们明白了明确数据需求就像准备烹饪食材一样关键,它确保了后续分析拥有正确、可用的数据基础。通过案例,我们看到了如何根据分析方法(如决策树分类)制定具体的数据入选标准,并规划所需的数据内容和格式,同时为下一阶段的数据准备工作做好铺垫。
005:数据收集

在本节课中,我们将学习数据科学方法论中的数据收集阶段。我们将了解如何根据需求收集数据,评估数据质量,并处理数据收集过程中可能遇到的问题。
上一节我们讨论了数据需求的定义,本节中我们来看看如何根据这些需求进行数据收集。
数据收集完成后,数据科学家会进行评估,以确定是否已获得所需数据。
这就像购买食材准备一顿饭,有些食材可能因季节原因难以获取,或成本超出预期。
在此阶段,数据需求会被重新审视,并决定是否需要收集更多或更少的数据。
一旦数据“食材”收集完毕,数据科学家就能更好地理解他们将处理的内容。
可以应用描述性统计和可视化等技术来评估数据集的内容、质量,并获得对数据的初步洞察。
数据中的空白将被识别,并制定填补或替代的计划。本质上,数据现在已准备就绪,如同食材已放在砧板上。
现在,让我们看看数据科学方法论中数据收集阶段的一些实例。这个阶段是数据需求阶段的后续工作。

以下是数据收集阶段的关键步骤:
- 确定数据来源:你需要知道所需数据元素的来源或查找方法。
- 收集相关数据:根据案例需求,收集所有必要的数据集。
- 处理数据缺失:对于暂时无法获取的数据,可以做出延迟决策。
- 整合与清理数据:将来自不同来源的数据进行提取、合并,并去除冗余。
接下来,我们通过一个案例研究来具体应用数据收集。
在我们的案例研究中,所需数据可能包括患者的人口统计学、临床和保险信息,提供者信息,理赔记录,以及与所有充血性心力衰竭患者诊断相关的药物和其他信息。
对于此案例研究,还需要某些药物信息,但该数据源尚未与其他数据源整合。
这引出了一个重要观点:对于暂时无法获取的数据,可以推迟决策,并尝试在后续阶段获取。
例如,甚至可以在从预测建模中获得一些中间结果后再进行。如果这些结果表明药物信息对于获得良好模型可能很重要,那么就会投入时间去获取。不过,事实证明,即使没有这些药物信息,他们也能够建立一个相当不错的模型。

数据库管理员和程序员经常协作,从各种来源提取数据,然后进行合并。
这有助于去除冗余数据,使其可用于方法论的下一阶段,即数据理解。
在此阶段,如有必要,数据科学家和分析团队成员可以讨论各种更好地管理数据的方法,包括在数据库中自动化某些流程,以使数据收集更轻松、更快速。

本节课中我们一起学习了数据收集的核心流程:从根据需求确定数据源,到实际收集与评估数据,再到处理数据缺失问题并整合数据。我们了解到,数据收集是一个迭代过程,可能需要根据初步评估调整计划,并且灵活处理暂时无法获取的数据是可行的策略。
006:数据理解


在本节课中,我们将学习数据科学方法论中的“数据理解”阶段。这一阶段的核心任务是评估所收集的数据是否足以代表待解决的问题,并为后续的数据准备和建模工作奠定基础。
概述:什么是数据理解?
数据理解涵盖了所有与构建数据集相关的活动。本质上,数据理解阶段旨在回答一个问题:你所收集的数据是否能代表需要解决的问题?
为了更具体地说明,我们将把数据理解阶段的方法论应用到我们一直在研究的案例中。
数据理解的具体步骤
上一节我们介绍了数据理解的目标,本节中我们来看看实现这一目标需要执行哪些具体分析。
以下是数据理解阶段通常包含的三类关键分析活动:
-
单变量统计分析
首先,需要对将成为模型中变量的数据列运行描述性统计。这包括计算每个变量的均值、中位数、最小值、最大值和标准差等统计量。其公式可概括为对单个变量X计算:均值 (Mean) = ΣX / N 标准差 (Std) = sqrt( Σ(X - Mean)² / (N-1) ) -
变量间相关性分析
其次,使用成对相关性分析来查看某些变量之间的关联紧密程度,并识别是否存在高度相关的变量。高度相关的变量本质上是冗余的,在建模时通常只保留其中一个。相关性可通过皮尔逊相关系数r来衡量:r = Σ[(Xi - X_mean)(Yi - Y_mean)] / sqrt[ Σ(Xi - X_mean)² * Σ(Yi - Y_mean)² ] -
数据分布可视化
第三,检查变量的直方图以理解其分布。直方图是理解变量值分布方式的良好工具,并能帮助决定需要进行何种数据预处理以使变量在模型中更有用。例如,对于一个拥有过多不同值以至于在模型中信息量不足的分类变量,直方图可以帮助决定如何合并这些值。

数据质量评估

单变量统计和直方图也被用于评估数据质量。从分析提供的信息中,某些值可能被重新编码,甚至在必要时被删除。

一个常见的问题是处理缺失值。问题在于:“缺失”本身是否有含义? 有时,缺失值可能意味着“否”或“0”;而在其他时候,它仅仅意味着“我们不知道”。

或者,如果一个变量包含无效或误导性的值,也需要处理。例如,一个名为“年龄”的数值变量,其值范围是0到100,但也包含“999”,而这个“999”实际上表示缺失,但除非我们进行纠正,否则它会被当作一个有效值处理。


方法论中的迭代过程


在我们的案例研究中,最初,“充血性心力衰竭入院”的定义是基于主要诊断为充血性心力衰竭。
但在执行数据理解阶段后,发现最初的定义并未涵盖基于临床经验所预期的所有充血性心力衰竭入院病例。
这意味着需要返回到数据收集阶段,添加次要和第三诊断,并构建一个更全面的“充血性心力衰竭入院”定义。
这只是方法论中互动过程的一个例子。一个人对问题和数据研究得越多,学到的就越多,因此就能在模型中进行更多的改进,最终为问题带来更好的解决方案。

总结
本节课中,我们一起学习了数据科学方法论的“数据理解”阶段。我们了解到,这一阶段通过统计分析(如单变量统计、相关性分析)和可视化(如直方图)来评估数据的代表性和质量。同时,数据理解可能揭示初始定义的不足,促使我们返回之前的阶段进行完善,这体现了数据科学项目迭代和循环的本质。扎实的数据理解是构建有效模型、获得可靠见解的坚实基础。
本课程的数据理解部分到此结束。感谢观看。
007:数据准备概念



在本节课中,我们将要学习数据准备阶段的核心概念。数据准备是数据科学项目中至关重要的一步,它涉及清洗、转换和整理原始数据,使其适合后续的分析与建模。我们将探讨数据准备的重要性、主要任务以及如何高效地完成这一过程。



上一节我们介绍了数据理解,本节中我们来看看数据准备。从某种意义上说,数据准备类似于清洗刚采摘的蔬菜,目的是去除污垢或瑕疵等不需要的元素。


与数据收集和数据理解阶段一起,数据准备是数据科学项目中最耗时的阶段,通常占总项目时间的70%,甚至高达90%。


在数据库中自动化部分数据收集和准备流程,可以将这一时间减少至50%左右。
这种时间节省意味着数据科学家可以将更多时间专注于创建模型。
延续我们的烹饪比喻,我们知道将洋葱切碎可以让其风味更容易融入酱汁中,这比将整个洋葱放入锅中效果更好。同样,在数据准备阶段转换数据,就是使数据达到更易于处理的状态的过程。
具体而言,方法论中的数据准备阶段回答了这个问题:有哪些方法可以准备数据,以便有效地处理数据? 数据必须经过处理,以解决缺失值或无效值,并去除重复项,确保所有内容格式正确。


以下是数据准备阶段涉及的核心任务:
- 处理数据质量问题:识别并修正缺失值、无效值和重复记录。
- 数据转换:将数据转换为更适合分析的格式或结构。
- 特征工程:利用数据的领域知识创建特征,使机器学习算法能够有效工作。
特征工程是数据准备的一部分。特征是可能有助于解决问题的特性。数据中的特征对预测模型至关重要,并将影响您希望实现的结果。当应用机器学习工具分析数据时,特征工程尤为关键。
处理文本数据时,需要对数据进行编码的文本分析步骤,以便能够操作数据。数据科学家需要知道在数据集中寻找什么来解决问题。文本分析对于确保设置正确的分组以及编程不会忽略隐藏内容至关重要。
数据准备阶段为解决问题的后续步骤奠定了基础。虽然这个阶段可能需要一些时间来完成,但如果做得正确,其结果将有力地支持整个项目。如果跳过此阶段,结果将不尽如人意,并可能让您不得不从头开始。
在这一领域投入时间至关重要,同时应利用可用工具自动化常见步骤以加速数据准备。请务必关注此处的细节。毕竟,一粒老鼠屎能坏一锅粥。
本节课中我们一起学习了数据准备的关键概念。我们了解到数据准备是耗时但至关重要的阶段,涉及清洗、转换和特征工程等任务,旨在为后续建模与分析提供高质量、格式规整的数据基础。正确完成数据准备能显著提升整个项目的成功概率。
008:数据准备案例研究


在本节课中,我们将学习数据准备阶段的具体应用,通过一个实际案例来理解如何清洗、整理和准备数据,以便进行后续的建模分析。

数据准备类似于清洗刚采摘的蔬菜,目的是去除如污垢或瑕疵等不需要的元素。
上一节我们介绍了数据准备的基本概念,本节中我们来看看如何将这些概念应用于一个具体案例。
现在,让我们查看与应用数据准备概念相关的案例研究。
在该案例研究中,数据准备阶段的重要第一步是明确定义“充血性心力衰竭”。这听起来简单,但精确定义并不直接。首先,需要识别与诊断相关的组代码,因为充血性心力衰竭涉及特定类型的体液积聚。我们还需考虑充血性心力衰竭仅是心力衰竭的一种类型。需要临床指导来获取充血性心力衰竭的正确代码。
下一步涉及为同一病症定义再入院标准。需要评估事件的时间顺序,以确定某次充血性心力衰竭入院是初始事件(称为索引入院),还是与充血性心力衰竭相关的再入院。基于临床专业知识,设定30天为时间窗口,用于判断充血性心力衰竭患者自首次入院出院后的相关再入院。
接着,对处于事务格式的记录进行聚合。这意味着数据包含每位患者的多个记录。事务记录包括为医生、实验室、医院和临床服务提交的专业提供者设施索赔。还包括描述所有诊断、程序、处方以及住院和门诊患者其他信息的记录。根据患者的临床历史,一位患者可能轻易拥有数百甚至数千条此类记录。
然后,将所有事务记录聚合到患者级别,为每位患者生成单一记录,这是后续将使用的决策树分类方法建模所要求的。作为聚合过程的一部分,创建了许多新列来表示事务中的信息。例如,就诊医生、诊所和医院的频率及最近时间,以及诊断、程序、处方等。还考虑了与充血性心力衰竭共存的疾病,如糖尿病、高血压以及许多其他可能影响充血性心力衰竭再入院风险的疾病和慢性病。
在数据准备的讨论过程中,还进行了关于充血性心力衰竭的文献综述,以检查是否忽略了任何重要的数据元素,例如尚未考虑的共存疾病。文献综述涉及回溯到数据收集阶段,为病症和程序添加更多指标。
在患者级别聚合事务数据意味着将其与其他患者数据合并,包括他们的人口统计信息,如年龄、性别、保险类型等。结果是创建一个表,每位患者对应一条记录,包含许多代表患者及其临床历史属性的列。这些列将作为预测建模中的变量使用。
以下是最终用于构建模型的变量列表。因变量或目标是充血性心力衰竭。结果是在因充血性心力衰竭住院出院后30天内是否再入院。
数据准备阶段产生了一个包含2343名患者的队列,所有患者均符合案例研究的所有标准。然后将该队列分为训练集和测试集,分别用于构建和验证模型。
本节课中我们一起学习了数据准备在案例研究中的实际应用,包括明确定义问题、设定标准、聚合数据、创建变量以及最终形成建模所需的数据集。通过这个案例,我们看到了数据准备如何为后续的建模分析奠定坚实基础。
009:建模概念


在本节课中,我们将学习数据科学方法论中的建模阶段。我们将探讨建模的目的、过程及其关键组成部分,帮助初学者理解如何从数据中构建有效的模型。
🎯 建模的目的与过程
上一节我们介绍了数据准备,本节中我们来看看建模阶段。建模是数据科学方法论中的一个关键阶段,数据科学家在此阶段有机会检验数据并确定模型是否需要调整。
建模阶段主要回答两个关键问题:第一,数据建模的目的是什么?第二,这个过程有哪些特点?
数据建模侧重于开发描述性或预测性模型。描述性模型用于分析行为模式,例如“如果一个人做了这件事,那么他可能更喜欢那件事”。预测性模型则试图产生“是/否”或“停止/继续”类型的结果。这些模型基于所采用的分析方法,可以是统计驱动或机器学习驱动。
🔧 训练集与模型校准

在预测建模中,数据科学家会使用训练集。训练集是一组历史数据,其中结果已知。训练集的作用是作为衡量标准,以确定模型是否需要校准。
在这一阶段,数据科学家会尝试不同的算法,以确保所使用的变量确实是必需的。

📈 成功建模的关键因素

数据编译、准备和建模的成功取决于对当前问题的理解以及所采取的适当分析方法。数据支持问题的回答,就像烹饪中食材的质量为最终结果奠定了基础。

在每个步骤中,持续的优化、调整和微调是必要的,以确保结果可靠。


🧩 数据科学方法论框架

在约翰·劳温的描述性数据科学方法论中,框架旨在完成三件事:第一,理解当前问题;第二,选择解决问题的分析方法;第三,获取、理解、准备和建模数据。
最终目标是使数据科学家能够构建数据模型来回答问题。

✅ 模型评估与反馈

随着晚餐即将上桌,饥饿的客人坐在桌旁,关键问题是:“我做的够吃吗?”希望如此。在方法论的这一阶段,模型评估、部署和反馈循环确保答案接近实际且相关。
这种相关性对整个数据科学领域至关重要,因为它是一个相对较新的研究领域,人们对其提供的可能性感兴趣。从这种实践中受益的人越多,该领域的发展就越深入。
📝 总结
本节课中我们一起学习了数据科学方法论中的建模阶段。我们探讨了建模的目的、训练集的作用、成功建模的关键因素以及方法论框架。最后,我们了解了模型评估和反馈的重要性,以确保模型的实用性和相关性。
通过理解这些概念,你将能够更好地构建和优化数据模型,为实际问题提供有效的解决方案。
010:建模案例研究 🧪

在本节课中,我们将学习数据科学方法论中的建模阶段,并通过一个具体的案例研究,探讨如何通过参数调优来改进模型。我们将重点关注决策树分类模型,并理解如何调整误分类成本以优化模型性能。
从建模到评估

建模是数据科学方法论中的一个关键阶段。在此阶段,数据科学家有机会“品尝酱汁”,判断其是否恰到好处,或是否需要进一步调味。
上一节我们介绍了数据准备,本节中我们来看看如何将案例研究应用到建模阶段。我们将讨论模型构建的众多方面之一:参数调优。
构建初始模型
以下是构建初始模型的步骤。

准备好训练集后,可以构建第一个用于充血性心力衰竭再入院的决策树分类模型。我们的目标是识别高再入院风险的患者,因此关注的结果是 充血性心力衰竭再入院 = 是。
在第一个模型中,对“是”和“否”结果进行分类的总体准确率为 85%。这听起来不错,但它仅正确分类了 45% 的实际再入院病例(即“是”类别)。这意味着模型在预测“是”结果方面并不准确。
随之而来的问题是:如何提高模型预测“是”结果的准确性?
理解误分类成本
对于决策树分类,最佳的调整参数是误分类“是”和“否”结果的相对成本。
可以这样理解:
- 当一个真实的非再入院病例被误分类,并采取了降低该患者风险的措施时,该错误的成本是浪费的干预措施。统计学家称之为 第一类错误 或 假阳性。
- 当一个真实的再入院病例被误分类,且未采取任何措施降低风险时,该错误的成本是再入院及其所有相关费用,外加患者的创伤。这被称为 第二类错误 或 假阴性。

由此可见,两种不同类型误分类错误的成本可能截然不同。因此,调整误分类“是”和“否”结果的相对权重是合理的。默认权重是1:1,但决策树算法允许为“是”设置更高的值。
调整参数并迭代模型
以下是尝试不同参数设置的迭代过程。

第二个模型:将相对成本设置为 9:1。这是一个非常高的比率,但能更深入地揭示模型的行为。这次,模型正确分类了 97% 的“是”病例,但代价是对“否”病例的准确率非常低,总体准确率仅为 49%。这显然不是一个好模型。此结果的问题在于存在大量假阳性,这将导致为那些本不会再次入院的患者推荐不必要且成本高昂的干预措施。
因此,数据科学家需要再次尝试,以在“是”和“否”的准确率之间找到更好的平衡。
第三个模型:将相对成本设置为更合理的 4:1。这次,在“是”病例上获得了 68% 的准确率(统计学家称之为灵敏度),在“否”病例上获得了 85% 的准确率(称为特异度),总体准确率为 81%。通过调整误分类“是”和“否”结果的相对成本参数,这是在训练集较小的情况下所能获得的最佳平衡。
当然,建模工作远不止于此,通常还包括迭代回到数据准备阶段,重新定义一些其他变量,以更好地表示底层信息,从而改进模型。
总结
本节课中,我们一起学习了如何将案例研究应用到数据科学方法论的建模阶段。我们通过一个决策树分类案例,探讨了通过调整误分类成本参数来优化模型性能的过程。我们了解到,寻找“是”(灵敏度)和“否”(特异度)预测准确率之间的平衡至关重要,并且建模通常是一个需要多次迭代和调整的循环过程。
011:模型评估

在本节课中,我们将学习数据科学方法论中的模型评估环节。模型评估与模型构建紧密相连,是确保模型质量、验证其是否满足初始需求的关键步骤。我们将探讨评估的两个主要阶段,并通过一个案例研究来理解如何通过诊断指标选择最优模型。
模型评估概述
模型评估与模型构建相辅相成。因此,建模和评估阶段通常是迭代进行的。
模型评估在模型开发期间进行,并在模型部署之前完成。评估不仅用于评判模型的质量,也是检验模型是否满足初始需求的机会。评估回答的问题是:所使用的模型是否真正回答了初始问题,或者是否需要调整。

模型评估的两个主要阶段
模型评估主要包含两个阶段。以下是每个阶段的详细介绍。
第一阶段:诊断指标评估
诊断指标评估阶段用于确保模型按预期工作。
如果模型是预测模型,可以使用决策树来评估模型的输出是否与初始设计一致。这有助于发现需要调整的环节。
如果模型是描述性模型,即用于评估变量间关系的模型,则可以应用一个已知结果的测试集,并根据需要优化模型。
第二阶段:统计显著性检验
此类评估可应用于模型,以确保数据在模型中得到正确处理和解释。其目的是在答案揭晓时,避免不必要的二次猜测。

案例研究:通过参数调优寻找最优模型
上一节我们介绍了模型评估的两个阶段,本节中我们来看看如何通过调优模型构建中的一个参数,基于诊断指标来寻找最优模型。
具体来说,我们将了解如何调整误分类“是”与“否”结果的相对成本。
如下表所示,我们构建了四个模型,分别对应四种不同的相对误分类成本。
| 模型 | 相对误分类成本 | 真阳性率(敏感度) | 假阳性率 |
|---|---|---|---|
| 模型1 | 1:1 | 较低 | 较低 |
| 模型2 | 2:1 | 中等 | 中等 |
| 模型3 | 4:1 | 较高 | 较高 |
| 模型4 | 8:1 | 高 | 高 |
如表所示,随着模型构建参数值的增加,预测“是”的准确度(即真阳性率或敏感度)提高,但代价是预测“否”的准确度降低(即假阳性率增加)。
那么问题就变成了:基于对此参数的调优,哪个模型是最优的?
出于预算原因,风险降低干预措施不能应用于大多数或所有充血性心力衰竭患者,因为其中许多人可能不会被再次收治。另一方面,如果未能针对足够多的高风险充血性心力衰竭患者,干预措施在改善患者护理方面的效果将不如预期。
那么,我们如何确定哪个模型是最优的呢?
正如在本幻灯片中可以看到的,最优模型是使蓝色ROC曲线相对于红色基线获得最大分离度的模型。
我们可以看出,相对误分类成本为4比1的模型3,是四个模型中最优的。
ROC曲线:关键诊断工具
顺便提一下,ROC代表接收者操作特征曲线。它最初在第一次世界大战期间开发,用于在雷达上检测敌机。此后,它在许多其他领域也得到了应用,如今普遍用于机器学习和数据挖掘。
ROC曲线是确定最优分类模型的有用诊断工具。该曲线量化了二元分类模型在改变某些判别标准时的性能。在本例中,该标准是相对误分类成本。
通过针对不同的相对误分类成本值绘制真阳性率与假阳性率的关系图,ROC曲线有助于选择最优模型。
其核心思想可以概括为:最优模型对应于ROC曲线下面积最大或最远离对角线的点。
课程总结
本节课中,我们一起学习了数据科学方法论的模型评估环节。我们了解到评估与建模是迭代过程,包括诊断指标和统计显著性检验两个主要阶段。通过一个充血性心力衰竭患者再入院预测的案例,我们深入探讨了如何通过调整误分类成本参数,并利用ROC曲线这一诊断工具,从多个候选模型中选出最优模型。评估确保了模型的有效性,并验证其是否真正解决了初始的业务问题。
012:模型部署 🚀

在本节课中,我们将学习数据科学方法论的“部署”阶段。我们将了解如何将评估后的模型投入实际使用,并确保其能为利益相关者提供有价值的答案。
虽然数据科学模型能提供答案,但要使该答案与初始问题相关且有用,关键在于让利益相关者熟悉所构建的工具。
在商业场景中,不同的利益相关者拥有各自的专长,他们能共同促成这一目标。例如,解决方案负责人、市场营销人员、应用程序开发人员和IT管理员。
一旦模型经过评估,且数据科学家确信其能够有效工作,模型就会被部署并接受最终测试。根据模型的目的,它可能会先向有限的用户群体或在测试环境中推出,以建立全面应用其结果的信心。
上一节我们讨论了模型评估,本节中我们来看看如何将模型部署到实际环境中。

案例研究:部署的应用

现在,让我们看一个与部署应用相关的案例研究。
为准备解决方案的部署,下一步是向将设计和管理干预计划以降低再入院风险的业务团队传授相关知识。
在此场景中,业务人员对模型结果进行了解释,以便临床工作人员能够理解如何识别高风险患者并设计合适的干预措施。当然,最终目标是降低这些患者在出院后30天内再次入院的可能性。

业务需求与解决方案设计
在业务需求阶段,干预计划负责人及其团队希望有一个应用程序,能够提供充血性心力衰竭的自动化、近乎实时的风险评估。
该应用程序还必须易于临床工作人员使用,最好是通过基于浏览器的平板电脑应用,以便每位工作人员随身携带。

患者数据在整个住院期间生成。这些数据将自动准备成模型所需的格式,并在每位患者临近出院时进行评分。
临床医生因此能获得每位患者最新的风险评估,帮助他们选择出院后需要干预的目标患者。
作为解决方案部署的一部分,干预团队将为临床工作人员制定并开展培训。
此外,还需要与IT开发人员和数据库管理员合作,制定跟踪和监测接受干预患者的流程,以便结果能够进入反馈阶段,模型也能随着时间的推移不断优化。
部署示例:交互式应用
下图是一个通过Cognos应用程序部署的解决方案示例。在本案例中,研究的是青少年糖尿病患者的住院风险。
与充血性心力衰竭的用例类似,此案例使用决策树分类来创建风险模型,作为该应用程序的基础。

该地图提供了全国范围内住院风险的概览,并支持通过多种患者状况和其他特征对预测风险进行交互式分析。
# 示例:决策树分类模型的核心代码结构
from sklearn.tree import DecisionTreeClassifier
# 初始化模型
model = DecisionTreeClassifier(criterion='gini', max_depth=5)
# 训练模型
model.fit(X_train, y_train)
# 进行预测
predictions = model.predict(X_test)

此幻灯片展示了模型给定节点内患者群体的风险交互式摘要报告,以便临床医生能够理解该患者亚群的各种状况组合。
这份报告提供了单个患者的详细摘要,包括该患者的预测风险及其临床病史的详细信息,为医生提供简洁的总结。
总结

本节课中,我们一起学习了数据科学方法论的“部署”阶段。我们了解到,部署不仅仅是发布一个模型,更是一个涉及多团队协作、知识传递、工具设计以及建立持续反馈循环的系统性过程。成功的部署确保模型从理论走向实践,真正为解决初始业务问题创造价值。
013:反馈机制

在本节课中,我们将学习数据科学方法论中的最后一个关键环节——反馈机制。我们将探讨如何通过用户反馈来优化模型,并确保解决方案在长期使用中持续有效。
上一节我们介绍了模型的部署,本节中我们来看看如何通过反馈机制来持续改进模型。
模型投入使用后,用户的反馈将帮助优化模型,并评估其性能和影响。只要解决方案仍需使用,模型的价值就取决于能否成功整合反馈并进行相应调整。
在整个数据科学方法论中,每个步骤都为下一步奠定了基础。将方法论设计为循环过程,可以确保在每个阶段都能进行优化。

反馈过程基于一个核心理念:你知道得越多,你想知道的就越多。John Rollins 这样认为,希望你也认同。

一旦模型经过评估,数据科学家确信其可行,它就会被部署并接受最终测试——在实际场景中进行实时使用。
现在,让我们再次回顾案例研究,看看方法论中的反馈部分是如何应用的。
以下是反馈阶段的具体步骤:
首先,定义并建立审查流程,由临床管理高管全面负责衡量“飞行风险模型”对充血性心力衰竭高风险人群的效果。
其次,跟踪接受干预的充血性心力衰竭患者,并记录他们的再入院结果。
第三,衡量干预措施在降低再入院率方面的效果。
出于伦理考虑,充血性心力衰竭患者不会被分为对照组和治疗组。相反,将通过比较模型实施前后的再入院率来衡量其影响。
在部署和反馈阶段之后,干预计划实施第一年后,将审查其对再入院率的影响。
然后,根据模型实施后收集的所有数据以及在这些阶段中获得的知识,对模型进行优化。
其他优化措施包括:整合参与干预计划的信息,并可能优化模型以纳入详细的药物数据。
如果你还记得,由于当时药物数据不易获取,数据收集最初被推迟了。但在获得反馈和实际使用经验后,可能会确定添加这些数据值得投入精力和时间。
我们还必须考虑到,在反馈阶段可能会出现其他优化点。
此外,基于初步部署和反馈中获得的经验和知识,干预措施、行动和流程也将被审查并很可能进行优化。
最后,优化后的模型和干预措施将被重新部署,反馈过程将在整个干预计划的生命周期中持续进行。
本节课中,我们一起学习了反馈机制在数据科学方法论中的重要性。通过持续收集反馈、评估效果并优化模型,我们可以确保数据科学解决方案长期保持有效和价值。反馈是方法论循环中的关键一环,它推动我们不断学习和改进。
014:《数据科学方法论》总结篇


在本节课中,我们将回顾整个数据科学方法论课程的核心内容,总结从问题定义到模型部署与反馈的完整流程,并通过实际案例加深理解。
🎯 课程概述
我们已经来到了故事的结尾,希望您能分享所学。您学会了如何像数据科学家一样思考,包括处理数据科学问题的步骤,并将它们应用于有趣的现实世界案例。这些步骤包括形成具体的业务或研究问题、收集和分析数据、构建模型,以及理解模型部署后的反馈。
🔄 从问题到方法
上一节我们介绍了数据科学方法论的整体框架,本节中我们来看看从问题到方法的具体路径。您学会了系统性地从问题转向方法,包括理解问题、业务目标与目的的重要性,并选择最有效的分析方法来回答问题、解决问题。
以下是关键步骤:
- 理解问题:明确业务或研究的具体问题。
- 设定目标:确定业务目标和成功标准。
- 选择方法:根据问题选择最合适的分析方法。
📊 数据处理流程
理解了问题与方法后,下一步是处理数据。您学会了系统性地处理数据,特别是确定数据需求、收集适当的数据、理解数据,然后为建模准备数据。
以下是数据处理的核心环节:
- 确定需求:明确解决问题所需的数据类型和来源。
- 收集数据:获取相关且高质量的数据。
- 理解数据:通过探索性数据分析了解数据特征。
- 准备数据:进行清洗、转换和特征工程,为建模做准备。
🤖 建模与评估
数据准备就绪后,我们进入建模阶段。您学会了如何根据数据需求和待解决的问题,使用适当的分析方法对数据进行建模。选定方法后,您学习了评估和部署模型的步骤,获取反馈,并建设性地利用反馈来改进模型。

请记住,该方法论的各个阶段是迭代的。这意味着只要需要解决方案,模型就可以不断改进,无论改进是来自建设性的反馈,还是来自对新数据源的审视。
💡 案例应用与价值

通过一个真实案例研究,您学习了如何应用数据科学方法论,以成功实现业务需求阶段设定的目标。您还看到了该方法论如何通过将数据科学实践融入日常分析和报告职能,为业务部门带来额外价值。
案例研究中回顾的新试点项目的成功是显而易见的,因为医生能够通过使用新工具,将及时的数据驱动信息纳入患者护理决策,从而提供更好的患者护理。
📝 方法论的精髓
最后,您简明扼要地学习了方法论的真正含义。其目的是解释如何审视问题、利用数据支持解决问题,并通过系统地回答10个简单问题,提出解决根本问题的答案。
我们教导您,方法论不仅可以帮助您解决数据科学问题,还可以解决任何其他问题。您在数据科学领域的成功,取决于您在正确的时间、以正确的顺序应用正确的工具来解决正确问题的能力。这就是John Rolland的看法。
🏁 课程总结
本节课中,我们一起回顾了数据科学方法论的全貌。我们希望您喜欢学习数据科学方法论课程,并发现这是一次宝贵的经历,值得与他人分享。当然,我们也希望您能复习并学习数据科学基础学习路径中的其他课程。
现在,如果您准备好迎接挑战,请参加期末考试。感谢观看。

浙公网安备 33010602011771号