数据科学思想-全-

数据科学思想（全）

原文：Thoughtful Data Science

协议：CC BY-NC-SA 4.0

零、前言

“开发人员是当今商业中最重要，最有价值的领域，而与行业无关。”

————《The New Kingmakers》作者 Stephen O'Grady

首先，让我感谢您，并祝贺您，读者，决定决定花您宝贵的时间阅读本书。在接下来的各章中，我将带您从开发人员的角度探索或什至重新发现数据科学的旅程，并将发展本书的主题，即数据科学是一项团队运动，并且，如果获得成功，开发人员将不得不在不久的将来扮演更大的角色，并与数据科学家更好地合作。但是，为了使数据科学对所有背景和行业的人都具有更大的包容性，我们首先需要通过使数据简单易用使其民主化-这实际上就是本书的目的。

我为什么要写这本书？

正如我将在第 1 章“来自开发人员的数据科学观点”中更详细地解释的那样，我首先是拥有 20 多年开发经验的开发人员，他在构建具有多样化的性质的软件方面有丰富的经验；前端，后端，中间件等。回顾这段时间，我意识到，正确地执行算法有多少是我首先想到的事情。数据始终是别人的问题。我很少需要分析它或从中提取见解。充其量，我正在设计正确的数据结构以某种方式加载它，这将使我的算法更有效地运行并且代码更优雅且可重复使用。

但是，随着人工智能和数据科学革命的进行，对我来说很明显像我这样的开发人员需要参与其中，因此在 7 年前的 2011 年，我抓住了机会成为 IBM Watson 核心平台用户界面和工具的首席架构师。当然，我不假装自己不是机器学习或 NLP 方面的专家。通过实践学习不能代替获得正式的学术背景。

但是，我想在本书中展示的很大一部分是，使用正确的工具和方法，具备正确的数学基础的人（我只是在谈论高中水平的微积分概念）可以迅速成为该领域的优秀从业者。成功的关键因素是尽可能简化构建数据管道的不同步骤; 从获取，加载和清理数据到可视化和探索数据，一直到构建和部署机器学习模型。

为了进一步推动使数据更容易被数据科学家以外的社区访问的想法，三年前，我在 IBM Watson Data Platform 团队中担任领导职务，其使命是扩大开发人员社区，它们以一种特殊的教育和行动主义视角处理这些数据。在此期间，作为首席开发人员倡导者，我开始公开谈论开发人员和数据科学家在更好地协作解决复杂数据问题方面的需求。

注意

注意：在会议和聚会上的讨论中，有时我会遇到麻烦的数据科学家的麻烦，因为他们将我的叙述解释为我说数据科学家不是优秀的软件开发人员。我想弄清楚这一点，包括数据科学家读者在内，与您相提并论。

大多数数据科学家都是优秀的软件开发人员，具有全面的计算机科学概念知识。但是，它们的主要目的是解决复杂的数据问题，这些问题需要快速的迭代实验来尝试新事物，而不是编写精美的可重用组件。

但是我不想只讲这个话题。我也想散散步，并启动了 PixieDust 开源项目，这是我为解决这一重要问题所做的不起眼的贡献。随着 PixieDust 工作的顺利进行，通过具体的示例应用，叙述变得更加清晰易懂，开发人员和数据科学家都可能对此感到兴奋。

当我有机会写一本关于这个故事的书时，我犹豫了很长时间，然后才开始这次冒险，主要有两个原因：

我曾在博客，文章和教程中广泛撰写过有关我作为 Jupyter 笔记本的数据科学从业者的经验的文章。在各种会议上，我作为演讲者和研讨会主持人也有丰富的经验。一个很好的例子是我在 2017 年在 ODSC 伦敦发表的主题演讲，题为《数据科学的未来：更少的权力游戏，更多的联盟》。但是，我以前从未写过书，也不知道会有多大的承诺，尽管以前曾写过书的朋友多次警告过我。
我希望本书具有包容性，并平等地面向开发人员，数据科学家和业务用户，但我一直在努力寻找实现该目标的正确内容和基调。

最后，开始这项冒险的决定很容易。在 PixieDust 项目上工作了 2 年后，我感到我们已经通过非常有趣的创新取得了令人瞩目的进展，这些创新引起了开源社区的极大兴趣，并且写书将很好地补充我们在帮助开发人员参与数据科学方面的倡导工作。

附带说明一下，对于正在考虑写书且有类似问题的读者，我只能建议第一个带有大写“是的，继续努力”的读者。可以肯定的是，这是一项重大承诺，需要付出大量的牺牲，但前提是您要有一个扎实的故事来讲故事，这确实值得您付出努力。

这本书适合谁

本书将服务于对正在发展的数据科学家和开发人员感兴趣的技能开发或任何希望成为专业数据科学家的人员。通过其创建者介绍的 PixieDust，这本书对于已经完成的数据科学家来说也将是一个很好的桌面伴侣。

不管个人的兴趣水平如何，清晰，易读的文本和真实场景都将适合该领域的人们，因为他们可以在 Jupyter 笔记本中运行 Python 代码。

要生成正常运行的 PixieDust 仪表板，只需要少量的 HTML 和 CSS。流利的数据解释和可视化也是必要的，因为本书针对的是数据专业人员，例如业务和一般数据分析师。后面的章节也有很多内容。

这本书涵盖的内容

这本书包含两个大致相等长度的逻辑部分。在上半年中，我列出了本书的主题，即弥合数据科学与工程学之间的鸿沟的必要性，其中包括有关我提议的 Jupyter + PixieDust 解决方案的深入详细信息。下半年致力于将我们在上半年中学到的知识应用于四个行业案例。

第 1 章，“开发人员对数据科学的观点”，我尝试通过我自己的经验来定义数据科学，并建立一个数据管道来在 Twitter 上执行帖子情感分析。我认为这是一项团队运动，并且在大多数情况下，数据科学团队和工程团队之间存在孤岛，这会导致不必要的摩擦，效率低下，最终导致无法充分发挥其潜力。我还认为，数据科学将继续存在，并最终将成为当今所谓的计算机科学不可或缺的一部分（我想有一天会有新术语出现，例如“计算机数据科学”更好地捕捉了这种双重性）。

第 2 章，“借助 Jupyter 笔记本和 PixieDust”，我开始深入研究流行的数据科学工具，例如 Python 及其专用于数据科学的开源库生态系统，以及 Jupyter 笔记本。我解释了为什么我认为 Jupyter 笔记本电脑将在未来几年成为大赢家。我还从简单的display()方法开始介绍 PixieDust 开源库功能，该方法使用户可以通过构建引人注目的图表直观地浏览交互式用户界面中的数据。使用此 API，用户可以从多个渲染引擎（例如 Matplotlib，Bokeh，Seaborn 和 Mapbox）中进行选择。 display()函数是 PixieDust MVP（最低可行产品）中的唯一功能，但是随着时间的流逝，当我与许多数据科学从业人员进行互动时，我为快速成为 PixieDust 工具箱添加了新功能：

sampleData()：一个简单的 API，可轻松将数据加载到 Pandas 和 Apache SparkDataFrame中
wrangle_data()：用于清理和按摩数据集的简单 API。此函数包括使用正则表达式从非结构化文本中提取内容的函数，可将列分解为新的列。 wrangle_data() API 也可以基于预定义的模式提出建议。
包管理器：允许用户在 Python 笔记本中安装第三方 Apache Spark 包。
Scala 桥接：使用户能够在 Python 笔记本中运行 Scala 代码。在 Python 端定义的变量可以在 Scala 中访问，反之亦然。
Spark 作业进度监视器：使用实时进度条跟踪您的 Spark 作业状态，该进度条直接显示在正在执行的代码的输出单元格中。
PixieApp：提供一个以 HTML/CSS 为中心的编程模型，使开发人员可以构建复杂的仪表板，以对笔记本中内置的分析进行操作。 PixieApps 可以直接在 Jupyter 笔记本中运行，也可以使用 PixieGateway 微服务作为分析 Web 应用进行部署。 PixieGateway 是 PixieDust 的开源配套项目。

下图总结了 PixieDust 的开发过程，包括最近添加的内容，例如 PixieGateway 和 PixieDebugger，这是 Jupyter 笔记本的第一个可视化 Python 调试器：

PixieDust 旅程

从本章中删除的一个关键信息是，PixieDust 首先是一个开源项目，它通过开发人员社区的贡献而生存和呼吸。就像无数开源项目一样，随着时间的推移，我们可以期望将更多突破性功能添加到 PixieDust 中。

第 3 章，“深入了解 PixieApp”，我将带给读者关于 PixieApp 编程模型的深入了解，并通过分析 GitHub 数据的示例应用说明了每个概念。我从对 PixieApp 的解剖结构的高级描述开始，包括其生命周期以及带有路由概念的执行流程。然后，我详细介绍了开发人员如何使用常规 HTML 和 CSS 代码段构建仪表板的 UI，与分析进行无缝交互以及利用 PixieDust display() API 添加复杂的图表的细节。

PixieApp 编程模型是弥合数据科学与工程学之间差距的工具策略的基石，因为它简化了分析操作的流程，从而增加了数据科学家与开发人员之间的协作，并缩短了应用的上市时间。

第 4 章“使用 PixieGateway 服务器”将 PixieApps 部署到 Web 上，我将讨论 PixieGateway 微服务，使开发人员可以将 PixieApps 发布为分析 Web 应用。首先，我将展示如何作为 Kubernetes 容器在本地和云上快速部署 PixieGateway 微服务实例。然后，我将介绍 PixieGateway 管理控制台功能，包括各种配置配置文件以及如何实时监视已部署的 PixieApps 实例和相关的后端 Python 内核。我还具有 PixieGateway 的图表共享功能，该功能使用户可以将使用 PixieDust display() API 创建的图表转换为团队中任何人都可以访问的网页。

PixieGateway 是一项突破性的创新，具有可以显着加快分析操作速度的潜力，而这正是当今迫切需要的，可以充分利用数据科学的前景。它代表了市场上已经存在的类似产品的开源替代品，例如 R-Studio 的 Shiny Server 和 Plotly 的 Dash。

第 5 章，“最佳做法和高级 PixieDust 概念”，通过研究 PixieApp 编程模型的高级概念，我完成了 PixieDust 工具箱的深入研究：

@captureOutput装饰器：默认情况下，PixieApp 路由要求开发人员提供 HTML 片段，该片段将被注入到应用 UI 中。当我们要调用不了解 PixieApp 架构的第三方 Python 库并直接将输出生成到笔记本时，这是一个问题。 @captureOutput通过自动重定向第三方 Python 库生成的内容并将其封装到适当的 HTML 片段中来解决此问题。
利用 Python 类继承获得更大的模块化和代码重用：将 PixieApp 代码分解为可以使用 Python 类继承功能组合在一起的逻辑类。我还将展示如何使用pd_app自定义属性调用外部 PixieApp。
PixieDust 对流数据的支持：展示 PixieDust display()和 PixieApp 也可以如何处理流数据。
使用 PixieApp 事件实现仪表板下钻：提供一种机制，让 PixieApp 组件发布和订阅用户与 UI 交互时生成的事件（例如，图表和按钮）。
为 PixieDust display() API 构建自定义显示渲染器：遍历扩展 PixieDust 菜单的简单渲染器的代码。该渲染器显示一个自定义 HTML 表，其中显示了所选数据。
调试技术：介绍 PixieDust 提供的各种调试技术，包括称为 PixieDebugger 的可视化 Python 调试器和用于显示 Python 日志记录消息的%%PixiedustLog魔术。
运行 Node.js 代码的能力：我们讨论pixiedust_node扩展，该扩展管理负责直接从 Python 笔记本中执行任意 Node.js 脚本的 Node.js 进程的生命周期。

由于开源代码模型具有透明的开发过程，并且不断增长的用户社区提供了一些有价值的反馈，因此随着时间的推移，我们能够优先考虑和实现许多这些高级功能。我要说明的重点是遵循具有适当许可证的开源模型（PixieDust 使用此处提供的 Apache 2.0 许可证运作良好。它帮助我们发展了用户社区，从而为我们提供了必要的反馈，以优先考虑我们认为具有很高价值的新功能，并在某些情况下以 GitHub 拉取请求的形式提供了代码。

第 6 章“使用 TensorFlow 进行图像识别”，我将深入探讨四个行业案例中的第一个。我从机器学习的高级介绍开始，然后是机器学习的子领域深度学习和 TensorFlow 框架的介绍，该框架使构建神经网络模型更加容易。然后我继续构建图像识别示例应用，包括四个部分的相关 PixieApp：

第 1 部分：使用预训练 ImageNet 模型构建图像识别 TensorFlow 模型。我使用写给诗人的 TensorFlow 教程，展示了如何构建分析以加载和评分神经网络模型。
第 2 部分：创建一个 PixieApp，用于对第 1 部分中创建的分析进行操作。该 PixieApp 从用户提供的网页 URL 中抓取图像，根据 TensorFlow 模型对图像评分，然后以图形方式显示结果。
第 3 部分：我展示了如何直接在笔记本中集成 TensorBoard 图形可视化组件，并提供了调试神经网络模型的功能。
第 4 部分：我展示了如何使用自定义训练数据重新训练模型，以及如何更新 PixieApp 来显示两个模型的结果。

我决定使用 TensorFlow 进行深度学习图像识别，以开始一系列示例应用，因为这是一个日益流行的重要用例，并演示了如何构建模型并将其部署在同一笔记本中的应用中，这是缩小数据科学与工程之间差距的主题。

第 7 章，“大数据 Twitter 情感分析”，我谈到在 Twitter 规模上进行自然语言处理。在本章中，我将展示如何使用 IBM Watson Natural Language 了解基于云的服务对推文进行情感分析。这非常重要，因为它提醒读者，重用托管托管服务而不是内部构建功能有时可能是一个有吸引力的选择。

我首先介绍 Apache Spark 并行计算框架，然后继续分为四个部分构建应用：

第 1 部分：使用 Spark 结构化流获取 Twitter 数据
第 2 部分：从文本中提取情感和最相关的实体来丰富数据
第 3 部分：通过创建实时仪表板 PixieApp 来对分析进行操作。
第 4 部分：一个可选部分，使用 Apache Kafka 和 IBM Streaming Designer 托管服务重新实现应用，以演示如何添加更大的可伸缩性。

我认为读者（尤其是不熟悉 Apache Spark 的读者）将喜欢本章，因为它比上一章更容易理解。关键要点是如何构建可通过连接到 Spark 集群的 Jupyter 笔记本进行扩展的分析。

第 8 章，“金融时间序列分析和预测”，我谈论时间序列分析，它是数据科学中非常重要的领域，在行业中有许多实际应用。本章首先深入探讨 NumPy 库，它是许多其他库（例如 Pandas 和 SciPy）的基础。然后，我继续构建示例应用，该应用分析了由历史库存数据组成的时间序列，分为两个部分：

第 1 部分：提供时间序列的统计信息，包括各种图表，例如自相关函数（ACF）和部分自相关函数（PACF）
第 2 部分：使用statsmodels Python 库，基于 ARIMA 算法构建预测模型

时间序列分析是数据科学的一个重要领域，我认为它被低估了。在撰写本章时，我个人学到了很多东西。我当然希望读者也能喜欢它，并且阅读它会激发人们对这个伟大话题的更多了解。如果是这样，我还希望您能说服您在接下来的时间序列分析学习中尝试 Jupyter 和 PixieDust。

第 9 章，“使用图的美国国内航班数据分析”，我通过图的研究完成了这一系列行业用例。我选择了一个用于分析航班延误的示例应用，因为该数据很容易获得，并且非常适合使用图形算法（嗯，为了全面披露，我可能还选择了它，因为我已经编写了一个类似的应用来预测航班延误，基于我使用 Apache Spark MLlib 的天气数据）。

我首先介绍图和相关图算法，包括几种最流行的图算法，例如广度优先搜索和深度优先搜索。然后，我继续介绍用于构建示例应用的networkx Python 库。

该应用由四个部分组成：

第 1 部分：显示如何将美国国内航班数据加载到图形中。
第 2 部分：创建USFlightsAnalysis PixieApp，该应用使用户可以选择始发地和目的地机场，然后根据选定的中心性显示两个机场之间最短路径的 Mapbox 地图
第 3 部分：将数据浏览添加到 PixieApp，其中包括飞往选定起点机场的每家航空公司的各种统计信息
第 4 部分：使用在第 8 章，“金融时间序列分析和预测”中学习的技术，建立用于预测航班延误的 ARIMA 模型

图论也是数据科学的另一个重要且不断发展的领域，本章很好地介绍了该系列文章，我希望该系列文章提供一组多样化且具有代表性的行业用例。对于对使用大数据图形算法特别感兴趣的读者，我建议您查看 Apache Spark GraphX，它使用非常简单灵活的 API 来实现许多图形算法。

第 10 章，“最终见解”结束时，我给出了简要摘要并解释了我对 Drew's Conway 维恩图的理解。然后，我将讨论 AI 和数据科学的未来，以及公司如何为 AI 和数据科学革命做好准备。另外，我还列出了一些很好的参考资料供进一步学习。

附录，“PixieApp 快速参考”是开发人员快速参考指南，提供了所有 PixieApp 属性的摘要。这将在适当的示例的帮助下解释各种注释，自定义 HTML 属性和方法。

但是关于介绍的内容已经足够了：让我们从第一个章节“开发人员的数据科学观点”开始我们的旅程。

要充分利用这本书

遵循该示例所需的大多数软件都是开源的，因此可以免费下载。全书提供了说明，从安装包括 Jupyter 笔记本服务器的 anaconda 开始。
在第 7 章，“大数据 Twitter 情感分析”中，示例应用需要使用 IBM Watson 云服务，包括 NLU 和 Streams Designer。这些服务带有免费套餐，足以按照示例进行操作。

下载示例代码文件

您可以从这个页面从您的帐户下载本书的示例代码文件。如果您在其他地方购买了这本书，则可以访问这个页面并注册以将文件直接通过电子邮件发送给您。

您可以按照以下步骤下载代码文件：

登录或注册这个页面。
选择支持标签。
单击代码下载&勘误表。
在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。

下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：

Windows 的 WinRAR/7-Zip
适用于 Mac 的 Zipeg/iZip/UnRarX
适用于 Linux 的 7-Zip/PeaZip

本书的代码包也托管在 GitHub 的这个页面。我们还从这个页面提供了丰富的书籍和视频目录中的其他代码包。去看一下！

下载彩色图像

我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。您可以在此处下载。

使用的约定

本书中使用了许多文本约定。

CodeInText：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。例如：“您可以使用{%if ...%}...{%elif ...%}...{%else%}…{%endif%}表示法有条件地输出文本。”

代码块设置如下：

import pandas
data_url = "https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD"
building_df = pandas.read_csv(data_url)
building_df

当我们希望引起您对代码块特定部分的注意时，相关行或项目以粗体显示：

import pandas
data_url = "https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD"
building_df = pandas.read_csv(data_url)
building_df

任何命令行输入或输出的编写方式如下：

jupyter notebook --generate-config

粗体：表示新的术语，重要的单词或您在屏幕上看到的单词，例如在菜单或对话框中，也显示在这样的文本中。例如：“下一步是创建一个使用用户值并返回结果的新路由。该路由将由 Submit Query 按钮调用。”

注意

警告或重要提示如下所示。

提示

提示和技巧如下所示。

一、开发人员对数据科学的看法

“数据是一件宝贵的事情，并且会比系统本身持续更长时间。”

——万维网的发明者 Tim Berners-Lee

在本介绍性章节中，我将通过尝试回答一些基本问题来开始对话，这些基本问题有望为本书的其余部分提供上下文和清晰性：

什么是数据科学，为什么它呈上升趋势
为什么数据科学将继续存在
为什么开发人员需要参与数据科学

作为开发人员和最近的数据科学从业者，我将使用自己的经验，讨论我所从事的具体数据管道项目以及从这项工作中得出的数据科学策略，该策略包括三个支柱：数据，服务和工具。在本章的结尾，我将介绍 Jupyter 笔记本，这是我在本书中提出的解决方案的核心。

什么是数据科学

如果您在网上搜索数据科学的定义，肯定会发现很多。这反映了一个事实，即数据科学对不同的人意味着不同的事物。关于数据科学家究竟要做什么以及他们必须接受什么培训尚无真正的共识；这全都取决于他们要完成的任务，例如数据收集和清理，数据可视化等等。

现在，我将尝试使用一个通用的，希望是一致同意的定义：数据科学是指分析大量数据以提取知识和见解以导致可采取行动的决策的活动。但是它仍然很模糊。有人会问我们在谈论什么样的知识，洞察力和可行的决策？

为了确定对话的方向，我们将范围缩小到数据科学的三个领域：

描述性分析：数据科学与相关联，它与信息检索和数据收集技术相关，目的是重构过去的事件以识别模式并找到有助于理解发生了什么以及导致它发生的原因的见解。这样的一个示例是按区域查看销售数据和人口统计数据，以对客户偏好进行分类。这部分需要熟悉统计和数据可视化技术。
预测性分析：数据科学是预测某些事件当前正在发生或将来会发生的可能性的方法。在这种情况下，数据科学家会查看过去的数据以查找解释变量并建立统计模型，该模型可应用于我们试图预测其结果的其他数据点，例如，预测信用卡交易发生实时欺诈的可能性。这部分通常与机器学习领域相关。
规范性分析：在这种情况下，数据科学被视为做出更好决策的一种方式，或者我应该说是数据驱动的决策。想法是考虑多种选择并使用模拟技术来量化和最大化结果，例如，通过着眼于最小化运营成本来优化供应链。

从本质上讲，描述性数据科学回答了问题（数据告诉我），预测性数据科学回答了为什么（数据以某种方式发生）的问题，并且规范性数据科学回答了如何（我们朝着特定目标优化数据）的问题。

数据科学将继续存在吗？

让我们从一开始就直截了当地：我强烈认为答案是肯定的。

但是，并非总是如此。几年前，当我第一次听说数据科学作为概念时，我最初认为这是描述该行业中已经存在的一项活动的又一个营销流行语：商业智能（BI）。作为主要从事解决复杂系统集成问题的开发人员和架构师，可以很容易地使自己确信我不需要直接参与数据科学项目，即使很明显他们的数量正在增加，原因是开发人员传统上将数据管道视为黑箱，可通过定义明确的 API 对其进行访问。但是，在过去的十年中，我们已经看到学术界和行业对数据科学的兴趣呈指数增长，这一点很明显，这种模式是不可持续的。

随着数据分析在公司的运营过程中发挥越来越大的作用，开发人员的作用也得到了扩展，以更接近算法并构建在生产中运行它们的基础结构。数据科学已成为新的淘金热的另一项证据是数据科学家职位的飞速增长，该职位已连续两年在 Glassdoor 上排名第一，雇主确实在 Indeed 上发布的最多。猎头公司也在 LinkedIn 和其他社交媒体平台上四处寻觅，向有资料显示任何数据科学技能的人发送大量招聘信息。

对这些新技术进行所有投资的主要原因之一是希望它将带来重大改进并提高业务效率。但是，尽管这是一个不断发展的领域，但当今企业中的数据科学仍然仅限于实验，而不是像人们期望的那样大肆宣传。如果数据科学正在逐渐消亡并最终消灭另一种技术泡沫，那么这使许多人感到不安。

这些都是好点，但我很快意识到这不仅仅是一种过时的时尚; 我领导的越来越多的项目包括将数据分析集成到核心产品功能中。最后，这是 IBM Watson Question Answering 系统在 Jeopardy 与两个经验丰富的冠军对决，我深信数据科学以及与云，大数据和人工智能（AI）将会留下来，并最终改变我们对计算机科学的思考方式。

数据科学为何在兴起？

数据科学的迅猛发展涉及多个因素。

首先，收集的数据量一直以指数速度增长。根据 IBM Marketing Cloud 的最新市场研究，大约每天创建了 2.5 亿个字节（让您知道它有多大，即 25 亿个字节），但只分析了这些数据的一小部分，却遗漏了许多机会。

其次，我们正处于几年前开始的认知革命之中。几乎每个行业都在追赶 AI 潮流，其中包括自然语言处理（NLP）和机器学习。尽管这些领域已经存在了很长时间，但它们最近重新受到关注，以至于它们现已成为大学中最受欢迎的课程之一，并且在开源活动中获得了最大份额。显然，如果要生存，公司就需要变得更加敏捷，更快地发展并转变为数字业务，并且随着可供决策的时间越来越接近实时，它们必须完全具备数据驱动功能。如果您还包括 AI 算法需要高质量数据（以及很多数据）才能正常工作的事实，我们就可以开始理解数据科学家扮演的关键角色。

第三，随着云技术的进步以及平台即服务（PaaS）的开发，访问大型计算引擎和存储从未如此简单或便宜。曾经是大公司的权限的大数据工作负载现在可用于较小的组织或拥有信用卡的任何个人; 反过来，这也促进了创新的全面发展。

由于这些原因，毫无疑问，类似于 AI 革命，数据科学将继续存在，并且其增长将持续很长时间。但是我们也不能忽视这样一个事实，即数据科学尚未充分发挥其潜力并产生了预期的结果，特别是在帮助公司转变为数据驱动型组织的过程中。通常，挑战是实现下一步，即将数据科学和分析转变为一项核心业务活动，最终实现清晰，明智，明智的业务决策。

与开发者有什么关系？

这是一个非常重要的问题，在接下来的章节中我们将花费大量时间进行开发。让我回顾一下我的职业生涯。我从事开发人员的大部分时间都可以追溯到 20 多年前，从事计算机科学的许多方面。

我首先构建了各种工具，这些工具通过自动将用户界面翻译成多种语言的过程来帮助软件国际化。然后我研究了用于 Eclipse 的 LotusScript（Lotus Notes 的脚本语言）编辑器，该编辑器将直接与基础编译器交互。该编辑器提供了一流的开发功能，例如提供建议的内容辅助，实时语法错误报告等。然后，我花了几年时间为 Lotus Domino 服务器构建基于 Java EE 和 OSGI 的中间件组件。在此期间，我领导一个团队，通过将 Lotus Domino 编程模型引入当时可用的最新技术来对其进行现代化。我对软件开发，前端，中间件，后端数据层，工具等的各个方面都很满意; 我被某些人称为全栈开发人员。

直到我看到 IBM Watson Question Answering 系统的演示，它在 2011 年在 Jeopardy 游戏中击败了长期冠军 Brad Rutter 和 Ken Jennings。哇！这是一个突破性的技术，它是一种能够回答自然语言问题的计算机程序。我很感兴趣，在进行了一些研究之后，与参与该项目的一些研究人员会面，并了解了用于构建该系统的技术，例如 NLP，机器学习和通用数据科学，我意识到了如果将技术应用于业务的其他部分，这种技术有多少潜力。

几个月后，我有机会加入 IBM 新组建的 Watson 部门，领导一个工具团队，其任务是为 Watson 系统建立数据提取和准确率分析功能。我们最重要的要求之一就是确保我们的客户易于使用这些工具，这就是为什么回想起来，将这一责任赋予开发人员团队是正确的做法。从我的角度来看，从事这项工作既充满挑战，又富有。我离开了一个熟悉的世界，在那里我擅长基于众所周知的模式设计架构并实现前端，中间件或后端软件组件，而这个世界主要专注于处理大量数据; 获取，清理，分析，可视化并构建模型。我花了前六个月的时间从消防水龙头喝酒，阅读和学习有关 NLP，机器学习，信息检索和统计数据科学的知识，至少足以使用我正在构建的功能。

那时，我与研究团队进行了互动，将这些算法推向市场，我意识到开发人员和数据科学家需要更好地协作的重要性。的传统方法是让数据科学家孤立地解决复杂的数据问题，然后将结果“扔给开发人员”，让开发人员对其进行操作是不可持续的，并且无法扩展，考虑到要处理的数据量保持指数级增长，所需的上市时间不断缩小。

相反，他们的角色需要转向一个团队，这意味着数据科学家必须像软件开发人员那样工作和思考，反之亦然。确实，这在纸上看起来非常好：一方面，数据科学家将受益于久经考验的软件开发方法（例如敏捷）及其快速迭代和频繁的反馈方法，而且还将受益于符合企业需求的严格的软件开发生命周期，例如安全性，代码审查，源代码控制等。另一方面，开发人员将开始以新的方式考虑数据：分析旨在发现见解，而不仅仅是具有查询和 CRUD API 的持久层（创建，读取，更新，删除的缩写）。

将这些概念付诸实践

在担任 Watson Core Tooling 首席架构师为 Watson Questioning System 构建自助工具 4 年之后，我加入了 Watson Data Platform 组织的 Developer Advocacy 团队，该团队的任务扩展是创建一个平台，来将产品组合带给 IBM 公共云的数据和认知服务。我们的任务非常简单：赢得开发人员的支持并帮助他们在数据和 AI 项目上取得成功。

作品有多个方面：教育，传福音和行动主义。前两个非常简单，但是行动主义的概念与此讨论有关，值得更详细地说明。顾名思义，行动主义就是在需要变革的地方带来变革。对于我们的由 15 名开发人员拥护者组成的团队来说，这意味着在开发人员尝试使用数据时（无论他们是刚刚起步还是已经在运行高级算法），他们步履蹒跚，他们感到痛苦，并确定了应该解决的差距。为此，我们构建了具有现实用例的大量示例数据管道并使其开源。

这些项目至少都需要满足三个要求：

用作输入的原始数据必须公开可用
提供清晰的说明以在合理的时间内在云上部署数据管道
开发人员应该能够将项目用作类似情况的起点，也就是说，代码必须具有高度可定制性和可重用性

我们从这些练习中获得的经验和见解非常宝贵：

了解哪种数据科学工具最适合每个任务
最佳实践框架和语言
部署和操作分析的最佳实践架构

指导我们选择的指标很多：准确率，可伸缩性，代码可重用性，但最重要的是，改善了数据科学家与开发人员之间的协作。

深入探讨具体示例

早期，我们想建立一个数据管道，通过对包含特定主题标签的推文进行情感分析，从 Twitter 提取见解，并将结果部署到实时仪表板中。该应用是我们的理想起点，因为数据科学分析不太复杂，并且该应用涵盖了现实生活场景的许多方面：

高容量，高吞吐量的流数据
将 NLP 情感分析用于数据丰富
基本数据汇总
数据可视化
部署到实时仪表板

为了进行试验，第一个实现是一个简单的 Python 应用，该应用使用 tweepy 库（Python 的官方 Twitter 库）连接到 Twitter 并获得一系列推文和 textblob（用于基本 NLP 的简单 Python 库），以丰富情感分析。

然后将结果保存到 JSON 文件中进行分析。这个原型是使事情开始并快速进行实验的好方法，但是经过几次迭代，我们很快意识到我们需要认真对待并构建满足企业需求的架构。

数据管道蓝图

在较高的层次上，可以使用以下通用蓝图来描述数据管道：

数据管道工作流程

数据管道的主要目标是在可扩展，可重复的过程中以高度自动化的方式来操作（即提供直接业务价值）数据科学分析结果。分析的示例可以是一个推荐引擎，以诱使消费者购买更多产品，例如，亚马逊推荐的列表，或者显示可以帮助以下方面的信息的仪表板：关键表现指标（KPI）。首席执行官为公司制定未来决策。

数据管道的构建涉及多个人：

数据工程师：他们负责设计和操作信息系统。换句话说，数据工程师负责与数据源进行接口，以原始格式获取数据，然后对其进行按摩（有些人称此数据为问题），直到准备好进行分析为止。在 Amazon 推荐系统示例中，他们将实现流处理管道，该流处理管道从记录的电子商务系统中捕获并汇总特定的消费者交易事件并将其存储到数据仓库中。
数据科学家：他们分析数据并建立提取见解的分析方法。在我们的 Amazon 推荐系统示例中，他们可以使用连接到数据仓库的 Jupyter 笔记本加载数据集并使用协同过滤算法。
开发人员：他们负责将分析操作化为针对业务用户（业务分析师，C-Suite，最终用户等）的应用。同样，在 Amazon 推荐系统中，开发人员将在用户完成购买或通过定期电子邮件后显示推荐产品的列表。
业务用户：包括使用数据科学分析输出的所有用户，例如，业务分析人员分析仪表板以监视业务的健康状况，或者使用提供以下建议的应用监视最终用户：接下来要买什么。

注意

在现实生活中，同一个人扮演的角色不止这里描述的一种，这并不罕见。这可能意味着一个人在与数据管道进行交互时有多种不同的需求。

如上图所示，构建数据科学管道在本质上是迭代的，并且遵循定义明确的流程：

获取数据：此步骤包括从各种来源获取原始格式的数据：结构化（RDBMS，记录系统等）或非结构化（网页，报告等）：
- 数据清理：检查完整性，填充丢失的数据，修复错误的数据，以及清除数据
- 数据准备：充实，检测/删除异常值并应用业务规则
分析：此步骤将描述性活动（理解数据）和描述性活动（构建模型）结合在一起：
- 探索：查找统计属性，例如中央趋势，标准差，分布和变量识别，例如单变量和双变量分析，变量之间的相关性等。
- 可视化：此步骤对于正确分析数据并形成假设非常重要。可视化工具应提供合理水平的交互性，以促进对数据的理解。
- 构建模型：应用推断统计信息来形成假设，例如为模型选择特征。此步骤通常需要专业知识，并且需要大量解释。
部署：将分析阶段的输出操作化：
- 沟通：生成报告和仪表板，以清楚地传达分析输出，以供业务部门用户使用（C-Suite，业务分析师等）
- 发现：设置业务结果目标，着重于发现可以带来新收入来源的新见解和商机
- 实现：为最终用户创建应用
测试：此活动应真正包含在的每个步骤中，但是在这里，我们谈论的是根据现场使用情况创建反馈回路：
- 创建衡量模型的准确率的指标
- 优化模型，例如，获取更多数据，查找新功能等等

成为数据科学家需要什么样的技能？

在行业中，现实情况是数据科学太新了，公司还没有一个明确的职业道路。您如何获得数据科学家职位的聘用？需要多少年的经验？您需要具备哪些技巧？数学，统计学，机器学习，信息技术，计算机科学等等？

好吧，答案可能是所有事情的一点点，再加上一项更关键的技能：特定领域的专业知识。

关于是否将通用数据科学技术应用于任何数据集而没有深入了解其含义的争论正在展开，这是否会导致期望的业务成果。许多公司都倾向于确保数据科学家拥有大量的领域专业知识，其基本原理是，如果没有它，您可能会在不知不觉中在任何步骤上引入偏见，例如在填补数据清理阶段或特征选择过程中的空白时，以及最终建立的模型很适合给定的数据集，但最终仍然毫无价值。想象一下，一位没有化学背景的数据科学家，正在为一家开发新药的制药公司研究有害分子之间的相互作用。这也可能就是为什么我们看到专门针对特定领域的统计课程的繁多的原因，例如生物学的生物统计学，或用于分析与供应链相关的运营管理的供应链分析等等。

总而言之，数据科学家理论上应该在以下方面有所精通：

数据工程/信息检索
计算机科学
数学与统计
机器学习
数据可视化
商业情报
特定领域的专业知识

注意

如果您正在考虑学习这些技能，但又没有时间参加传统课程，我强烈建议您使用在线课程。

我特别推荐此课程。

经典的 Drew 的 Conway Venn 图很好地展示了什么是数据科学以及为什么数据科学家有点独角兽：

德鲁的康威数据科学维恩图

到现在为止，我希望可以很清楚地发现，符合上述描述的完美数据科学家更多地是个例外，而不是规范，而且角色通常涉及多个角色。是的，是的，我要提出的观点是数据科学是一项团队运动，这一想法将贯穿本书。

IBM Watson DeepQA

IBM DeepQA 研究项目就是一个例证，它证明了数据科学是一项团队运动的想法，该项目源于 IBM 的一项巨大挑战，即要建立一个能够针对预定的域知识回答自然语言问题的人工智能系统。 问答系统（QA）应该足够好，可以与 Jeopardy 受欢迎的电视游戏节目。

众所周知，被称为 IBM Watson 的该系统在 2011 年赢得了对抗两个最老牌 Jeopardy 冠军：肯·詹宁斯和布拉德·鲁特。以下照片是从 2011 年 2 月播出的实际游戏中拍摄的：

IBM Watson 在 Jeopardy 中与 Ken Jennings 和 Brad Rutter 作战！

资料来源：https://upload.wikimedia.org/wikipedia/e

正是在这段时间里，我与构建 IBM Watson QA 计算机系统的研究团队进行了互动，我仔细研究了 DeepQA 项目架构，并亲眼目睹了实际用于多少数据科学领域。

下图描述了 DeepQA 数据管道的高级架构：

沃森 DeepQA 架构图

资料来源：https://researcher.watson.ibm.com/researcher/files/us-mi

如上图所示，用于回答问题的数据管道由以下高级步骤组成：

问题和主题分析（自然语言处理）：此步骤使用深度解析组件，该组件检测组成问题的单词之间的依存关系和层次结构。目标是对问题有更深入的了解并提取基本属性，例如：
- 焦点：问题是什么？
- 词汇答案类型（LAT）：预期答案的类型是什么，例如，一个人，一个地点等。在为候选答案评分时，此信息非常重要，因为它为与 LAT 不匹配的答案提供了早期过滤器。
- 命名实体解析：这将实体解析为标准化名称，例如，Big Apple到New York。
- 回指解析度：这将代词与该问题的先前用语联系起来，例如，句子On Sept. 1, 1715 Louis XIV died in this city, site of a fabulous palace he built所建立的代词he是指路易十四。
- 关系检测：这可以检测问题中的关系，例如，She divorced Joe DiMaggio in 1954，其中的关系是Joe DiMaggio Married X。这些类型的关系（主谓宾）可用于查询三元组存储并产生高质量的候选答案。
- 问题类别：这会将问题映射到 Jeopardy 中使用的预定义类型之一，例如，类事实，多项选择题，难题等。
主要搜索和假设生成（信息检索）：此步骤在很大程度上依赖于问题分析步骤的结果，以组装适用于不同可用答案源的一组查询。答案源的示例包括各种全文本搜索引擎，例如 Indri 和 Apache Lucene/Solr，面向文档和面向标题的搜索（Wikipedia），三重存储等等。然后，搜索结果用于生成候选答案。例如，面向标题的结果将直接用作候选，而文档搜索将需要对段落进行更详细的分析（再次使用 NLP 技术）以提取可能的候选答案。
假设和证据评分（NLP 和信息检索）：对于每个候选答案，将进行另一轮搜索，以使用不同的评分技术来查找其他支持证据。此步骤还用作预筛选测试，其中消除了一些候选答案，例如与步骤 1 中计算得出的 LAT 不匹配的答案。此步骤的输出是一组机器学习特征，对应于找到的支持性证据。这些特征将用作一组机器学习模型的输入，以对候选答案进行评分。
最终合并和评分（机器学习）：在此最后步骤中，系统识别出同一答案的变体并将其合并在一起。它还使用步骤 3 中生成的特征，使用机器学习模型来选择按其各自分数排名的最佳答案。这些机器学习模型已经针对一组代表性问题进行了训练，这些问题具有针对已被收集的文档的正确答案。预先吃了。

当我们继续讨论数据科学和 AI 如何改变计算机科学领域时，我认为了解最新技术水平非常重要。 IBM 沃森（Watson）是这些旗舰项目之一，为我们在 Jeopardy 游戏中击败肯·詹宁斯（Ken Jennings）和布拉德·鲁特（Brad Rutter）奠定了基础，为我们取得更大的进步铺平了道路。

返回我们对 Twitter hashtags 项目的情感分析

我们构建的快速数据流水线原型使我们对数据有了很好的了解，但是随后我们需要设计更健壮的架构并使应用企业做好准备。我们的主要目标仍然是获得构建数据分析的经验，而不是在数据工程部分花费太多时间。这就是为什么我们尝试尽可能地利用开源工具和框架的原因：

Apache Kafka：这是一个可扩展的流平台，用于以可靠且容错的方式处理大量推文。
Apache Spark：这是一个内存中的集群计算框架。 Spark 提供了可简化并行计算复杂性的编程接口。
Jupyter 笔记本：这些基于 Web 的交互式文档（笔记本）使用户可以远程连接到计算环境（内核）以创建高级数据分析。 Jupyter Kernels 支持多种编程语言（Python，R，Java/Scala 等）以及多种计算框架（Apache Spark，Hadoop 等）。

在情感分析部分，我们决定将使用 textblob Python 库编写的代码替换为 Watson Tone Analyzer 服务，这是一项基于云的休息服务，可提供高级情感分析，包括情感，语言和社交语气的检测。即使 Tone Analyzer 不是开源的，也可以在 IBM Cloud 上使用可用于开发和试用的免费版本。

我们的架构现在看起来像这样：

Twitter 情感分析数据管道架构

在上图中，我们可以将工作流分解为以下步骤：

产生一系列推文并将其发布到 Kafka 主题中，可以将其视为将事件分组在一起的渠道。反过来，接收者组件可以订阅此主题/频道以使用这些事件。
通过情感，语言和社交语调得分丰富推文：使用 Spark Streaming 从组件1订阅 Kafka 主题，然后将文本发送到 Watson Tone Analyzer 服务。将得到的色调分数添加到数据中，以进行进一步的下游处理。该组件使用 Scala 实现，为方便起见，使用 Jupyter Scala 笔记本运行。
数据分析和探索：在这一部分，我们决定使用 Python 笔记本仅仅是因为 Python 提供了更具吸引力的库生态系统，尤其是在数据可视化方面。
将结果发布回 Kafka。
将实时仪表板实现为 Node.js 应用。

由三个人组成的团队，花了我们大约 8 周的时间才能使仪表板使用实时 Twitter 情感数据。的原因很长，原因有很多：

Kafka 和 Spark Streaming 等一些框架和服务对我们来说是新的，我们必须学习如何使用它们的 API。
仪表板前端使用 Mozaïk 框架作为独立的 Node.js 应用构建，这使构建强大的实时仪表板变得容易。但是，我们发现代码存在一些局限性，迫使我们不得不深入研究实现并编写补丁程序，从而增加了总体进度的延迟。

结果显示在以下屏幕截图中：

Twitter 情感分析实景仪表板

建立第一个可用于企业的数据管道的经验教训

充分利用开源框架，库和工具绝对可以帮助我们更高效地实现数据管道。例如，Kafka 和 Spark 非常易于部署且易于使用，当我们陷入困境时，我们始终可以通过使用问答网站（例如 StackOverflow）来依靠开发人员社区寻求帮助。

另一个不错的选择是使用基于云的托管服务进行情感分析，例如 IBM Watson Tone Analyzer。它使我们能够抽象出训练和部署模型的复杂性，从而使整个步骤比我们自己实现的过程更可靠，当然也更准确。

集成起来非常容易，因为我们只需要发出 REST 请求（也称为 HTTP 请求，请参阅这个页面了解有关 REST 架构的更多信息）以获取答案。现在，大多数现代 Web 服务都符合 REST 架构，但是，我们仍然需要了解每种 API 的规范，这可能需要很长时间才能正确。通常，通过使用 SDK 库可以简化此步骤，该 SDK 库通常是免费提供的，并且以 Python，R，Java 和 Node.js 等大多数流行语言提供。通过提取生成 REST 请求的代码，SDK 库提供对服务的更高级别的编程访问。 SDK 通常会提供一个代表服务的类，其中每种方法都将封装 REST API，同时注意用户认证和其他标头。

在工具方面，Jupyter 笔记本给我们留下了深刻的印象，它提供了出色的功能，例如协作和完全交互性（我们将在后面详细介绍笔记本）。

但是，并非所有事情都很顺利，因为我们在几个关键领域苦苦挣扎：

为某些关键任务（例如数据充实和数据分析）选择哪种编程语言。即使团队经验很少，我们最终还是使用了 Scala 和 Python，这主要是因为它们在数据科学家中非常受欢迎，并且还因为我们想学习它们。
创建用于数据探索的可视化需要太多时间。使用可视化库（例如 Matplotlib 或 Bokeh）编写简单的图表需要编写太多代码。反过来，这减慢了我们进行快速实验的需求。
将分析运入实时仪表板太难了，无法扩展。如前所述，我们需要编写一个成熟的独立 Node.js 应用，该应用使用来自 Kafka 的数据，并需要在 IBM Cloud 上部署为云铸造应用。可以理解，这项任务需要很长的时间才能完成第一次，但是我们也发现很难更新。将数据写入 Kafka 的分析更改也需要与仪表板应用上的更改同步。

数据科学策略

如果数据科学要继续发展并逐步发展成为一项核心业务活动，则企业必须找到一种方法来在整个组织的各个层次上对其进行扩展，并克服我们前面讨论的所有困难挑战。为了达到此目的，我们确定了计划数据科学策略的架构师应重点关注的三个重要支柱，即数据，服务和工具：

数据科学的三大支柱

数据是您最宝贵的资源：您需要一种适当的数据策略，以确保数据科学家可以轻松访问所需的精选内容。正确地对数据进行分类，设置适当的管理策略以及使元数据可搜索，将减少数据科学家花费在获取数据然后请求使用数据的时间。这不仅将提高他们的生产率，还将提高他们的工作满意度，因为他们将花费更多的时间进行实际的数据科学工作。

设置一种数据策略，使数据科学家能够轻松访问与其相关的高质量数据，从而提高了工作效率和士气，并最终提高了成功率。
服务：每个计划进行数据科学的架构师都应该考虑面向服务的架构（SOA）。与将所有功能捆绑到一个部署中的传统整体式应用相反，面向服务的系统将功能分解为服务，这些服务旨在完成一些事情，但要做好，并具有高性能和可伸缩性。然后，这些系统彼此独立部署和维护，从而为整个应用基础结构提供可伸缩性和可靠性。例如，您可能有一项服务，该服务运行用于创建深度学习模型的算法，另一项服务将持久化模型并让应用运行它以对客户数据进行预测，依此类推。

优势显而易见：可重用性高，易于维护，缩短上市时间，可扩展性等等。此外，这种方法非常适合云策略，因为工作负载的大小超出了现有容量，因此可以为您提供增长的途径。您还希望优先考虑开源技术，并尽可能地在开放协议上进行标准化。

将进程分解为较小的功能可将可伸缩性，可靠性和可重复性注入系统。
工具确实很重要！如果没有适当的工具，某些任务将变得非常难以完成（至少这是我用来解释为什么无法在房子周围固定东西的理由）。但是，您还希望保持工具的简单，标准化和合理集成，以便不熟练的用户可以使用它们（即使我获得了正确的工具，我也不确定我是否能够完成房屋装修任务，除非它足够简单才能使用）。一旦减少使用这些工具的学习曲线，非数据科学家用户将更容易使用它们。

使工具更易于使用有助于打破孤岛，并增强数据科学，工程和业务团队之间的协作。

Jupyter 笔记本是我们战略的中心

本质上，笔记本是由可编辑单元格组成的 Web 文档，可让您针对后端引擎交互地运行命令。顾名思义，我们可以将它们视为纸质便签本的数字版本，用于书写笔记和实验结果。该概念同时非常强大和简单：用户以他/她选择的语言输入代码（大多数笔记本的实现都支持多种语言，例如 Python，Scala，R 等），运行单元，并在成为文档一部分的单元格下方的输出区域中以交互方式获取结果。结果可以是任何类型：文本，HTML 和图像，这非常适合以图形方式显示数据。就像将与传统 REPL（读取-解释-打印-循环的程序）一起使用，是因为笔记本可以连接到功能强大的计算引擎（例如 Apache Spark 或 Python Dask 集群使您可以进行大数据实验（如果需要）。

在笔记本中，在下面的单元格中可以看到在单元格中创建的任何类，函数或变量，从而使您能够逐段编写复杂的分析，迭代测试假设并解决问题，然后再进行下一阶段。此外，用户还可以使用流行的 Markdown 语言编写富文本格式，或者使用 LaTeX 编写数学表达式，以便为其他用户描述实验。

下图显示了示例 Jupyter 笔记本的各个部分，其中包含 Markdown 单元格以解释实验内容，用 Python 编写的可创建 3D 图的代码单元以及实际的 3D 图表结果：

充足的 Jupyter 笔记本

为什么笔记本如此受欢迎？

在过去的几年中，笔记本电脑作为与数据科学相关的活动的首选工具，其受欢迎程度迅猛增长。有很多原因可以解释它，但我认为主要的原因是它的多功能性，使其成为数据科学家必不可少的工具，不仅对于构建数据管道的大多数角色（包括业务分析师和开发人员）都是必不可少的工具。

对于数据科学家而言，笔记本是进行迭代实验的理想之选，因为它使他们能够快速加载，浏览和可视化数据。笔记本也是一种出色的协作工具; 它们可以导出为 JSON 文件，并可以在团队中轻松共享，从而可以重复进行相同的实验并在需要时进行调试。此外，由于笔记本也是 Web 应用，因此可以轻松地将它们集成到基于云的多用户环境中，从而提供更好的协作体验。

这些环境还可以通过使用 Apache Spark 等框架将笔记本电脑与计算机集群连接，从而按需访问大型计算资源。这些基于云的笔记本服务器的需求正在快速增长，因此，我们看到越来越多的 SaaS（软件即服务）解决方案，以商业化为例，都使用 IBM Data Science Experience 或 DataBricks 并使用 JupyterHub 开源代码。

对于业务分析师来说，笔记本电脑可以用作演示工具，在大多数情况下，其[...] Markdown 支持为提供足够的功能，以取代传统的 PowerPoint。生成的图表可以直接用于有效地传达复杂分析的结果；不再需要复制和粘贴，并且算法的更改会自动反映在最终演示中。例如，某些笔记本实现（例如 Jupyter）可将单元格布局自动转换为幻灯片显示，从而使整个体验更加无缝。

注意

作为参考，以下是在 Jupyter 笔记本中制作这些幻灯片的步骤：

使用视图 | 单元格工具栏 | 幻灯片，首先在幻灯片，子幻灯片，片段，跳过或注释。
使用nbconvert jupyter命令将笔记本转换为 Reveal.js 支持的 HTML 幻灯片：
（可选）您可以启动 Web 应用服务器以在线访问以下幻灯片：


jupyter nbconvert <pathtonotebook.ipynb> --to slides
 jupyter nbconvert <pathtonotebook.ipynb> --to slides –post serve

对于开发人员来说，情况就不那么清楚了。一方面，开发人员喜欢 REPL 编程，而笔记本提供了交互式 REPL 的所有优点，并且可以通过连接到远程后端而获得额外的好处。通过在浏览器中运行，结果可以包含图形，并且由于可以保存图形，因此可以在不同情况下重用笔记本的全部或部分内容。因此，对于开发人员而言，只要可以选择语言，笔记本电脑便可以提供一种很好的方法来进行测试和测试，例如微调算法或集成新的 API。另一方面，即使开发人员最终负责将分析操作化为可满足客户需求的应用，开发人员也很少采用笔记本来进行数据科学活动，从而可以补充数据科学家的工作。

为了改善软件开发生命周期并缩短实现价值的时间，他们需要开始使用与数据科学家相同的工具，编程语言和框架，包括 Python 及其拥有丰富的库和笔记本生态系统的 Python，这些已成为非常重要的数据科学工具。承认开发人员必须与中间的数据科学家会面，并加快了解数据科学背后的理论和概念。根据我的经验，我强烈建议使用 MOOC（大规模开放在线课程的缩写），例如 Coursera 或 EdX，它们为每个级别提供了各种各样的课程。

但是，很广泛地使用了笔记本，很显然，它们虽然功能强大，但主要是为数据科学家设计的，这给开发人员带来了陡峭的学习曲线。他们还缺乏对开发人员至关重要的应用开发功能。正如我们在“Twitter Hashtags 项目的情感分析”中所看到的那样，基于笔记本中创建的分析来构建应用或仪表板可能非常困难，并且需要难以实现的架构，并且在基础架构上占用了大量资源。

为了解决这些空白，我决定创建 PixieDust 库并将其开源。正如我们将在下一章中看到的那样，PixieDust 的主要目标是通过提供简单的 API 来加载和降低新用户（无论是数据科学家还是开发人员）的入门成本。可视化数据。 PixieDust 还为开发人员框架提供了 API，可轻松构建可直接在笔记本中运行并也可作为 Web 应用部署的应用，工具和仪表板。

总结

在本章中，我以开发人员的身份介绍了数据科学，并讨论了为什么我认为数据科学与 AI 和 Cloud 一起具有定义下一个计算时代的潜力的原因。我还讨论了在充分发挥其潜力之前必须解决的许多问题。虽然这本书并未假装提供解决所有这些问题的灵丹妙药，但它确实试图回答使数据科学民主化这一棘手但至关重要的问题，更具体地说，是弥合了数据科学家与开发人员之间的鸿沟。

在接下来的几章中，我们将深入研究 PixieDust 开源库，并了解它如何帮助 Jupyter 笔记本用户在处理数据时更加高效。我们还将深入研究 PixieApp 应用开发框架，该框架使开发人员能够利用笔记本中实现的分析来构建应用和仪表板。

在其余各章中，我们将深入研究许多示例，这些示例说明数据科学家和开发人员如何有效地协作以构建端到端数据管道，迭代分析并在短时间内将其部署到最终用户。样例应用将涵盖许多行业用例，例如图像识别，社交媒体和财务数据分析，其中包括数据科学用例，例如描述性分析，机器学习，自然语言处理和流数据。

我们不会深入讨论示例应用中涵盖的所有算法背后的理论（这超出了本书的范围，将涉及多于一本书），但我们将强调如何利用开源生态系统来快速发展。完成手头的任务（模型构建，可视化等）并将结果可操作到应用和仪表板中。

注意

所提供的示例应用主要是用 Python 编写的，并附带完整的源代码。该代码已经过广泛测试，可以在您自己的项目中重复使用和自定义了。*

二、使用 Jupyter 笔记本和 PixieDust 的大规模数据科学

“最好的代码行是您不必编写的代码！”

– 匿名

在上一章中，我根据实际经验给出了开发人员对数据科学的看法，并讨论了在企业中成功进行部署所需的三个战略支柱：数据，服务和工具。我还讨论了这样一个想法，即数据科学不仅是数据科学家的唯一权限，而且是对开发人员具有特殊作用的团队运动。

在本章中，我将介绍一个基于 Jupyter 笔记本，Python 和 PixieDust 开源库的解决方案，该解决方案着重于三个简单的目标：

通过降低非数据科学家的进入门槛使数据科学民主化
开发人员与数据科学家之间的协作不断增强
简化数据科学分析的操作

注意

此解决方案仅关注工具支柱，而不关注数据和服务，尽管应该在第 6 章，“使用 TensorFlow 的图像识别”开始讨论示例应用时发现它们，但应该独立实现。

为什么选择 Python？

像许多开发人员一样，当用于构建数据密集型项目时，使用 Python 并不是我的首选。老实说，在 Java 领域已经工作了很多年，尽管学习曲线相当陡峭，但 Scala 最初对我来说更具吸引力。 Scala 是一种非常强大的语言，完美地结合了 Java 所欠缺的面向对象和函数式编程（直到 Java 8 开始引入 Lambda 表达式为止）。

Scala 还提供了一种非常简洁的语法，可以将其转换为更少的代码行，更高的生产率并最终减少错误。这非常方便，尤其是当您大部分工作是操纵数据时。喜欢 Scala 的另一个原因是，在使用大数据框架（例如 Apache Spark）时，它们具有更好的 API 覆盖范围，这些框架本身是用 Scala 编写的。还有很多其他理由更喜欢 Scala，例如它是一个强大的类型化系统，并且它与 Java 互操作性，在线文档和高性能。

因此，对于像我这样开始涉足数据科学的开发人员来说，Scala 似乎是一个更自然的选择，但是，扰流警报却使我们最终专注于 Python。这种选择有多种原因：

Python 作为一种语言，本身也有很多发展。它是一种动态规划语言，具有与 Scala 相似的优点，例如函数式编程，简洁的语法等。
在过去的几年中，Python 见证了数据科学家的飞速发展，已取代长期的竞争对手 R 作为数据科学的整体首选语言，这可以通过在 Google 趋势中快速搜索术语“Python 数据科学”，“Python 机器学习”，“R 数据科学”和“R 机器学习”来证明：

2017 年的兴趣趋势

在一个良性循环中，Python 的受欢迎程度不断提高，带动了一个广泛且不断发展的范围广泛的库，可以使用 PIP Python 包安装程序轻松将其导入到您的项目中。数据科学家现在可以访问许多功能强大的开源 Python 库，以进行数据处理，数据可视化，统计，数学，机器学习和自然语言处理。

即使初学者也可以使用流行的 Scikit-learn 包快速构建机器学习分类器，而无需成为机器学习专家，也可以使用 Matplotlib 或 Bokeh 快速绘制丰富的图表。

此外，Python 也已成为 IEEE Spectrum 2017 调查：

编程语言的使用情况统计

GitHub 上也证实了这种趋势，其中 Python 现在在存储库总数中排名第三，仅次于 Java 和 JavaScript：

通过编程语言的 GitHub 存储库统计信息

上图显示了一些有趣的统计数据，展示了 Python 开发人员社区的活跃程度。在 GitHub 上活动的与 Python 相关的存储库的大小为第三大，每个存储库的总代码推送和未解决的问题也相类似。

Python 在网络上也变得无处不在，它通过 Web 开发框架为众多知名网站提供支持，例如 Django，Tornado 和 TurboGears。最近有迹象表明，Python 也在所有主要的云提供商中进入了云服务领域，其中包括中提供了某些功能。

Python 显然在数据科学领域有着光明的前途，尤其是与诸如 Jupyter 笔记本之类的强大工具结合使用时，Python 在数据科学家社区中已变得非常流行。笔记本电脑的价值主张是，它们非常易于创建，并且非常适合快速运行的实验。此外，笔记本电脑还支持多种高保真序列化格式，可以捕获指令，代码和结果，然后可以很容易地与团队中的其他数据科学家共享这些代码，也可以将其作为开源供所有人使用。例如，我们看到 Jupyter 笔记本在 GitHub 上激增，数量超过 250 万并且还在增加。

以下屏幕快照显示了 GitHub 搜索任何扩展名为.ipynb,的文件的结果，该文件是序列化 Jupyter 笔记本（JSON 格式）的最流行格式：

GitHub 上的 Jupyter 笔记本的搜索结果

这很棒，但是 Jupyter 笔记本经常被认为仅仅是数据科学家工具。我们将在接下来的章节中看到它们可以提供更多的功能，它们还可以帮助所有类型的团队解决数据问题。例如，它们可以帮助业务分析师快速加载和可视化数据集，使开发人员可以直接在笔记本电脑中与数据科学家合作，以利用他们的分析和构建功能强大的仪表板，或者允许 DevOps 轻松地将这些仪表板部署到可扩展，在企业中就绪的微服务，可以作为独立的 Web 应用或可嵌入的组件运行。基于将数据科学工具带给非数据科学家的愿景，创建了 PixieDust 开源项目。

介绍 PixieDust

提示

有趣的事实

我经常被问到我是如何想到 PixieDust 这个名字的，我只是想让笔记本对于非数据科学家来说就像魔术一样简单。

PixieDust 是一个开源项目，主要由三个组件组成，旨在解决本章开头所述的三个目标。

一个适用于 Jupyter 笔记本的辅助 Python 库，它提供了简单的 API，可将各种来源的数据加载到流行的框架（如 Pandas 和 Apache Spark DataFrame）中，然后以交互方式可视化和浏览数据集。
一个基于 Python 的简单编程模型，通过创建功能强大的仪表板 PixieApps，开发人员可以将分析结果直接“产品化”到笔记本中。正如我们将在下一章中看到的那样，PixieApps 与传统的 BI（商业智能的缩写）仪表板有所不同，因为开发人员可以直接使用 HTML 和 CSS 来创建任意复杂的布局。此外，他们可以将对笔记本中创建的任何变量，类或函数的访问权限嵌入其业务逻辑中。
一个安全的微服务 Web 服务器，称为 PixieGateway，可以将 PixieApps 作为独立的 Web 应用运行，也可以作为可以嵌入到任何网站中的组件运行。使用图形向导可以从 Jupyter 笔记本轻松部署 PixieApps，而无需更改任何代码。此外，PixieGateway 支持将由 PixieDust 创建的任何图表共享为可嵌入的网页，从而使数据科学家可以轻松地在笔记本电脑外部传达结果。

请务必注意，PixieDust display() API 主要支持两种流行的数据处理框架：

pandas：迄今为止，最流行的 Python 数据分析包，Pandas 提供了两种主要数据结构：用于处理两个- 一维列状数据集和序列。

注意

当前，PixieDust display()仅支持 Pandas DataFrame。
Apache Spark DataFrame：这是高级数据结构，用于操纵整个 Spark 集群中的分布式数据集。 SparkDataFrame构建在较低级 RDD（弹性分布式数据集的简称）之上，并添加了支持 SQL 查询的功能。

PixieDust display()支持的另一种较不常用的格式是 JSON 对象数组。在这种情况下，PixieDust 将使用这些值来构建行，并将键用作列，例如，如下所示：

my_data = [
{"name": "Joe", "age": 24},
{"name": "Harry", "age": 35},
{"name": "Liz", "age": 18},
...
]

此外，PixieDust 在数据处理和渲染级别都具有高度可扩展性。例如，您可以添加要由可视化框架渲染的新数据类型，或者如果您想利用自己喜欢的绘图库，则可以轻松地将其添加到 PixieDust 支持的渲染器列表中（更多信息请参见下一章）。

您还将发现 PixieDust 包含一些与 Apache Spark 相关的额外工具，例如：

包管理器：这使您可以在 Python 笔记本中安装 Spark 包。
Scala 桥接：您可以使用%%scala魔术在 Python 笔记本中直接使用 Scala 。变量自动从 Python 传输到 Scala，反之亦然。
Spark 作业进度监视器：通过直接在单元格输出中显示进度条来跟踪任何 Spark 作业的状态。

在深入研究三个 PixieDust 组件中的每一个之前，最好通过在云上注册托管解决方案（例如，位于这个页面）来访问 Jupyter 笔记本或在本地计算机上安装开发版本。

注意

您可以按照以下说明在本地安装笔记本服务器。

要在本地启动笔记本服务器，只需从终端运行以下命令：

jupyter notebook --notebook-dir=<<directory path where notebooks are stored>>

笔记本主页将在浏览器中自动打开。有许多配置选项可控制启动笔记本服务器的方式。这些选项可以添加到命令行或保留在笔记本配置文件中。如果您想尝试所有可能的配置选项，可以使用--generate-config选项生成配置文件，如下所示：

jupyter notebook --generate-config

这将生成以下 Python 文件<home_directory>/.jupyter/jupyter_notebook_config.py，其中包含一组已禁用的自动记录的选项。例如，如果不想在 Jupyter 笔记本启动时自动打开浏览器，请找到包含sc.NotebookApp.open_browser变量的行，取消注释，然后将其设置为False：

## Whether to open in a browser after starting. The specific browser used is
#  platform dependent and determined by the python standard library 'web browser'
#  module, unless it is overridden using the --browser (NotebookApp.browser)
#  configuration option.
c.NotebookApp.open_browser = False

进行更改后，只需保存jupyter_notebook_config.py文件并重新启动笔记本服务器。

下一步是使用pip工具安装 PixieDust 库：

从笔记本计算机本身，在单元格中输入以下命令：
```
!pip install pixiedust
```
注意

注意：感叹号语法特定于 Jupyter 笔记本，它表示其余命令将作为系统命令执行。例如，您可以使用!ls列出当前工作目录下的所有文件和目录。
使用单元格 | 运行单元格菜单或工具栏上的运行图标。您还可以使用以下键盘快捷键来运行单元格：
- Ctrl + Enter：运行并保持当前单元格处于选中状态
- Shift + Enter：运行并选择下一个单元格
- Alt + Enter：运行并创建新的空白
下方的单元格
重新启动内核以确保pixiedust库已正确加载到内核中。

以下屏幕截图显示了首次安装pixiedust后的结果：

在 Jupyter 笔记本上安装 PixieDust 库

提示

我强烈建议您使用 Anaconda，它提供了出色的 Python 包管理功能。如果像我一样喜欢试验不同版本的 Python 和库依赖关系，建议您使用 Anaconda 虚拟环境。

它们是轻量级的 Python 沙箱，非常易于创建和激活（请参见这个页面）：

创建一个新环境：conda create --name env_name
列出所有环境：conda env list
激活环境：source activate env_name

我还建议您有选择地熟悉源代码，该源代码位于这个页面和这个页面。

现在，我们准备在下一部分中以sampleData()开头探索 PixieDust API。

`SampleData`——用于加载数据的简单 API

将数据加载到笔记本中是数据科学家可以执行的最多重复任务之一，但是根据所使用的框架或数据源，编写代码可能既困难又耗时。

让我们举一个具体的示例，尝试从一个开放的数据站点（例如这个页面）中将 CSV 文件加载到 Pandas 和 Apache SparkDataFrame中。

注意

注意：继续，假定所有代码都在 Jupyter 笔记本中运行。

对于 Pandas 来说，代码非常简单，因为它提供了直接从 URL 加载的 API：

import pandas
data_url = "https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD"
building_df = pandas.read_csv(data_url)
building_df

最后一条调用building_df,的语句将在输出单元格中打印其内容。如果没有打印，这是可能的，因为 Jupyter 会将调用变量的单元格的最后一条语句解释为打印该指令的指令：

Pandas DataFrame的默认输出

但是，对于 Apache Spark，我们需要先将数据下载到文件中，然后使用 Spark CSV 连接器将其加载到DataFrame中：

#Spark CSV Loading
from pyspark.sql import SparkSession
try:
    from urllib import urlretrieve
except ImportError:
    #urlretrieve package has been refactored in Python 3
    from urllib.request import urlretrieve

data_url = "https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD"
urlretrieve (data_url, "building.csv")

spark = SparkSession.builder.getOrCreate()
building_df = spark.read\
  .format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')\
  .option('header', True)\
  .load("building.csv")
building_df

由于building_df现在是 Spark DataFrame，因此输出略有不同：

SparkDataFrame的默认输出

即使此代码不是那么大，也必须每次都重复，并且很可能需要花费时间进行 Google 搜索以记住正确的语法。数据也可以采用其他格式，例如 JSON，这将要求为 Pandas 和 Spark 调用不同的 API。数据的格式也可能不正确，并且可能在 CSV 文件中包含错误的行或 JSON 语法错误。不幸的是，所有这些问题并非罕见，并助长了数据科学的 80/20 规则，该规则指出，数据科学家平均花费 80% 的时间来获取，清理和加载数据，而只有 20% 的时间用于实际分析。

PixieDust 提供了一个简单的sampleData API，以帮助改善这种情况。当不带参数调用时，它将显示准备分析的预整理数据集的列表：

import pixiedust
pixiedust.sampleData()

结果如下所示：

PixieDust 内置数据集

可以根据组织的需要定制预定义的策划数据集列表，这是朝着数据支柱迈出的重要一步，如上一章所述。

然后，用户可以使用预构建数据集的 ID 再次再次调用sampleData API，并在 Jupyter Kernel 中的 Spark 框架可用的情况下获取 Spark DataFrame；如果没有，则退回到 Pandas DataFrame。

在以下示例中，我们在连接了 Spark 的笔记本电脑上调用sampleData()。我们还调用enableSparkJobProgressMonitor()以显示有关操作中涉及的 Spark 作业的实时信息。

注意

注意：Spark 作业是在 Spark 集群中具有特定数据子集的特定节点上运行的进程。在从数据源加载大量数据的情况下，将为每个 Spark 作业分配一个特定的子集（实际大小取决于集群中的节点数和整体数据的大小）。与其他工作。

在一个单独的单元中，我们运行以下代码以启用 Spark Job Progress Monitor：

pixiedust.enableSparkJobProgressMonitor()

结果如下：

Successfully enabled Spark Job Progress Monitor

然后，我们调用sampleData来加载cars数据集：

cars = pixiedust.sampleData(1)

结果如下所示：

使用 PixieDust sampleData API 加载内置数据集

用户还可以传递指向可下载文件的任意 URL。 PixieDust 当前支持 JSON 和 CSV 文件。在这种情况下，PixieDust 将自动下载文件，将缓存在临时区域中，检测格式，然后根据 Spark 是否在笔记本电脑中可用加载到 Spark 或 Pandas DataFrame中。请注意，即使使用forcePandas 关键字参数可以使用 Spark，用户也可以强制加载到 Pandas 中：

import pixiedust
data_url = "https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD"
building_dataframe = pixiedust.sampleData(data_url, forcePandas=True)

结果如下：

Downloading 'https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD' from https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD
Downloaded 13672351 bytes
Creating pandas DataFrame for 'https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD'. Please wait...
Loading file using 'pandas'
Successfully created pandas DataFrame for 'https://data.cityofnewyork.us/api/views/e98g-f8hy/rows.csv?accessType=DOWNLOAD'

sampleData() API 也足够聪明，可以识别指向 ZIP 和 GZ 类型的压缩文件的 URL。在这种情况下，它将自动解压缩原始二进制数据并加载存档中包含的文件。对于 ZIP 文件，它查看存档中的第一个文件；对于 GZ 文件，它只是解压缩内容，因为 GZ 文件不是存档，并且不包含多个文件。然后sampleData() API 将从解压缩的文件中加载DataFrame。

例如，我们可以直接从伦敦开放数据网站提供的 ZIP 文件中加载自治市镇信息，并使用display() API 将结果显示为饼图，如下所示：

import pixiedust
london_info = pixiedust.sampleData("https://files.datapress.com/london/dataset/london-borough-profiles/2015-09-24T15:50:01/London-borough-profiles.zip")

结果如下（假设您的笔记本计算机已连接到 Spark，否则将加载 Pandas DataFrame）：

Downloading 'https://files.datapress.com/london/dataset/london-borough-profiles/2015-09-24T15:50:01/London-borough-profiles.zip' from https://files.datapress.com/london/dataset/london-borough-profiles/2015-09-24T15:50:01/London-borough-profiles.zip
Extracting first item in zip file...
File extracted: london-borough-profiles.csv
Downloaded 948147 bytes
Creating pySpark DataFrame for 'https://files.datapress.com/london/dataset/london-borough-profiles/2015-09-24T15:50:01/London-borough-profiles.zip'. Please wait...
Loading file using 'com.databricks.spark.csv'
Successfully created pySpark DataFrame for 'https://files.datapress.com/london/dataset/london-borough-profiles/2015-09-24T15:50:01/London-borough-profiles.zip'

然后，我们可以在london_info``DataFrame上调用display()，如下所示：

display(london_info)

我们在图表菜单中选择饼图，然后在选项对话框中，将Area name列拖放到键区域和Crime rates per thousand population 2014/15到值区域中，如以下屏幕截图所示：

用于可视化london_info数据帧的图表选项

在选项对话框中单击 OK 按钮后，我们得到以下结果：

通过指向压缩文件的 URL 创建的饼图

很多时候，您找到了一个不错的数据集，但文件包含错误或对您而言很重要的数据为错误格式或埋在一些非结构化文本中，需要将其提取到自己的列中。此过程也称为数据整理，可能非常耗时。在下一节中，我们将研究 PixieDust 的扩展名pixiedust_rosie，该扩展提供了wrangle_data方法，该方法可以帮助完成此过程。

使用`pixiedust_rosie`整理数据

在大多数情况下，在受控实验中工作与在现实世界中工作不同。我的意思是，在开发过程中，我们通常会选择（或者我应该说是制造）一个旨在表现出来的样本数据集。它具有正确的格式，符合架构规范，没有数据丢失，依此类推。目标是专注于验证假设并构建算法，而不是集中在数据清理上，这可能非常痛苦且耗时。但是，在开发过程中尽早获得尽可能接近真实数据的数据具有不可否认的优势。为了帮助完成此任务，我与 IBM 的两个同事 Jamie Jennings 和 Terry Antony 合作，他们自愿为 PixieDust 扩展了名为pixiedust_rosie的扩展。

该 Python 包实现了一个简单的wrangle_data()方法，以自动执行原始数据的清理。 pixiedust_rosie包当前支持 CSV 和 JSON，但是将来会添加更多格式。底层数据处理引擎使用 Rosie 模式语言（RPL）开源组件，这是一个正则表达式引擎，旨在使开发人员更容易使用，性能更高，并可以扩展到大数据。您可以在此处找到有关 Rosie 的更多信息。

首先，您需要使用以下命令安装pixiedust_rosie包：

!pip install pixiedust_rosie

pixiedust_rosie包依赖于pixiedust和rosie,，如果尚未安装在系统上，它们将自动下载。

wrangle_data()方法与sampleData() API 非常相似。当不带参数调用时，它将显示预整理的数据集列表，如下所示：

import pixiedust_rosie
pixiedust_rosie.wrangle_data()

这将产生以下结果：

可用于wrangle_data()的预整理数据集的列表

您还可以使用预整理数据集的 ID 或 URL 链接来调用它，例如，如下所示：

url = "https://github.com/ibm-watson-data-lab/pixiedust_rosie/raw/master/sample-data/Healthcare_Cost_and_Utilization_Project__HCUP__-_National_Inpatient_Sample.csv"
pixiedust_rosie.wrangle_data(url)

在前面的代码中，我们在url变量引用的 CSV 文件上调用wrangle_data()。该函数首先在本地文件系统中下载文件，然后对数据的子集执行自动数据分类，以推断数据模式。然后启动模式编辑器 PixieApp，它提供了一组向导屏幕，可让用户配置模式。例如，用户将能够删除和重命名列，更重要的是，通过提供 Rosie 模式，可以将现有列分解为新列。

下图说明了工作流程：

wrangle_data()工作流程

wrangle_data()向导的第一个屏幕显示了由 Rosie 数据分类器推断的架构，如以下屏幕截图所示：

wrangle_data()模式编辑器

前面的架构窗口小部件显示了列名称Rosie Type（特定于 Rosie 的高级类型表示）和Column Type（映射至受支持的 Pandas 类型）。每行还包含三个操作按钮：

删除列：这将从架构中删除列。此列将不会出现在最终的 Pandas DataFrame中。
重命名列：这将更改列的名称。
转换列：这通过将列分解为新列来对其进行转换。

用户可以随时预览数据（如前面的 SampleData 小部件中所示）以验证架构配置是否按预期进行。

当用户单击转换列按钮时，将显示一个新屏幕，让用户指定用于构建新列的模式。在某些情况下，数据分类器将能够自动检测模式，在这种情况下，将添加一个按钮询问用户是否应应用建议。

以下屏幕截图显示了转换所选列屏幕，并带有自动建议：

转换列屏幕

此屏幕显示四个小部件，其中包含以下信息：

Rosie 模式输入是您可以输入代表该列数据的自定义 Rosie 模式的地方。然后，您使用提取变量按钮告诉模式编辑器应将模式的哪一部分提取到新列中（稍后将对此进行详细说明）。
有一个帮助窗口小部件，提供指向 RPL 文档的链接。
当前列的数据预览。
应用了 Rosie 模式的数据预览。

当用户单击提取变量按钮时，小部件将更新为以下内容：

将 Rosie 变量提取到列中

此时，用户可以选择编辑定义，然后单击创建列按钮以将新列添加到架构。然后更新新列样本小部件以显示数据外观的预览。如果模式定义包含错误的语法，则此小部件中将显示错误：

应用模式定义后预览新列

当用户单击提交列按钮时，将再次显示主模式编辑器屏幕，并添加新列，如以下屏幕快照所示：

具有新列的模式编辑器

最后一步是单击完成按钮以将架构定义应用于原始文件，并创建一个 Pandas DataFrame，它将在笔记本中用作变量。此时，系统会向用户显示一个对话框，其中包含一个可以编辑的默认变量名，如以下屏幕截图所示：

编辑结果 Pandas 数据帧的变量名

单击完成按钮后，pixiedust_rosie应用模式定义遍历整个数据集。完成后，它将使用生成的代码在当前单元的下面创建一个新单元格，该代码在新生成的 Pandas DataFrame上调用display() API，如下所示：

#Code generated by pixiedust_rosie
display(wrangled_df)

运行前面的单元格将使您能够浏览和可视化新数据集。

我们在本节中探讨的wrangle_data()函数是帮助数据科学家花更少的时间清理数据并花更多时间分析数据的第一步。在下一部分中，我们将讨论如何帮助数据科学家进行数据探索和可视化。

可视化——用于数据可视化的简单交互式 API

数据可视化是另一个非常重要的数据科学任务，对于探索和形成假设来说是必不可少的。幸运的是，Python 生态系统具有许多强大的库，专门用于数据可视化，例如以下热门示例：

但是，类似于数据加载和清理，在笔记本中使用这些库可能既困难又耗时。这些库中的每一个都有各自的编程模型，并且 API 并不总是易于学习和使用的，特别是如果您不是经验丰富的开发人员。另一个问题是这些库没有与常用数据处理框架（例如 Pandas（可能是 Matplotlib 除外）或 Apache Spark）的高层接口，因此，在绘制数据之前需要进行大量数据准备。

为解决此问题，PixieDust 提供了一个简单的display() API，该 API 使 Jupyter 笔记本用户可以使用交互式图形界面来绘制数据而无需任何编码。这个 API 实际上不会创建图表，但是会在根据用户选择通过调用其 API 委托给渲染器之前完成准备数据的所有繁重工作。

display() API 支持多种数据结构（Pandas，Spark 和 JSON）以及多种渲染器（Matplotlib，Seaborn，Bokeh 和 Brunel）。

作为说明，让我们使用内置的汽车性能数据集，并通过调用display() API 开始可视化数据：

import pixiedust
cars = pixiedust.sampleData(1, forcePandas=True) #car performance data
display(cars)

第一次在单元格上调用该命令时，将显示表格视图，并且当用户浏览菜单时，所选选项将以 JSON 格式存储在单元格元数据中，以便下次单元格运行时可以再次使用它们。所有可视化的输出布局遵循相同的模式：

有一个可扩展的顶层菜单，可在图表之间进行切换。
有一个下载菜单，用于在本地计算机上下载文件。
有一个过滤器切换按钮，使用户可以通过过滤数据来优化他们的探索。我们将在“过滤”部分中讨论过滤器功能。
有一个Expand/Collapse Pixiedust Output按钮，用于折叠/扩展输出内容。
有一个选项按钮可调用一个对话框，该对话框具有特定于当前可视化的配置。
有一个“共享”按钮，可让您在网络上发布可视化内容。

注意

注意：仅当您已部署 PixieGateway 时，才可以使用此按钮，我们将在第四章，“将 PixieApps 部署到使用 Web 的 PixieGateway 服务器”中进行详细讨论。
在可视化的右侧有一组上下文选项。
存在主要的可视化区域。

表格渲染器的可视化输出布局

要开始创建图表，首先在菜单中选择适当的类型。开箱即用，PixieDust 支持六种类型的图表：条形图，线形图，散点图，饼图，映射和直方图。正如我们将在第 5 章，“最佳做法和高级 PixieDust 概念”中看到的那样，PixieDust 还提供了 API，可让您通过添加新菜单或向现有菜单添加选项来自定义这些菜单：

PixieDust 图表菜单

首次调用图表菜单时，将显示一个选项对话框，以配置一组基本配置选项，例如X和Y轴所使用的类型，聚合等等。为了节省您的时间，该对话框将预先填充 PixieDust 从DataFrame自动检查的数据模式。

在以下示例中，我们将创建一个条形图，显示按马力计算的平均里程消耗：

条形图对话框选项

单击 OK 将在单元格输出区域中显示交互式界面：

条形图可视化

画布在中心区域显示图表，并在与所选图表类型相关的一侧显示一些上下文选项。例如，我们可以在群集组合框中选择字段来源，以按来源国显示明细：

集群条形图可视化

如前所述，PixieDust display()实际上并不创建图表，而是根据所选选项准备数据，并使用正确的参数来繁重地调用渲染器引擎的 API。该设计背后的目标是使每种图表类型都支持多个渲染器，而无需任何额外的编码，从而为用户提供了尽可能多的探索自由。

只要安装了相应的库，PixieDust 即可使用以下渲染器。对于未安装的渲染器，将在 PixieDust 日志中生成警告，并且相应的渲染器不会显示在菜单中。我们将在第 5 章，“最佳实践和高级 PixieDust 概念”中详细介绍 PixieDust 登录。

Matplotlib
Seaborn

注意

需要使用以下库来安装该库： !pip install seaborn.
Bokeh

注意

需要使用以下库来安装该库： !pip install bokeh.
Brunel

注意

需要使用以下库来安装该库： !pip install brunel.
Google 地图
Mapbox

注意

注意：Google Map 和 Mapbox 需要您可以在各自站点上获得的 API 密钥。

您可以使用渲染器组合框在渲染器之间切换。例如，如果我们想要更多的交互性来探索图表（例如缩放和平移），则可以使用 Bokeh 渲染器而不是 Matplotlib，它只能为我们提供静态图像：

使用 Bokeh 渲染器的群集条形图

另一个值得一提的图表类型是地图，当您的数据包含地理空间信息（例如经度，纬度或国家/州信息）时，这会很有意思。 PixieDust 支持多种类型的地理映射渲染引擎，包括流行的 Mapbox 引擎。

注意

在使用 Mapbox 渲染器之前，建议从以下位置的 Mapbox 站点获取 API 密钥。但是，如果您没有，则 PixieDust 将提供一个默认密钥。

要创建地图，请使用 NE Mass 数据集中的百万美元房屋销售，如下所示：

import pixiedust
homes = pixiedust.sampleData(6, forcePandas=True) #Million dollar home sales in NE Mass
display(homes)

首先，在图表下拉按钮中选择地图，然后在选项对话框中，选择LONGITUDE和LATITUDE作为键，然后在提供的输入中输入 Mapbox 访问令牌。您可以在值区域中添加多个字段，它们将作为工具提示显示在地图上：

Mapbox 图表的“选项”对话框

单击 OK 按钮时，您将获得交互式地图，您可以使用样式（简单，正弦或密度图），颜色和底图（亮，卫星，暗，和户外）选项：

交互式 Mapbox 可视化

每种图表类型都有其自己的上下文选项集，这些选项不言自明，在这一点上，我鼓励您使用它们中的每一个。如果您发现问题或有增强想法，则可以始终在 GitHub 上的这个页面创建一个新问题，或者提交一个带有您的代码更改的请求更好（这里有更多有关该操作的信息）。

为避免每次单元格运行时都重新配置图表，PixieDust 将图表选项作为 JSON 对象存储在单元格元数据中，最终将其保存在笔记本中。您可以通过选择视图 | 单元格工具栏 | 编辑元数据菜单手动检查此数据，如以下屏幕截图所示：

显示编辑元数据按钮

编辑元数据按钮将显示在单元格的顶部，单击该按钮将显示 PixieDust 配置：

编辑单元元数据对话框

当我们在下一节讨论 PixieApps 时，此 JSON 配置将非常重要。

过滤

为了更好地浏览数据，PixieDust 还提供了一个内置的简单图形界面，可让您快速过滤正在可视化的数据。您可以通过单击顶层菜单中的过滤器切换按钮来快速调用过滤器。为简单起见，过滤器仅支持仅基于一列构建谓词，这在大多数情况下足以验证简单假设（基于反馈，将来可能会增强此功能以支持多个谓词）。过滤器用户界面会自动让您选择要过滤的列，并根据其类型显示不同的选项：

数值类型：用户可以选择一个数学比较器并为操作数输入一个值。为了方便起见，UI 还将显示与所选列相关的统计值，这些统计值可在选择操作数值时使用：

过滤汽车数据集的mpg数字列
字符串类型：用户可以输入表达式以匹配列值，该表达式可以是正则表达式或纯字符串。为了方便起见，UI 还显示了有关如何构建正则表达式的基本帮助：

过滤汽车数据集的名称字符串类型

单击应用按钮时，当前可视化将更新以反映过滤器配置。重要的是要注意，该过滤器不仅适用于当前单元格，还适用于整个单元格。因此，当在图表类型之间切换时，它将继续适用。筛选器配置也保存在单元元数据中，因此在保存笔记本并重新运行单元时将保留它。

例如，以下屏幕快照将cars数据集可视化为条形图，仅显示mpg大于23,的行，根据统计框，这是数据集的平均值，并按年份进行聚类。在选项对话框中，我们选择mpg列作为键，并选择origin作为值：

汽车数据集的已过滤条形图

总而言之，在本节中，我们讨论了 PixieDust 如何帮助完成三个困难且耗时的数据科学任务：数据加载，数据整理和数据可视化。接下来，我们将了解 PixieDust 如何帮助增加数据科学家与开发人员之间的协作。

通过 PixieApps 弥合开发人员与数据科学家之间的鸿沟

解决硬数据问题只是数据科学团队的任务之一。他们还需要确保正确执行数据科学结果，以为组织提供业务价值。数据分析的运营在很大程度上取决于用例。例如，这可能意味着创建仪表板，为决策者综合见解，或者将诸如推荐引擎之类的机器学习模型集成到 Web 应用中。

在大多数情况下，这是数据科学与软件工程相遇的地方（或者就像人们所说的，橡胶与道路相遇）。团队之间的持续协作（而不是一次交接）是成功完成任务的关键。通常，他们还必须应对不同的语言和平台，从而导致软件工程团队重写大量代码。

当我们需要构建实时仪表板以可视化结果时，我们在 Twitter 主题标签项目的情感分析中亲身体验了它。数据分析是使用 Pandas，Apache Spark 和一些绘图库（例如 Matplotlib 和 Bokeh）以 Python 编写的，而仪表板是用 Node.js 和 D3 编写的。

我们还需要在分析和仪表板之间建立数据接口，并且由于我们需要系统是实时的，因此我们选择使用 Apache Kafka 来流化分析结果格式的事件。

下图概括了一种方法，我将其称为切换模式，其中数据科学团队构建分析并将结果部署在数据接口层中。然后，结果将由应用使用。数据层通常由数据工程师处理，这是我们在第 1 章“开发人员对数据科学的观点”中讨论的角色之一：

数据科学与工程学之间的交接

这种移交模式的问题在于它不利于快速迭代。数据层中的任何更改都需要与软件工程团队同步，以避免破坏应用。 PixieApps 背后的想法是在构建应用的同时尽可能靠近数据科学环境，在我们的示例中为 Jupyter 笔记本。使用这种方法，可以直接从运行在 Jupyter 笔记本中的 PixieApp 调用分析功能，从而使数据科学家和开发人员可以轻松地进行协作并反复进行快速改进。

PixieApp 定义了一个简单的编程模型，用于构建单页应用，可直接访问 IPython 笔记本内核（这是运行笔记本代码的 Python 后端进程）。本质上，PixieApp 是一个 Python 类，它封装了表示形式和业务逻辑。该演示文稿由一组称为路由的特殊方法组成，这些方法返回任意 HTML 片段。每个 PixieApp 都有一个默认路由，该路由返回起始页面的 HTML 片段。开发人员可以使用自定义 HTML 属性来调用其他路由，并动态更新页面的全部或部分。例如，一条路由可能会调用从笔记本内部创建的机器学习算法或使用 PixieDust 显示框架生成图表。

下图显示了 PixieApps 与 Jupyter 笔记本客户端前端和 IPython 内核交互的高层架构：

PixieApp 与 Jupyter 内核的交互

作为 PixieApp 外观的预览，这是一个hello world示例应用，其中有一个按钮显示了我们在上一节中创建的汽车DataFrame的条形图：

#import the pixieapp decorators
from pixiedust.display.app import *

#Load the cars dataframe into the Notebook
cars = pixiedust.sampleData(1)

@PixieApp   #decorator for making the class a PixieApp
class HelloWorldApp():
    #decorator for making a method a
    #route (no arguments means default route)
    @route()
    def main_screen(self):
        return """
        <button type="submit" pd_options="show_chart=true" pd_target="chart">Show Chart</button>
        <!--Placeholder div to display the chart-->
        <div id="chart"></div>
        """

    @route(show_chart="true")
    def chart(self):
        #Return a div bound to the cars dataframe
        #using the pd_entity attribute
        #pd_entity can refer a class variable or
        #a global variable scoped to the notebook
        return """
        <div pd_render_onload pd_entity="cars">
            <pd_options>
                {
                  "title": "Average Mileage by Horsepower",
                  "aggregation": "AVG",
                  "clusterby": "origin",
                  "handlerId": "barChart",
                  "valueFields": "mpg",
                  "rendererId": "bokeh",
                  "keyFields": "horsepower"
                }
            </pd_options>
        </div>
        """
#Instantiate the application and run it
app = HelloWorldApp()
app.run()

当前面的代码在笔记本单元中运行时，我们得到以下结果：

Hello World PixieApp

您可能对前面的代码有很多问题，但请不要担心。在下一章中，我们将介绍所有 PixieApp 技术细节，包括如何在端到端管道中使用它们。

用于实现数据科学分析的架构

在上一节中，我们了解了 PixieApps 与 PixieDust 显示框架的结合如何提供一种简便的方法来构建功能强大的仪表板，这些仪表板可直接与您的数据分析连接，从而允许算法和用户界面之间的快速迭代。这对于快速原型制作非常有用，但是笔记本电脑不适合在目标角色是业务用户的生产环境中使用。一个显而易见的解决方案是使用传统的三层 Web 应用架构重写 PixieApp，如下所示：

用于表示层的 React
Web 层的 Node.js
针对 Web 分析层的数据访问库，用于机器学习评分或运行任何其他分析作业

但是，这将仅对现有流程进行少量改进，在这种情况下，将仅包括使用 PixieApp 进行迭代实现的能力。

更好的解决方案是直接将 PixieApps 部署和运行为 Web 应用，包括周围笔记本电脑中的分析功能，而我们在使用它时无需更改任何代码。

使用此模型，Jupyter 笔记本将成为简化开发生命周期的中心工具，如下图所示：

数据科学管道开发生命周期

数据科学家使用 Python 笔记本来加载，丰富和分析数据并创建分析（机器学习模型，统计信息等）
开发人员在同一个笔记本中创建一个 PixieApp 来实现这些分析
准备就绪后，开发人员将 PixieApp 发布为 Web 应用，业务部门用户可以轻松地以交互方式使用它，而无需访问笔记本电脑

PixieDust 使用 PixieGateway 组件提供了该解决方案的实现。 PixieGateway 是一个 Web 应用服务器，负责加载和运行 PixieApps。它构建在 Jupyter 内核网关之上，该网关本身构建在 Tornado Web 框架之上，因此遵循如图所示的架构。下图：

PixieGateway 架构图

PixieApp 直接从笔记本中发布到 PixieGateway 服务器中，并生成一个 URL。在后台，PixieGateway 分配了一个 Jupyter 内核来运行 PixieApp。根据配置，PixieApp 可以与其他应用共享内核实例，也可以根据需要拥有专用的内核。 PixieGateway 中间件可以通过管理多个内核实例的生命周期来水平扩展，这些实例本身可以是服务器本地的，也可以是群集上的远程的。

注意

注意：远程内核必须是 Jupyter 内核网关。

使用发布向导，用户可以选择定义应用的安全性。提供多个选项，包括基本认证，OAuth 2.0 和承载令牌。
业务用户使用步骤 1 中的 URL 从浏览器访问应用。
PixieGateway 提供了一个全面的管理控制台，用于管理服务器，包括配置应用，配置和监视内核，访问日志以进行故障排除等。
PixieGateway 使用 IPython 消息传递协议通过 WebSocket 或 ZeroMQ，具体取决于内核是本地的还是远程的。

在将分析产品化时，此解决方案相对于传统的三层 Web 应用架构进行了重大改进，因为它可以将 Web 和数据层折叠为一个 Web 分析层，如下图所示：

经典三层与 PixieGateway Web 架构之间的比较

在经典的三层架构中，开发人员必须维护多个 REST 端点，以调用数据层中的分析并按摩数据以符合表示层要求以正确显示数据。结果，必须将大量工程设计添加到这些端点，从而增加了开发和代码维护的成本。相反，在 PixieGateway 两层架构中，开发人员不必担心创建端点，因为服务器负责使用内置的通用端点将请求分发到适当的内核。用另一种方式解释，PixieApp Python 方法自动成为表示层的端点，而无需任何代码更改。该模型有助于快速迭代，因为重新发布后，Python 代码中的任何更改都直接反映在应用中。

PixieApps 非常适合快速构建单页应用和仪表板。但是，您可能还想生成更简单的一页报告并与用户共享。为此，PixieGateway 还允许您使用共享按钮共享由display() API 生成的图表，从而产生 URL 链接到包含该图表的网页。反过来，用户可以通过复制和粘贴为页面生成的代码将图表嵌入网站或博客文章中。

注意

注意：我们将在第 4 章“使用 PixieGateway 服务器将 PixieApps 部署到 Web 上”中，详细介绍 PixieGateway，包括如何在本地和在云上安装新实例。

为了演示此功能，我们使用之前创建的DataFrame汽车：

共享图表对话框

如果共享成功，则下一页将显示生成的 URL 和代码片段以嵌入到 Web 应用或博客文章中：

确认共享图表

单击链接将转到页面：

将图表显示为网页

总结

在本章中，我们讨论了为什么我们的数据科学工具策略以 Python 和 Jupyter 笔记本为中心的原因。我们还介绍了 PixieDust 功能，这些功能可通过以下功能提高用户的工作效率：

数据加载和清理
无需任何编码的数据可视化和探索
一个基于 HTML 和 CSS 的简单编程模型称为 PixieApp，用于构建与笔记本直接交互的工具和仪表板
一种点击机制，可将图表和 PixieApp 直接发布到 Web

在下一章中，我们将深入研究 PixieApp 编程模型，并通过大量代码示例讨论 API 的各个方面。

三、PixieApp 深入了解

“每个视觉都是开玩笑，直到第一个人完成它；一旦意识到，它就变得司空见惯。”

– Robert H Goddard

在本章中，我们将对 PixieApp 框架进行技术上的深入研究。您既可以将以下信息用作入门教程，又可以用作 PixieApp 编程模型的参考文档。

在深入探讨 PixieApp 的基本概念（例如路由和请求）之前，我们将首先对它进行剖析。为了帮助跟进，我们将逐步构建一个Github Tracking示例应用，该示例应用将在引入功能和最佳实践时应用这些功能和最佳实践，从构建数据分析到将其集成到 PixieApp 中。

在本章的最后，您应该能够将学习到的经验教训应用到您自己的用例中，包括编写自己的 PixieApp。

PixieApp 的剖析

注意

注：PixieApp 编程模型不需要任何 JavaScript 经验，但是，希望读者熟悉以下内容：

术语 PixieApp 代表 Pixie 应用，并且旨在强调其与 PixieDust 功能（尤其是display() API）的紧密集成。其主要目标是使开发人员易于构建可以调用 Jupyter 笔记本中实现的数据分析的用户界面。

PixieApp 遵循单页应用（SPA）设计模式，它向用户显示并带有欢迎屏幕，该屏幕会动态更新以响应用户交互。更新可以是部分刷新，例如在用户单击控件后更新图形，也可以是完全刷新，例如在多步过程中更新新屏幕。在每种情况下，更新都是通过使用特定机制触发的路由在服务器端进行控制的，我们将在后面讨论。触发后，路由将执行代码以处理请求，然后发出 HTML 片段，该片段将在客户端应用于正确的目标 DOM 元素。

以下序列图显示了运行 PixieApp 时客户端和服务器端如何交互：

序列图显示了 PixieApp 的信息流

启动 PixieApp 时（通过调用run方法），将调用默认路由，并返回相应的 HTML 片段。当用户与应用交互时，将执行更多请求，从而触发关联的路由，从而相应刷新 UI。

从实现的角度来看，PixieApp 只是一个普通的 Python 类，已经用@PixieApp装饰器装饰了。在封面下， PixieApp装饰器检测该类以添加运行应用所需的方法和字段，例如run方法。

注意

有关 Python 装饰器的更多信息，请参见。

要开始启动，下面的代码显示了一个简单的Hello World PixieApp：

#import the pixieapp decorators
from pixiedust.display.app import *

@PixieApp   #decorator for making the class a PixieApp
class HelloWorldApp():
    @route()  #decorator for making a method a route (no arguments means default route)
    def main_screen(self):
        return """<div>Hello World</div>"""

#Instantiate the application and run it
app = HelloWorldApp()
app.run()

注意

您可以在此处找到代码。

上面的代码显示了 PixieApp 的结构，如何定义路由以及如何实例化和运行该应用。由于 PixieApps 是常规的 Python 类，因此它们可以从其他类（包括其他 PixieApps）继承而来，这对于大型项目来说很方便，使代码模块化和可重用。

路由

路由用于动态更新全部或部分客户端屏幕。可以根据以下规则在任何类方法上使用@route装饰器轻松定义它们：

需要一个路由方法来返回一个字符串，该字符串表示更新的 HTML 片段。

注意

注意：允许在片段中使用 CSS 和 JavaScript。
@route装饰器可以具有一个或多个关键字参数，这些参数必须为字符串类型。可以将这些关键字参数视为请求参数，PixieApp 框架在内部使用这些参数根据以下规则将的请求分发到最匹配的路由：
- 带有最多参数的路由始终首先被评估。
- 所有参数都必须匹配才能选择路由。
- 如果未找到路由，则默认路由被选为后备路由。
- 可以使用通配符（即*）配置路由，在这种情况下，状态参数的任何值都将是匹配项。
  
  以下是一个示例：
```
       @route(state1="value1", state2="value2")
```
PixieApp 必须具有一个且只有一个默认路由，即没有参数的路由，即@route()。

以不引起冲突的方式配置路由非常重要，尤其是在您的应用具有分层状态的情况下。例如，与state1="load"关联的路由可能负责加载数据，然后与(state1="load", state2="graph")关联的第二路由可能负责绘制数据。在这种情况下，同时指定了state1和state2的请求将匹配第二条路由，因为路由评估是从最具体到最不具体的，并在第一个匹配的路由处停止。

为了明确起见，下图显示了如何将请求与路由匹配：

将请求与路由匹配

定义为路由的方法的预期约定是返回 HTML 片段，其中可以包含 Jinja2 模板构造。 Jinja2 是功能强大的 Python 模板引擎，提供了丰富的功能来动态生成文本，包括对 Python 变量，方法和控制结构的访问，例如if...else，the for循环等。涵盖的所有功能将超出本书的范围，但是让我们讨论一些经常使用的重要结构：

注意

注意：如果您想了解有关 Jinja2 的更多信息，可以在这里阅读完整的文档。

变量：您可以使用双花括号来访问范围内的变量，例如"<div>This is my variable {{my_var}}</div>"。在渲染期间，my_var变量将替换为其实际值。您还可以使用.（点）表示法访问复杂对象，例如"<div>This is a nested value {{my_var.sub_value}}</div>"。
for循环：您可以使用{%for ...%}...{%endfor%}表示法通过迭代一系列项目（列表，元组，字典等）来动态生成文本，例如：
```
{%for message in messages%}
<li>{{message}}</li>
{%endfor%}
```

if语句：您可以使用{%if ...%}...{%elif ...%}...{%else%}…{%endif%}表示法有条件地输出文本，例如：

{%if status.error%}
<div class="error">{{status.error}}</div>
{%elif status.warning%}
<div class="warning">{{status.warning}}</div>
{%else%}
<div class="ok">{{status.message}}</div>
{%endif%}

了解变量和方法如何进入路由返回的 JinJa2 模板字符串的范围也很重要。 PixieApp 自动提供对三种类型的变量和方法的访问：

类变量和方法：可以使用this关键字进行访问。

注意

注意：我们之所以不使用更具 Pythonic 风格的self关键字，是因为 Jinja2 本身已经采用了该关键字。
方法参数：当路由参数使用*值并且您希望在运行时可以访问该值时，此方法很有用。在这种情况下，您可以使用与路由参数中定义的名称相同的名称向方法本身添加参数，并且 PixieApp 框架将自动传递正确的值。

注意

注意：参数的顺序实际上并不重要。您也不必使用路由中定义的每个参数，如果仅对使用参数的子集感兴趣，这将很方便。

该变量也将在 Jinja2 模板字符串的范围内，如示例所示：
```
@route(state1="*", state2="*")
def my_method(self, state1, state2):
    return "<div>State1 is {{state1}}. State2 is {{state2}}</div>"
```
注意

您可以在此处找到代码文件。
方法的局部变量：只要您将@templateArgs装饰器添加到方法中，PixieApp 就会自动将方法中定义的所有局部变量放在 Jinja2 模板字符串的范围内，如示例所示：
```
@route()
@templateArgs
def main_screen(self):
    var1 = self.compute_something()
    var2 = self.compute_something_else()
    return "<div>var1 is {{var1}}. var2 is {{var2}}</div>"
```
注意

您可以在此处找到代码。

生成对路由的请求

如之前提到的，PixieApp 遵循 SPA 设计模式。加载第一个屏幕后，与多页 Web 应用一样，使用动态请求而不是 URL 链接完成与服务器的所有后续交互。有三种方法可以生成对路由的内核请求：

使用pd_options自定义属性来定义要传递到服务器的状态列表，如以下示例所示：
```
pd_options="state1=value1;state2=value2;..;staten=valuen"
```
如果已经有一个包含pd_options值的 JSON 对象（例如，调用display()的情况），则必须将其转换为pd_options HTML 属性期望的格式，这可能会很耗时。在这种情况下，将pd_options指定为子元素会更方便，这允许将选项直接作为 JSON 对象传递（并避免转换数据的额外工作），如以下示例所示：
```
<div>
    <pd_options>
        {"state1":"value1","state2":"value2",...,
        "staten":"valuen"}
    </pd_options>
</div>
```

通过调用invoke_route方法以编程方式，如以下示例所示：

self.invoke_route(self.route_method, state1='value1', state2='value2')

注意

注意：如果要从 Jinja2 模板字符串调用此方法，请记住使用this而不是self，因为self已经被 Jinja2 本身使用。

当需要根据用户选择动态计算中传递的状态值时，您需要使用$val(arg)特殊指令，该指令充当将在执行内核请求时解析的宏。

$val(arg)指令采用一个参数，该参数可以是以下之一：

页面上 HTML 元素的 ID，例如输入或组合框，例如以下示例：

<div>
    <pd_options>
        {"state1":"$val(my_element_id)","state2":"value2"}
    <pd_options>
</div>

必须返回所需值的 JavaScript 函数，如以下示例所示：

<script>
    function resValue(){
            return "my_query";
    }
</script>
...
<div pd_options="state1=$val(resValue)"></div>

注意

注意：大多数 PixieDust 自定义属性支持使用$val指令的动态值。

GitHub 项目跟踪示例应用

让我们将到目前为止所学到的应用于实现示例应用。为了解决问题，我们想使用 GitHub Rest API 搜索项目并将结果加载到 Pandas DataFrame中进行分析。

初始代码显示了欢迎屏幕，其中带有一个简单的输入框以输入 GitHub 查询和一个按钮来提交请求：

from pixiedust.display.app import *

@PixieApp
class GitHubTracking():
    @route()
    def main_screen(self):
        return """
<style>
    div.outer-wrapper {
        display: table;width:100%;height:300px;
    }
    div.inner-wrapper {
        display: table-cell;vertical-align: middle;height: 100%;width: 100%;
    }
</style>
<div class="outer-wrapper">
    <div class="inner-wrapper">
        <div class="col-sm-3"></div>
        <div class="input-group col-sm-6">
            <input id="query{{prefix}}" type="text" class="form-control" placeholder="Search projects on GitHub">
            <span class="input-group-btn">
                <button class="btn btn-default" type="button">Submit Query</button>
            </span>
        </div>
    </div>
</div>
"""

app = GitHubTracking()
app.run()

`X`	`Y`	结果
0	0	0
0	1	1
1	0	1
1	1	0

龙哥盟

掠夺·扩张·投机·博弈