数据好奇心-全-

数据好奇心(全)

原文:zh.annas-archive.org/md5/4062cb8dfc00d8c5a99edbf1e60b3ce5

译者:飞龙

协议:CC BY-NC-SA 4.0

序言

教育存在的时间越长,就越专注于口头和书面沟通。21 世纪沟通的一个方面遗憾地没有得到正确的教授:数据管理。由于这种教育缺乏,许多人在处理数据时感到幼稚。没有人喜欢觉得他们提出的问题可能很愚蠢,特别是当人们指望他们给出理性答案时。

数字技术的兴起创造了大量通常未被利用的数据来源。这些数据来源应该被利用来帮助全球各个组织每天做出的决策。遗憾的是,由于教育的缺乏,可以在第一时间帮助做出正确决策的资源被忽视,而更多地依赖于那些经验丰富的资源。

我们并不是说在组织决策中经验毫无用处。你可能注意到我们没有使用“数据驱动”决策这个术语,因为这暗示了数据如何被理解为是做出正确决策的唯一驱动力。相反,最佳决策是在结合经验、专业知识和数据的基础上制定的,以尽可能全面的方式看待情况。

我们将本书划分为不同的部分,以便您了解数据的关键方面和开发项目类型,实施其在组织中的使用,以便您能够创建一个数据为基础的决策文化。

为什么写这本书

有大量书籍可供学习特定的数据工具和技术,以及成为数据专家所需学习的不同技能。迄今为止,卡尔已经写了一本!然而,我们不知道有任何书籍是以高层次的方式介绍你学习数据所需的技能,以及在交付数据项目和开发新数据产品和提议时如何使用这些技能。

我们不希望这本书成为“所有数据事物”的百科全书,因为你可能没有时间或意愿消化这样的知识。相反,这本书的目标是成为一个易于访问的指南,仅教会你足够的内容来建立自信,而不会陷入你不太可能经常使用的细节中,特别是如果你是项目的领导而不是亲自动手开发输出。

我们不仅将带领您了解一个示例项目的各个阶段,还将反思一个单独项目不太可能创建一个能够本能地做出数据为基础决策的组织。这就是为什么我们详细说明如何将成功的项目发展成更广泛的数据平台,使进一步的项目能够有条理地采取下一步必要的措施,从而创造出在最成功的组织中看到的期望的数据为基础文化。

最后,我们撰写本书的最终原因是介绍数据主题,即决策者如何通过不同专业和专长的许多人来看待数据,而不必个人承担所有工作的技能或时间。一个组织由许多人组成,他们具有不同的专长和专业领域,因此我们将探讨如何在不影响人们对您组织宝贵贡献的前提下,创建一个精通数据和信息的文化。

本书的目标读者

如果您拿起了本书,那么您可能对数据的标题与您对数据的感受产生共鸣。您可能对数据究竟是什么以及它如何帮助您和您的组织充满好奇。是的,您可能每天在工作和家中听到这个词,但很少有人能定义它,甚至更少的人能有目的地使用它。本书的编写目的是帮助您理解数据,了解其关键特征,并发现数据的潜力,然后介绍如何交付数据项目的技术和人文部分。最终,我们的目标是让您在数据上感到掌控,以便推动您的组织更加数据驱动。

那么,我们假设你是谁?尽管本书旨在帮助组织中不同团队和层级的许多人,但我们侧重于那些领导组织或大型职能的人。我们之所以这样做,是因为这些人通常时间紧张,面临快速理解复杂主题的压力。

我们理解数据带来的复杂性。我们两人之间,在全球复杂组织中,我们已经数十年亲身接触数据。我们负责设计、开发和交付涉及数据的项目。这并非易事。当领导者在数据工作的各个方面缺乏扎实教育,却被要求对涉及数据的项目做出详细决策时,任务变得更加艰巨。通过阅读本书,我们希望您能理解这些挑战,并从我们的经验和错误中学习。

本书的组织方式

本书分为五章。您可以从头到尾阅读,全面了解如何将您对数据的好奇心转化为具体的可交付成果,以及推动您的组织形成数据驱动的文化。或者,您可能希望逐章阅读,留出时间来实施每章的关键见解。特别是第三、第四和第五章可能会被反复查阅或在不同场合阅读,因为您可能无法在仅有一个完整数据平台和团队支持的项目交付期间使用本书的指导。

第一章 提供了本书其余部分基于的背景。您在本章中阅读的一切很可能对您来说并非全新。本章旨在使所有读者达到相同的理解水平,说明为何数据好奇心不仅仅是一种美好的态度,而是成功的现代组织和职业不可或缺的部分。本章最终目标是激励创建数据驱动文化,解释如何增加组织成功的可能性。

第二章 填补了教育系统中上述不足之处。在定义数据的基础上,该章节涵盖了数据作为资源、从这些资源中形成的产品,以及成功开发基于数据的产品和提议所需的组织技能。

第三章 引导您逐步了解与数据工作的端到端生命周期,从获取或提取,通过存储、策划和探索,到与他人分享工作成果。

第四章 更深入地探讨了不仅能够塑造单个项目而且将为您的组织赋能的技术决策。该章节还详细介绍了如何开始使用技术,使其不会让您感觉在测试对您的组织有效的每个重大决策之前都要做出决策。

第五章 探讨了参与的人员、您可能在哪里找到他们以及如何部署他们以产生最大的影响。本章还涵盖了您需要影响和合作的人员,以朝着我们希望创造数据驱动决策强大文化的目标迈进。

O’Reilly 在线学习

注意事项

40 多年来,O’Reilly Media 提供技术和业务培训、知识和洞察,帮助公司取得成功。

我们独特的专家和创新者网络通过书籍、文章和我们的在线学习平台分享他们的知识和专长。O’Reilly 的在线学习平台为您提供按需访问的实时培训课程、深入学习路径、交互式编码环境以及来自 O’Reilly 和其他 200 多个出版商的大量文本和视频内容。欲了解更多信息,请访问https://oreilly.com

如何联系我们

请将关于本书的评论和问题发送至出版商:

  • O’Reilly Media, Inc.

  • 1005 Gravenstein Highway North

  • Sebastopol, CA 95472

  • 800-889-8969(美国或加拿大)

  • 707-829-7019(国际或当地)

  • 707-829-0104(传真)

  • support@oreilly.com

  • https://www.oreilly.com/about/contact.html

我们为本书创建了一个网页,列出了勘误、示例和任何其他信息。您可以访问此页面https://oreil.ly/data-curious-1e

欲了解有关我们书籍和课程的新闻和信息,请访问https://oreilly.com

在 LinkedIn 上找到我们:https://linkedin.com/company/oreilly-media

在 Twitter 上关注我们:https://twitter.com/oreillymedia

在 YouTube 上关注我们:https://youtube.com/oreillymedia

致谢

我们都要感谢 O’Reilly 团队,他们给予我们写作这本书的机会,并帮助我们创作了一本令我们骄傲的书。米歇尔·史密斯再次信任卡尔,让他再次开启另一本书籍,以进一步探索这一主题。内容得到了我们的开发编辑加里·奥布莱恩的塑造,他将我们的思想认真整理成了更为连贯和易理解的形式。

我们还要感谢克里斯·洛夫(Chris Love),他的技术审查帮助进一步完善了某些想法,并对我们所涵盖的一些概念提供了重要挑战。

卡尔·奥尔钦

我还要对那位树立了工作道德榜样的人表示个人致谢,他使我能够抓住这些机会。我的祖父欧尼·奥尔钦在这个项目完成时去世了。欧尼有着不可动摇的工作道德,为我树立了一个努力追求的榜样。欧尼从未有过接受良好教育的机会,也不了解数据,但他支持了我在职业和生活中的发展,即使这使他长时间离家。我的家庭非常重视工程,他们的工作总是以实物为依据,而写书则让我能够创造出实际的成果。看到欧尼手持我的书的一刻是我骄傲的时刻,这一刻将永远铭记在心。

我还要感谢我的伴侣托尼,他一直鼓励我,同样也容忍我全身心投入到写书的项目中。2021 年 8 月,我的儿子出生时,我曾经中断了写作,但是这个项目吸引我打破了这个休止期。没有托尼的支持和奥斯卡的拥抱,你现在手里也许就拿不到这本书了。

最后,特别感谢萨拉(Sarah),她在本书中扮演了两个重要角色。最初,萨拉是本书的技术审查人员,但由于长期生病,她成为了共同作者,并主要撰写了本书的最后两章。她对前三章的技术审查显著增强了项目的质量,而她撰写的最后两章则使得本书变得更为强大。谢谢你,萨拉。

萨拉·纳贝尔西

我想要感谢我的妈妈,Maissa,对我的爱、支持和无尽的关怀。感谢你始终相信我,始终激励我成为更好的自己,以及重视教育和努力工作。在我成长过程中,你作为榜样的影响塑造了今天的我,并帮助我将工作态度转化为撰写这本书的动力。

我还要感谢我的姐姐,Tasneem;在我妈妈之外,她对我的影响无与伦比。感谢你的指导、支持和鼓励。

最后,我想要感谢我的伴侣,Amit,他总是抓住一切支持我的机会,像这样的项目。感谢你在我面对高压时的支持,以及放弃我们在一起的时间来支持我追求这些项目。

最后,尽管我对导致我们走到这一步的事件感到悲伤,我很感激能有机会与你,Carl,共同撰写这本书。写书并不容易,我很高兴我的首次撰写经历能与你合作。我很高兴能帮助将这本书呈现出来,并祝愿你早日康复!

第一章:新兴数据挑战与机遇

在 2006 年,克莱夫·汉比宣布:“数据是新的石油”,这句话的力量引起了全球许多商业领导人的关注。汉比是领先的数据分析公司 dunnhumby 的联合创始人,他们在 1994 年为英国领先的超市 Tesco 提供了一项革命性的客户忠诚计划。¹ 通过向客户提供个性化的优惠券在商店消费,传统零售商蓬勃发展。dunnhumby 展示了数据的力量,所以当汉比说出这些不朽的话语时,你当时应该聪明地倾听,而今天同样如此。

你为从你的数据中创造价值感到压力,这不仅仅来自于汉比。会议演讲、商业出版物封面或管理文献可能已经吸引了你对其他趋势的注意。大数据物联网(IoT)、机器学习(ML)和人工智能(AI)都是可能让你彻夜难眠的术语。关于数据解决方案的术语发展似乎正在以技术发展的速度匹配之外的速度增长。

如果你因为感觉跟不上潮流而拿起这本书,那么你和我们每天交流的大多数利益相关者一样。每个人似乎都担心他们的竞争对手在收集和利用数据方面领先于他们。如果你已经在利用数据,你可能担心你的竞争对手正在以更高级的方式使用数据,这可能会吸引你的数据专家离开。毕竟,每个科技极客都想使用最先进的技术来应对最新的挑战。

有许多正当的理由让你感到压力,希望提升组织的数据能力,但我们将告诉你一个秘密……不要相信你听到的每一件事。并非每个竞争对手都已完全掌握他们的数据,并赋予组织中的每个个人使用这种能力。有些人在精细化他们的数据资源方面可能更为先进,但他们的旅程可能远未完成。

Accenture 的一项研究显示,组织在利用其数据的过程中还有很长的路要走。³ 全球劳动力中只有 21%对自己的数据素养技能有信心。根据 Forrester 的研究,60%到 73%的企业数据从未被分析过。⁴ 当你拿起这本书时,你脑海中的图景可能不太一样,因为你看到数据的使用正在增加,但这并不意味着没有进一步利用数据的机会。本书将展示为什么数据是你可以用来支持组织中每个决策的资产,以及如何通过数据验证你的决策将防止基于错误假设选择方向的风险。更多时候做正确决策的价值是巨大的。

本书将为你介绍在组织中发展数据文化时会遇到的关键术语、概念和挑战。为了引领所需的各种变革,你需要能够向许多个体提出正确的问题。本章将为你介绍处理数据项目时遇到的挑战,为什么存在这些挑战,以及如何成功地导航数据项目。

快速变化的挑战

在现代组织中,管理变革是理所当然的。在充满活力的环境中交付项目是不可能达到你的位置的。发展组织的数据能力也将需要变革管理,包括人员和流程。自 2006 年 Humby 宣称数据的价值以来,数据处理、分析和监管技术发展的速度意味着变革不仅仅是一次性的,而是一场不断进化能力的洪流。

在处理数据时,你将被要求考虑涉及数据的端到端过程的多个部分。你需要考虑如何最好地获取、存储、清洗、分析和传达数据。一旦你在组织流程中针对任何这些挑战找到解决方案,你将迅速发现市场上不断出现的更快速和更用户友好的新产品。例如,数据库曾经是保存组织数据的最佳技术和概念方法,直到每天流入组织的数据量增长到需要人们创造数据湖来处理的程度。如果你投资了数据库,突然间你就面临采用数据湖以应对不断变化的需求的压力。最近,数据湖仓库已成为处理现代组织中处理数据带来的下一个进化挑战的选择。我们将在下一节更详细地讨论数据增长挑战。

数据已成为一种可以创造收入和发展公司机会的资产。与任何改进可能性一样,解决这些问题以获取提供的利益是一项挑战。从数据中产生的机会在这一点上并无不同。利用数据创建的产品和提案可以让组织开发新的收入流或与客户建立更深入的关系。数据产品利用数据形成应用程序或项目的基础,如果没有使用数据是不可能的。数据提案并不创建有形产品,但允许提供新的或增强的服务。

让我们更详细地讨论你在追求数据创造的机会时可能面临的挑战。你需要记住,即使产品和服务开发出来后,它们本身也会带来一系列挑战,涉及保持更新和满足用户需求的能力。

数据量和速度的增长

在过去几十年中,对于处理数据的人员来说,发生了巨大变化,预计这种变化不会减缓,特别是在技术领域。试图跟上整体市场发展几乎是不可能的,这也是为什么大多数数据专家只专注于少数几种工具的原因之一。负责在组织中处理数据端到端生命周期的数据专家可能会使用一种工具来支持从源头提取数据,一种用于存储,一种用于分析存储数据。这些进步的需求就像任何技术发展一样;一旦创建了解决方案,该解决方案就会被用来进一步发展你所操作的领域。大多数技术发展都会带来新的挑战,因为昨天的解决方案变成了今天的问题,而每种新工具很少能提供全面的结果,这意味着需要持续的发展。

大数据是 21 世纪处理数据时常用的术语。大数据的定义并不容易界定,大多数人可能难以达成一致。大多数定义中提到的三个常见概念源自 Gartner 分析师道格·莱尼对大数据的定义中的“3 个 V”:⁵

  • 容量:数据量

  • 速度:数据创建/传输的速度

  • 多样性:可用的不同数据

2013 年,另一位 Gartner 分析师斯维特拉娜·西库拉强调,3 个 V 并不是莱尼对大数据定义的全部。西库拉提到了在 3 个 V 之后描述技术解决方案的重要性。她引用的整个句子是:“‘大数据’是高容量、高速度和多样性信息资产,要求以成本效益、创新的信息处理形式来增强洞察和决策能力。”⁶

其他挑战可以归纳为:⁷

  • 真实性:对数据的信任水平

  • 变异性:数据的使用和格式

  • 价值:数据的商业价值

对于常见术语,过去二十年来,每个特征都有显著增加,随着互联网和数字连接的利用增长。全球产生的数据量从 2010 年的 2 泽字节增长到 2017 年的 26 泽字节,预计到 2023 年将增长到 120 泽字节。⁸ 你的组织不会访问所有这些数据,甚至远远不及,但增长模式表明你自己组织的数据量也在增加。用于处理或分析数据的软件通常被称为工具。虽然数据工具存在了几十年,但它们都必须发展处理更大数据集的能力,否则将变得过时。数据工具是指用于形成、分析和传达数据的软件。它们的技术发展使组织能够比以往任何时候都能更好地利用数据。

与数据打交道的时间永远不会像你想象的那么多。随着数据集的增长,可用的工作时间保持不变。能够处理吸收、处理和分析数据所需的更大速度,需要改进的技术和基础设施。以前银行只会收集我作为客户每笔交易的数据,现在我的银行在我登录其网站或移动应用程序时都会捕获数据,记录登录时间和我在该交互过程中使用的服务。增加关于每笔交易和互动的更多数据点意味着需要处理的数据更多了,但仍在相同的时间内。我们使用的数据工具需要更快的速度来收集和存储这些数据。

如你将在下一章中学习的,数据以多种格式存在,数据量和速度的增长导致数据形式的多样性不断增加。能够灵活地处理与你的软件兼容的数据集已成为一个关键要求。

我们将继续引用大数据所提出的“三 V”挑战,因为它们已成为所有组织所处环境的一个固定部分。这些挑战需要快速的技术发展,以促进和应对不断变化的环境。数据专家必须获取新技能,学习新技术,以保持其专业领域的竞争力。

数据科 数据科学已成为一个流行术语,涵盖了许多新兴领域,如机器学习和人工智能。在 2010 年代,仅仅管理和理解组织积累的数据资产是大多数数据专家工作的重点。近年来,随着对数据资产的理解不断发展,专家们开始预测发现的信息和洞察。新工具和技术的发展使专家能够执行和优化这些预测和优化任务。

新法规和政府命令

变化不仅仅是由技术发展驱动。随着数据成为更多人角色和决策过程的日益重要的部分,监管也增加,以保护个人免受数据分析可能带来的负面后果。

现在处理数据需要理解“个人身份信息”(PII)的概念。政府身份识别码、邮政和电子邮件地址以及电话号码仅仅是组织必须非常谨慎处理的数据点的几个例子。仅仅访问 PII 并非问题的关键——与之一同保存的数据才是重要因素。政治立场、性取向或健康信息都是仅在绝对必要时应与个人相关联的敏感数据点。

类似欧洲的《通用数据保护条例》(GDPR)的法规已经明确了个人身份信息(PII)的定义。自 2016 年实施以来,GDPR 已经迫使许多组织改变他们如何保存客户和用户的数据。GDPR 确立了七项原则⁹,为数据项目中数据存储设定了强有力的标准:

合法性、公平性和透明性

数据符合所有法律,不会对数据主体造成不必要的伤害,并且他们明白为何收集了这些数据。

目的限制

数据仅收集用于特定目的,并且对数据主体是清晰的。

数据最小化

保留最少量的详细信息以满足数据收集的目的。

准确性

收集的数据必须保持准确,并在不再需要时删除。

存储限制

应设置一个有限的时间来保存数据。

完整性和保密性

应采取安全措施来保护所保存的数据。

账户负责制

您必须有清晰的流程来证明您的合规性。

这些原则的目的在于确保关于任何个人的数据仅用于特定目的,保存一定时间,并保持准确性。为什么这些规则如此重要的一个例子是 2018 年引起公众关注的剑桥分析公司丑闻。该丑闻的核心是数据分析公司如何利用从 Facebook 获取的数据来建立人们及其政治偏好之间的联系。八千七百万人,他们仅仅是 27 万名 Facebook 第三方应用用户的朋友,他们的数据被收集用于此目的,尽管他们从未同意进行这种分析或使用他们的数据。¹⁰

像 GDPR 这样的法规还关注数据保存的安全性和完整性原则。数据泄露和黑客攻击是常见的新闻事件,可能一次性影响数百万人。密码和其他个人细节是黑客的常见、有价值的目标,他们试图冒充他人或实施欺诈等犯罪。您的数据源的安全性至关重要。随着全球服务如音乐流媒体、活动追踪应用程序的使用继续增长以及对电子邮件的持续使用,此类数据安全服务的价值也在增加。

在许多行业中,关于数据的法规仍在形成和发展,并将是您在开发数据解决方案时需要平衡的不断变化的来源。

通过民主化数据改善决策-making

几十年来,组织一直根据员工的经验和专业知识做出决策。随着技术创新的快速发展和大多数组织角色的规模和范围的增加,仅依靠您的经验做出正确决策变得越来越困难。数据不仅仅是财务账户形式由您的组织团队请求,而是每个人覆盖组织的所有方面,包括客户、运营和员工。

银行曾经使用分行经理来决定谁有资格贷款,谁没有。银行经理根据他们自己的地方知识、与个人的关系以及对个人财务态度的了解来决定是否向其借款安全。这种模式显然存在许多偏见,因此远非理想的开始,但还有其他问题存在。当分行经理离开他们的角色时会发生什么?如果顾客是这个地区的新人怎么办?贷款申请评估提供了一个例子,显示了数据可用性显著影响组织实践和结果的方式之一。

类似 Experian 的公司利用数据形成信用评级,让金融服务提供商评估个人的信用价值。快速查看某人的信用分数通常足以批准或拒绝贷款申请。如果你有强大的信用分数和稳定的财务历史,这是很好的,但并非所有人都是如此。新的金融服务提供商已经出现,专注于那些没有足够好信用分数的个人,而将查看其他因素来确定是否仍可以提供贷款。没错,这些提供商针对由另一个数据解决方案引起的问题开发了数据解决方案,使用了更广泛的信息来源。

并非每个组织都在评估贷款申请,但您组织中的每个人可能每天都在做影响客户、合作伙伴和底线的决策。如果您有经验丰富的员工,他们很可能基于长期的任职经验做出决策,这可能是有效的。然而,许多决策是基于新兴和发展中的情况,或者由于正在积累经验的人做出的决策。这就是数据可以在情况中增加更全面视角的地方。如果您是组织中的高级经理,您可能已经拥有所需的数据,因为您知道该向谁询问,他们会为您提供数据。然而,在我所工作的组织中,许多初级成员甚至中层经理在获取需要做出数据驱动决策所需的信息时存在困难。

数据民主化意味着将正确的数据放入组织中每个人的手中。这是本书的重点,也是我们整个职业生涯的重点。通过构建可以被组织不同层次的不同群体使用的数据产品和提案,您将赋予他们做出更好决策的能力。

在分析数据时,真正理解分析所解决的核心问题至关重要。了解需要回答的关键问题的最佳人员是业务中的主题专家。即使如此,汇编这些问题也不是一件容易的事情,因为每个人可能试图回答不同的问题。这意味着可能需要大量不同层次聚合的数据集(我们将在第二章回到这个概念),以及可能需要不同的工具来回答每个问题。在所有数据和竞争性优先级之间提供清晰性、焦点和方向可能看起来令人生畏,但是这本书将帮助您了解如何处理这项任务,并成功地实现数据民主化。

开发新产品和提案

数据集不仅仅用于支持决策,而且已经成为产品本身。随着数据集中信息的发现和优化,新产品和提案也变得可能。

以 Beeline 为例。Beeline 是一个在城市地区简化自行车导航的产品,它指引您到达目的地,而不是详细指定每个左右转弯。Beeline 的初始产品是一个安装在自行车把手上的物理设备,带有一个小屏幕,作为指南针指引您到达目的地和在出发前在应用程序中指定的任何途经点。关联的手机应用程序存储了您的速度、路线和许多其他数据点。这为用户提供了他们旅行的全面视图。

Beeline 通过汇总所有用户的数据并对其进行匿名处理,已经将这些数据商业化,以向各种组织提供额外的数据。交通规划者、地方议会甚至零售商都可以利用这些数据来了解人们何时何地骑行以及他们的旅程如何顺畅。这可以帮助确定需要投资专用骑行基础设施的地点,或者在哪里设立新店以服务那些骑行到该地区的人群。我(卡尔)知道,我很感激在骑行通勤结束后,在开始工作前能有选择的咖啡馆补充能量。

正如之前讨论的“新规定和政府法令”中提到的,GDPR 强制数据持有者确保仅在为最终用户指定明确目的时才持有数据。这使得从数据中形成数据产品和提案变得更加困难,因为几乎需要在数据集收集之前对其进行范围界定。但只要数据的主体清楚知道你对数据的处理方式,就可以创建数据提案。也许 Humby 在说数据和石油一样有价值时是正确的?就像石油一样,数据也需要经过精炼(阅读、清洗和准备),但许多数据集对不同组织有多种有价值的用途。

建立共同理解

鉴于您的组织中有如此多的可能方法供如此多的人使用,对他们来说在正确的时间、正确的方式获取正确的数据可能会很困难。在许多组织中,数据由维护数据源的中心团队提供。随着数据用于决策需求的增加,这些团队通常工作量过大,时间有限,无法充分理解如何最好地满足您的需求。

根据组织的规模,中央数据团队与请求者在主题知识和物理位置上可能存在很大的距离。为了收集需求并按要求交付,大多数中央团队传统上以瀑布式项目的形式工作,特别是涉及创建数据源的较大请求。瀑布式项目包括阶段性门控,这个术语指的是在项目开发过程中按阶段签署进展的过程。尽管瀑布模型曾经对许多 IT 项目有益处,但对于需要大量迭代的数据项目而言,它已经变得不那么相关了。瀑布项目需要在项目开始时确定由数据集回答的问题。然而,在处理数据时,一旦发现洞察,就会发现出现了需要回答的不同问题。很难预测这些问题可能涉及的内容,因此通常不可能在最初的需求中包括它们。这意味着瀑布式项目通常会交付很快变得过时的结果。这可能导致提出新项目,或者利益相关者可能停止使用数据来指导他们的决策。

传统上,还设立了特殊团队,向业务中的主题专家(SMEs)提供报告和洞察,以便将 IT 团队中的数据专家节省下来,用于更多的架构项目。这种组织结构的创建是因为数据工具学习起来复杂,并需要许多人不具备的技能集;因此,所有业务用户不能接受培训来利用这些工具。

请求者需要的是能够快速提问和回答问题,并迅速进行迭代。例如,如果您正在研究组织内客户服务投诉的原因,您可能需要一份报告来统计每个投诉的根本原因。您可能希望一份报告根据产品、时间和地点分解这些数字。但是一旦您找到投诉原因,您可能会有更多难以预测的问题,而这些问题并不会在最初的问题答案中得到解决。随着您在数据工作中积累更多经验,并且您的组织数据团队与业务 SMEs 更密切地合作,您将开始提出更好的问题。

根据我的经验,请求数据洞察的人中,很少有人因为多种原因而不敢真正要求他们想要的内容:

  • 如果他们要求的内容不存在,他们不想显得愚蠢。

  • 他们还没有见识到数据工具的可能性,因此不知道数据可以做什么。

  • 他们可能只要求他们整体需求的一小部分,因为他们认为完成整个请求需要付出太多的努力。

  • 他们可能没有足够的资源完成完整的请求,因此他们只要求他们需求的一部分。

挑战性数据问题

一旦您能够应对在现代组织中处理数据所面临的挑战,一个更大的挑战即将出现——人。与您组织中试图进行的大多数变革一样,改变人们的态度和行为可能是最困难的部分。与数据相关的变革有一个额外的障碍,因为普遍存在这样一种看法,即涉及数据的任何事情都是困难的、技术性的和专业化的。

在过去的十年中,我大部分时间都在与这种对数据的看法进行斗争。数据被视为这种方式的原因没有单一答案,但数据在小学和大学教育中缺乏存在是一个重要因素。填补学术界在过去几十年留下的知识空白是目前组织面临的最大挑战之一。

想象一下,你的团队无法阅读和理解电子邮件和其他书面消息中使用的词汇。这会产生多大的影响?电子邮件无法理解,报告无人读取,学习受到阻碍,因为无法从书中学习。为什么我们会期望数据有所不同呢?这显示了理解和使用数据的重要性。

在现代组织中,仅仅处理数据是不够的。培养一个支持挑战数据常见概念和规范的文化对于使人们通过数据获得任何进展至关重要。从高层管理人员到一线员工,期望数据在决策中出现与使用任何其他经验同样重要。确保在做出决策时对使用数据持有积极态度至关重要,这对于创造强大、进步的文化至关重要,因为过去一直在使用的东西——也就是经验——需要与经验证据进行测试。

即使数据在决策中普遍存在,也要注意组织内数据生态系统的碎片化程度。数据生态系统指的是所有数据源、分析和产品如何共同工作。并非所有数据源都易于在不同工具之间使用。数据专家通常偏爱特定工具,这可能在您的组织内部造成一些派系主义,阻碍您所期望的协作。

数据流畅性

流畅意味着你能够轻松表达自己。数据流畅性指的是运用数据表达自己的能力。在现代组织中,这是什么样子呢?

阅读数据涉及许多不同的技能,这取决于数据的精炼程度。如果数据直接来自创建它的源头,那么在使用工具仔细查看数据之前,通常需要对其进行处理。处理数据包括清理、合并和重构数据,以便为分析做好准备。如果数据来自更精炼的源头,那么它很可能更容易阅读,并且具有清晰的结构或图形输出。本书的第二章将介绍数据文件的类型以及如何处理它们。

从数据源创建图形输出已经被广泛讨论过(包括卡尔·奥尔钦在与数据沟通一书中的著述,由 O'Reilly 出版),但这是每个现代世界中的人都必须掌握的关键技能。要能够创建有效的图表和图形,你首先需要能够阅读数据,并理解什么使图表有效,什么不是。数据可视化和沟通效果的理解是一个新兴领域,但已经有了一般的最佳实践。数据流畅通常被称为理解这些最佳实践和原则。

仅仅理解如何阅读数据集的图形输出是不够的;你需要能够传达你的发现。通过创建自己的图表和图形来突出你发现的见解,通常可以通过视觉理解和模式识别高效地进行人类的解释。

我们在本书的这一部分经常使用“理解”这个词,对我们来说,这是数据素养的关键部分。阅读和写作很重要,但最重要的是你从数据中获取的理解。

能够批判性地分析你的组织中使用的数据输出对于从中获得数据资产的价值至关重要。就像阅读文学作品一样,超越页面上的文字是看到真正含义的重要一步,你会因为对与你分享的数据产品持怀疑态度而受益。

数据可视化是一种强大的沟通工具,但如果没有偏见地制作它是很困难的。这并不是说你不应该信任组织中的数据输出,但你应该试着了解它们的来源,弄清楚它们制作背后的意图,并识别可能被忽略的任何内容。¹¹

你是否应该因为数据的潜在缺陷而忽视它?在一本名为数据好奇的书中,你可能可以猜到这个问题的答案——不应该!W·爱德华兹·戴明的名言:“没有数据,你只是另一个带着意见的人”,¹²是我(卡尔)个人非常喜欢的一句话。在所有组织中,在做决策时很难分离个人意见和政治因素。在挑战现状和真正寻找组织弱点时,有证据支持你的观点是至关重要的。

因此,创建一个擅长使用数据的工作人员非常重要,以确保每个人都能够阅读、质疑与他们分享的信息,并用数据表达自己的观点。

数据文化

创建一个擅长使用数据的工作人员并不足以获得数据的好处。您需要创建一个组织文化,积极利用数据来支持决策过程。如果您的组织不愿意用数据支持业务案例和新提议的想法,这可能会是一个相当大的挑战。

当新领导进入组织时,通常会形成数据文化。这些领导经常来自已有强大数据文化的组织,他们期望他们的新团队也具备相同的能力。如果习惯于有信息支持业务案例,没有这些信息可能会感到不足。

数据驱动决策是指使用数据来支持或挑战业务案例和主张。"Informed"是关键词,因为决策并非由数据主导,而是提供额外证据来帮助做出正确的决策。

进一步利用数据支持决策可以推动数据驱动决策的发生。这就是经验数据证据优先于非数据论点(如某人的经验)的地方。在数据文化较弱的组织中经常存在一种恐惧,即如果数据指向某个决策,就无法推翻该决策。如果人们觉得他们的想法或经验将完全被忽视,这种恐惧可能会阻止他们完全开放地使用数据。应尽快摒弃这种概念,以防止完全抵制使用任何数据的抵抗。

至少需要一位中级经理来培育数据文化,但通常需要领导支持。这是因为涉及成本,如软件解决方案、额外招聘或您可能需要利用的专家支持,以帮助建立数据解决方案或形成所需的战略。

组织的领导可以通过要求数据来支持他们被要求做出的决策,为更多数据驱动决策提供关键动力。这最终是创建强大数据文化的主要因素。组织被设计为响应领导的请求,因此如果他们要求数据产品,那么他们可能会得到这些产品。中级经理可以向领导展示使用数据来指导他们的决策的价值。这并不意味着实现他们所要求的将会很容易,尤其是如果他们的团队不具备数据素养。

越多的数据请求被提出,组织就越会将数据视为决策过程的一部分。练习可能并不总是完美的,但绝对是迈向正确方向的一步。

冲突偏好

随着数据在整个组织中的频繁使用,您可能开始遇到其他挑战。在准备、存储或分析数据时,有许多数据工具可供选择。要创建一个涉及共享和协作数据集以帮助改善组织决策的强大数据文化,您需要限制使用类似数据工具的数量。这有许多原因:

用户界面

毫不奇怪,每个软件都有不同的用户控件和流程。不同的屏幕布局可能会降低工作效率。任何阻碍用户迅速获取他们期望的内容的障碍都可能阻止该工具成为首选选项。在使用不同界面时,必须提供培训,这会产生成本。

技术差异

并非每个数据工具在同一类别(即获取、存储或分析)中都具有功能上的相同性。工具之间存在差异,从您可以生成的计算到可以轻松连接到的数据。这可能导致数据源的重复,因为每个工具可能需要自己的版本。

知识分享

这是与数据工作的关键方面,但当不同的工具创建不同的数据工作群体时,它可能会被忽略。关于如何优化工具使用的知识分享非常有用,但不分享找到的见解则是更重要的问题。

购买

在组织中使用多种工具,您可能不太可能实现规模经济。大多数软件采购都是基于这样的原则,即购买量越大,每个许可证或信用的价值越低。

这些问题都不是绝对的阻碍。拥有不同的工具可能会有所帮助;不同的工具可以使招聘更加容易,因为您可以从更广泛的人才池中招募。然而,如果您投入了时间和精力来提高数据素养水平并建立数据文化,您将希望尽可能多地利用这些好处,因此专注于少数关键软件将会大大有所帮助。

数据赋权是什么样子?

管理变更和改进组织数据技能的过程可能看起来是一段漫长而具有挑战性的旅程,但这是值得努力的。Microstrategy 报告称,使用数据分析的组织“决策更快,更有效。”¹³ 同一份报告还指出以下好处:

  • 提高效率和生产力(64%)

  • 更好的财务表现(51%)

  • 发现和创建新产品和服务收入(46%)

  • 改善客户获取和保留(46%)

  • 改善客户体验(44%)

所有这些属性显然对任何组织都是有吸引力的。数据赋能不仅仅是为了做出更快、更有效的决策;它还意味着让人们能够访问数据以形成所需信息,做出决策,发现收入机会,并提高客户保持率。仅仅提供数据集的访问权限并不能使您的团队真正具备数据赋能,但是为他们提供易于使用的工具以及如何处理数据的知识可以。确保人们在决策制定中看到数据的角色在各个层面都是重要的,这将鼓励他们在分析和洞察表明这样做有益时挑战现状。

让我们更详细地探讨数据赋能对您的团队和他们将要处理的流程意味着什么。

人员

根据 2020 年的 Microstrategy 报告,调查显示 76%的高管可以轻松访问数据,但只有 52%的一线员工能够如此。显然,支持战略决策需要数据的支持。然而,如果不是每个人都能做到这一点,仍然可能出现失误,或者错失机会。加上他们在角色中数据素养技能的不足,有很多潜在的改进空间。

在《与数据交流》中,我(卡尔)写道,通过使用数据影响变革的重要性日益增长,就像言辞和数字自其创建以来就用于支持决策一样。数据以图表、图形和汇总数字的形式变得越来越重要,以形成具有影响力的论证的重要组成部分。因此,对组织的各个层面能够访问数据并具备分析能力非常重要,否则一些人可能无法像其他人那样强力影响。

数据访问不仅仅是访问最初捕获数据的系统中创建的数据集,还涉及具备形成分析的技能和工具。如果工具直观且易于访问,您组织各层级的团队将能够利用数据来补充其知识和专业知识。数据赋能意味着不仅可以发现问题,而且可以使用数据作为支持为何应该执行某事的证据。通过数据交流,应该使想法的表达更加清晰和经验支持,从而在组织更多层面上的决策制定中消除政治和影响技巧的影响。

如果您的团队觉得他们可以挑战流程、验证决策并创新,他们将更加投入于组织,而不是感到沮丧或被忽视。

流程

长期以来,组织一直使用业务分析师,有些有效地发现和解决问题。赋予整个团队数据赋能可能会创造一支业务分析师的军队,而不是必须引入具备这些技能的人。

随着数据和技能的增加,数据可以被利用来流畅地进行组织所需的变化,找出已知问题的原因,并提出否则不可能提出的解决方案。诸如六西格玛和许多其他形式的流程改进的常见技术依赖于将数据交给理解问题或低效率所在的流程的人员。数据点被用来识别客户被要求执行不必要步骤的地方,或者由于组织过程不佳而客户必须重复执行相同步骤的地方。能够访问相关数据使人们能够衡量他们在工作中发现的低效率的影响,或者从客户互动中听到的低效率。

当我(卡尔)在巴克莱银行工作时,我们通过使数据对关键决策者和领导者更加可访问,显著改善了减少投诉数量和解决其引起问题的情况。我们使用交互式仪表板,允许从高管团队到一线运营团队每天访问问题的趋势。在这些仪表板建立之前,花费几周才能完成分析,准确定位投诉源自组织的哪个部分,以便加以解决。这意味着在问题最终得到解决之前,导致投诉的问题会持续发生,并在几周后才得到解决,此时投诉可能会更多。

任何改进都需要衡量其影响,这与改变本身一样重要,以确保它们的效果如预期般有效。尽管高层管理人员做出实施解决方案的决策,但实际执行是由一线团队完成的。当一线员工可以看到变化带来的影响时,他们更有可能支持这些变化,或者如果变化没有达到预期效果,建议改进。

数据驱动决策

关于使用数据做决策的一种担忧涉及在人类经验和思维与仅仅依赖可用数据寻找答案之间划定界限的问题。我们使用术语数据驱动决策来强调我们认为数据在组织决策中应该发挥的角色。恐惧可以集中在数据指向一个方向,并被迫无条件地跟随这个方向。这通常被称为数据驱动决策。无条件地跟随任何东西从来不是好事,因为常规规定永远不会永远完美契合。

随着数据解决方案变得更加智能化,有一种倾向于向数据驱动的决策方向倾斜的诱惑,但可用数据很少能完全捕捉到整个背景和情境。数据科学、机器学习和人工智能都在快速发展,但在这些解决方案可以被充分利用之前,需要整理和验证数据来源。大多数组织目前都在努力收集所有必要的数据,然后验证用于决策的数据集是否正确。

即使拥有全面的数据来源,人类的思维在许多情况下仍然领先于基于计算机的决策。这种差距正在迅速缩小,但是通过质疑用于数据驱动决策的模型来保持人类怀疑精神仍然很重要。数据可以成为决策的一个附加因素,但不应是唯一的因素。将数据与其他因素结合起来,我们称之为数据驱动的决策

鉴于以数据为基础来为人们和流程做出决策的明显好处已经确立,你接下来的问题是,我该如何开始?根据你的数据来源和分析水平,有许多途径可以创建数据驱动决策的文化。

本书的其余部分将探讨以下关键问题:

  • 数据是什么,它是在哪里创建的,你可以用它做什么?

  • 你如何获取、存储、策划和分享数据产品?

  • 你如何构建分析产品?

  • 你如何组建团队来交付这一点?

¹ Michael Kershner,“数据不是新石油——时间才是”,Forbes Magazine Council Post(2021 年 7 月 15 日),https://oreil.ly/JiJai

² “关于我们”,dunnhumby,https://oreil.ly/bL8YU

³ “数据素养的人类影响”,埃森哲,2020 年,https://oreil.ly/R7qnk

⁴ “填补数据-价值鸿沟:如何转向数据驱动并转向新方向”,埃森哲,2019 年,https://oreil.ly/VdmN1

⁵ Svetlana Sicular,“Gartner 的大数据定义由三个部分组成,不要与三个‘V’混淆”,Gartner 博客网络,2013 年 11 月 11 日,https://oreil.ly/If8EA

⁶ Sicular,“Gartner 的大数据定义由三部分组成”。

⁷ Bridget Botelho 和 Stephen J. Bigelow,“定义:大数据”,TechTarget:数据管理,2022 年 1 月,https://oreil.ly/7rPOf

⁸ Petroc Taylor,“2010 年至 2020 年全球创建、捕获、复制和消耗的数据/信息量,2021 年至 2025 年的预测”,Statista,2022 年 9 月,https://oreil.ly/NZ3js

⁹ “数据保护原则指南,” 信息专员办公室, 2023 年 5 月, https://oreil.ly/wDvYV.

¹⁰ Kurt Wagner, “Facebook 如何允许剑桥分析公司获取 5000 万用户数据,” Vox, 2018 年 3 月 17 日, https://oreil.ly/3pYwe.

¹¹ 本·琼斯, 在 How to Avoid Data Pitfalls (O’Reilly, 2019) 中,以及阿尔贝托·开罗, 在 How Charts Lie (O’Reilly, 2019) 中,都写了关于在构建数据可视化时避免这些问题的优秀书籍。

¹² 米洛·琼斯和菲利普·西尔伯赞, “没有意见,你只是又一个有数据的人,” Forbes, 2016 年 3 月 15 日, https://oreil.ly/bTKXG.

¹³ “2020 年全球企业分析现状,” MicroStrategy, https://oreil.ly/rmwQY.

¹⁴ “将数据交给利益相关者:Barclays 使用参数的方法,” Tableau, 2014 年 6 月 2 日, https://oreil.ly/0Nx7p.

第二章:数据知识与技能

数据是整本书的基础。通过阅读它,您显然正在朝着比今天更多地使用数据迈出重要一步,因此真正理解我们所说的数据是至关重要的。在处理数据时可能遇到的最大挑战之一是术语,这些术语用于描述您将使用的值、字段和文件。

一旦熟悉了术语,本章将介绍数据的基本概念。数据的这些构建块具有多种形式。通过理解数据的来源,您将能够找到有用的来源,发现它们之间的差异,并了解形成可用数据源所需的内容。

在处理数据时,寻找和优化用于驱动数据驱动决策的数据来源并不是您可能创造的唯一输出。本章将探讨您的项目可能创建的各种输出以及每种类型的关键方面,并描述确保每种类型满足项目需求的基本因素。

正如在第一章中所述,数据流畅是您组织中许多人可能缺少的基本技能集。为了创建数据驱动决策的好处并建立有价值的数据建议,您需要填补自己和其他人的这一技能差距。确保成功项目结果所需的能力将会被覆盖,以便您了解为您的组织取得最佳结果所需的能力和专业知识。

什么是数据?

数据是从观察中收集的用于更好理解特定主题的事实或数字。这可以包括操作系统为记录未来系统内部的交易或报告目的而创建的细节或数字。与手写书籍或手动收集人口普查数据时产生的数据涓涓细流相比,随着数字化程度的增加和智能设备更广泛的采用,产生的数据量已经成为洪水般的数量。

处理数据的挑战不再仅仅是在大量可用数据中找到正确的数据集,而是现在在于“驯服”可用数据以找到问题的答案。使用新的数据源通常需要清理、结构化和聚合数据集以更容易使用的格式。这些任务涉及计划所需内容、调查数据,然后执行这些计划以形成修订后的数据集以进行进一步分析。寻找这些数据源将涉及与同事的大量协作,因为您追踪可以帮助您实现目标的数据。

要理解需要什么数据,你需要能够将手头的业务问题转化为一个问题,并形成假设来测试。很少有一种方法可以解决困境,你需要通过不同的表达式来迭代,以了解到底需要什么解决方案。获得精炼问题的经验,以满足真正需求,需要经验,与你的利益相关者建立信任将需要时间和努力。

在过去的几十年里,组织已经建立了宝贵的数据存储;或者说,他们的 IT 部门已经这样做了,因为他们是唯一具有必要经验来完成这类工作的人。直到最近,这些存储被隐藏在多层安全性之后,并需要专业知识来访问。在过去的十年里,解决这些障碍的软件解决方案不仅改变了能够使用数据的人群,还改变了他们能多快地访问数据。

组织经常需要重组、清理值、将代码转换为实际名称,并将多个来源结合在一起,以使数据可用。专家们通常会进行这项工作,但即使如此,你越了解任务和数据集的各个部分,就越有可能在首次请求时获得所需的数据。此外,软件通过成为无代码或低代码平台,已经变得更易用于普通用户。这意味着你不需要学习专业编码语言即可开始访问数据源。以下部分将帮助你学习如何从组织的源中形成自己的数据集。

数据的关键特征

数据集的许多不同特性。许多术语对你来说可能很熟悉,但有些可能是新概念;我们将在本节中进行介绍。

有些特性决定了数据的形状和结构。这些包括:

  • 标题

数据集的其他特性改变了数据的使用方式。这些包括:

  • 类别

  • 测量

  • 数据类型

  • 粒度

当你问大多数人在他们想到数据时会想到什么,你很可能会听到电子表格这个词。电子表格非常有用,灵活的数据存储方式,可以通过表格或创建图表进行数据分析。在许多方面,电子表格包含了更可扩展和专业化数据解决方案的许多常见特性。

大多数由你组织的 IT 提供的数据源都被归类为结构化。你通常可以看到电子表格中行和列的结构,因为它们显示了网格线。这意味着数据源具有以下组成部分:

  • 列:单个列应包含数据的单个属性,并且只能是一种类型的数据。

  • 行:每一行应该包含数据实例的单个记录。

  • 标题:列的标题详细说明了其内部内容。

一个记录是数据中捕获的单个交易或实例。由于行包含记录,因此在讨论数据集时可以互换使用这些术语。

并非所有的数据集都以这种干净的格式保存。干净的数据指的是结构良好且可以在当前状态下轻松分析的数据。不干净的数据则相反。不干净数据的特征包括以下问题:

  • 列:每个列中可以包含多个数据项,比如表 2-1 中的第三行数据,其中包含旋转课程期间的教练、消耗的卡路里和听的音乐。

  • 行:单个记录可以跨多行分布,这意味着每行可能缺少值,或者行可能重复;这通常称为重复记录

  • Headers: headers might be incomprehensible or not present at all.

表 2-1. 旋转数据的基本电子表格

日期 单位 类型 详细信息
08/01/2023 88.2 km Tour Lille to Bruges
10/01/2023 6.1 km Casual 去市场
10/01/2023 30 min Spin Kym - 540 - everything rock
11/01/2023 18.4 km Commute Wed 11th morning commute
11/01/2023 18.7 km Commute Wed 11th afternoon commute
14/01/2023 20 min Spin Sherica - 323 - latest hits
15/01/2023 6.8 km Casual Sun 15th shopping

单列,也称为数据字段,可能会分为两种类型,分类或测量。在我们依次详细讨论之前,我们将向您展示如何在您可能被要求基于其进行分析的问题中识别它们。如果您被问到像“按季度的收入是多少?”这样的问题,问题的哪一部分是类别,哪一部分是测量?问题中的数值部分是测量;在这种情况下,它是收入。分类数据由问题的其他部分指示,这些部分帮助指定如何分析测量:在这种情况下,按季度。问题的“按”部分是将帮助您识别类别的部分,从测量开始。

类别是描述记录内容的数据字段。当您组合类别数据字段时,您应该能够确定记录代表的确切内容。在表 2-1 中,卡尔的每次骑行活动都由类别数据字段描述,包括日期(活动发生的时间)、单位(活动的测量方式)、类型(活动是什么)、以及详情(关于活动的额外信息)。类别数据字段通常只能包含有限数量的变量。从表 2-1 中记录卡尔的骑行活动的数据集中,类别字段类型仅有少数可能的取值,例如骑行活动是在自行车巡回赛、动感单车课程还是上下班途中进行的。如果您听到术语维度,这是描述数据集中类别的另一个词。

能够查看数据集并了解其分析准备就绪的程度是任何数据项目的关键部分。数据集可能需要几分钟、几小时,甚至几天来重新结构,以满足本节详细描述的特征,然后才能变得易于使用。在表 2-1 中,详情列包含卡尔骑行活动的各种不同类型的描述。这意味着任何想要统计他在动感单车课程中听某种类型音乐次数的人会发现这比有一个单独的“音乐类型”列更难做到。

度量通常是数据集中的数值值,是您试图分析的核心内容。度量通常不会单独逐行查看,而是经常在许多数据行上聚合。例如,您可能会被问到以下典型问题:二月份的销售总额是多少?上个季度的平均每日出勤率是多少?销售值按月汇总,而出勤率则作为季度平均值呈现。在分析您的分析软件中的数据时,您可能会执行这些汇总操作。

并非所有的数值数据点都被视为度量。您经常会发现数据集中存在标识符字段,用于区分记录。也许您有一个客户数据集,而不是保存所有客户的详细信息(如姓名和地址),而是使用数值标识符来区分客户。数值通常被用作标识符字段,因为在数据集的存储或查询中需要更少的内存。标识符也可以用来混淆数据,使其更难识别数据所属的对象。由于标识符用于区分记录,数据字段被分类为类别而不是度量。总结这些标识符字段很少会产生有用的结果。

数据集中每行数据代表的是数据集的最终关键特征。术语粒度用于描述每行存在的详细级别。由于分类数据字段描述了行参考的不同元素,它们对于理解粒度至关重要。让我们使用表格 2-1 来展示如何定义数据集的粒度。

在表格 2-1 中,日期、单位、类型和详细信息都可以用作分类数据字段,但哪个设置了粒度?一个字段与另一行具有相同值表明它不能单独设置数据的粒度,除非该行是另一行的重复。日期、单位和类型在多行中都包含相同的值,因此它们并不固有地设置粒度。详细信息描述了卡尔每次乘坐的情况,因此即使他进行了相同的活动,详细信息字段很可能与同一列中的任何其他值都不同。

表格 2-1 中的数据集不必以每天每次骑行的粒度进行保存。你可以总结数据集,描述每天发生了多少次骑行(表格 2-2)。2023 年 1 月 11 日的上午和下午通勤骑行已经合并,用来描述该日进行了相同类型活动的活动数量。2023 年 1 月 10 日的记录不能合并,因为它们代表了不同类型的骑行,也以不同的方式测量。如果要保留表格中的数值数据字段,则需要进行从分钟到公里的转换,或者反之。

表格 2-2. 从表格 2-1 中总结的数据集

日期 单位 类型 骑行次数
08/01/2023 88.2 公里 旅游 1
10/01/2023 6.1 公里 休闲 1
10/01/2023 30 分钟 骑行 1
11/01/2023 37.1 公里 上下班 2
14/01/2023 20 分钟 骑行 1
15/01/2023 6.8 分钟 休闲 1

在使用数据集时,如果看到一个可能是聚合的字段,那么你可能会假设数据集已经进行了一些预处理。在表格 2-2 中,骑行次数可能是一个聚合值,因为每一行代表一个详细记录,描述了一个单独的活动,而第四行则捕捉了两次骑行的详细信息。像任何信息源一样,要理解可能由变更引入的任何潜在偏见或错误,你应该质疑信息的来源以及谁进行了更改。

数据类型

在数据列的定义中,我们强调每列只能有一种数据类型,或称数据类型。数据类型是赋予数据字段的分类,它决定了我们可以对其进行何种操作。让我们描述每种主要的数据类型及其操作方法。

数字

我们都知道数字有两种格式:整数和小数。数值数据值由 1、2、3、4、5、6、7、8、9 或 0 组成。在分析数据集时,数字经常会被聚合。

当数据中使用整数时,我们通常称其为整数。小数通常被称为浮点数,或简称为浮点数。这些数据字段更有可能是您聚合或搜索单个值以回答特定问题的字段。

聚合数值数据涉及求和、平均值或计数值。根据您提出的问题,数值数据字段可以通过许多不同的方式进行聚合。这种情况常发生在您试图回答以下问题时:

  • 总销售额是多少?

  • 平均成绩是多少?

  • 任何事件的最大出席人数是多少?

聚合通常涉及在聚合之前根据数据集中找到的类别对数据进行拆分。当您询问以下问题时,就会发生这种情况:

  • 每个月的总销售额是多少?

  • 每个学科平均成绩是多少?

  • 每种音乐流派的任何事件的最大出席人数是多少?

注意数字数据仍然是每个问题的核心,但请记住您还需要理解分类数据字段。

字符串数据

字符串数据字段包含字母数字值以及标点符号和其他符号。如果文件格式没有指定,许多计算机程序将默认将数据字段视为字符串,因为它们在容纳字符方面最为灵活。字符串数据字段将构成数据集中大多数分类字段。了解您的字符串字段代表什么将帮助您了解数据集包含什么和不包含什么。

字符串数据字段中的值与数字字段处理方式不同。您仍然可以通过以下几种方式聚合字符串字段:

  • 计算每个值出现的次数

  • 基于字母顺序查找最小或最大值

  • 列出单个值中的所有内容

通过使用各种计算函数,可以将字符串字段拆分或追加到其他字符串字段中,以确保它们对你试图回答的问题有用。在表格 2-1 中,需要拆分目前被压缩在一个字段中的三个不同属性。字符串可以基于特定字符、字符模式或字符位置进行拆分。在表格 2-1 中,详细数据字段中的变量可以基于连字符进行拆分。可以使用计算创建新的数据字段,分别记录旋转课程的教练、卡尔消耗的卡路里以及执行该会话时使用的音乐。

位置是使用字符串数据时需要理解的一个有用概念,因为它与数字、日期和布尔数据字段不同。位置 指的是字符串字段值中字符的顺序(见图 2-1)。每个字符,无论是字母、数字还是符号,都有一个可以在计算中引用的位置。

字符串字段中位置的确定方式

图 2-1. 字符串字段中位置的确定方式

由于字符串字段可以包含各种字符,它们在数据库中占用的存储空间更多,处理时需要更多的计算资源,而不是数字字段。数据库管理员(DBA)会努力确保尽可能有效地存储和处理数据。

日期字段

日期字段也是存储数据的低效方式。一些软件允许你以常见格式存储日期,如图 2-2 所示。

日期字段格式

图 2-2. 日期字段格式

尽管这种格式对人类来说易于阅读,但从计算机的角度来看,存在显著的存储和处理开销。因此,你可能会发现日期数据以多种特定于所用软件的不同格式存储。以下列出了几个示例:

Excel 序列号

如果你在更改格式时,曾经将日期突然更改为 Excel 中的数字,这可能就是原因。Excel 将日期存储为自 1900 年 1 月 1 日以来的每日整数。以 12/31/2023 为例,Excel 序列号等效值为 45289。

纪元日期

纪元日期与 Excel 序列号类似,但使用自 1970 年 1 月 1 日午夜以来的每秒整数。再以图 2-2 中的日期为例,纪元日期值将为 1703890800。

正如在“数字”中提到的,整数是存储值的高效方式,这就是为什么它们被用于而不是人类友好的格式。如果计划与人类共享数据集,则需要将值转换为可读格式。

布尔字段

为了让您的数据库管理员满意,请尽量将尽可能多的数据以布尔格式存储。计算机基本上使用 1 和 0 来操作,布尔数据格式只是 1 和 0。这些 1 和 0 表示记录是否具有特定特征的真或假,或者是有或无。这意味着计算机可以比其他数据格式更轻松地存储和检索布尔值。

在大型组织中,您经常会遇到数据库提取或来自数据库的数据集,这些数据集使用 1 和 0 作为数据集内是或否的指示器。例如,当保存关于客户拥有哪些银行产品的数据时,1 和 0 指示器会简单地存储每个客户所拥有的可用产品。这使得可以在数百万行数据上快速生成摘要(表 2-3)。

表 2-3. 布尔数据用作是/否的指示器

客户 ID 现金账户指示 储蓄账户指示 信用卡指示 交易账户指示
7005461 0 1 0 1
9174324 1 1 1 1
5094878 1 1 1 0
4168373 0 1 0 0
1511246 1 0 0 0
2380267 1 0 0 0
6792839 1 0 0 0
5022090 0 1 0 1

与日期一样,您可能希望对指示器应用别名,以便清楚地表明 1 或 0 代表是或否。这将帮助其他可能使用数据源的人理解 1 和 0 代表的含义。

数据文件结构和格式

描述数据集部分所使用的数据类型和术语仅仅是开始。您还需要理解用于定义数据集存储位置和方式的术语。您的计算机可能填满了最常见的数据源格式,如 Excel 电子表格,但您可能并未直接使用世界上体积最大的数据存储格式:数据库。

数据文件,例如电子表格,由于其在数据保存方面的灵活性,非常普遍。这种输入的灵活性使得在进一步分析时更难使用电子表格中的数据作为数据源。

数据的形状

大多数电子表格中常见的数据有两种主要形式:列式数据和数据透视表。

您可能会问我们所说的列式数据是什么意思。这是指数据仍然以结构化列的形式保存,类似于您查询数据存储在哪里的数据库时所找到的内容。表格 2-3 和 2-4 是列式数据集的简单示例。

表 2-4. 列式数据:商店的目标销售额

季度 商店 目标
1 曼彻斯特 475
1 伦敦 475
1 利兹 490
1 约克 490
1 伯明翰 475
2 曼彻斯特 300
2 伦敦 325
2 利兹 325
2 约克 300
2 伯明翰 325
3 曼彻斯特 300
3 伦敦 300
3 利兹 300
3 约克 300
3 伯明翰 300
4 曼彻斯特 330
4 伦敦 400
4 利兹 400
4 约克 330
4 伯明翰 400

您很可能不是第一次接触本书中的透视表概念,但我们希望确保您思考为什么以及它们如何如此频繁地被使用。透视表,或称为交叉表,是将大型数据集快速汇总为更易消化的数据点或用于回答分析问题的便捷方式。例如,您可以查看表格 2-4 中不同商店的自行车销售目标的数据表。

将这些数据转换为透视表使您能够轻松查阅目标区域的季度趋势。由于透视表可以包含总计和替代聚合方式,您可以使用它们来找到问题的答案。在 图 2-3 中,已经从 表格 2-4 的数据形成了一个透视表,按商店和季度组织数据,以及创建每季度每个商店的平均目标和整个年度每个商店的平均值,显示在总计列中。透视表的最终单元格位于总计列和总计行,表示整个年度所有商店的平均目标。

在 Google Sheets 中从图 2-6 数据创建的透视表

图 2-3. 在 Google Sheets 中从 表格 2-4 数据创建的透视表

对许多人来说,在电子表格中分析数据是他们在学校或职业早期学到的所有数据分析技术。这导致大量数据以列形式或透视表形式存储在电子表格中。

数据的形状很重要,因为它会提示您在处理每种形式数据时需要考虑的事项。由于透视表可能已应用某种聚合函数,因此很难确定它们形成的数据源。许多透视表在组织中共享,使得其来源难以追踪。如果没有详细的笔记、文档或文件命名规范,使用这些表作为决策基础可能会很危险。可能缺少的几个信息包括:

  • 数据的起源

  • 数据的年龄

  • 已应用的任何筛选器或计算

这并不意味着从仍处于列形式的数据库中提取的数据的数据源是完美的。数据库以更符合计算机的数据字段名称而不是对数据集用户有意义的名称而闻名。为了分析前准备数据集,通常需要通过更好的命名和文档化来澄清每个数据集包含的内容。如果数据源的提取已在整个组织中共享,其来源、年龄和过滤可能也是问题。数据治理 是用来描述确保数据有良好文档化的任务,以便所有需要使用它的人能够追踪和理解其来源、年龄和任何变更。

文件类型

有许多文件类型可以保存你的有用数据源。尽管你的职业生涯中可能一直在使用电子表格和 CSV 文件,但空间文件可能对你来说是新鲜的,但使用时可以为你对组织的理解提供新的视角。其他文件类型,如 PDF,可能包含有用的数据集,但将数据从中提取到你正在进行分析的工具中并不总是一致或直接。在这本书中处理太多文件类型以存储数据,因此我们将重点放在最常见或最有用的文件类型上。在使用每种文件类型时,您应考虑以下几点:

电子表格

在你的组织中,最常见的数据文件类型是电子表格——通常是 Excel、Google Sheets 或类似的应用程序。这些文件可以包含手工输入的数据、数据透视表或数据库提取等多种数据来源。电子表格可能是你尝试准备数据并对其进行分析的第一个地方。

在处理数据时,电子表格是一种无法忽视的资源。由于数据的灵活输入和简易编辑,电子表格是你的同行通常会用来建模预测或应用他们对主题的知识从数据中提取意义的常见位置。

然而,能够输入数据值、应用计算或删除数据点的能力意味着在使用任何电子表格作为数据源时,您应该小心。很容易犯错,比如输入错误的数值或将计算错误地指向电子表格单元格中错误的数据值。

大多数商业智能(BI)工具需要数据以清晰的列和单一标题保存。当在组织中共享时,电子表格通常格式化为在你分析数据时可能想使用的数据表格之上或旁边插入更详细的标题和其他评论。这意味着在可以使用 BI 工具分析之前,必须通过删除附加的标题和文本来重新格式化电子表格。

逗号分隔值(CSV)文件

您可以在许多与电子表格相同类型的软件中打开 CSV 文件。主要区别在于数据保存的结构。CSV 文件的每一行应包含一个记录,但数据字段之间用逗号分隔,而不是以列形式存储数据。例如,在 Table 2-4 中,数据的第一行将保存为 1,Manchester,475。

空间

如果您处理的数据详细描述了商店或人员的位置、距离或覆盖区域等信息,那么您可能已经在进行地理空间分析时使用了空间文件,这些文件保存了关于如何映射数据点的信息。空间文件在您的行业中可能并不常见,但如果遇到它们,您需要考虑一些关键差异。空间文件包含关于点(具体位置)、线(路线)或多边形(地图上的区域)的数据。这些文件不是单个文件,而是一个目录或文件夹。例如,Esri 形状格式包含.shp、.shx 和.dbf 文件。您可能需要特殊的地理空间软件或商业智能工具来打开空间格式,尽管越来越多的商业智能工具正在使这类分析与传统图表分析更容易进行。

超越文件

并非所有的数据集都存储在计算机或网络文件中。您的组织中大部分数据可能存储在数据库中。数据库是计算机上存储的数据结构化存储。大多数数据库都足够大,需要专门的计算机,称为服务器,其规格适合存储和处理大量数据。

数据库提供商,如 Microsoft、Oracle、Teradata 和 Snowflake 等,竞争吸收、处理和交付数据集的速度。数据库处理这些任务的方式随着时间的推移而发展,其中大部分处理在数据库内部完成,数据库用户并未直接看到。在最常见的数据库形式中,关系型数据库用户可以看到的数据库层是表格和视图。

关系型数据库 将类似的数据存储在可以通过共享标识符或其他数据字段相互关联的表中。例如,客户可能在一个表中存储其联系方式,而在另一个表中存储其应付账单。要将这两个表用于向客户发送应付账单,您需要在两个表中共同字段上进行连接。数据库中的表格以行和列的方式存储数据,与我们展示的其他数据源相同。

例如,银行的客户可能会参与许多数据查询:

  • 客户有哪些产品?

  • 客户的信用额度是多少?

  • 客户访问了哪些分行?

  • 客户使用哪些渠道与银行进行交易?

  • 客户是否与其他银行客户共享产品?

如果所有这些数据都存储在单个表中,那将是庞大且难以管理的。这就是为什么数据被拆分到不同的表中——以使其更易于管理。银行很可能会将数据存储在不同的表中。表名示意了它们在组织数据库中可能被称为的名称,就像以下示例中的一样:

Product_Customers

包含客户拥有的产品及其使用的服务,他们开始使用银行的日期,以及账户上是否列出了其他客户。

Detailed_Product

每种产品有不同的利率;还标示了产品销售的日期以及销售对象。

Branch_Customers

显示客户访问过的分行位置详情。

Digital_Interactions

包含客户与银行的互动列表,互动发生的时间以及通过哪种渠道进行;例如在分行存支票、通过 ATM 取现金和通过银行的移动应用程序转账余额等。

这只是每家公司对消费者、客户或顾客拥有的数据的整体拼图的一部分。数据库没有现成的解决方案,可以与您组织的数据集或需求匹配。您将需要一个专家来设计数据库的结构。这个专家通常被称为数据架构师,他们的责任包括设计满足组织分析、运营和战略需求的数据产品。数据架构师将帮助决定需要哪些表集来从数据中获取信息,它们如何彼此链接,以及如何从这些表中加载、读取和删除数据。

每个表中作为表之间链接的字段被称为。每个表中的每一行都应该有一个数据字段作为唯一,用来链接记录到其他数据表,形成完整的数据集。这个唯一键,或者被称为主键(PK),需要小心处理,以确保每一行可以链接到其他表中相关的信息,避免记录的重复。例如,客户表应该只有每个客户的单一记录。因此,如果每个客户有自己的 CustomerID 值,这将作为主键。CustomerID 也会出现在其他表中,比如产品、账单和地址详情表中,用于链接不同的表,以添加关于每个客户所需的附加信息,具体取决于正在进行的分析。

并非每个记录都有单一行到单一行的链接。例如,联合银行账户将有两个客户记录与该账户关联。这被称为一对多关系

关系数据库将表格如何映射在一起被称为 模式。这就像是一张地图,用于导航如何连接表格。模式允许您形成需要获取数据以回答所提出问题的查询。一个银行数据模式部分的示例可以在 图 2-4 中看到。

模式的一部分示例

图 2-4. 模式的一部分

由于数据可以从许多不同的角度来看待,您可能需要链接单个记录与许多其他信息以回答特定问题。这就是关系数据库发挥作用的地方,因为它们允许不同的用户以不同的方式使用类似的记录。

在与数据库中的数据工作时,您可能需要的不仅仅是最新的数据 —— 您可能还需要历史数据。例如,仅知道客户的最新余额是有用的,但了解他们的余额在多个月甚至多年中如何变化,是评估您可以从客户财富中获得的收入的更好方式。如果客户正在为购买房屋或汽车等大件物品存钱,那么他们当前的余额可能会很低,但这并不意味着将他们的资金存放在您的银行中没有好处,或者他们没有能力再次增加资产。

历史数据的快照可能占用大量的存储空间,特别是如果每个快照由数百万条记录组成。您需要管理数据的保留,以确保仅存储对您有潜在价值的数据,并且不超过主题数据权利,如 “新规定和政府命令” 中讨论的内容。

数据作为资源

现在您知道数据的组成以及它可以存储为临时文件中的特定用途或更战略地存储在数据库中,您需要了解它最初来自何处。了解数据集在到达您之前经历的旅程对许多原因都很重要,包括避免偏见和潜在错误。

随着您组织中更多成员能够访问数据,如果不仔细管理,跟踪数据来源和对其进行的更改可能变得更加困难。从数据源到使用中管理您的数据需要投入一定的努力,您需要计划进入您的数据项目中,但这是非常值得的。

本节将讨论以下关键问题:

  • 数据产生的地方

  • 运营和分析来源的区别

  • 如何管理数据源

  • 管理数据来源

数据产生的地方

坦率地说……无处不在。世界的数字化意味着您的大部分活动、购买和与他人的互动都会产生数据点。即使在我的一生中,捕捉数据的方式也从一个非常有意识的行为变成了生活的一个结果。

当我(卡尔)不到 40 年前出生时,数据是通过像调查或纸质表格这样的有意的手段捕获的。当我的儿子去年出生时,我们不得不手动填写表格或填写任何纸质内容时感到很奇怪,而不是数据自动生成。

这种数字化带来了可用数据种类和数量的增长。无需不断要求客户手动提供数据点,您有机会更多地了解您的客户和消费者。有了如此多的数据来源,让我们来看看其中一些选择以及它们可能成为富有成效的数据源的原因:

网上购物

在 20 世纪 90 年代后期的实体零售商店购物,提供了大多数商店想要了解其客户信息的一个很好的例子,但他们必须手动收集。员工会尝试根据顾客正在看或手持的商品推销商品。通过让顾客注册邮寄清单或目录来建立与顾客的长期关系。

数字环境现在更加有利于零售商。通过在优惠或结账过程中收集电子邮件地址获取客户详细信息。基于跟踪客户在互联网上的行程的 cookie 进行追加销售,这些追加销售显示出客户可能对其他产品感兴趣。定制链接可以轻松附加到营销信息、QR 码和优惠中,以查看哪种获取方式最有效。如果促销来自社交媒体网站,则您可能能够确定许多人口统计因素,这将帮助您向他们推销后续有吸引力的产品和优惠。这些数据的收集并不需要顾客太多额外的努力;因此,零售商可以轻松而准确地收集数据。

智能手机

大约十年前,收集客户数据的另一途径被开辟:汽车保险。在 2012 年,我的前雇主安华(Aviva)为驾驶员提供了下载应用程序的机会,该应用程序利用智能手机中可用的传感器和 GPS 数据来监控某人的驾驶安全性。驾驶风格越好,即减少急刹车和超速,保费就会从标准费率中减少。

尽管在当时的英国这款产品是革命性的,但却遭遇了很多怀疑,因为智能手机及其能够收集关于所有者的数据刚刚开始被认可和货币化。消费者对于是否值得接受折扣以及被越来越多地监视,特别是在他们驾驶时的位置以及他们的驾驶被随时评估,持谨慎态度。

智能设备/量化自我

智能设备是连接到互联网或利用算法为原始产品提供额外服务或增强的产品。尽管制造商早在 1980 年代就试图为这些设备创造大众市场吸引力,但是它们与手机的配对真正创造了一个可取之处。随后,智能手表成为首批利用智能手机增长实现大众市场影响的智能设备之一。

2015 年,苹果推出了苹果手表,最初用于测量步数并与手机连接,但逐渐发展为心率和活动的医疗跟踪器,甚至提供心电图监测的功能。这些功能使得苹果能够将手表与健身训练配对,以便您在家里进行健身课程时监测自己的运动强度。我使用我的智能手表跟踪我在家中上课的情况,以查看我(卡尔)每节课是否燃烧更多卡路里,以及哪些课程效果最好(图 2-5)。我还能分析 2021 年夏季我的第一个孩子的到来对我的“空闲时间”的影响。

卡尔使用智能手表数据进行健身跟踪

图 2-5. 卡尔使用来自智能手表的数据进行健身跟踪(此图的较大版本可在https://oreil.ly/de7fI获取)。

此数据可以由所有者与其他服务提供商共享,包括医疗保健服务。在英国,健康保险提供商 Vitality 推出了一款新型保险产品,降低保费并为客户提供返现和零售商折扣,如果客户达到活动目标。

随着关于一切的数据增加,必须在让客户感到我们对他们了解有多少和我们可以提供的增强提议之间取得平衡。21 世纪长大的客户已经习惯于提供数据以获得更个性化的体验。然而,尽管人们越来越习惯于他们的数据被使用,但对于他们的数据被监视有一定的限度。不能假设人们会对基于他们数据做出的非常微妙的决定感到满意。组织客户焦点小组来测试提议及其可能对组织声誉的影响是明智的做法。

运营与分析源

数据不断生成,数据源面临的挑战是以数据生成速度吸收数据。这就是传统的抽取、转换和加载(ETL)惯例变为抽取、加载和转换(ELT)的原因之一。要以数据生成的速度处理数据是困难的,因此最好先吸收所有数据,然后在后期将其转换为需要分析的源。

未经转换的数据源通常被称为操作数据,而经过转换的数据源称为分析数据源。

操作数据源是为提供服务、产品或监控而创建的数据集。例如,在保险公司中,操作系统将在保险单中捕获客户详细信息,记录每月支付的保费以及提出的任何索赔。数据集通常包含系统的记忆,存储捕获系统处理的所有交易的记录。系统设计用于特定流程,因此数据源通常是主系统目的的副产品。这意味着它们不是为分析或在其他地方使用而结构化的。如果要分析这些数据集中包含的数据,您需要增强和重塑数据。这种转换将在与操作数据源分开的分析数据库中进行(图 2-6)。

操作数据源转换为分析数据源

图 2-6。操作数据源转换为分析数据源

交易中包含的数据很可能会被商业智能(BI)分析师分析。在数据集中找到异常值并识别趋势将有助于决定您组织的下一步或确定需要改进的内容。聚合措施或计数分类变量将使 BI 分析师能够找到异常值和趋势。必须小心地理解所得结果是否受到任何极端离群值的影响,特别是在使用平均值时。大多数 BI 工具使用默认的平均值。这些值可能会因为几个非常大或非常小的数值而发生剧烈变化。使用中位数可以帮助减少这种影响。识别异常值可能很有用,因为它们通常是可以帮助识别以前认为不可能的新机会的交易。

直接从操作系统中获取的数据集很少准备好进行分析。这就是您可能需要将数据从操作系统的原始结构转换为更适合分析的结构的地方。无论您的组织使用 ETL 还是 ELT 方法论,T 都是转换步骤。转换涉及重塑、清洁和删除不必要的数据点。确切需要为分析而做的工作会有所不同,但一些常见步骤可能涉及以下任务:

聚合数据

当您查找数据中的趋势和客户行为的整体模式时,您不太可能需要每笔交易的所有细节。如果您清楚了解到对您的分析重要的分类数据点,您可以向这些因素聚合。

清理数据

许多操作系统的数据字段名称对业务专家来说并不清楚。通过将这些字段重命名为更易理解的版本,数据集将变得更加易于使用。字段内的数据值也可能需要清理,以便进行更轻松的分析。根据您从哪个操作系统获取数据,创建干净的数据集所需的各种转换,如“数据的关键特征”中所述,将因情况而异。常见任务包括移除数值或字母异常值,过滤掉具有空度量的记录,或创建基本计算以便于度量分析。

重塑数据

操作性数据源可能没有结构化成便于分析的方式。如果您需要使用这些值来分析数据,每个值必须有单独的列非常重要。将合并的数据点拆分为单独的数据字段将确保分析人员可以使用这些数据字段。重塑数据可能还涉及数据透视,以确保每行代表一个单独的记录,每列代表一个分类值或度量。

合并数据集

从操作性数据源获取数据可能不会告诉您分析数据所需的所有信息。您可能需要将数据集与其他数据集配对,以提供交易发生方式的背景信息。我们经常寻求向操作性数据集添加产品描述、营销活动和客户历史等因素。

最终,为了准备数据集进行分析,您需要考虑需要回答的问题。这将帮助您确保将操作性数据精炼到最佳聚合级别,清理分析中需要的数据字段,并从其他来源添加任何额外的字段,以帮助理解您的数据。

筛选数据源

一旦确定您需要操作性或分析性数据源,您的下一个任务是查看是否还有其他人需要该数据集。我经常发现,如果我可以用数据集来回答我的问题,其他人也会发现这些数据有用。

操作数据集可以通过确保其格式适合将要使用的软件而准备好使用。这可能涉及更改数据存储位置或数据的形状。如果查询操作数据,您最不希望的是对使用系统的操作过程产生任何后续影响。在操作系统的数据库上运行查询可能会导致问题,尤其是如果处理大量数据或编写更改数据的查询。避免任何不必要影响的最佳方法是使用数据的副本,如 图 2-6 所示。尽管这会在您的组织中复制数据存储,但可以对数据运行查询,而不必担心任何影响。

通过复制数据,您还有机会为其使用准备数据。您可能希望删除敏感数据,如个人可识别信息(PII),并用标识符替换它,或将同一字段下的不同数据值拆分为更容易使用的数据字段。

分析数据集通常需要进行更深层次的转换。分析数据集的形成是为了回答特定问题并处理特定调查领域。这些数据集支撑了您在组织中已经可以访问的大量报告和见解。它们通常包含多个数据集,这些数据集构成了您收到的大部分报告的基础。这些数据源不应有大幅度变化,因为任何更改都可能影响到它们支撑的报告和仪表板。更改数据字段名称或重组数据集将意味着需要重建报告和仪表板以匹配修改。

如果您正在构建一个运行数据项目以创建新的数据源,那么您可能需要对数据源的范围进行多次迭代。当您设计一个数据源来开发您的报告时,您将不可避免地从报告中的见解中学到更多内容,这将意味着会出现进一步的问题。如果坚持原始范围,那么您的用户可能会感到沮丧,因为他们无法获得他们想要的答案。然而,如果让变更无限期地继续下去,那么您永远无法完成项目。在计划项目时准备接受一些迭代是重要的,但设定用户反馈的时间限制是限制影响的一种方法。

构建数据源的技能集通常不在同一团队中与关于数据的问题提出者之间找到。在这些个体之间创建清晰的沟通渠道将对双方能够解释彼此需求至关重要。我发现让数据集开发者与专家坐在一起可以帮助人们迅速传达所需的更改,但要注意在谈话之前解释为什么提出这个问题,以防开发者能够提供额外的建议。这避免了每一方因为过度改变需求或在涉及技术挑战以满足需求时花费过长时间而感到沮丧的情况。

随着 COVID-19 封锁后远程工作的兴起,彼此紧密坐在一起变得更加困难了。但这并不意味着这一点应该被忽视。为每一方创建清晰的虚拟和数字沟通渠道,无论是在物理还是数字上工作密切,都将有助于确保迭代过程迅速有效地进行。我发现定期在专家(SMEs)与构建数据源的技术团队之间进行会议非常有价值,不仅讨论各自项目的进展,还促进了对数据集中需要什么以及管理数据集过程的思想的普遍分享。

数据源的祝福与诅咒

如果您已经能够创建数据源,以帮助更多地利用数据支持组织决策,那么您现在将面临一个额外的挑战:维护这些数据源。数据治理将在下一章节中更深入地探讨,但目前只需记住,确保您的项目有良好的数据控制是非常重要的。数据治理涉及数据如何收集、存储、使用和处理的问题。

项目资源通常是为运行开发项目而建立的,但随后会进一步用于其他任务。创建数据源是一步积极的措施,但需要持续管理、监控和维护,以确保数据保持一致和完整。长期拥有数据源是一个经常被忽视的领域,但它可能决定一个东西在短期内是否有用以及长期是否有利。

当您建立了数据源后,您需要考虑以下任务,以确保它适合使用:

检查刷新是否已经完成处理

您的数据源可能只是数据集在某个时间点的快照,但很可能会继续更新最新的数据。特别是如果数据源很有价值,带有丰富的洞察力,您将希望确保您的决策仍然基于最新的信息。数据源刷新的频率有很多种:每小时、每天、每周和每月等等。确保数据集的刷新已经正确运行是一项值得的任务。错误可能是由于源头问题、数据结构变化、转换步骤中的错误或者刷新数据集加载到存储位置时发生的。

内容变更

在第一章中,我们讲述了随着人们学习,他们会对数据集提出新的问题。数据源将需要更新新的字段或者更改聚合级别,以满足新的需求。

数据源使用变化

数据源通常为其将要使用的软件而设。随着新的软件在您的组织中出现,您将需要满足其要求,以使数据源保持相关性。

法律变化

数据源应设置到期日期,当它们不再相关时,但也需要进行管理以应对新的法律要求。确保有人负责这一点意味着数据集将被管理以满足所有要求。

不再需要

当不再需要一个数据源时,经常被忽视的一步是删除它。由于业务领域专家和技术团队之间的脱节,通常忽视了需要共享数据源原始用途变更的事实。这意味着即使没有从中获得利益,该数据源的管理开销成本也将继续存在。验证数据源是一个有用的任务,可以减少维护不断增长的数据源清单中的不必要工作量。

管理数据源可能看起来是一个潜在的昂贵开销,但实际上这是组织的一个很好的标志。拥有人们想要使用和继续发展的数据源意味着仍然从最初对其的投资中获得利益,因此这项任务不应该被忽视。

数据产品

数据源和由其形成的数据产品的发展是相辅相成的。在数据分析的早期年份,大部分工作集中在使用数据来回答有关组织的问题上。数据的价值最近不仅集中在做出更好的决策上,而且还集中在从数据集中创造产生收入的产品和建议上。可以从数据中开发出一系列产品和建议,以满足您和客户不同的需求。

术语数据产品用于描述从数据中创建的结果工作。产品不太可能是您可以感受或持有的有形物体。与数据合作的结果可以是任何东西——表格、图表、报告或仪表板等等。当数据用于创建依赖数据但不仅仅专注于共享数据产品的服务时,我们还将使用术语提议。本节将介绍各种类型的产品及其开发方式。

分析输出类型

数据可以出于许多不同的原因进行处理;本节将介绍您在大多数组织中会遇到的最常见的输出类型。以下部分已按使用数据的复杂程度排序。

操作报告

操作报告通常用于回答需要定期回答的简单重复问题。操作团队经常被要求执行可重复的任务。完成任务所需的时间、工作的准确性和任务的数量都是有价值的数据点,有助于规划完成工作所需的人员数量。

操作报告往往包括通过完成任务数、活动趋势和剩余工作量来展示活动快照。报告在内部用于优化表现或外部用于测量客户外包工作的合同遵从情况。

你组织中的许多团队希望接收操作报告,以帮助他们了解工作完成的效率,这将帮助管理者做出决策。你所在的行业将决定你通过操作报告想要实现什么。让我们看看一些行业是如何使用操作报告的:

制造业

通过衡量你生产了多少产品,发现的错误水平以及任何操作停机时间,将决定你有多少产品可供销售。

呼叫中心

对于运营呼叫中心的服务来说,最昂贵的可变成本是不得不增加额外的代理人来接听电话。如果能够做到正确的处理,您将能够应对电话激增的需求。如果处理不当,您将收到顾客的投诉,可能会丧失销售机会。跟踪电话数量、处理每个电话所需的时间,并确保始终有足够的代理人可用于接听电话,将意味着您的服务至少被视为合格。

零售

能够追踪仓库、地点之间以及商店中的库存情况,意味着你的产品能够在正确的时间出现在正确的地方。能够分享这些快照可以让你商店的销售人员以知识丰富的方式告知你的顾客。

运营报告不是设计用来找出某事发生的原因或发现异常值,而是检查在特定日期或日期范围内发生了多少活动。

运营报告的挑战在于确保报告经常(通常是每天)生成,并且被过滤到正确的团队/商店/制造线。术语burst reporting表示这些报告如何快速创建并在整个组织中分发。

补充其他沟通方式

图表和图形通常用来补充其他报告和沟通方式。它们通常是使用电子表格中数据集的片段创建的,以便为演示幻灯片或电子邮件创建图表。电子表格是无处不在的,大多数人都可以从整洁组织的数据集构建基本的图表。

我(卡尔)管理的第一个数据团队负责通过在 Excel 中使用组织数据库的摘录来创建见解。表格、图表和图形被发送到请求它们的团队,但通常会通过幻灯片和电子邮件进一步分享,参与关于绩效的跨团队讨论。

幻灯片和电子邮件中的图表的挑战在于它们经常被发送到组织内的其他团队和个人,超出了最初的请求者。当你的数据产品不仅对最初的受众有用,而且对其他人也有用时,这是很好的。然而,我发现当人们传递我的工作成果时,他们经常只是作为工作的部分截图发送,没有任何数据源细节、创建者链接或任何提到应用的筛选条件。这有两个影响,首先,截图很容易被断章取义,其次,没有人会知道何时需要更新数据基础图表时该找谁。

电子表格输出也存在这个挑战——它们并不是为重复性设计的。电子表格是灵活的工具,用于创建定制工作,但这种灵活性意味着重复同样的过程并不容易。数据通常在电子表格内部被操纵,然后使用同样的工具创建图表。这是一个具有挑战性的过程,尤其是如果输出被分享到组织内以及潜在的第三方。如果发现工作有用且需要重复执行,则需要专业的数据工具。如果电子表格仍然是处理数据工具包的核心组成部分,则电子表格内部的文档应该成为它们制作和修改的一部分。

基本数据可视化/分析

第一次使用专业工具,通常使用商业智能软件,通常是为了创建基本报告,以回答非常具体的问题。由于这些工具设计用于探索和报告数据给其他人,它们可以创建更高级的数据产品。使用商业智能工具的更高级功能将需要用户接受培训。

BI 工具越来越多地被市场营销给业务用户,而不是专业的 IT 团队。尽管通过界面修改(如拖放图标而不是编码),这些工具变得更易于使用,但仍需要基础知识来配置数据源以供这些工具使用。

BI 工具相比电子表格的一个优势在于它们能处理的数据量和种类。BI 工具被设计用来连接数据文件以及数据库。连接数据库意味着更容易地更新数据集,以获取主题的最新视图。

随着这些资产的反复使用,它们可能被投入生产。生产化 指的是记录进度、建立数据流水线并定期刷新工作的过程。

仪表板

BI 仪表板的早期定义是一种在一个屏幕上看到所有关键指标的方式,就像车辆的仪表盘一样。

BI 仪表板的角色和目的已经发展,现在涵盖了一个更广泛的定义。这种广度并不总是受欢迎。作为视觉分析思维的思想领袖,Stephen Few 根据数据世界中对术语仪表板使用的演变,修订了他最初的定义。

仪表板是显示在单个计算机屏幕上的需要实现一个或多个目标的最重要信息的可视化显示。

to:

仪表板是主要的视觉信息显示,人们用来监视当前需要及时响应以完成特定角色的情况。¹

少数人专注于快速决策作为数据产品中的关键部分,这个产品就是仪表板。Few 反对更广泛的定义,比如在大型仪表板手册中发现的定义:

仪表板是用于监视条件和/或促进理解的数据可视化显示。²

要理解你组织中大多数人会如何分类仪表板,你不需要遵循精确的定义。你需要了解在你的组织中通常所指的仪表板,才能正确理解别人实际需要的是什么。

仪表板的一个关键元素是在单个页面上使用多个图表。通过拥有多个图表,单一视图可以同时呈现不同的角度。这就是一个精心构建的仪表板与本章中呈现的其他数据产品不同之处。通过更全面地了解情况,您可能会做出更为明智的决策。

让我们看看一个仪表板的例子,如果您试图理解您组织的 IT 支持票据,即每当有人遇到问题时提出的票据(Figure 2-7)。

IT 支持票据仪表板

图 2-7. IT 支持工单仪表板(此图的较大版本可在https://oreil.ly/VCOVB获取)

从这个仪表板,您可以以几种不同的方式了解工单的数量:

  • 本月提出

  • 上个月提出

  • 在 SLA 内解决³

  • 每个部门提出

  • 按每个原因

  • 仍待解决

  • 到目前为止

就像形成数据源一样,您的仪表板需要根据需要解决的问题来创建。仪表板的挑战在于努力在提供足够信息的同时避免提供过多信息。图 2-7 的仪表板显示了大量信息,不仅可以监控情况,还应该有助于理解情况为何如此。它是否能回答组织中每个人的每个问题?可能不会。例如,您无法跟踪单个工单的进展。

任何组织很少不拥有 BI 仪表板。在您组织的各个层级上,需要仪表板进行数据驱动决策的需求意味着它们可能会大量存在。就像数据源一样,它们需要管理以确保它们仍然相关,并且正在用于回答紧迫问题。当仪表板是许多人访问数据的唯一可访问方式时,如果他们没有直接自己查询数据的技能或工具,就存在风险。如果现有的仪表板无法直接回答所提出的问题,就会有错误推断的风险。

由于仪表板的易于访问性,它们通常是许多人开始使用数据的有效入口。仪表板中使用的图表复杂度是确保数据对所有用户可理解的主要考虑因素之一。利用仪表板帮助人们理解组织数据源中提供的内容,将有助于长期发展更高级的分析能力。

预测模型

分析数据的更高级方法之一是构建预测模型,不仅仅关注过去发生的事情,还试图确定未来将会发生的事情。仅凭后视镜来驾驶汽车的类比是一个强烈的信息,解释为什么您需要开发预测模型。这些模型并不容易创建,因为它们需要一些专业技能,超出您组织中大多数分析师可能具备的技能。

首先,您需要对数据有深入的理解,以确保您构建在坚实的基础上。通过彻底分析和定期使用数据来支持决策,数据集会因为 SME(Subject Matter Experts)的使用而变得更加理解和健壮。数据集的定期使用使数据能够与 SME 期望在数据中看到的内容相匹配。由于预测模型依赖于数据作为输入来推断未来会发生什么,输入的质量将确保输出更加可信和理解。

其次,您的团队将需要统计技能和知识来形成这些模型。构建这些模型所需的技能以及准确应用技术的方法都是复杂的。数据科学家在组织中角色的提升是由于他们能够创建、评估和优化预测模型的能力。如果您想了解更多关于预测模型可能性的信息,有许多书籍、课程和视频可供您参考。

正如您会从其他数据产品的输出中学习,从而提出不同或发展中的数据问题一样,同样的情况也会发生在您从预测模型形成的输出上。当您根据预测模型改变流程并调整决策时,您将需要重新训练预测模型以适应当前条件。

数据可视化最佳实践

无论您是创建单个图表、开发仪表板还是尝试展示预测模型的输出,数据可视化都会使您的分析对大多数人更易消化。数据可视化依赖于使用注意力前属性,让人们能够快速发现趋势、异常值和模式。

注意力前属性是人类可以在没有太多有意识努力的情况下理解的数据的视觉表示。在可视化数据时,有许多注意力前属性可以使用,但有些比其他更有效。图 2-8 展示了您可能经常使用的一些属性。

常见的注意力前属性

图 2-8. 常见的注意力前属性(此图的较大版本可在https://oreil.ly/TGUBk找到)

长度是最强的预注意属性。条形图是在可视化数据时最常见使用长度的方式。不过,有一个注意事项。由于长度对人类来说非常易于感知,当你在轴上移除零点时,很难看到数据中真正的模式。轴上的零点是轴从 0 开始的地方。如果轴显示的值变化不大,那么很难看出数据内部的变化。我们通过查看条形的长度和它们之间的差异所形成的模式来阅读条形图。图 2-9 展示了一个条形图。你能发现条形图长度的变化吗?哪些商店表现良好?哪些商店遇到了困难?

没有零线的条形图可能会误导

图 2-9. 没有零线的条形图可能会误导

现在,看看图 2-10。这是相同的数据,但这次轴不是从 2300 开始,而是从 0 开始。你还会以同样的方式回答所有那些问题吗?我们制作了这些图表,我们会以不同的方式回答!通过移除零轴,你的图表可以集中在每个条形的末端。突出显示商店销售的差异可能比每个商店的总销售量更具吸引力。你可以这样做,但不应该使用条形图。

商店自行车销量条形图

图 2-10. 商店自行车销量条形图

二维位置是另一个关键的预注意属性,你在可视化数据时会经常使用。二维位置在许多图表类型中使用,但它们在散点图中最常见,其中每个数据点的值基于其相对于垂直和水平轴的位置显示。散点图是展示两个测量之间关联的好方法。散点图中的每个图形根据其相对于水平和垂直轴的位置进行引用。图 2-11 中的散点图并不显示强关联,但这并不意味着无法发现分析发现。

基础散点图

图 2-11. 基础散点图

通过创建每个轴的平均线,形成了一个象限图(见图 2-12](#fig_16_figure_quadrant_chart))。可以标记每个象限,以帮助那些不太熟悉散点图的人解释其中的见解。

象限图

图 2-12. 象限图

最初需要关注的最后一个关键的注意力前属性是页面上标记的色调。色调可以帮助单个数据点或分析视图的部分在众多其他标记中脱颖而出。在 图 2-13 中,伦敦的所有 32 个区的数据都被可视化,这使得找到一个区域与其他区域比较成为一项具有挑战性的任务。我使用了不同的色调来与较暗的其他标记区分开来,以吸引观众的注意力。

我们无法呼吸的分析视角

图 2-13. “我们无法呼吸” 分析视角(此图的更大版本可在 https://oreil.ly/A4Pza 查看)

色调是一个经常被用来不仅仅是在页面上吸引注意力到标记上,也用来吸引注意力到工作本身的属性。许多公司会在分析工作中利用品牌色彩方案。图 2-14 展示了一个仿制的航空公司 Prep Air 的信息图示例,展示了其收入。Prep Air 的品牌色是蓝色和紫色,每种颜色都被用来显示正面或负面的变化。

使用色调的挑战在于不要过度使用它。将页面上的每个标记都着色成各种颜色会削弱人们对色调的先觉意识,并使趋势对观众不那么易读。

学习如何利用不同的注意力前属性将使您能够在数据中找到关键洞见,但它们也将允许您与其他人分享同样的洞见。

Prep Air 收入信息图

图 2-14. Prep Air 收入信息图(此图的更大版本可在 https://oreil.ly/C4cXY 查看)

数据集作为产品

另一个数据产品是实际的数据集本身。进一步引用 Humby 的“数据是新石油”一词,一个经过精炼的数据集类似于精炼的石油,比输入更有用。

如 “策划数据来源” 中所讨论的,将输入数据集、为分析进行结构化并理解内容的过程可能是一项耗时的任务。不要低估为内容增加清晰度并为其他用户准备数据集注入的价值。当您为自己或内部用户准备数据集时,您可能正在创建一个对组织外其他人有用的数据集。

在超出您组织范围分享数据集时,必须谨慎处理。您需要检查数据的主体是否已经同意将其用于组织之外的使用,否则可能会违反数据保护法规。

您可以通过多种方式分享您组织之外的数据集:

汇总

遵守大多数数据保护法规的最简单方法是聚合结果,使个体数据记录不可识别。对大多数组织来说,价值在于查看更宏观的趋势而不仅仅是个体行为,因此这种降低的粒度不会使数据集变得对购买者多余。提到的骑行应用程序 Beeline 在 第一章 中就是聚合数据点创造价值的一个典型例子。

托管解决方案

托管数据源涉及您创建数据源并将其保存在您的 IT 基础设施中,但允许其他组织访问。通过托管数据源,您将能够根据需要维护、更新和删除数据源。数据源可能通过应用程序编程接口(API)查询,您可以控制访问的信息并在必要时限制查询。

快照

您可能希望发布数据快照,以分享数据集中包含的宝贵信息。一旦将数据集发送给另一个组织,您将无法再编辑或更新数据。必须小心确保已达成协议以防止数据被传递给其他人,否则您可能会失去拥有和使用数据的价值。

迭代的重要性

迭代是创建数据产品最重要的方面之一。当您与他人一起使用数据产品时,您将从共同获得的见解中学习,并因此提出新的、更多样化的问题。无论您如何擅长定义产品所需的初始需求,您都必须记住,这些需求将随时间演变。

准备好预算、时间和人员以进行产品变更是重要且不可避免的。做好迭代准备将使过程更加简单和及时。

使用产品的人员将显著影响更改的复杂性:

仅您

这是最容易管理的变更过程。您将知道何时进行更改以及其可能的影响。确保正确进行更改非常重要,也是迭代数据产品的主要开销。

你的团队

一旦您开始与他人共享数据产品,您需要清楚地沟通何时进行迭代以及它们将产生的影响。根据变更的情况,您可能会影响他人使用产品的方式,这可能会改变他们是否认为其有价值。删除数据字段或更改功能可能会阻止他们获取所需内容。

您的部门/组织

随着数据产品被其他远离您日常角色的人使用,沟通和版本控制的重要性增加。数据产品的利益相关者和用户应在变更之前事先通知,并在变更后进行测试以确保其对他们的影响,并在变更后进行检查以确保其有效性。

组织外的其他人

在管理超出组织范围的产品变更时,迭代数据产品为整个组织带来的挑战可能会成倍增加。如果组织已与第三方签订合同,您需要考虑这些变更的影响,以确保合同约定的服务仍能执行。

当您创建初始数据解决方案时,可能会感觉自己现在变成了产品经理,而不是最初期望的角色。制定成功的数据产品和建立数据驱动决策的强大文化需要许多角色。本书的第五章更广泛地涵盖了数据团队的人员方面。总体而言,如果有许多人从使用您创建的产品中获得价值,那么这些价值的一部分需要通过投资使用产品的人来支持产品的维护和迭代。

数据技能助力更好的决策

在现代工作世界中,任何与数据工作的人都需要一系列技能。精通数据需要经历多个阶段,从理解如何从数据源提取数据,到通过可视化传达见解给观众。教授组织中每个人完整的技能范围会非常棒,但没有人拥有无限的时间和无限的培训预算。

本节将讨论您自己和他人需要考虑的技能,以及每个人需要具备的专业水平。

什么技能?

对于任何学科来说,技能越多越好。处理数据也不例外。许多人在完成学业后,希望在工作中拥有所需的核心技能。遗憾的是,传统上并没有充分教授使用数据的先决技能,以有效地在大多数工作中使用数据。如果您和您的组织希望做出更多数据驱动的决策,那么您将需要填补这些技能缺口。

让我们从基础技能水平开始,并逐步进入更高级的内容。

理解输出

能够解读图表是处理数据产品时最基础的技能要求。学会阅读条形图、折线图、散点图和数据表对于理解大多数数据通信的部分至关重要。如果图表使用了强大的注意力属性来构建,那么观众应该能够轻松解读。

在这项能力基础上构建的下一个技能是结合来自多个来源的见解,形成对情况更加全面的看法。如果所有各种图表都来自同一通信,那么作者应该会让这更容易。如果图表来自多个来源,那么您应该考虑的因素将更多:

  • 信息源的可信度

  • 数据来源的年龄

  • 作者可能加入的任何偏见

  • 目的;为什么要创建这些沟通方式

这些因素将决定您可以从作品中获取什么以及您可以信任自己解读的程度。学习怀疑数据产品来源的技能是自然而然地通过与数据输出工作的经验获得的,但也可以通过更传统的学习形式来补充,如阅读书籍、观看教程或参加课程。

分析

一旦了解如何阅读和解释他人的输出结果,下一个需要的技能集就是创建您自己的分析。构建自己的分析将需要迄今为止这本书涵盖的许多技能:提出正确的问题、直接处理数据来源以及利用您的数字技能来查找比率、方差和异常值。

进行分析所需的技能是一部分;实施分析是另一部分。建立分析数据集的经验将会把技能转化为真正的能力。许多课程、书籍和教程都可以教授进行数据分析所需的各种技能,但许多人忽视了创造练习和完善这些技能的重要性。

尽管我(卡尔)曾为一个分析学术学位而学习,并且天生是一个好奇的人,只有通过进行一系列的数据分析,我真正磨练了在我可以访问的数据集中找到见解的技能。我非常幸运,我的组织中的其他人为我创造了练习和发展我的分析能力的机会。如果您正在领导数据项目,请尝试为您团队的人们创造学习分析技能的机会,并进一步通过练习完善他们所学到的技能。

数据沟通

一旦您获得了有见地的发现,您会想要与您的团队、同行和领导分享。最好的方法是在分析过程中通过可视化数据来做到这一点。这样,一旦您得出您的发现,您可以将这些图表作为传达您的见解的方法分享。

与执行分析一样,没有单一正确或错误的数据传达方式。可视化数据是一个需要实践和完善的技能;确保随着时间推移,你的数据传达能力也在提升。从仅有单个图表开始,逐渐增加复杂度,通过多个图表再到交互性,你将能够向更广泛的受众传递更复杂的信息。许多早期的数据分析是解释性的。这意味着分析将传达有关特定问题的详细信息。随着你的技能集的发展,你可能不仅能在单一沟通中回答特定问题,而且还可以通过引入额外的过滤器、交互性和不同层次详细视图,让用户自行探索问题,这称为探索性分析。

每个人都需要学会如何使用你的组织偏好的特定软件来构建数据沟通。只有在使用可用的软件时,才能通过可视化数据有效地传达信息。在大多数组织中,你将不能自由选择用于形成沟通的软件。如果你是团队或功能的领导者,你应该考虑在可视化工具方面进行培训,以使人们(包括你自己)能够传达他们需要的内容。

超越数据分析

对于最先进的分析,你将需要最先进的技能。如果你要利用新的数据源,测试假设,并使用预测模型,你将需要一系列广泛的技能。

只有对你正在使用的数据有深刻的理解和明确的目标,你才能开始考虑建立预测模型来预测结果。你需要具备强大的统计技能来对数据建模并解释模型的结果。如果没有这些技能,你就有可能得出错误的结论或开发出不准确地代表其目的的模型。

创建强大的分析工作不仅仅是建立预测模型和运行这些模型所需的所有前提条件。将结果传达给其他人是一个经常被忽视的关键技能,当准备数据科学团队取得成功时,由于形成模型的复杂性,清晰的沟通和简化复杂概念的能力是必要的,以帮助利益相关者了解他们应该依赖输出的程度。

需要许多技能,但幸运的是,你不需要在你的组织的每个员工中都发展所有这些技能,才能成功地开发更大程度上的基于数据的决策能力。通常有几个专家专注于关键倡议的工作,就可以满足大多数组织的需求。

针对谁的技能?

将你的同事分为三组可以帮助你了解你需要确保每个个体都具备哪些技能,以帮助他们做出基于数据的决策:

观众

任何使用视觉数据产品的人都需要能够理解如何解释他人创建的图表和分析。了解数据的来源还将使观众能够质疑数据中的偏见或潜在漏洞。

编辑者

编辑不仅仅是查看他人的产品,还会对数据产品进行更改以满足自己的需求。这可能涉及更改应用于数据源的过滤器或组合不同的图表,以进行对已有分析的替代分析。他们的技能组合需要包括一些分析技能和沟通技能。

创作者

创作者是那些从头开始构建数据产品的人。他们将对如何解释他人的工作、分析新数据集以及传达所发现的发现有着很好的理解。一旦他们理解了业务挑战并验证了可能回答提出问题的数据源,创作者可能会参与数据科学项目。建立预测模型需要有坚实的理解,但同时也需要统计技能和对预测方法的理解。

确定谁属于哪个类别以及存在哪些技能缺口,本身就需要进行一些工作。通过面谈了解人们的角色、需求和现有的数据技能,是了解你的组织拥有哪些数据知识和技能,以及与其需求的一种关键方式。

总结

当你初次接触数据时,可能会因为多种因素而感到畏惧。通过阅读本章,您应该更加自信地理解数据的含义,描述其不同特征的术语,以及您可以通过数据产生的结果。最终,通过开始与数据工作,您不仅会提升自己的数据流畅性,还可能会提高他人的技能水平和意识,因为您分享了您和您的团队所创造的成果。如果您试图在单个项目中完成所有工作,您将需要许多技能;但请放心,很少有人能够成为在与数据工作所需的所有不同方面和工具中都是专家的“独角兽”。

在每个数据项目中交付不同组件的团队很可能需要一个团队。下一章将介绍在涉及数据项目时,您可能在每个步骤中创建的不同产品。

¹ Stephen Few,“关于语义绝非小事”,感知边缘博客,2010 年 3 月 19 日,https://oreil.ly/98j7Y

² Steve Wexler, Jeffrey Shaffer, 和 Andy Cotgreave,大型仪表盘手册:使用真实商业场景展示您的数据(新泽西州霍博肯:约翰·威利与儿子,2017 年)。

³ 我们相信你在职业生涯中一定遇到过服务级别协议(SLAs),但如果你还没有,简单解释一下:SLA 是关于提供产品或服务的频率和及时性的协议。例如,对于数据产品,SLA 将规定产品将何时刷新为最新数据。

第三章:数据分析系统的构建模块

数据项目可能很复杂,但并不需要如此。数据有无数可能的结果。了解数据项目的不同阶段将使您能够分解复杂性并使项目更易管理。本章的目标是让您能够在任何数据项目中发挥积极作用,并帮助引导其完成交付。

本章将解决数据项目的常见阶段:

  • 通过从系统中提取或从第三方获取数据来获取数据

  • 在所有项目阶段和长期存储数据

  • 精选和丰富数据

  • 探索和分析数据集

  • 分享项目创建的数据产品

本章的主题是确定您试图通过数据项目解决的问题是多么重要。专注于问题是关键,因为您可能会遇到障碍,并且在创建所需的解决方案时需要不同的选择。允许自己在从数据和分析中学习时进行转变是关键。这比长时间以前在需求文档中坚持原来设定的目标更好。

数据提取和获取

可能不言而喻,但如果没有数据或者不考虑获取数据,你就无法进行数据项目。获取数据的三种主要方式有:提取、获取和创建。在这里,我们将重点介绍前两者:提取和获取。每种收集数据的方法都有其挑战,但通过执行任何一种方法,您都有机会做出更明智的决策。

数据提取

虽然搜索引擎帮助找到外部数据源,但你需要依赖自己的网络和 IT 支持同事,指导你找到相关的内部数据源。要开始找出可能需要提取的数据,你需要找出哪些操作系统创建或捕获你需要的数据。一旦确定了系统,你可以与 IT 合作,了解创建了哪些基础数据集以及如何访问它们。如果你幸运的话,你需要的数据可能已经被提取用于分析。如果没有,你需要了解存储的数据和可以访问的数据。

从源中取样数据字段将帮助您了解可能需要和不需要的内容。查询操作系统以提取大量数据可能会影响操作系统的性能。使用小样本可以告诉您如果要提取更大量的数据,则需要进行哪些转换和清理。您对所需数据越清晰和详细,您的 IT 团队就越容易安排访问时间并估计所需的工作量。

随着对基于云托管的第三方软件和解决方案依赖的增加,访问底层数据集可能会更具挑战性。你可能会预期,作为你的组织数据的托管方,你应该能够轻松访问它,但情况并非总是如此。除非合同明确授予数据访问权限,否则你可能无法进行分析访问。

另一个需要做出的决策是在添加新记录时如何处理数据集。你的数据内容的性质以及源系统如何保存数据将在很大程度上指导这一决策。有两种主要的处理方式:

完全刷新

这涉及删除原始数据并重新加载所有数据。如果原始数据没有发生变化,只有新记录被添加,这种操作大多是多余的。如果记录可能已经更新,并且你只想看到最新的值,则完全刷新是最佳选择。

增量刷新

这涉及到在数据中有一个序数字段,即具有固有顺序的数据字段,例如日期,可以用来识别上次数据加载发生的时间,然后可以添加所有后续记录。这种提取数据的方法更有效,因为你不需要重新加载未更改的数据。

一旦你获得了数据访问权限,你可以开始计划如何处理和准备数据以进行分析。ETL 方法涉及在将数据加载到分析数据库之前进行所需的任何操作。这需要更多的规划和对长期需求的更清晰理解。

与本地数据处理相比,ELT 备用选项更符合云计算,可以实现更可扩展的处理。随着数据处理需求的增加和数据集的扩大,云计算的灵活性有助于满足不断变化的需求。可以根据需求随时增加更多的处理能力,而不需要像本地设置那样购买和安装额外的物理计算服务器。

ELT 的最大优势之一是原始数据集被存储,因此可以根据业务需要以不同方式进行操作。这使得处理数据更具未来性,因为你可以在不影响原始数据集的情况下更改结构、清理和过滤数据。ETL 方法在初始设置时可能会删除后来变得重要的数据点,因为它们最初被认为不相关。

数据采集

数据采集涉及从第三方供应商购买或获取数据。随着越来越多的公司通过 API 或作为付费服务提供数据,你很可能会遇到这种情况。

数据采集的首要挑战通常是找到不仅适合您需求的任意数据源,而是最适合您需求的最佳数据源。无论您是花钱获取数据还是免费获取,您都将使用组织资源来设置数据源,因此您需要确保数据本身符合您的需求。

您将使用的组织资源之一是时间。那么在项目上花费多少时间才合适?获取数据应该与其使用的潜在时长成比例。如果您希望获取几个值来支持演示文稿中的某个单一点,则找到准确的数据很重要,但找到能保持数据更新的来源则不是必需的。如果数据将支持长期解决方案,则相对而言,花费更多时间寻找可能更适合您项目需求的替代来源更为合适。您并不总是知道获取数据将需要多少努力,但通过快速测试,您将能够迅速了解可能会遇到的耗时挑战。

将数据引入您的组织并不总是像从数据提供商的网站下载文件那样简单。数据集可能非常庞大。如果数据频繁更新,您将需要投资建立一个能够执行以下功能的数据管道:

  • 为您和提供商提供安全保障。

  • 处理数据的量级。

  • 处理数据的速度。

  • 处理接收到的各种数据。

数据管道 是指从其来源或提供商获取数据并加载到存储中的过程。数据管道还可以包含转换步骤,将数据转换为可供分析的形式。

最后一点很少被考虑,但如果犯了这个错误会很昂贵。数据集供应商很少为您的特定需求制作数据集。这意味着随着供应商更新其可用内容,结构、文件名或数据字段名称可能会发生变化。如果您的数据管道和存储解决方案仅用于处理数据的原始特性,您将发现管道可能会中断和失败,使您的采集变得无用。

构建适合的数据管道需要专业知识,包括如何处理数据管道和工作流程,以及如何在您的组织中完成这项任务。例如,如果您反复吸收大量数据,则创建组织安全防火墙中的访问点只是所需任务之一。

通过 API,你可以访问托管数据的第三方系统。API 已成为从交易系统导入数据到数据存储或分析平台的关键元素。API 设计用于允许计算机程序相互通信,而不是直接向最终用户传递数据。这就是为什么 API 用于将数据从源系统传送到分析平台。与任何技术一样,随着时间的推移,API 已经发展成为使用更简单且功能更丰富的工具。如果你在进行需要 API 的数据项目,除非你有很多编写自己解决方案的经验,否则可能需要专家的帮助。现代数据项目的一个关键组成部分是拥有能帮助你理解从所需数据系统中获取数据可能性的程序员。

你还需要考虑是否需要获取的数据集进行更新。如果需要,你需要了解数据集可能何时更新,以及如何识别其变化。你很少会希望删除获取的数据集并重新上传数据。因此,重要的是识别获取的数据集中可能会变化的字段,以便确定何时可以获取新记录。通常随 API 提供的文档说明了需要注意的内容。然而,使用其他数据源,如网页抓取或从互联网页面复制数据,通常不会有这样的内容。网页抓取可以通过许多专业工具来完成,如 Microsoft Excel 中的 Web 查询或 Google Sheets 中的 IMPORTHTML 函数,用于从网站上的表格加载数据。你可能需要与数据提供商合作,了解可用更新的频率以及如何识别何时需要获取新信息。

从第三方提供商获取数据集需要依赖提供商的组织。根据数据集对你的组织的重要性,你可能希望审计提供商长期支持数据集生产的能力。如果这个获取的数据集成为你组织流程的关键部分,那么你需要确保已经有协议来维持数据流。如果无法形成这些协议,你将面临长期风险,可能导致数据驱动的流程出现故障。

获取数据集意味着你对数据的使用和你自己创建的来源同样负责。这意味着你需要确保数据集符合所有相关法规,并进行仔细管理。在获取数据集时,要追溯数据的主体以确保他们已经同意收集和使用数据可能是一个耗时的过程,但重要的是确保你的组织免受数据滥用长期影响的保护,如来自监管机构的诉讼和罚款。

获取数据时你需要考虑的最终挑战是数据提供者可能在数据集中引入偏见。在“数据的关键特征”中,我们介绍了质疑数据集重要性的重要性。在这里,我们将看看偏见如何渗入数据集。研究提供数据的组织,看看是否存在潜在的政治、经济、社会或宗教偏见,这是一个经常被忽视的重要步骤。如果你假设一个数据集代表整个人群,但它只代表社会的一个有限段,你就会面临形成错误和误导性结论的风险。潜在的偏见可以通过多种方式引入;以下列出了一些:

  • 限制数据来源

  • 过滤掉某些值

  • 用词不当的问题

  • 汇总偏见来源以形成新的数据来源

修正你不拥有的数据集中的偏见是非常困难的,所以在使用数据时,你需要考虑这些偏见,或者找到替代来源。

数据存储逻辑和术语

一旦你获得了项目所需的数据,下一步是确定你将在哪里存储它。有多种选择供你选择,这可能比你首次想象的更棘手。你的组织可能会通过制定你必须遵循的指南或者仅提供访问受限范围工具的能力来限制某些选项。如果没有建立的数据存储方法或技术,你需要评估对你的组织和项目最合适的方法。每个选项都会有一些优缺点,所以让我们依次来看看每个选项。

类型

就像你遇到的所有其他数据一样,你解决的业务问题将塑造你所需的数据集。你的数据形状、行数和数据结构将影响你的存储选项。

我们无法详细说明你可能遇到的每种情况的具体细节,但我们将突出显示关键差异及一个解决方案不再可行的地方,你需要考虑另一个解决方案。

您可能会发现您可以访问的数据存储可以吸收您通过数据项目创建的数据源,但您需要问自己的问题是,“它们应该吗?”几十年来,组织一直在尽力挤出许多数据源的最后一点容量、内存或功能,以避免对现有解决方案及其所有链接到它们的数据产品造成重大影响的系统性变化。如果您正在创建一个需要持久的全新项目,关键是确保数据源能够扩展到手头的解决方案,并满足用户的需求,而不是让他们的屏幕上出现旋转加载图标。接下来我们将探讨您可以使用的选项。

电子表格

尽管许多数据专业人士会认为电子表格不是战略性的数据存储平台,它们仍然在大多数组织中扮演着保持重要数据集的关键角色,正如在“数据的形状”中讨论的那样。电子表格提供的灵活性确保它们可以满足许多人的需求。单元格可以容纳您想要的任何数据类型,数据不必以特定方式结构化,文件可以通过简单覆盖文件中已有的值进行更新。电子表格的灵活性可以允许从中创建多种数据产品。

电子表格的一个优势是源数据和输出通常保持在一起,通常位于不同的选项卡中,但仍在同一个文件中。这可以使得审视数据如何导致分析结果变得更加容易。许多顾问在电子表格中构建财务模型,因为这样更容易与客户分享,并且可以快速添加客户的数据。如果这些模型需要反复使用,那么可能会选择其他工具,但由于这项工作的定制性质,电子表格仍然是许多人的首选工具。

然而,电子表格提供的灵活性实际上是它们作为数据存储的一个不佳选择的原因。分析工具期望在每个列中找到仅一种数据类型。由于电子表格不必以数据集中的相同数据类型结构化数据字段或名称位于顶部行,许多商业智能工具在读取其中保存的数据时会遇到困难。数据点可以通过单击单元格并按键进行轻松覆盖。这可能会导致在使用电子表格与其他工具或分析本身时出现错误。

如果数据以字段顶部的名称在列中保存,由于电子表格可以拥有的行数有限制,您可能仍会遇到困难。Microsoft Excel 的行数限制为 1,048,576 行,在此之后无法添加额外的数据。这听起来很多,确实是,但随着更大数据集变得越来越常见,电子表格通常无法处理完整的数据集。这意味着文件必须分段,这在尝试处理它们时会增加更多复杂性。

在数据存储方面,共享电子表格文件可能既是福音又是诅咒。共享电子表格的便利性意味着数据更容易使用,因为在访问之前不需要授予对更安全数据存储的权限。而与此同时,情况也可能完全相反。由于数据集可以在同事之间甚至在外部传递,数据集的控制立即丧失。这种情况的影响包括以下内容:

  • 随着信息在更多人之间传递,追踪信息来源变得困难。

  • 如果原始来源丢失,无法更新数据集。

  • 数据安全不可靠,因为它依赖于他人不传递数据。

  • 难以追踪数据使用,以满足主体控制其自身数据使用权的要求。

如果电子表格的版本控制不够好,他人可以轻易更改原始数据集。这可能会改变某人从数据分析中得出的发现,或导致错过更新的数据。如果在数据项目中使用电子表格存储数据,您需要慎重考虑上述因素。

数据库

许多对电子表格使用不利的因素可以通过使用数据库来解决。数据库是专门设计用于摄取、处理、存储和输出数据的软件解决方案。数据库加载到专门用于它们将承担任务的数据服务器上。服务器仍然是计算机,但它们具有比您的笔记本或台式计算机更多的存储和计算处理能力。因此,数据库被设计用于在处理数据查询时关注的特定目的和考虑要采取的存储选项。

许多传统数据库通常使用一种名为结构化查询语言(SQL)的编程语言,允许您使用其中持有的数据。SQL 是一种全面的语言,可以让您创建、更新、查询和删除数据库表格。SQL 在大多数分析师中广泛知晓,但非数据专家往往不常被教授。这意味着许多人可能会难以访问数据库中的数据。

在“超越文件”中,我们向您介绍了数据库及其在系统内持有数据的方式。让我们更详细地了解关系数据库如何将数据集分成不同类型的表格。事实表持有数据集的度量,而常重复的维度则存放在维度表中。维度表保留了分类数据点的名称以及数字标识符。由于数字标识符更快处理且存储空间更小,维度表有助于减少处理数据查询时的总体大小和复杂性。由于维度值经常在数据集之间重复,它们在维度表中只存储一次,然后在事实表中使用标识符。

组织事实和维度表所采用的方法可以有几种形式。您将遇到的最常见的是星型和雪花型模式(图 3-1)。

星型模式

星型模式具有许多维度表,这些表连接到事实表,就像从星的中心射出的光束一样。

雪花型模式

在自然界中,雪花的核心有从中发出的树突,然后从这些树突中进一步发出更小的树突。数据雪花也是如此,详细的维度表可以连接到其他维度表,然后再连接到事实表。

尽管您可能不会亲自决定模式类型(如果您有一位负责服务的数据库管理员),但您可能需要了解在数据库中结构化您的数据时使用了哪种类型。在中型和大型组织中,数据库管理员是您在 IT 团队中经常遇到的一种角色,负责维护和优化更新和存储。

作为数据库的用户,您必须考虑您在将来和数据的其他用户留下的复杂性。雪花模式可能更易于维护,利用空间更少,并且数据完整性问题较少,因为元素存储在适当的详细级别上,以便每个类别有多少变量。星型模式需要较少的连接来组合不同的表,连接较少的查询处理速度更快。因此,决定哪种模式类型可能最适合的因素是用户的技能。在确定应使用的模式类型时,可能是迄今为止在您的组织中主要使用的因素。

星型和雪花型模式

图 3-1. 星型和雪花型模式(该图的较大版本可在https://oreil.ly/HAjLk找到)

多个数据库可以并存于同一台计算机上;这些称为数据服务器。为分析设计的数据服务器被归类为数据仓库。由于数据量如此之大,数据库软件被设计为允许控制访问权限。在处理数据项目时,了解谁需要或可以访问特定数据字段或记录是项目的重要组成部分。如果过度限制访问,您输出的用户可能找不到所需的内容。如果没有足够的控制措施,您可能会面临泄露最终用户可能无法合法查看的数据的风险。

数据库比电子表格和其他数据文件存储选项具有更丰富的功能和更强大的查询性能。随着这种丰富性而来的是规划和管理数据的额外开销,因为你不能随意创建、编辑和使用数据库。当你从数据库源进行分析和开发数据产品时,你希望数据结构保持稳定。规划你将从数据库中需要的结构和访问方式将决定许多数据项目的成败,因为如果底层数据或需求发生变化,你将无法迅速更改架构。

或许你认为数据库是几乎所有场景的正确存储解决方案,因为它们专为许多情况而设计,但你错了。数据量、速度和多样性的增长挑战了数据库,因为许多软件解决方案未设计以适应更现代应用程序生成的数据所需的灵活性和规模。

数据湖

数据湖为许多数据库无法解决的挑战提供了部分解决方案。首先,数据湖得名于其能力,能够吸收和存储来自各种不同来源的大量各种类型的数据。尽管数据库只能存储结构化数据,数据湖也能存储非结构化数据。

非结构化数据 指的是没有行、列或关系定义的数据集,就像数据库中所见的那样。非结构化数据可以包括文件、文本、媒体或传感器数据。数据湖持有非结构化数据的好处在于在存储之前不必进行处理和转换。这意味着数据可以更快地吸收到存储中,允许捕获比必须首先进行转换更多的数据。Web 应用数据、社交媒体或任何数字点击都可以作为数据流捕获。

随着数据分析和数据项目的演变,能够迭代你正在寻找的内容及其存储方式变得至关重要,以便你能够获得最大的可能收益。一旦开始分析数据,你将开始学习,因此可能会提出不同和更高级的问题。数据湖允许吸收所有数据而无需指定架构。当你从数据湖中分析数据时,你将形成满足你需求的所需架构。这与必须事先指定它不同,就像你的数据项目将使用数据库作为存储解决方案一样。

仅仅将数据集倾泻到数据湖中并不是足够的存储方法。您需要为数据湖中存储的数据编目,以供潜在用户了解其可以访问的内容。数据目录包含元数据(关于数据的数据)和搜索功能,允许用户查找并找到他们正在寻找的内容。数据目录已经成为独立的软件产品,这意味着除非您的组织已经有一个,否则您将需要与另一个供应商合作。

数据湖可能需要与传统分析师不同的技能集。由于文件是非结构化的,数据字段和记录不能像在 SQL 中预期的那样在查询中引用。在组织中,R 和 Python 以及其他编程语言已经变得更加普遍,以帮助处理和从数据湖中提取价值。

对于您组织中的大多数人员及其使用的商业智能工具,仍然需要数据库。

数据湖仓库

数据湖仓库已开始将结构化数据库的优势与数据湖的灵活性融合到一个单一领域中。数据湖仓库的发明是为了创建一个单一位置,利用两种数据存储方法的优势。

通过创建单一解决方案,可以像探索数据湖一样探索相同的基础数据集,但它们还具有已开发的数据库架构。数据湖仓库也引入了许多在数据湖设置中缺失的数据管理特性。这种结合了结构化、半结构化和非结构化数据的组合,使得各种数据工作者能够从同一组数据集中获取他们所需的内容。

随着数据存储解决方案的发展,您可能需要依赖于组织中已有的东西。如果您选择从头开始,数据湖仓库可能会提供最佳解决方案,但解决方案仍在发展和成熟中。

数据服务器位置

选择数据项目存储的技术模型是第一步,但您选择的解决方案托管位置是另一个关键考虑因素。在 2010 年代,云计算的出现成为许多组织托管其数据的真实选择。在此之前,数据服务器的场内托管是唯一可行的选项。您关于托管数据服务器的决定将在很大程度上取决于您的组织运行的模型。

理解两种选项的优缺点是从他人那里获取数据以及存储您自己数据的重要因素。

在场内

将数据源本地托管意味着在您的组织运营的建筑物内拥有和运行数据服务器。出于多种原因,这曾经是标准做法,主要是出于安全考虑。通过在自己的建筑物内托管数据服务器,它们很可能位于您组织的防火墙内。防火墙是一种安全设备,用于分隔您组织的计算机网络与公共网络。防火墙过滤网络流量,并只允许授权访问。在云计算变得更为普遍之前,尝试通过组织的防火墙获取许可并建立访问点是一项耗时的过程,因为这增加了黑客攻击的风险,需要谨慎对待。

将数据服务器放在防火墙内使连接到其他本地托管数据源变得更加容易。您需要的大多数系统数据或其他数据服务器访问的数据源都在本地,因此继续这一趋势是一个相对简单的决定。随着云托管应用程序和数据源的兴起,情况不再如此。但是,本地托管还有其他好处:

您的应用程序控制

应用程序的版本控制曾经非常严格,以确保任何更新不会无意干扰其他应用程序或数据产品。通过在本地托管应用程序,您负责更新,因此可以选择安装和更新的时间。这意味着您可以避开高峰使用时间和/或关键报告期,比如季末。

前期成本

使用本地软件,许可模型传统上侧重于高前期成本,较小的剩余金额用于版本更新和产品支持。在初始项目的一部分中,您可以要求更高的价值,然后将维护成本作为持续的运营支出因素。

在本地解决方案的主要缺点是,所有操作都发生在您获取、管理和维护的服务器上。对此有几个影响:首先,您需要在项目开始时非常谨慎地确定容量和性能需求,以确保数据服务器能够存储和处理数据产品生成的数据。正如我之前提到的,许多数据项目随着项目进行而逐渐发展,这增加了吸引力和用户。其次,如果数据作为您的数据项目的一部分创建和存储,这一数据量可能会随时间增长,这意味着您需要长时间保留数据服务器的全部资源。这就是为什么与云托管相比,本地解决方案被视为昂贵和浪费的最终影响。最后一个影响是需要有架构师设计数据服务器和维护技能来修复不可避免的问题。

云解决方案的创建是为了解决自行托管所有内容所带来的许多影响。云计算指的是通常由 Microsoft Azure、Google Cloud Platform 或 Amazon Web Services 等第三方组织拥有和运营的外部服务器网络。您所在的组织或运营的国家可能会限制您可以使用的云提供商,因为存在安全问题或对其他国家持有敏感数据的担忧。云计算提供商可以提供大量的潜力来扩展,并可以在瞬间提供数据的增加处理能力和处理能力。自行托管解决方案最显著的缺点是它们的固定和预设容量;云计算解决了这个问题。

云网络利用互联网将它们的服务器连接在一起,以创建潜在的大量服务器阵列来获取资源。这些网络通过以极大规模运作来产生经济效益,从而比自行托管解决方案提供更为廉价的选项。对于许多关键应用程序,您的组织可能会运行备份系统,以确保应用程序在原始设置中出现任何问题时仍能运行。云提供商可以更便宜地提供这种服务,因为大多数故障转移选项不需要同时运行,因此处理能力可以在它们的设置之间共享。

随着越来越多的数据来源和应用程序托管在云上,将您的数据服务器放在云中将使访问数据变得更加容易。如果您的数据服务器在本地但依赖于云网络中的数据来源,您将需要在防火墙中开放访问点。除了减少连接到基于云的数据源的工作量外,云网络还具有其他好处:

托管更新

为您设置数据服务器并非唯一的云选项。您可能需要考虑的许多解决方案将包括在云中运行的完全托管系统。这意味着所有更新将由您完成。

更为廉价的前期许可证

借助云托管解决方案的能力进行上下扩展,许可费模型已经改变,更加专注于使用量而非重量级的前期成本。这种模型意味着随着您的组织更多地使用数据解决方案,您的成本将增加。然而,如果解决方案没有被广泛采用或使用,您支付的许可成本将不会像自行托管解决方案那样高。这降低了整体项目投资风险。

无论您选择将数据资源部署到哪个位置,您都需要管理随时间建立的数据存储。数据项目需要考虑其长期管理,并制定相关控制措施。

数据丰富化和策展

数据源可能非常有价值,但只有在其结构良好时才能理解和轻松管理。当数据被存储时,并不一定已经被结构化、理解或管理到位。本节将探讨如何通过将不同的数据源组合在一起来创建更全面的视图,从而使数据源变得更有价值。

一旦您的数据源被开发出来,您需要考虑如何维护它们以保持它们与初始状态一样有价值。管理数据源需要付出努力,但如果做得好,可以节省大量时间和(重新)工作,因为数据源被应用于替代用途。提供数据管理和数据集治理控制可以决定数据是否被信任使用,或被忽视为不可靠的混乱。

将这些管理方面因素纳入项目数据的保持和维护过程中,然后通过精心策划数据来增强其可用性。编目数据已经催生出一整套软件产品,以帮助处理这一任务。记录元数据——关于数据的数据,有助于使你的数据源能够被尽可能广泛的观众发现和使用。

数据转换与丰富化

如果您的组织主要的数据源传统上是电子表格,您可能已经花费了大量时间来转换数据。重塑数据以便与商业智能工具一起使用,或者仅在电子表格软件内进行分析,都可能是一项耗时且不被重视的任务。在数据输出的观众中,很少有人意识到在生成数据产品时可能涉及多少转换工作。许多高管习惯于仅仅要求他们想要的信息,而不了解为响应他们的请求而努力整理必要的数据点需要多少时间和精力。

数据转换 涉及改变数据源的形状,通常包括清洗单个数据字段。在电子表格中,您可能已经学会了如何使用 CTRL+C 和 CTRL+V 将数据从某些单元格复制并粘贴到其他单元格中。但是现代工具提供了更简便的方法来创建和自动化这些过程。自动化对于消除重复的手动步骤中的工作量是非常重要的。如果这些过程留给手动操作,无论执行任务的人多么尽责,重复的性质通常会导致错误。相信我,在这方面我领导过一个团队,他们大部分工作都属于这一类别,他们非常出色,但错误还是不可避免地发生了。

数据转换的自动化通常是在被称为工作流的内容中构建的。工作流之所以被这样称呼,是因为它们通过一系列转换步骤处理数据。虽然工作流可以被脚本化,但许多工具(如 Tableau Prep 和 Alteryx)提供拖放交互功能,允许用户构建最适合其流程迭代的工作流,直到完成所有必要的更改,而不必在代码块中查找相关指令。

丰富不同于转换,因为它涉及添加数据字段和点,以提供数据源的额外背景或详细信息。这是数据源可以通过以其他任何组织系统无法做到的方式进行组合而变得更有价值的地方。将数据表连接在一起可以添加有用的数据点,建立记录背后原因的依据。让我们看几个例子:

医院中的患者历史记录

添加来自患者地址本地区域的人口统计信息可能有助于了解造成患者访问该设施的原因。也许财务困难导致饮食不良,从而引起较差的健康状况。

客户购买

添加来自研究公司的市场份额数据可以帮助促进理解,了解高销售是否是由于贵组织的表现,还是与更广泛的市场趋势相似。

农作物产量

添加天气数据可能帮助农民理解作物产量变化的原因。

创建一个丰富的数据源可能意味着您需要复制数据源,从而使数据存储成本翻倍。但这并非必然,因为您可以在数据库中创建视图,这些视图仅引用原始数据源的位置。当使用时,它们具有所有的连接逻辑,使它们像数据库表一样易于使用。除非数据库中的命名约定非常清晰,否则您可能甚至不会意识到在使用视图而不是表。

随着组织多年来积累的大量数据,丰富数据可能是将庞大的数据量转化为每个人都可以使用的东西的关键部分。许多数据项目仅仅是为了构建更丰富的数据源,使分析师和领域专家能够提出比以往更详细的问题。

一旦创建了数据源,就需要对其进行维护和治理,以确保其保持准确和最新。

数据质量与治理

一旦您形成了一个数据源,就需要确保它与所涵盖的情况保持相关和可靠。数据很快可能过时,更新不正确,或者被多次复制,这在选择使用哪个数据和它们之间的差异时会带来挑战。让我们看看这些问题是如何发生以及产生的影响:

过时

如果形成您的数据源的工作流程没有考虑到源数据更新,那么您有可能使记录过时。这意味着任何新的数据点都不会自动添加到数据源中。您可能会错过客户行为变化或可能出现的问题,这些问题如果数据刷新后就能轻松发现。

更新不正确

您需要确保数据源更新正确进行。当您更新数据时,可能会进行全量刷新或增量刷新。全量刷新会删除数据集中的所有当前记录,并用该时间点数据源中的所有数据替换它们。增量刷新仅会上传数据集中的新记录。如果数据字段名称或数据类型发生了变化,那么您的刷新可能无法正确运行,导致数据不存在或不正确。

多份副本

最后的挑战是确保人们没有形成自己的数据源版本。这可能涉及添加数据字段,过滤记录或使用旧版本的数据源。当他人使用这些副本而不是真实的数据源时,会在决策过程中引入无意的错误。

数十年来,数据的多份副本一直是大多数组织最关注的问题之一。保留多份副本浪费昂贵的存储空间。现在,大多数组织都专注于“真理的单一来源”或黄金来源的概念。这个概念是有道理的,比如报告给股市的财务信息,下一季度所需的产品数量,或者收到的投诉数量,这些都是公司做出正确决策所需的关键信息示例;因此,拥有一个一致的数值非常重要。

在我们看来,“单一来源”概念已经被过分推广。该概念忽视了来自同一源的数据可能需要由不同的业务领域进行不同处理的事实。让我们以销售数据为例,说明为什么您可能希望不同版本的同一数据,有时被称为数据的不同切片

销售

处理企业间交易时,销售团队希望知道销售已记录并且发票已支付。大多数销售佣金的支付依赖于此。他们的角色需要非常精细的细节:每行数据可能都是一个单独的交易。

市场营销

市场部门希望以较少细粒度的方式了解数据。例如,他们想知道哪项活动导致了销售。销售是源自电子邮件活动还是黑色星期五促销活动导致的折扣销售?

物流

这个团队需要知道何时完成销售以调整库存水平。这个数据集将更加注重产品和时间的焦点,包括尚未履行的销售记录。

每个这些数据集都应通过不同的数据字段进行丰富,以便每个领域能够回答自己的问题。如果您在一个单一的数据集中拥有所有这些字段,那么它将需要是一个非常宽的数据源来包含所有的数据字段。当数据保存在不同的粒度级别时,数据源也必须不同,因为每行将代表非常不同的东西。这种方法并没有错,但是您必须确保数据可以追溯到原始销售交易。这些销售交易只需存储一次,但需要以多种方式用于不同的目的,这样如果存在导致潜在混淆或错误报告的差异,数据就可以被对账。

允许多视角查看同一基础数据源可能会带来管理数据的挑战。确保每一次数据切割都符合存储、更新和删除数据的法律要求非常重要。当客户结束与公司的关系时,他们有权要求删除他们的数据,但是如果首先需要识别数据的多个原始来源,这将更难实现。使用单一的基础数据源来提供和更新视图是实现这一目标的最简单方法。

对数据不同视角的看法可能会带来挑战,即数据是否仍然用于收集时指定的目的及其使用是否被数据的主体允许。如果您制作了希望与其他部门共享的数据产品,而不仅仅是用于分析,您需要小心确保数据的正确使用。例如,如果精算部门希望使用您从产品概念调查中收集的数据集,但它已经有了关于受访者家庭设置的数据以更新政策定价,这是不应被允许的。

管理数据源变得更具挑战性,但是通过强大的数据管理指南来减少数据源的复制,可以使这变得更加容易实现。

策划数据

一旦您存储了数据,它就不会因闲置在存储库中而获得任何价值。策划数据源涉及将数据源提供给那些能够利用它们的人。如果您在一个小组织工作,您可能能够直接与您的数据集潜在用户交谈。然而,一旦您的组织员工增加到 100 人以上,就很难引导每个人知道哪些数据源可用以及他们在哪里找到它们。在目录中使元数据可用且可搜索将有助于数据源的使用。

元数据

元数据通常被定义为关于数据的数据。所捕获的信息可以是有关数据源的任何内容,有助于描述它是什么及为何创建它。元数据的元素可以包括以下内容:

  • 数据源类型

  • 文件大小

  • 创建日期和时间

  • 更新日期和时间

  • 创建者

  • 数据来源

还有其他一些详细信息也可以被归类为元数据,比如结构元数据。结构元数据描述了数据源的格式,包括列、值的数据类型以及其中包含的行。了解数据结构有助于确定数据源是否能帮助用户获取所需的内容。清楚每个记录在数据集中代表什么,也称为数据的粒度,有助于正确解释和使用数据源。在数据库表中,结构元数据还包括哪些字段是键和索引。这些因素帮助您通过仔细地将不同的表连接在一起来链接有用的表格。

目录

随着各种数据集的增多,数据目录已经变得越来越重要。找到所需的数据源的传统方法需要知道向谁询问。在很大程度上,数据库管理员,负责构建和运行数据环境的人员,是数据的向导,无论是在可用性还是获取方式上。在较小的组织中,这仍然是可能的,但对于跨国组织而言,仅仅找到一个数据库管理员已经是一个巨大的挑战,更别说找到知道如何找到您想要的数据的人了。

数据目录工具已经成为数据平台的重要组成部分,因为它们现在是指导存在哪些数据、数据存储在哪里以及数据意味着什么的向导。大多数数据目录工具将扫描数据库和数据源,识别存在的元数据,并使此信息可搜索。许多数据存储工具具有某种搜索能力,但数据目录具有能够同时在多个数据库和存储解决方案中工作的优势,从而创建更全面的概述。

数据整理往往容易被忽视。了解您的组织使用哪些工具和技术来使数据源更容易共享和理解是推动组织进行数据驱动决策的重要步骤。这有助于人们找到正确的数据来回答他们的问题,而不是花时间寻找某人来指导他们找到特定的数据源以回答每个问题。

数据探索与分析

一旦找到了正确的数据,从这些数据集中开发数据源,并从数据中创造意义,那么您就到达了这个过程中最有价值的部分,即开发分析和见解。形成见解的过程首先涉及数据探索,以理解数据代表什么,数据源的完整程度如何,以及数据可以回答哪些问题。

将数据转化为信息和洞察力是一种不广泛教授的技能,但大多数人都可以培养。鼓励每个人与数据一起工作是本书贯穿始终的一个重要主题。确保这对于主题专家或我们也一直称之为领域专家的人员在你的项目所涉及的领域是至关重要的,这是确保你的组织充分利用其数据资源的关键。使用允许专家无论其数据流利程度如何利用其知识的工具至关重要。

如果你不将数据交给组织中的专家,他们只能使用数据的通用概述。这些整体视图可能只是简单的计数,不太可能挖掘数据的真正价值。毕竟,为了完成一个出色的数据项目,你需要尽可能多地从数据中获取价值。

在探讨如何赋予你的专家主体能力探索你组织的数据集之前,让我们先了解数据探索涉及什么。

什么是数据探索?

数据探索包括对数据源进行分析,了解不仅包含哪些字段,还涵盖了哪些分类值的范围,日期范围以及关键度量的分布情况。这是将数据转化为信息的第一步,然后更重要的是得出洞察。

当首次使用数据源时,对数据集进行分析总是一个好主意。如果没有对数据进行分析,你可能会做出没有根据的假设。数据分析能让你测试你对数据中预期出现的内容与实际情况是否一致。以图 3-2 为例。如果你的业务有季节性,即某个时间段的销售量较高,则图表看起来符合你的预期,每年最后一个季度的订单数量较多。然而,如果你的预期是每个月的订单数量应该相似,你需要更深入地了解为什么每个月的订单数量不同。系统故障、数据管道错误,甚至是数据源意外变更都可能导致数据中的差异,从而得出错误的结论。

数据分析示例

图 3-2. 数据分析(更大的图像版本可在https://oreil.ly/UJpPI查看)

有多种方法可以对数据集进行分析。以下是一些需要考虑的方面:

  • 唯一值的计数

  • 每个字段内变量的记录数

  • 数据点之间的偏差测量

  • 过多数据点的测量(即超过 100%的任何数据)

当您进行这种探索时,您可能选择仅使用诸如平均值、标准偏差和其他统计量之类的摘要统计数据,但通过数据可视化,您更有可能揭示出异常值和趋势等额外洞见。图 3-3 展示了使用箱线图来查看零售商州销售价值分布的情况。

可视化值的差异

图 3-3. 可视化值的差异(更大的版本可在https://oreil.ly/Qb3ZS找到)

人类在图像中有出色的模式识别能力。将数据可视化使人们更容易看到数据中的异常值和趋势。在图 3-3 中的每个地区的异常状态无需告诉你,因为可视化已经清楚地表达出来。在你的组织中,很少有人对标准偏差、p-值或其他摘要统计有深入的了解。通过数据可视化,您可以利用注意前属性更轻松地向没有深入统计理解的人展示数据内部的分布和相关性强度。像箱线图这样的图表并不是大多数受众立即能理解的,但关键特征可以快速标注和分享。

探索和分析之间并没有明显的区别。通过从数据探索开始,您将很快开始创建有益的分析和洞见。

创建分析输出

您的数据项目可能会创建多个有用的数据产品,从需求文档中列出的产品到作为项目有益副产品的产品。

在项目的不同阶段,除了最初的请求者之外的人经常会使用您创建的数据源作为他们自己工作的主要或辅助数据源。在获取或提取数据之前,以及在将其转换为所需形式之前,您会希望将这些数据源以原始形式存储以备将来使用。这意味着您进行的任何转换都不会限制其他人使用数据源的其他部分。记录数据源,使其他人知道可以从中获取什么是未来使用它的关键。有许多记录数据的方法,但正如在“策划数据源”中讨论的那样,专业的数据编目工具正在越来越流行地做到这一点。

可视化数据对数据探索非常有用,可以为您自己的使用形成第一个分析输出。由于可视化是一种有效的数据传递媒介,因此这些视觉探索对直接与他人分享非常有用。如果没有对数据进行可视化,与他人分享您发现的见解将需要更多的时间和精力。可视化图表可以直接与专家(SMEs)分享,以帮助他们将他们的经验添加到数据中,形成更丰富的见解。

在运行数据项目时,传统上形成的大部分基本报告确实应该只是第一步。在本书中,我们强调了学习和迭代的好处。创建基本报告是为了报告标准关键绩效指标(KPIs)。如果数据来自更新的来源,则应定期安排刷新这些报告。微软的 SSRS、IBM 的 Cognos 和 SAP BusinessObjects 等报告工具首先提供了超出 Excel 所提供的自动报告的功能。这些工具通常由集中的 IT 团队拥有和操作,这限制了一些领域专业知识的应用。

开发数据产品并仅专注于项目的技术方面很容易。忽视组织问题或您试图用数据项目解决的挑战是一些项目可能偏离轨道的地方。应早期引入领域专家参与分析过程,以确保他们的知识和经验与数据一起使用。将 SMEs 纳入分析过程可以大大增加解决问题的项目初衷的可能性。创建可以使用简单工具进行分析的数据源,即无需大量编码或培训,意味着领域专家可以与数据专家一起探索数据源。许多商业智能工具已经开发成为更简单易用,而不会降低可以创建的输出质量。

即使具有领域专业知识,分析师也应参与形成分析输出,而不仅仅把一切交给 SMEs。分析师将有经验向数据提出正确的问题,以确保尽可能从中提取出最大的价值。如果您是第一次开发分析文化,有一些基本的地方可以开始开发分析输出。询问数据集中分类字段的谁、什么、何时、何地和为什么将有助于指导分析。以下是您可以使用每个方面来探索数据源以促进强大分析输出的方法:

谁?

这可以查看内部个体以及客户和客户。找到有关他们最多数据记录的个体可以指示您应该重点分析的地方。帕累托的 80/20 法则在这种情况下非常适用,即假设 80%的收益来自于 20%的客户。

什么?

此分析角度可以查看数据涵盖的产品、服务或主题。探索组织产品套件中新选项与现有主流产品的对比,是许多可以探索的角度之一。

何时?

如果您有任何时间数据字段,可以查看随时间变化的度量方式。对于任何项目交付,了解项目的影响需要考虑时间因素。

在哪里?

现在更多的商业智能工具在数据源中提供经度和纬度的映射能力。或者,一些工具提供内部数据库,以将地名映射到经度和纬度,或者在数据源本身不存在时,映射到地理区域的轮廓。

为什么?

这是这些问题中最难回答的。短语“相关不等于因果”在分析师行话中很常见¹。仅凭其数据字段很少完全捕捉到某些事件的原因。在这里,领域专业知识和经验有助于定位数据。使用数据来支持或挑战领域专家所作假设,是大多数分析师通过数据真正理解“为什么”的最接近方式。

尽管商业智能工具为组织中的许多人提供了生产自己分析的可访问方式,并有助于形成对情况的理解,但还有其他支持强大分析的方法可用。代码中心化解决方案正变得越来越受欢迎。然而,无论是使用 R 和 Python 包还是需要一些编码的 BI 工具,所需的编码能力水平限制了谁能使用这些解决方案。

参与编码的工具好处在于它们提供更高的控制水平和提供按需解决方案的可能性。这可能导致数据可视化的增加复杂性,使用数据科学模型,或者比企业级商业智能工具更便宜的软件成本。

如果您的数据项目提供涉及 AI 或机器学习组件的数据产品,那么很可能您将更依赖于中央 IT 资源,而不是可以从组织中的个体域中运行的自助报告解决方案。

与他人分享

当您完成项目的产出时,您将有一个最终的考虑因素:谁可以使用它们。受众或数据产品的用户将决定您可以创建什么以及所需的维护工作和可能的后续工作量。

在规划和构建过程中务必考虑您的受众。如果没有考虑受众,那么您很可能无法创建最终用户实际需要的产品。接下来,我们将讨论数据产品的关键考虑因素,这些产品将在您的组织内部使用,或者由私人组织外部使用,或者向公众分享。

内部部门分享

在组织内部分享数据产品通常是数据项目的主要目标。为自己的团队或他人开发数据源,生成报告或进行预测通常意味着您不必对产品的使用方式设置太多限制。

创建数据产品之后,您能够鼓励预期的最终用户使用产品的程度越大,您可能创造的收益就越大。正如我先前所述,不是每个人都具有高水平的数据流畅性;因此,他们可能需要支持才能有效地利用这些产品。您可以采用各种类型的支持来确保产品按预期使用:

书面解释

提供逐步说明如何使用您的产品对于指导最终用户非常重要。PDF 指南或您公司内部的网页可用于提供文本描述以及关键过程部分的截图。这些文档制作成本低廉,易于分发。PDF 文件易于重新共享,因此如果截图中含有任何敏感数据,必须格外小心。

视频演示

虽然制作成本更高且耗时,但视频可以更详细地说明如何使用产品。除非视频非常短,视频文件可能太大而无法通过电子邮件共享,因此需要将其托管在某个地方。如果产品包含敏感信息,视频还需要存放在安全的位置。

培训

最昂贵的选项可能也会产生最大的影响。举行关于如何使用产品的培训会话可以帮助用户进行一般用例的指导,但也将帮助他们按照自己的偏好使用产品。由于在同一时间让所有人(无论是面对面还是在线)聚在一起的挑战,安排培训会议可能会很困难。您还需要确保培训师足够了解以便能够处理问题。

数据产品的广泛分发,需要提供支持材料以确保其按照预期使用。如果数据产品供自己的团队使用,那么说服团队使用它会更容易。一旦产品与他人共享,您需要能够激励他们同样使用产品。在现代组织中,由于人们的注意力竞争激烈,清楚产品的好处是具有挑战性的。鼓励领导者分享产品的好处或提出需要使用产品的问题,可以增加产品被采用的可能性。

有时,您需要限制其他团队和个人对项目产出的访问。有许多情况需要限制访问,以下是需要牢记的两个重要考虑因素:

主题内容

人力资源(HR)团队可以访问大量敏感信息,因此必须严格保护其数据来源。薪酬水平、关系状态和绩效记录都属于需要限制访问的敏感信息。此外,在上市公司,财务团队通常可以访问敏感数据。为了防止内幕交易和其他非法市场行为,需要限制这些信息的访问。

监管限制

不同的行业面临不同的监管限制。例如,投资银行受到限制,不能接收来自其零售银行部门的数据,以防止基于受限信息(如银行客户的消费模式)进行交易。在欧洲,投资银行和零售银行之间的围栏设置也旨在限制不良交易的影响。这些限制扩展到组织各部门之间可以共享哪些数据平台及其上托管的数据产品。

许多数据和分析平台允许基于登录进行访问控制。确定谁应该访问项目产品是一个关键决策。可以对分析输出或基础数据源施加限制。如果分析产品已经经过精心构建,以避免暴露敏感信息,则必须注意不要暴露可能仍存在于基础数据集中的详细信息。

与合作伙伴的外部共享

与外部方面分享数据可以带来巨大的好处。当数据在外部共享时,潜在的财政价值显著增加,因为您的公司不仅可以从销售数据产品中获益,而且商业伙伴关系也可以得到加强,并且可以创建共享的提议。

在外部共享数据产品中的主要挑战是真正理解所需的内容。如果外部方为自己开发最终产品,他们不太可能准确地披露他们试图实现的目标。如果您组织之间的关系不够紧密,他们可能会担心您会试图首先将输出推向市场。这会使得难以生产专注于他们需求的完美产品。

如果最终产品是共享的提案,情况就不一样了。然后面临的挑战是如何共同创新,首先形成概念。通过我的(卡尔的)职业生涯,我们在已知可能存在数据集的基础上探索了我的组织与其他组织之间的潜在合作关系,这使得为最终解决方案创建正确的数据产品成为一个更长的过程;事实上,这成为了另一个独立的项目。

当将数据产品与组织外部共享时,您所考虑的所有情况在与您的组织之外的共享时会变得更加困难。您将需要仔细思考许多“如果”场景,以确保向正确的人分享正确的信息。如果您在这一点上搞砸了,即使您本意是正确的,也可能导致数据被滥用,造成严重后果。即使您有意做正确的事情,如果轻率忽视个人和组织数据的保护职责,可能会导致罚款、声誉受损和失业。

为了避免任何负面后果,您需要确保拥有允许数据离开组织的权利。您将经常被要求签署详尽的条款和条件协议,以定义您的数据如何使用和分享。如果您计划与第三方分享数据产品,您需要追溯文件中的许可以确保这是可能的。您可能会有法律团队支持这类工作,但仍需要小心谨慎地进行。

如果您的数据产品与外部方共享,您需要确保没有分享过多的信息。您需要检查数据或输出,看看是否包含了关于您组织的商业敏感信息。这可能涉及到在可视化输出中分享的明确见解,或者隐藏在数据集中的构成产品的信息。

尽管存在这些挑战,外部共享数据的好处是巨大的。这是大多数组织远未充分利用的收入来源。与其他组织分享打开了比仅将数据保留在内部获得的更大的机会和价值,但是当与公众分享时,机会更大。

与公众分享外部信息

与公众分享数据产品可以为多个原因提供巨大的机会:

收入机会

通过向人们收费订阅模型,让他们了解他们对产品或服务的使用洞察,已成为量化自我应用(如健身活动应用 Strava)频繁使用的模式。

使用产品的理由

Beeline,一个在第一章提到的骑行导航设备,为其用户提供数据洞察,鼓励更多的使用。跟踪速度、距离和海拔高度有助于鼓励用户继续使用 Beeline 设备和应用程序。此外,在充分匿名化的情况下,其他用户也可以为数据做出贡献,比如在这种情况下,城市规划者或商店所有者。

使您的客户更加聪明

银行应该随着他们的客户变得更加富裕而变得更富裕。通过让客户通过数据洞察了解他们的消费习惯,他们可能会找到节省金钱的机会。

当向公众开放数据产品时,您需要更加小心地确定要分享的数据和粒度水平。与公众分享数据的最大缺点是,您可能因过度分享您能够从您的服务使用中形成的信息而失去他们的信任。确保受试者知道您在谨慎和私密地使用他们的数据应该是任何与公众分享的数据产品的核心。如果您打破人们对您如何使用他们的数据的期望而破坏了他们的信任,您将发现您的组织会收到投诉和负面媒体报道,并可能失去客户。

如果您发现公共数据产品的使用价值,那么您将面临的下一个挑战是让公众使用该产品。在繁忙的世界中争取人们的注意力并不容易。由于您花费在产品开发上的时间,您很有可能比产品可能帮助的所有潜在用户更能感知到产品的价值。为了吸引人们的注意,您可能会诱惑使用引人注目的图表和图形,然而这可能会产生与产品使用意图相反的效果。然而,通过使用更加定制化和潜在难以解读的图表,您的受众可能不太可能能够解读您与他们分享的内容。数据流畅性是一个挑战,不仅在组织内部,而且在整个社会中都是如此。您可能需要简化图表和前端设计,以使产品更易于访问。

如果您向公众分享产品,它不一定要面向大众市场。数据的内容可能自然地聚焦于一小群人可以获益的好处,但是当将数据公开提供时,您仍需要去除许多复杂性,以使这些用户能够从中受益。

总结

数据项目可以有许多不同的输入,导致无限多的潜在输出。这意味着没有两个数据项目会完全相同,这就造成了固有的管理难题。从一开始,识别最佳的数据来源、获取数据并将其引入您的组织将会带来挑战。一旦您拥有了数据,建立正确的存储设置、建立目录以及生产数据产品都是艰巨的任务,但是一旦做对了,您就可以为组织开发出大量价值。最后一个考虑因素是您将与谁分享项目的产物。

尽管数据项目在技术上具有挑战性,但有效交付它们已经成为任何成功组织的关键要素。

¹ 如果您以前没有探索过这个概念,Tyler Vigen 的“无关相关”信息图是为什么相关性并不意味着因果关系的轻松演示。

第四章:构建您的分析平台

无论您打算构建一个简单的仪表板来突出基本的公司关键业绩指标,还是一个实时预测模型来推荐产品给客户,您都希望从输出开始向后定义数据架构、设计、工具和人员,以便利用这些来实现目标。本章将从工具、数据需求及相关成本的当前情况概述开始。最后,将介绍一些最佳实践,包括敏捷项目管理和以质量和利益相关者信任为核心的构建方法。

技术选择

人工智能炒作经历了几轮繁荣与萧条。然而,自 2010 年以来,我们看到对几乎所有行业和公司注入更多分析和数据智能的积极稳定推动。为了保持相关性和竞争力,领导者们面临着学习和将数据及其系统融入业务决策和产品开发流程的压力。虽然一些公司由于缺乏基础设施或数据专业知识,或者对变革的抵制而落后,但大多数公司已经开始利用数据来支持业务决策,其他一些公司则全力以赴创建数据驱动的产品。行业、公司、产品和领导力都影响着它们的数据采纳和成熟阶段,以及数据被如何利用的方式。

在第一章中,我们介绍了数据驱动决策的概念。将这一概念应用于公司,这意味着一家正在利用数据输入来帮助支持或指导决策过程,但最终仍依赖于人类判断来做出最终决策或战略的公司。这可以通过利用数据来指导库存管理、定价策略、市场营销和产品改进来实现。这种行为在传统公司中很常见(例如金融、医疗保健、娱乐和零售业),这些公司历来依赖于人类经验来指导决策过程。随着数据整合在获取或保持竞争优势中的重要性日益增强,这些公司已经开始积极融入更多数据驱动的决策。数据驱动的决策主要依赖于历史观点、描述性统计和关键绩效指标监控的仪表板,但预测分析也可以被利用并帮助决策。

在适用的情况下,公司可以通过利用数据作为决策的主要输入来发展数据驱动的决策制定。这种产品在我们现在与之互动的几乎每个应用程序或技术中都有,从 Netflix、Spotify 和 YouTube 提供的个性化“为您推荐”的体验,到 Google Maps、Waze 和 Apple Maps 提供的推荐路线和预测驾驶时间,再到 Tesla 的自动驾驶功能。这个列表似乎无法穷尽我们对建立在大数据和自动化 ML 系统基础上的产品和服务的依赖。这些公司在不断将数据置于其产品开发流程的中心方面做得非常出色。然而,即使在看似无需人工干预的输入输出系统中,始终存在对人类监控的需求。正如 ChatGPT 和 Facebook 等产品所展示的那样,始终需要人类监控安全性和质量保证角度。

公司可以同时具备数据驱动和数据信息决策的方面。像 Netflix 这样的公司在其应用程序上形成个性化体验时是数据驱动的,在其财务和人力资源部门做决策时是数据信息的。由于一些公司体现了这两种决策类型,这扩展了它们使用的数据产品的集合以及它们需要开发的工具、存储解决方案和流程的复杂性。

一切始于一个想法!识别出一个产品、一个服务或现有市场的空白。一旦领导者们决定建造“什么”,他们便转而考虑“如何”。它将如何建造?成功将如何衡量?在任何公司形成的初期,无论是 100 年前还是一年前,都已经做出了一系列关键的业务决策来使公司运转起来。随后,领导者们急于建立并证明自己的相关性,对分析平台基础设施的深思熟虑时间被缩短,通常集中于短期需求,并依赖现有的专业知识。组织通常会努力在脆弱的基础设施上建立概念验证,直到价值得到证明。这留下了很大的改进空间,通常公司会随着不同成熟阶段的经历而演进其观点和工具集,这些阶段决定了它们如何轻松地转向和适应技术景观的变化。

无论您目前在此过程中处于哪个阶段,无论是匆忙通过早期的建立决策过程,还是深思熟虑地思考新技术系统,以帮助支持您公司的下一阶段和发展,本章将为您提供正确的工具和考虑因素,以便从一开始就奠定良好的基础。这将涉及围绕分析工具、数据存储和数据处理与流程进行决策。

分析工具

你对数据产品的方法将影响你的技术栈是什么样子(即你决定依赖哪些工具来生成你将要产生的数据输出)。根据你在组织内打算建立的数据产品(基本分析、仪表板、前瞻性视图等),你将面临许多具有不同数据需求和需求的工具选项。你选择的具体工具将取决于你拥有的数据类型、想要回答的问题,以及你的技术技能和资源。让我们来看看主要的工具类型,并突出一些你可以考虑的选项:

电子表格软件

驱动几乎所有业务的第一个和最常见的软件是电子表格。这种软件功能强大,可以用来存储、分析、可视化甚至预测数据。Excel(Microsoft)和 Google Sheets(G-suite)在这一领域中占据主导地位,它们的使用量也在不断增长。最新的使用统计显示,公司对 Excel 的依赖约为 63%。(参见 1)

通常情况下,电子表格被用作个人和小团队的早期解决方案。根据我的(Sarah 的)经验,我甚至看到一些较大的公司也依赖电子表格作为主要的数据存储系统!一旦数据变得过大,并且需要更复杂的分析时,这种做法就显得有限了。不过,第二章中涵盖的大部分运营和临时报告都可以通过电子表格软件来处理。

低代码/无代码数据分析

当你的数据量或复杂性增加时,运行重复的数据准备、清理和报告任务可能会非常耗时,你可能想转向其他软件选项。低代码或无代码数据分析平台如 KNIME、RapidMiner 和 Alteryx 都提供拖放界面,帮助构建数据准备工作流、分析和仪表板。每个工具都提供不同的功能集,你需要探索每个工具,找到最适合你需求的那一个。

将数据准备、分析和可视化转移到这些工具中的一个将帮助你“工作更聪明,而不是更辛苦”,通过简化流程,赋予非技术用户进行更复杂分析的能力。除了帮助自动化流程外,这些工具的附加功能还包括与同事协作、版本控制和数据质量监控。电子表格容易出现人为错误,并且缺乏必要的数据治理控制。这些工具有助于规避这些问题。

商业智能软件

下一组工具是商业智能工具,如 Tableau、Looker、Power BI、Qlik 或 Incorta,可用于几乎实时地可视化和分析数据,创建交互式仪表板,并生成用于决策的报告。这些工具的功能会有所不同,但其中许多都包含低代码或无代码界面,带有拖放和预构建组件,使其对没有广泛编程知识的用户也能够访问。此外,这些软件提供了丰富的协作、共享和分发选项。

这类商业智能工具的一个主要缺点是,为了准备数据进行可视化,通常需要构建这些工具之外的数据管道。像 Tableau 这样的工具开发了类似于 Tableau Prep 的预处理工具,允许高级用户在类似而熟悉的工具中拥有自己的管道工作流程。然而,当这些预处理工具不可用时,可能需要数据工程资源来帮助构建工作流程并为您的用例提供数据表。

统计/机器学习(ML)软件

对于大型和复杂数据集,或者如果您需要比传统商业智能工具提供的更灵活和定制化的功能,可以利用像 Python、R 或 SAS 这样的高级统计软件。用于可视化的库,如 Matplotlib、seaborn 和 ggplot,可以生成出版质量的图表,而像 scikit-learn 或 Carat 这样的机器学习库则可用于开发预测模型、数据分类或自动化决策过程。

Python 和 R 由于强大的库的可用性、大量已建立的软件来帮助管理、测试、创建、开发和部署机器学习解决方案,以及它们的开源性而变得越来越受欢迎。开源指的是软件的开放和通常免费的性质,源代码公开可用,通常任何人都可以自由使用,无需支付许可费用。除了可以免费使用外,这些工具通过众包得到改进,这意味着任何人都可以贡献新功能、修复错误和优化性能。

采用统计和机器学习软件存在几个入门障碍,包括学习编程语言、理解统计概念以及熟悉设置开发环境。通过开源软件,由于社区提供的所有资源,这些障碍可能会稍低一些,但仍需时间和精力来学习。幸运的是,AutoML工具大大简化了机器学习的复杂性,使非专家可以更轻松地构建和部署模型。

根据你的需求,你可能会发现自己使用了刚刚介绍的一个或多个工具。大多数组织,无论规模大小,都会依赖电子表格和商业智能工具来在公司内共享数据。如果你开始使用统计或机器学习软件,你可能会发现自己将输出导入电子表格或商业智能工具,以便公司更广泛地使用。尽管阅读代码丰富的 Jupyter Notebook 对某些人可能有效,但对更广泛的观众来说可能并不适用。

特别是在具有成熟流程和多人致力于相似目标的大公司中,可能会过度依赖电子表格在业务的数据驱动部分。然而,我们开始逐渐看到更多技术技能渗入这些领域,这可能会改善流程和产出。这在很大程度上是由于数据和工具在组织内的民主化以及对数据素养的普遍强调。这个过程涉及简化和扩展访问和分析数据的手段。

当你试图理性化你现有的分析堆栈时,继续关注正在不断变化和发展的格局是非常重要的。我们看到技术工具的持续集成,例如 Google Sheets 与 BigQuery 以及 ChatGPT 的集成,以及教授Python for Excel的书籍。

数据存储与管理

当你继续专注于你的数据产品及其所需的输入以实现期望的输出时,你需要问自己需要多少数据以及将数据存储在何处。

“实时快照”用于实时报告和监控每周和每天的变化,并帮助回答这些问题:每周或每天收入如何变化?昨天我们最大的客户是谁?哪种产品上周产生了最高的收入?实时报告非常适合评估业务健康状况或以易于阅读和理解的格式(通常是良好格式化的电子表格或仪表板)快速查看 KPI。这使得企业能够对 KPI 出现的任何意外行为做出适当的反应(无论是好是坏)。

“实时”这个词给人的印象是数据每秒钟更新一次(甚至更频繁),但更现实的情况是,在数据创建、存储以及用于传输的数据管道之间存在延迟。根据你现有的 ETL 流程设置和管道的复杂性,这可能是一小时或一天,甚至更长的延迟。无论如何,你可能认为最新的视图可能是“实时”的。

历史表格将时间视角延长(或时间框架)至一年以上,使我们能够比较长期趋势,比如评估年度变化(YoY)、季节性趋势或推动预测建模。今天指标的变化可能可以解释为“正常”的波动,但你需要历史数据来解释这一点。根据您对指标、关键绩效指标(KPI)及团队或公司文化的熟悉程度,您可能会看到很多反应性行为。

一个例子是广告主在斋月期间的支出,如图 4-1 节所示。在中东和北非(MENA 地区),广告主将在食品配送服务上支出更多,为了做好开斋节的准备。这意味着在斋月前期和期间支出水平将上升。然而,开斋节结束标志着斋月支出的结束,通常会看到大幅的收入下降(类似于西方和中国文化中的元旦后的收入悬崖)。了解相关的地区行为,并拥有历史数据来设定和确认预期,甚至预测当前年份的收入下降,可以是指导业务的有用方式,可以帮助业务从反应性的“火灾演练”心态转变为更为主动的“如何抵消收入下降”的心态。

因此,我们回到了“存储多少数据以及在哪里存储”的问题。答案将取决于需求和成本。多年来,数据存储选项和成本已经发生了变化,从软盘到云存储,这使得能够更可靠、更经济高效地存储更多数据成为可能。这使得我们可以存储的数据量和种类更加广泛,包括更多用例和业务需求,有时会导致“暂时跟踪这个,看看以后是否需要”的心态。因此,通常会出现比业务需求所需更多的数据的情况。然而,即使这可能是一种合理的方法,在最终决定数据应该存储在何处以及在何种存储级别之前,了解所有利益相关者的需求是非常重要的,以确保没有任何“必须具备的”被忽略。了解哪些指标是必要的,由哪些团队需要,以及在何种历史时间范围内,对于做出正确的存储决策至关重要。预测未来收入的团队将需要多年的收入数据来识别和理解趋势、季节模式、假日依赖等。如果无法轻松访问历史数据,财务和收入战略团队在其预测能力上将受到限制。

短期与长期时间视角

图 4-1. 短期与长期时间视角

在权衡成本和可访问性之间的权衡时,您可能会考虑三种主要类型的存储:热、温和冷(参见图 4-2)。在进行一些尽职调查并收集要求后,您可以根据需要存储哪些数据以及在哪个级别存储数据来进行选择。

存储金字塔

图 4-2. 存储金字塔(来源于安妮·赫雷里亚的一张图片

热存储

为了管理近实时报告和数据的实时快照,您需要将这些数据存储在所谓的热存储中。这种存储选项旨在存储经常访问的数据,并提供最高级别的性能。通常这也比其他存储选项更昂贵。

温存储

对于不经常需要的数据,温存储是可以处理需要随时可用的数据的下一个可能选项。这种存储方式比热存储更便宜,但仍然提供相对快速的访问时间。

冷存储

冷存储是为了那些很少访问但需要长时间存储的数据而设计的。这种存储方式成本最低,但访问时间最慢。这可能是出于合规性原因而归档的数据。

数据处理和管道

为了获得所需的输出,您需要确保输入数据在您需要的方式时间速率下可用。

如果您正在进行临时(或一次性)分析,通常可以使用数据源所有者提供的数据快照。如果您无法即时访问某些类型的数据或数据集,通常可以请求并使用一次性数据拉取来满足需求。

另外,临时数据拉取在构建概念验证方面非常有帮助。当您试图从新分析、方法或流程中建立价值时,您需要的数据输入可能尚不存在于规模化格式中。利用数据快照是进行首次尝试、从利益相关者获取反馈、迭代并完善输出的一个好方法。构建概念验证是在规模化建设数据产品周期中的重要一环,并可用于阐明为何要投资于第三方供应商或在构建内部管道用于您的用例。这将使您的一次性任务变为持续需求,并提供几种如何继续进行的选项。

如果你的团队有专门的 BI 或工程支持,你可以与他们密切合作,以获得支持使用案例的端到端流程。或者,你可以利用“分析工具”中提到的许多自助工具来帮助自动化工作流程。在没有 IT 支持或投资于自助数据分析工具的情况下,你的团队成员可能会找到其他方法来构建他们的管道,如利用 Python、R、cron 作业等开源工具。在这些情况下,你可能会发现充满创造力的团队成员正在建立他们自己的管道。一般来说,孤立建设既有其利弊。一方面,这为团队提供了一种快速构建新流程且不依赖其他团队的方法。然而,当团队的技能有限且无法扩展到支持生产级代码和结构时,这可能会带来问题,并需要持续的监督以确保稳定性。这意味着该流程将继续存在于次优状态中。

那些优化团队设置以支持正确数据需求的公司,将有一个额外的流程层,将帮助他们有效运行:数据治理。数据治理涵盖了公司内确保数据质量、完整性和可用性的所有实践、流程、政策和指南。

一旦你从你的数据产品中证明了价值,你将需要投入时间和资源来建立规模化和生产级别的后端数据管道,以确保你能够持续支持你创建的数据产品。你需要确定像是你所需的维度和度量、所需的粒度级别,以及数据刷新的频率。

如何选择分析架构

在你管理预算限制、团队技能构成、不同的领导风格以及在团队或组织内部进行变革所需时间的挑战下,找到适合你分析架构可能会很具有挑战性。在这一部分,我们将深入探讨影响这些决策的考虑因素。

评估总拥有成本

他们说“生活中没有免费的午餐”,这也适用于你的数据产品(或一套数据产品)!要将你的愿景变为现实,你需要结合人、工具和流程。每个组成部分都有与之相关的成本,你需要将其考虑在总拥有成本(TCO)的一部分。TCO 代表了产品在其生命周期内的成本,从部署到废弃,以及其中的一切。在有许多开源工具可供利用的世界中,利用它们可以帮助减少一些成本,但仍需考虑许多其他因素:

人员

首先要考虑的是人员。你的团队是否拥有完成和构建你所设定的目标所需的正确技能?你需要考虑到分析技能、建模技能、工程能力、创造力、产品管理等。这些成本将包括数据科学家、数据工程师、业务分析师和其他团队成员的工资。在某些情况下,你可能需要聘请顾问或引入合作伙伴来帮助评估和确定最佳执行计划。额外的成本包括员工福利、招聘成本、培训团队成员使用新工具和技术的成本,以及持续培训以保持他们的技能更新。

工具

第二个考虑因素涉及数据、工具和技术。首先让我们谈谈数据——这包括获取和存储数据的成本,以及使用第三方数据源可能涉及的任何费用。明确你需要的数据以及时间范围,可以帮助降低你的总成本。这包括第三方数据及其增强你的第一方数据所需的需求和成本。第三方数据和许可费用可能非常昂贵,因此需仔细考虑哪些数据子集是满足你所列用例需求的必要条件。你能否跨公司合并用例?你能否预见到所有需求并创建一个集中的数据源?随着时间的推移,数据量将继续增加,因此你需要继续重新评估需求范围,并相应调整数据存储选项。哪些数据可以从热存储移至温存储或从温存储移至冷存储?

接下来,你需要考虑所需的工具或技术,这可能包括用于分析软件工具、数据治理工具以及任何硬件或云服务的许可费用。这些工具成本会有所不同,可能需要根据用户数量(例如 Tableau)或总使用量(例如 Amazon Redshift)来计算。你是否已经准备好了合适的工具来完成你所设定的目标?很多公司会默认选择某种工具,你需要在这个过程中进行评估。它是否适合你的需求?你的团队是否需要另一种工具?如果需要,该工具的成本如何,与现有合同相比如何?

有时候你可能会决定现有的工具不再足够,需要迁移到另一个工具。一般来说,迁移过程可能会非常漫长,团队需要时间来处理这些变化,接受培训以理解新工具,安排迁移时间,并重新建立流程和报告到新工具中。通常会经历五个阶段的悲伤循环,从否认到愤怒再到讨价还价,最终接受。此外,可能还涉及更改合同的成本,这本身可能导致比原始合同更高的费用。现有合同通常存在多年,并且可能享有传统价格的优势,使其难以击败。

如果没有迁移过程或者你已经完成了迁移,那么接下来就是维护和更新你正在使用的技术和工具的成本,以及任何持续支持的成本。

流程

最后的考虑是流程成本,因为在执行糟糕的流程时,你的资源会有隐含的成本。花时间评估流程可能存在的问题并进行改进,很可能能增加你有限资源的产出价值。流程改进可以包括培训团队如何编写更具成本效益的代码,以及开发代码审查流程。另一个例子可能是鼓励团队之间更紧密的协作,并开发沟通和知识分享论坛以提高产出。这也可能意味着在团队在项目或数据工作流中如何相互交流时建立角色和责任。列举的例子不胜枚举,但我希望这能让你了解如何利用流程改进来降低整体成本。

业务变化的速度

到这一步,你已经成功评估了工具、成本以及数据产品的一般需求范围,你可能会开始问自己……接下来是什么?嗯,不幸的是,从这里开始的旅程只会变得更加艰难,所以做好准备吧!现在是把技术放在一边,看看你能否很好地依靠你的人际关系,并与人们联系并激励他们进行改变的时候了。第一步将需要领导团队和高管的支持,这对任何成功的数据项目至关重要。你需要准备好回答这样的问题:为什么要变更?为什么现在?

您的答案应考虑您的观众的视角。他们是对数据技术不太熟悉、可能难以理解正在进行的变更带来的影响或者可能更抗拒变革的领导者吗?相反,他们是更懂数据的领导者,可能更愿意接受新技术和方法,但同时可能对这些变更带来的好处有更高的期望吗?无论如何,您都需要为您的产品、您的建议和您自己准备合适的推介。记住,大笔投资不只是给予好主意,而是给予优秀领导者,所以不要忘记您在推动这一切变成现实中的角色的重要性。

您可能会陷入周、月甚至年的辩论中,因为获得领导共识、批准预算、分配资源并进入执行阶段需要时间。通过这个阶段的时间很大程度上取决于请求变更的范围以及组织或团队的数据文化。您是否正在请求额外的人手?摄取新的数据源?平台转移?向云端迁移?重建数据管道和数据存储?并非所有领导者都充分了解数据机会,并且他们需要更多时间和重复来完全支持您的请求,即使那些完全支持的人也可能在您请求时没有预算来批准事情。在这个过程的这一部分要有耐心,但也不要灰心和放弃!

现在,假设您已经通过了批准过程,并希望进入执行阶段——让我们谈谈如何一直坚持到您承诺的结束。许多因素将影响您的推进速度,包括您的组织规模、现有数据基础设施的复杂性、正在进行的变更范围以及涉及的领导者和员工的技术专业水平。需要牢记的一些主要因素包括:

团队规模

影响变革速度的第一个考虑因素是公司(或团队)的规模。在较小的团队中,更改数据架构可能不那么复杂,但仍需要大量的努力,并且会面临独特的挑战。较小的组织可能内部技术专业性较低,并面临资源限制,如有限的预算或缺乏专门的 IT 人员。这可能使得计划和有效执行变得困难。在这里,您的挑战是找到在有限资源下有效的方法。有时这意味着尽可能依赖顾问;其他时候,您需要更慢地前进,另一个选择可能是优先考虑将团队成员的项目放置后焦点放在迁移上。

在更大规模、数据基础设施更为复杂的企业中,可能存在多个需要集成或迁移的遗留系统,而在这些系统之间进行数据流映射的过程可能耗时且容易出错。迁移的努力将涉及高度协调,可能需要跨多人和多个团队。在处理这一过程时,你可能会发现需要聘请具备专业技术技能的新人员来管理新架构,这将增加时间要求和复杂性。有时,转变团队会感觉像是在汹涌的水域中重定航向,你需要做好随时调整的准备。

范围和复杂性

团队可以引入各种变更,包括(但不限于)存储迁移、应用迁移、业务流程迁移和数据迁移。不论提议引入的是一个还是多个这些变更,你都需要深思熟虑现有基础设施的复杂性。你是否已经仔细分析和理解了现有数据系统,包括它们的结构、内容和依赖关系?通常来说,对一套工具或基础设施的依赖时间越长,复杂性越高,你需要花更多时间仔细规划,以管理潜在的故障点或数据丢失。迁移后,你需要抽出时间进行验证,并可能停用旧流程或工具。你的变更范围应该经过深思熟虑和详细概述,包括任何变更和期望,以及你预计从一个系统移动到另一个系统的团队的时间表。

商业领导

除了最初的开始构建的签署外,你需要在整个迁移和采纳阶段得到领导支持。在过程中,你可能会遇到各种挑战和障碍,需要领导层的支持来帮助排除这些障碍,因此务必提前请求支持。领导层的调整和沟通将有助于在你开始执行迁移截止日期时使生活更轻松。

总体而言,涉及迁移和变更分析架构的挑战可能会很大,需要仔细规划、执行和持续管理,以确保顺利过渡。不要忘记,所有这些变更的背后都是人类,研究显示,习惯的形成和打破可能需要 18 至 254 天不等。因此,请保持同所有受变更影响的团队保持密切沟通,确保事务顺利和成功。过度沟通可以通过提供设置目标的背景(我们为什么要这样做)和时间表(我们何时进行这样做)来帮助团队理解并与您一同踏上这段旅程。

如何使用?

在实施阶段开始之前,你将不得不决定如何处理迁移:大爆炸 还是 渐进式。大爆炸迁移涉及将现有系统中的所有数据一次性地迁移到新系统中。在小规模情况下,这是一个干净而有效的方法。然而,对于更大、更复杂的系统来说,这可能存在风险,如果出现问题,可能会导致显著的停机时间、数据丢失或损坏。理论上,如果一切顺利并且风险得到正确缓解,这种方法的成本应该比渐进式方法低。

或者,你可以采取更慢的方式,选择渐进式方法。这将涉及在较长时间内分阶段地移动数据或流程。这种方法可能不太具有破坏性和风险性,因为它提供了更多时间来测试和验证新系统,然后再进行切换。渐进式方法的主要缺点是在较长时间内维护两个系统,以确保适当的过渡。这需要更多的人力投入,并且最终维护成本将更高。

内部团队与外部支持

最后考虑的一个方面,同时也是每个组件的一部分,是人员将是你依靠将你的愿景变为现实的人?会是现有团队成员,还是你将寻求雇佣合同工?通过分析成本和时间之间的权衡,你可以帮助自己找到答案。

如果你有时间限制,需要快速行动,并且团队缺乏所需的技能,你可能需要考虑引入临时承包商或顾问来帮助推动事情。这里的权衡是成本,因为顾问费用昂贵。或者,你可以通过投资学习和发展培训来提升现有团队的水平。这个过程会花费更长的时间,并涉及不同类型的成本——学习过程中可能产生的错误成本。每个项目的人员方面都是微妙的,我们将在第五章中详细讨论这一点。

部署

部署阶段将是你开始构建的地方,你的愿景将作为端到端用户的切实输出而实现。这可能是最激动人心的部分,因为你的工作影响可以在这个阶段开始真正被感受到。如果你准备好了,有几件事情需要记住;让我们一起来详细了解一下。

敏捷开发

项目 项目管理的黄金标准曾经是瀑布模型,这涉及到大量的前期需求收集(也称为规格),几个月的独立构建,几乎不对原始规格进行任何修改,以及在产品完全构建完成后才向利益相关者发布。这意味着直到产品完全完成之前,几乎没有提供反馈,几乎没有灵活性和迭代的空间。在这个时候,利益相关者可能已经对他们想要的东西变得更加聪明,并且经常对产品的反馈也会非常详细。幸运的是,正如技术在不断变化,围绕它的方法论和流程也在变化。这就是敏捷开发的出现。

这可能不是你第一次听说敏捷方法论,但到底是什么,如何帮助你呢?好吧,敏捷方法论关注于灵活、迭代和以客户为中心的方法。在开始任何项目之前,你将经历类似于从利益相关者那里收集需求的过程,但这里的区别在于你将使用MoSCoW优先级排序,通过一系列问题帮助你确定必须要有的、应该要有的、可以要有的和不会要有的特性和请求。通过这个过程,你可以开始将预期的输出简化为只包含必须要有的版本,也就是最小可行产品(MVP)。从 MVP 开始将有助于缩短构建时间、获取反馈和迭代的时间。采用敏捷方法进行产品开发对于确保你的输出成功至关重要。

假设你在一家社交媒体公司工作,被要求开发一个基准工具,以帮助识别加速广告支出的行业。你被要求开发一个将多个数据源(包括第一方和第三方数据)连接在一起的输出,提供内部视图以及完整的市场视图。为了开发一个最小可行产品(MVP),你可能建议仅集中在第一方数据上,开发良好的内部基准。这可以满足利益相关者的需求,直到你能够加入第三方数据。加入第三方数据将涉及映射数据集,进行质量保证以确保准确性,并根据分析的关键绩效指标(KPIs)验证其影响。在大多数使用第三方数据进行描述性分析的情况下,有一个明确的增值路径,因此这非常值得时间投资。

计划部署

任何良好的部署计划的第一步是理解您所做变更的所有下游影响。在范围界定阶段,当您与相关团队联系时,大部分工作已经完成,但始终保持与最终用户的密切沟通非常重要,因为需求可能随时间而变化。完成这一步骤后,请务必与他们分享时间表、里程碑、应急计划和沟通协议,以便他们了解预期情况及其时间安排。确保所有团队(IT、数据工程、业务智能、数据科学、分析或其他团队)都已介入并了解其在过程中的角色。为此,请确保沟通协议和期望明确。及早和经常沟通,并使用多种格式(电子邮件、Slack、一对一会议)将有助于减少后续问题,因此花时间确保向所有相关团队成员发送清晰、简明和频繁的更新。

一旦您进入部署阶段,您将希望通过在受控环境中进行测试、监控和评估变更,验证一切是否按预期运行。因此,部署通常分为两个阶段,您需要考虑:测试和生产。让我们来看看每个阶段的内容:

测试

测试阶段是部署的重要组成部分,因为它将有助于最小化错误或中断的风险。从最小可行产品(MVP)开始,并在此阶段花费足够时间,确保您的最终用户参与其中。这将及早警示您是否满足了他们的需求,并允许他们时间提供反馈。在测试阶段,您将有时间进行评估和调整方向,一旦您已经将变更投入生产并推广,这将变得更加困难。您需要为任何情况做好准备,例如范围变更、不兼容问题、数据丢失等,并且您可能会意识到需要调整以适应未预见的问题。根据需要进行调整,并继续收集团队成员的反馈,以识别改进的领域。关于遵循计划的引用之一是来自电视剧Arrow中虚构人物 Leonard Snart 的我(Sarah)最喜欢的一句话:

“没关系。你只需要记住四条规则:制定计划,执行计划,预计计划会出现问题,放弃计划。跟着我走,你就没问题。”

生产

当您进入释放阶段,将变更部署到生产环境时,您需要确保更新任何相关文档,并向最终用户通报变更。带头设置培训、用户指南和其他资源,帮助团队成员适应变更。

为了在开发阶段移除风险,您将希望依赖敏捷风险管理政策来帮助持续监控和解决问题。这涉及开发团队、项目经理和利益相关者之间的协作,以识别和优先处理风险,并制定减轻风险的策略。

使用分析技术来监控部署。

部署完成后,您将希望密切监控并努力改善数据管道和产品的健康、质量和性能。这被称为数据可观性,并不是一个新概念。传统上,它局限于监控相对简单数据堆栈的单个组件,并且数据质量检查通常是手动执行的。从报告的角度来看,这可能看起来像这样:主题专家等终端用户发现报告中的断点(缺少一天的数据、异常值或奇怪的数据点),向业务智能团队发出警告,并建议数据管道或质量保证流程中断。这利用了一种自下而上的数据可观性方法,依赖于主题专家驱动报告的质量检查。然而,现代数据可观性实践包括自动化数据质量检查、异常检测和实时监控工程和业务智能团队内的数据管道。这导致了一种更自上而下、积极主动和自动化的监控、观察和改进方法的普遍转变,以满足 SLA 要求并保持数据质量高。让我们讨论一下在您的组织内建立强大数据可观性实践的一些重要方面。

首先,您将希望定义要监控的指标(销售数量、日收入、点击次数等),并为这些指标建立可接受的范围,以便当数据点超出“正常”范围时,您能够开发自动警报和通知来观察或修复它们。这通常被称为异常检测,是数据可观性框架的重要组成部分。通过更自动化化,帮助工程和业务智能团队在问题进入或破坏报告之前注意并解决问题。

其次,您将希望监控数据管道的健康状况,以确保数据从其源头流畅地传输到目的地。随着多个系统共同形成数据集和报告,存在许多可能导致数据延迟或数据丢失的故障点。这可能是由于人为错误、硬件故障、软件故障或其他许多原因。例如,如果应用程序在向数据库写入数据时崩溃,数据可能会丢失。因此,建立处理数据延迟和数据丢失问题的减轻计划将对维护数据完整性并满足您约定的 SLA 要求至关重要。

第三,您将希望定期查看通过数据观察实践生成的警报、通知和报告,以识别趋势和洞察。当对您构建的报告进行高级分析以监控数据系统时,您将能够发现诸如:数据何时失败?在周末?在每个人都在争夺资源的星期一早晨?使用度量看起来如何?最终用户多久使用他们一个月或一年前为他们建立的报告?我们能够废弃不再被利用的报告吗?等等……

最后,您将希望监控任何已建立的报告或数据集的使用情况。这是了解您建立的内容是否被有效使用的最佳方式!根据所使用的工具,您可能拥有一些内置分析功能,可以监控使用情况。

通过建立强大的数据可观察性实践,可以帮助您的团队提前解决数据质量问题,建立更多透明度,并将责任分配给他们,以确保报告准确可靠。回到我们的利益相关者信任主题,建立强大的数据可观察性实践可以帮助增强您的团队与最终用户之间的信任。随着时间的推移,这只会产生积极的涟漪效应。³

通过使用案例开发

尽管出现在本章的最后一节,通过业务用例开发是所有良好数据产品的起点。让我们诚实地说,不是所有有趣的数据项目都具有影响力,也不是所有有影响力的业务问题都有趣,但在中间这个大部分地带,可以做很多伟大的工作。因此,您的工作应该从能推动业务进展的地方开始。

创建关键报告/仪表板

您的组织的数据洞察力将指导您首先解决哪些问题,如何建立信任,并如何展示即时价值。任何新成立的团队、产品或输出都需要时间来获得动力并获得采纳。正是在这种精神下,您应该致力于开发具有明显好处的产品。审查当前存在的内容,并寻找增加价值的领域。如果已经存在仪表板和关键报告,是否存在自动化或优化的机会?

自动化

自动化指的是利用技术来执行本应由团队成员手动处理的任务或流程。您可以轻松地确定团队在重复流程上花费了大量时间的地方,这些流程可以使用某种形式的自动化。投资于经常性重复任务的自动化解决方案将有助于释放出更多时间,并帮助提高其输出的准确性。如果利益相关者依赖于这些流程的输出,这也会对您的服务水平协议交付产生下游影响。

优化

优化指的是寻找问题或任务的最佳解决方案的过程。团队通常采用一致性较高的方法论,允许很少的创新或改进。人们难以改变,而已建立的流程更难改变。然而,引入新的不同方法不仅可能有所帮助,还可以提高产品输出的准确性和质量。我们鼓励您审视和质疑运作模式,找到优化流程和解决方案的机会。让其他人参与进来,听取他们对现有工作流程的看法和想法。他们是否渴望改变,但只是没有时间或技能去做?

质量与数量

在任何成功的数据产品背后,都是高采用率和信任水平的核心。在 Facebook 早期,马克·扎克伯格确立了座右铭“快速迭代、快速创新”。尽管这是一个进行实验、快速建设并吸引关注的好方法,但不是一个长期可持续的框架。2022 年,在重塑为 Meta 的时候,由于快速推进而带来的冷漠态度被负面报道所影响,他们转向了“在稳定基础设施下快速迭代”。这个例子突显了快速证明价值的重要性,但也警示我们不要因行动过快而犯错、失信于人。⁴

特别是在初期,您需要权衡速度建设与质量建设之间的取舍。在极端情况下,如果输出错误或误导,您可以非常快速地行动,却面临与利益相关方失去信任的风险。在另一极端,您可以行动缓慢,需要较长的时间线来完成和交付任务,使利益相关方对承诺的结果感到不安。关键在于找到这个光谱的中间点,足够快速地交付价值,但又足够缓慢地验证和确保准确的输出。一个很好的开始是寻找能够用较少努力带来高价值的低 hanging fruit。当您观察团队或利益相关方接收、消化和处理信息时,观察流程和输出。分析、仪表盘和实时分析的健壮性如何?您可以开始将预测建模整合到堆栈中吗?寻找创造性的方式,以直接而有影响力的方式提供自动化或优化他们的工作流程。

在交付数据产品时,重要的是记住,你将在产品存在和使用的整个生命周期中担任所有者的角色。唯一的例外是在有已建立的流程将你的工作移交给工程团队,并通过产品化的方式稳定输出时。一旦你的产品投入使用,你的利益相关者可能会扩展;在没有工程支持的情况下,你需要准备好回答关于输出的问题,并在任何出现问题时修复后端流程。因此,你需要监控输出,以确保利益相关者继续获得正确的输出并看到它们。通常情况下,取决于谁构建了后端流水线,以及它是否建立在脆弱的基础设施上,你需要密切监控这一点。

把这视为一个持续的迭代循环。就像 Brian McKnight 的歌词中唱到的,“如果我相信我的工作已经完成,那么我将重新开始”,你需要继续寻找改进基础设施、数据增强、工具和流程的机会。你可能会发现自己参与多次资源或更好工具的谈判,所有这些将从满足利益相关者的需求开始。

¹ StackCommerce,“63%的公司认为 Excel 是一种重要的会计工具”,《金融邮报》,2021 年 4 月 29 日,https://oreil.ly/1a37R

² Suzy Davenport,“打破习惯需要多长时间,什么是最好的方法?”《医学新闻今日》,2022 年 10 月 11 日,https://oreil.ly/5C4aC

³ 关于数据可观察性的更多信息,请参见数据可观察性基础什么是数据可观察性?,均由 Andy Petrella 撰写,由 O’Reilly 出版。

⁴ Emily Stewart,“马克·扎克伯格对 Meta 的新价值观表明他仍未真正放弃‘快速行动,打破陈规’”,《商业内幕》,2022 年 2 月 2 日,https://oreil.ly/8hQBc

第五章:设置您的团队成功的道路

人是所有技术的核心。尽管机器人日益增多和技术系统接管工作的情况可能看起来令人沮丧,但人始终是所有技术决策和实施的中心。将合适的人才置于正确的问题面前,并投资于人才以建设未来,这才是你真正能感受到的领导力。

招聘

哈佛商业评论 在 2012 年将“数据科学家”称为“21 世纪最性感的工作”时,这引起了对数据工作(数据分析师、数据科学家、数据工程师、数据讲故事者等)在业务成果方面重要性的关注。尽管真正的业务影响尚未被证明,数据职称之间的差异也不明显,但招聘和留住最优秀人才的竞争已经开始,并且竞争异常激烈!公司被极大地压力着要提供丰厚的薪酬和优越的福利来吸引候选人。自然而然,已经存在数据中心公司率先行动,拥有成熟的数据团队和数据系统依赖,并且他们制定了数据实践标准的基准。难怪所有最优秀的人才都聚集在 FANG(Facebook、Amazon、Netflix 和 Google)等大型科技公司。他们提供了丰厚的薪酬套餐,但作为交换,他们要求候选人具备出色的技术、战略、领导和领域专业知识——一个全能型人才。

但“独角兽”候选人的数量有限,且日益减少。为了继续大规模招聘,必须重新设定这些期望,并进行妥协和权衡。理解到你可能会找到技术上强大但缺乏领域经验的候选人,或者反之,意味着接受学习和发展投资不仅有益而且是必要的。如果你不愿意妥协,只愿意接受完美候选人,那么你的唯一敌人将是时间。在填补这个角色之前,你能等多久?项目和交付成果将如何受到保持此角色空缺的影响?最终,你的决定需要考虑找到合适候选人的时间、招聘成本以及学习与发展的投资。

市场上“独角兽”的数量有限,这迫使人们向独角兽数据团队的转变,而不是个体人才,其中团队成员互补各自的技能(数据科学、领域知识、沟通、运营)。当你评估和审计你现有的团队以及为实现项目愿景所需的技能时,你可能会发现存在一些缺口,你将面临升级现有团队与寻找新人才来填补技能缺口之间的抉择。让我们来看看在做出选择的时候需要考虑的因素。

首先内部

当然,构建你的愿景的最佳起点是通过你现有的团队!他们是你的明星球员,深知业务内情,拥有最强的领域专业知识,并且可以确保流程顺利进行。他们了解数据的细微差别以及关键指标、计算、报告、流水线等的重要性。因此,请对你现有的人才进行审核。他们中是否有人具备协助进行变更所需的正确技能?如果是这样,他们需要暂停哪些项目来承担这个项目?这些项目是否使命关键,或者如果为了优先处理你的工作而将事情搁置,业务是否会理解?你在这里的主要决策将是现有项目和新项目之间的权衡,并最终决定哪一个可能对业务产生更大的长期影响。

如果你的团队中没有专家存在,你是否有可以培训的人才(即,他们易于教导且积极主动)?如果是这样,这里有几个值得评估的问题:你希望培训的技能是否对团队的长期需求有益?这些技能是否符合个人职业发展的方向?这些问题将帮助你理解投资学习与发展是否值得。

一旦你决定了,团队成员将需要浏览许多学习选项,包括但不限于书籍、MOOC(大规模在线开放课程)、会议、训练营和正式学位。他们选择的方向将取决于他们试图学习的技能以及他们当前的专业水平。这个选择将直接影响达到熟练水平所需的时间和成本。一方面,书籍可能是最便宜的选择,但依赖于自律和独立学习者。另一方面,课程和训练营费用更高,但会提供动手学习和问问题的环境。最终,他们学习的投资应该导致对项目完成做出有意义的贡献。

虽然对团队的投资总是对个人技能和简历有益的,但在踏上这段旅程之前,有一点需要注意:并非所有技能的价值都是相同的。这是什么意思?嗯,根据角色(例如分析)和范围(仪表盘设计、报告等),你可能希望培训的技能(例如设计数据架构)可能不在“范围内”,因此不能完全被重视。特别是在大公司中,角色和范围已经明确定义,你需要花时间了解你希望培训的技能是否“在范围内”。如果答案是否定的,你需要考虑在哪里找到更合适的团队或个人。或者,我们建议寻找外部专家,我们将在下一节详细讨论。

外部资源

当您的现有团队的数据技能有限,将他们从当前项目中抽调的机会成本太高,或者可培训的技能超出了您团队的范围时,您可能会寻找外部专家(或通才)来提供帮助。作为短期解决方案,您可能会转向能够填补技能差距并推动项目运行的承包商或顾问。这使得您现有的团队成员可以专注于当前的高价值、高影响力项目,并同时推动您的项目前行——两全其美!作为长期方法,您将希望找到可以帮助维护、迭代和改进您通过短期聘用建立的任何东西的永久雇员。

作为新部署流程的所有者,您将扮演的最具挑战性的角色之一是招聘经理。在大多数专业领域,有标准化的测试可以帮助评估候选人的能力。然而,在数据领域,没有标准化的考试、测试或者能够证明能力的方式。这是一把双刃剑。从员工的角度来看,要学习和保持流利掌握的内容广泛、不断发展,并且难以跟上。而从雇主的角度来看,简历开始变得相似,都集中于相同工具的专业知识和基于相同训练的经历。因此,简历变得有限,您必须从其他方面评估当前的熟练水平标准,探索在线建立的成熟作品集(如 GitHub、Kaggle 等),或者可能需要花时间正式面试候选人。您可能感兴趣的问题包括:他们能否通过作品集或之前的工作展示程序、工具或语言的掌握?他们现有的经验是否适合您正在招聘的任务?他们的项目历史是否与您所在的领域或行业相符?

除了他们可以在第一天带到桌上的具体技能(Python、SQL、Tableau 等),您如何评估他们的无形技能?确实有数百个数据课程和认证,但没有一个能涉及到您企业特定内部运营的。您如何评估候选人的智慧好奇心和创造力,以及他们如何将经验应用到您的业务中?理想情况下,技术性与理解业务的能力结合是成功招聘的核心。

根据您招聘人才的紧急程度,您可能会被迫在少数几位候选人中挑选最合适的,然后迅速决定。如果没有这种紧急情况,我们喜欢提醒您考虑最优停止理论和“37%法则”,这可以帮助您更快地做出决策。这个法则基本上建议您面试候选人池的前 37%,不选任何人,然后准备向比您目前面试过的任何候选人更好的第一个候选人提供职位。无论哪种情况,您可能会被迫做出决策或者只能妥协。您需要警惕糟糕的招聘,因为招聘一个不适合文化或角色的新员工,其入职和培训成本可能很高,导致项目进度延误。

在考虑建立您的全明星团队的长远愿景时,您将希望开始思考全职员工(FTE)或永久性聘用。根据需求,您可以寻找能填补任何技能缺口的专家,或者寻找渴望学习和快速成长的通才,以补充和激励现有团队。此外,多样化招聘意味着更好的业务结果。研究清楚地显示,多样化的团队和公司比少数民族少的同行表现出更好的业务结果。例如,Fundera 的研究发现,“种族和种族多样化的公司更有可能表现更好,而多样化的团队更有可能占领并渗透新市场。”¹ 如今,大多数公司都有具体的多样性、公平和包容(DEI)倡议,这些倡议从高层开始实施,通过招聘快跑和为招聘经理提供培训来帮助吸引多样化的候选人。然而,如果贵公司没有这些做法,您始终可以努力使招聘实践更加有意义——在职位申请中采用包容性语言,并提供一个 inviting 的文化。

设置职业路径

无论您选择哪条道路来推动事务,利用内部团队或寻求外部支持,您都希望长远考虑,为团队的成功打下基础。虽然您的分析产品是输出,但您的团队才是持续运转的引擎。因此,请花时间为他们设置相关且激动人心的职业路径,以便他们保持好奇心和动力,并在职业生涯中成长。这样,您将更容易吸引优秀的候选人,并留住团队中的优秀人才。

尽管美国企业界工作的典型轨迹是从个人贡献者开始,然后逐步晋升到管理人员及更高职位,但这已不再是那些希望发展职业的个人的唯一选择。对于分析和一般数据角色来说,通常设置了两条轨道:经理主管角色。基于这些轨道,了解团队中每个个体及其职业抱负,以下问题为背景:所有优秀的数据科学家和分析师都是出色的领导者吗?更高的管理职位是否是他们想要的?如何为您的数据专家创造一个激励他们的职业道路,以便您能留住他们?让我们更详细地看看这两条轨道:

经理的职业生涯

在这条轨道上的团队成员通常渴望领导力,并展示承担大型项目责任的能力。通过项目管理,他们很可能间接管理其他团队成员,并展示领导力。对于这条轨道上的个人,培训可能包括通过监督实习生进行小型管理机会。还有许多管理培训课程,您的团队可以投资学习,如 DiSC 风格、学习和沟通风格以及一般项目管理。

主管的职业生涯

当团队成员没有希望沿着人员管理的路线发展时,他们通常希望有其他的成长和发展方式,不限制于一个职业路径。这就是转向主管角色的时候。从培训和学习发展的角度来看,这里的工作永远不会结束。景观不断发展——新技术、数据仓库解决方案、概念和框架不断被开发出来,以适应日益庞大的数据系统。此外,开源技术的持续改进使得那些在分析背景知识有限的新手和中小企业可以上手运行。这些工具的民主化使得在团队中各个层次和编码与统计知识水平的人们都能利用强大的工具来解决他们的业务问题。你将需要随时了解这些工具,并寻找测试、促进学习并在团队内部利用这些工具的方法。因此,您对团队的学习和发展方法应该通过小型项目或沙盒不断鼓励独立学习。这将需要团队成员具备运行您为团队设置的新系统或改进系统所需的技能。这可以通过持续投资团队的学习与发展来实现,正如前面提到的,或者引入新的员工来填补技能缺口。

确定组织的正确结构

如何组织您的团队将是一个重要且微妙的决策。一方面,您可以选择将所有人员集中到一个团队中(集中式方法),另一方面,您可以选择直接将它们组织为更接近所支持业务的较小组(分散式方法)。让我们来讨论每种设计结构的优缺点。

集中式与分散式

集中式支持结构中,如在图 5-1 中所示,您的分析团队将作为组织中的一个独立实体存在,通过一个中央队列为所有利益相关者提供服务。这种结构的最大好处之一是允许所有请求通过您进行优先处理,然后再委派进行分析。这可以让您有时间理解、完善并根据业务需求和预期影响对任务进行优先级排序。此外,您还可以整合多个利益相关者之间重复的任务,创建一个满足多方需求的报告输出。这符合 80/20 法则等原则,即 20%的工作量将覆盖团队收到的 80%任务。这是驱动集中团队引擎的哲学,因为他们处理能够满足业务中大多数用例和需求的重大项目。此方法除了优先级设定外,还有许多其他好处,如知识共享、报告标准化和同行之间的导师制。通过建立集中结构,您的团队将接触到各种业务问题,并形成强大的团队联系,从而实现更强大的协作。

集中式方法的缺点可能来自于领域专业知识的缺乏,因为在队列中分配更复杂的团队特定任务时,负责这些任务的分析师可能对指标和利益相关者的微妙之处不太熟悉,这将导致完成输出的时间延迟。不幸的是,这可能会使一些有特定需求的团队处于劣势,并且有时可能是盲目行动。由于竞争优先级的问题,避免这种情况可能具有挑战性,但是与所有利益相关者保持强有力的沟通流可以帮助平息争端,让他们了解团队关注的内容以及他们可以何时期待满足他们的需求。

集中式方法  改编自大卫·默里

图 5-1. 集中式方法(改编自大卫·默里的图像)

分散式方法中,如图 5-2 所示,你的团队被整合到组织内的业务单元中。分析师被对齐到业务单元,并且沉浸在它们的日常工作流程、指标、报告和管理中。他们的角色要求他们处理来自各自团队的任务,并允许他们专注于满足业务单元需求的定制化和细致报告。此外,他们可以成为与利益相关者的智囊团伙。这种方法的最大优势在于“速度需求”。通过将团队对齐到业务单元,他们也可以作为领域专家更快地完成产出,相比于使用集中式方法的团队。

分散结构的缺点包括每个团队成员需要在其业务组内管理任务优先级的要求。根据个人/利益相关者关系以及团队成员对抗的舒适程度,这可能(有时)会导致感觉不堪重负。最后,当团队以这种方式分布时,天然形成孤立,团队成员之间的合作也较少。作为领导者,你可能希望通过创建论坛和其他知识共享和协作手段来适应这一点。

分散式方法 自 David Murray 改编

图 5-2. 分散式方法(改编自David Murray的图像)

混合方法

集中式和分散式方法可能会让你感觉它们处于设计团队结构的极端位置,因为它们确实如此!因此,如果感觉你在试图将方块插入圆洞中,你可以转向混合方法。混合方法更加灵活,允许你利用两种方法的最佳特性,并根据你和你团队的需求进行定制化。

尽管有许多关于如何构建混合团队的选择,我们将介绍一种常见的选择,我们个人在许多公司中都遇到过。在这种混合模型中,你会发现团队成员被对齐到部门或特定的业务功能(分散式方法),同时他们又统一在一个组织标准、产出和团队活动的统治下(集中式方法)。这使得既可以利用分散式方法的领域专业知识和速度优势,又可以利用集中式方法的标准化和知识分享。

关于采取何种混合方法的其他变体需要考虑,你可能会更倾向于集中式或分散式。幸运的是,并没有“一刀切”的方法,你应该为你的团队和业务需求做出正确的决策,同时也要为自己设立一个合理的工作框架。

建立与授权

任何公司对新数据系统、方法、报告和产品的创新和采用,都将严重依赖于公司数据文化的强度。这种文化通常从最高层开始,逐渐渗透。当 CEO 和高级领导层接受了数据文化时,他们将会带领团队朝这个北极星进发,帮助根据数据和技术扎根日常战略和决策。但即使在今天这个世界上,随着技术和创新的前所未有的速度发展,公司仍然面临着创建正确文化的挑战。

执行赞助

自从数据和技术繁荣开始以来,每家公司都面临着跟上下一个快速移动的列车或被落下的选择。在这些创新和公司转变中,已经进行了大量的研究,以测试成为更多数据驱动和证明文化重要性的有效性和效率增益。压倒性的数据和研究指出了成为数据驱动或数据主导的所有好处,以及新的 C 级角色——首席数据官(CDO)的崛起。然而,更具挑战性的方面不仅是说你想成为数据驱动,而是真正将这种情绪融入到文化中。²

例如,NewVantage Partners 的一项针对美国大型企业的调查发现,只有 31%的公司表示他们是数据驱动型的,这一比例从 2017 年的 37%下降。2019 年,超过四分之三的企业报告称,大数据和人工智能倡议的业务采纳仍然是一个主要挑战。但其中 95%的人表示,文化、组织和流程方面的挑战是采纳的最大障碍。只有 5%的人认为技术是问题所在。

这表明需要帮助领导者和 CEO 更加掌握数据的权力。如果领导层对数据或工具的理解存在差距,设置正确的运营合作伙伴和教育渠道,帮助提升对“被落后”或“行动过慢”影响的理解,将对推动这一过程至关重要。他们将需要帮助理解变化的全部范围,包括对产品或服务可能产生的影响,通过培训或招聘开发新技能的潜在需求,以及支持公司更多数据的正确组织结构。一旦领导层支持和以身作则的心态到位,使命、叙事和普遍文化将会改善,并有助于支持日常任务的执行和决策的制定。

领导层的不一致或不支持使得某些团队难以感到有权力,项目、洞察或策略可能会受阻。尽管特定团队(如分析和数据科学团队)易于使用和利用数据来推动洞察并建议战略决策,但他们的影响力受到领导层支持的限制。当需要做出决策时,领导层对数据展示的尊重不足或仅在数据符合其意识形态时才听取,这表明对数据的依赖性较弱,其他人也会效仿。分析师和数据科学团队将不断提高对数据缺陷的认识,将难以获得正确的跨职能支持,并且在许多情况下将无法继续获得资金支持。

数据驱动文化

培育强大数据文化的组织通常保持对由分析、工程和数据科学团队开发的新数据产品进行测试、学习和迭代的开放态度。这有许多优势,因为它帮助建立团队,这些团队协作开发新的和改进的流程和工具,这些工具设计时考虑了自动化和优化。更易于替换过时的传统方法,并共同欢迎新方法论的出现,并进行迭代和改进。拥有强大数据文化的团队将这种理念融入到每个团队成员的思维中,因为他们都朝着同一个北极星努力。这将产生高效和有效的团队,具有强大的信任水平和高质量的输出。安全的数据驱动文化的一个好处是能够快速行动并在市场竞争中保持竞争力。

在数据文化较弱的团队或组织中,你会发现更多对尝试新产品的犹豫,以及更长的迭代和采纳时间。如果你在这样的文化中运作,毅力是你最好的朋友。你将会逆水行舟,需要继续倡导提高准确性和改进流程的理念,找到激励团队全员使用数据的方法。在采取自下而上的方法不奏效的情况下,你需要朝高层发展,并找到能通过领导支持实施的支持。

不幸的是,建立强大和安全的数据文化面临的最大阻力是对技术快速进步及其对工作安全性影响的恐惧和不确定性。对于“我是否会因我帮助构建的技术而失去工作?”这个问题的答案是非常不确定的,但这个问题存在于我们每个人之中。这可能会阻止团队成员积极参与可能威胁到他们工作存在的产品反馈。那么,我们如何在不让团队成员感到不安的情况下平衡创新需求,拥抱数据和技术的世界呢?我们不能抗拒不可避免的事实并冒着变得无关紧要或保持低效的风险——我们应该寻求在可能的地方优化和自动化。在一个自我意识的数据文化中,领导层将确保公司的信息不是建议削减人员的工作,而是使其更加高效,并寻找方法重新配置员工,以在公司运营中创造更多效率。可以说,自动化那些花费团队成员几小时或几天时间的乏味工作,是可以重新配置到其他地方以提高您组织的生产力的时间。

随着我们周围创新速度的持续增加,出现了两种思想流派:接受变革还是抗拒变革。最近,随着 ChatGPT 的开发,我们看到了关于我们是否准备好迎接这种变革以及我们是否已经制定了支持正确创新的政策的问题。在一封公开信中,1100 多位签署者写道:³

机器是否应该允许淹没我们的信息渠道,发布宣传和虚假信息?是否应该自动化所有工作,包括那些富有成就感的工作?是否应该发展非人类的思维,这可能最终会超过、智胜、使我们过时并取代我们?我们是否应该冒失去对我们文明的控制的风险?这些决定决不能委托给未经选举的技术领导者。强大的人工智能系统只有在我们确信其影响将是积极的、风险可控的情况下才应该开发。

另一方面,其他人则认为我们应该集中精力如何更好地为自动化变革做准备:⁴

在失业已成为一种耻辱,悲剧般地影响并且仍然影响着数百万人的世界中,像这样的标题可能看起来像是一场不可想象的戏剧,但另一方面,如果我们对此情景毫无准备,那么可以肯定,这将是一个实现的预言。这种可能的情景就是我们所走向的,毫不停息地、几乎是不可避免地,至少如果我们假设技术发展将继续的话。问题不在于它是否会发生,而在于何时以及哪个国家将首先实现,也许几十年后,但随着当前变化速度的加快,很可能在本世纪中叶之前就会“可行”。

无论您在这个范围的哪一端,基本原则始终不变:强调数据流畅性,并理解您所做决策的影响。您需要团结您的团队朝这个方向发展,并明确您的立场将帮助他们理解您的愿景。

可能遇到的挑战

不可避免地,您将面临许多挑战,当您踏上这段旅程时。所有事情都摆在桌面上:平衡数据需求与数据成本、公司转向需要数据转向、赢得领导层的支持、找到合适的人才、实施挑战等等。尽管我们已经为您准备了思考所有重要的高层次考虑因素,但没有简单的蓝图可以涵盖您可能看到或遇到的一切。

您需要具备的最佳品质是坚韧和适应性。如果您能在公司内部保持数据叙事的连贯性,清晰地阐述“需要改变什么”和“为什么现在”,并根据需要调整您的方法,那么您就会为成功铺平道路。请记住,无论我们做出何种变革,无论是涉及流程还是工具,最终影响的都是人。决定改变工具并实施它可能很容易,但要让人们改变他们的思维方式、打破习惯并学习新东西则需要更长时间。因此,作为领导者,以共情为先是至关重要的。

接下来呢?

首先,感谢您抽出时间阅读本书。凭借您的新知识,您应该更有信心去承担基于数据的项目。但请记住,仅仅拥有知识并不能保证您的下一个项目会取得成功。我们建议您采取以下行动,以提高实现组织所需变革的机会。

鼓励创建数据驱动的组织的项目

作为您组织中的一员,您可以帮助塑造公司走向更具数据洞察力的道路。在评估将推动您的团队、部门或组织向前发展的项目时,请确保涉及数据。无论是建立数据源或一套分析产品,还是利用现有数据创建新的提案,您都将塑造组织对数据的态度。数据被更多地使用,每个人都会更有动力去使用它。

组建一个数据流畅的团队

数据产品和提议要求参与其构建的专业人员具备技能。如果您的组织已有这些技能,请确认他们的身份并培养他们的才能。在招聘组织角色时,请确保数据技能是期望角色配置文件的一部分,同时还需要领域专业知识和相关经验。对于已在您的组织内但缺乏数据技能的人员,请尝试鼓励他们提升数据流畅度。如果您有培训预算,请确保有课程可以提升员工的数据流畅度。为团队提供学习数据课程和分享知识的途径,更有可能增强应对数据使用变化或主题上的任何不信任的能力。通过改变组织运作和决策方式来使用数据的机会,并突出其带来的好处,将有助于改善企业文化。

Just Get Started

尽管我们不得不说这一点,但您永远不会拥有完美的数据流畅团队,从数据信息化的高管那里收到请求时,刚好有合适的数据可以回答这些请求。对您来说,最重要的是简单地朝着在本书中阅读到的数据信息化文化迈出步伐。您的组织使用数据的越多,建立的信任越多,您的公司就会做出越多数据信息化决策,从而使您能够突显从做出更多数据信息化决策中获得的增强结果。

提供了许多专门书籍和资源,涵盖了您将参与的特定工具和数据专业领域。我们希望本书只是您与数据开始旅程的开端。

¹ Thomas Helfrich,《多样性如何帮助业务增长》,Forbes Magazine Council Post,2022 年 11 月 9 日,https://oreil.ly/6fUI3

² Thomas H. Davenport 和 Nitin Mittal,《CEO 如何领导数据驱动文化》,Harvard Business Review,2020 年 4 月 20 日,https://oreil.ly/qFlJp

³ Connie Loizos,《1,100+ 位显要签署公开信要求所有人工智能实验室立即暂停至少 6 个月》,TechCrunch,2023 年 3 月 29 日,https://oreil.ly/hlCvy

⁴ David Vivancos,《第一个失业率达到 100% 的国家?》,LinkedIn,2022 年 8 月 30 日,https://oreil.ly/RWBrk

posted @ 2025-11-23 09:27  绝不原创的飞龙  阅读(4)  评论(0)    收藏  举报