IBM-数据分析师-I-笔记-全-

IBM 数据分析师 I 笔记(全)

001:《数据分析简介》📊

概述

在本节课中,我们将学习《数据分析简介》课程的整体介绍。课程将阐述数据分析的重要性、适用人群以及你将学到的核心内容,为你开启数据分析师职业生涯奠定基础。


欢迎来到数据分析入门课程。

这是系列课程中的第一门,旨在为你成为一名初级数据分析师做好准备。

引用一份福雷斯特咨询公司关于数据变革商业力量的报告:

当今企业认识到数据及数据分析中蕴含的未开发价值,并将其视为商业竞争力的关键因素。

为了推动其数据与分析计划,公司正在招聘和提升员工技能。

他们正在扩大团队并建立卓越中心,以便在组织内建立多管齐下的数据与分析实践。

与此同时,熟练的数据分析师存在显著的供需不匹配。

这使得数据分析师成为一个备受追捧且薪酬丰厚的职业。

你可以选择将掌握数据分析作为职业道路,或将其作为跳板,扩展到其他数据专业领域,例如数据科学、数据工程、商业分析和商业智能分析。

本课程适合以下人群:任何专业的应届毕业生、考虑中期职业转型的在职专业人士、数据驱动型决策者或任何与数据分析相关的角色。

本课程将向你介绍进入数据分析领域所需的核心概念、流程和工具。

它甚至可以帮助你强化当前作为数据驱动决策者的角色。

它将使你了解数据生态系统和数据分析的基础知识,例如数据收集、整理、挖掘、分析和数据可视化。

你还将体验数据分析师的日常工作。


实践分享

上一节我们了解了课程的整体目标,本节中我们来看看从业者的经验分享。

以下是来自实践中的数据分析师分享的经验:

  • 他们分享了进入该领域的经验。
  • 他们讨论了你可以考虑的职业选择和学习路径。
  • 他们说明了雇主在数据分析师身上寻找的特质。
  • 他们还分享了关于数据分析过程中某些方面的知识和最佳实践。

前方的道路对数据分析领域和你个人而言都令人兴奋。

祝贺你选择踏上这段旅程,祝你好运。


总结

本节课中我们一起学习了《数据分析简介》课程的概述。我们了解到数据分析在现代商业中的关键作用,明确了本课程的目标人群与学习价值,并对课程内容和从业者经验分享有了初步认识。这为后续深入学习数据分析的具体技能和流程做好了准备。

002:现代数据生态系统 🌐

在本节课中,我们将要学习现代数据生态系统的构成及其关键组成部分。我们将了解数据如何从各种源头被采集、处理,并最终服务于不同的用户和应用程序。


根据《福布斯》2020年一份关于未来十年数据的报告,数据处理速度与带宽的持续提升、用于创建、共享和消费数据的新工具不断涌现,以及全球范围内新的数据创建者和消费者的稳定增加,共同确保了数据的增长势头不减。数据会催生更多数据,形成一个持续不断的良性循环。

一个现代数据生态系统包含一个由相互关联、独立且不断演进的实体组成的完整网络。

它包含需要从不同来源整合的数据、用于生成洞察的不同类型的分析与技能、积极协作并根据生成的洞察采取行动的活跃利益相关者,以及用于按需存储、处理和传播数据的工具、应用程序和基础设施。


上一节我们介绍了现代数据生态系统的整体概念,本节中我们来看看它的第一个关键环节:数据来源。

数据以各种结构化和非结构化数据集的形式存在,来源极其多样和动态。以下是主要的数据来源类型:

  • 文本、图像、视频
  • 点击流、用户对话
  • 社交媒体平台
  • 物联网设备
  • 实时数据流事件
  • 遗留数据库
  • 专业数据提供商和机构

当处理如此多不同的数据源时,第一步是将数据从原始来源提取到数据存储库中。在此阶段,重点是获取所需数据,并处理数据格式、来源和提取接口。数据获取的可靠性、安全性和完整性是此阶段需要应对的主要挑战。


在数据被采集之后,接下来需要对其进行组织、清理和优化,以供最终用户访问。

数据还需要符合组织内部执行的合规性与标准。例如,遵守关于存储和使用个人数据(如健康、生物识别或物联网设备中的家庭数据)的法规指南。


另一个例子是遵循组织内的主数据表,以确保主数据在组织所有应用和系统中的标准化。此阶段的关键挑战可能涉及数据管理,以及使用能提供高可用性、灵活性、可访问性和安全性的数据存储库。


数据经过处理后,最终将服务于各类用户和应用。现在,我们来看看数据如何被消费。

最终,我们的业务利益相关者、应用程序、程序员、分析师和数据科学用例都会从企业数据存储库中提取这些数据。

此阶段的关键挑战可能包括能够根据用户特定需求将数据送达最终用户的接口、API 和应用程序

例如:

  • 数据分析师可能需要原始数据进行处理。
  • 业务利益相关者可能需要报告和仪表板。
  • 应用程序可能需要自定义 API 来提取数据。

现代数据生态系统的演进离不开新技术的推动。最后,我们来了解一些正在塑造当今数据生态系统及其可能性的新兴技术。

值得注意的是,一些新兴技术正在塑造当今的数据生态系统及其可能性,例如云计算、机器学习和大数据等。

得益于云技术,当今每个企业都能获得近乎无限的存储、高性能计算、开源技术、机器学习技术以及最新的工具和库。数据科学家通过用历史数据训练机器学习算法来创建预测模型。

😊


此外,大数据意味着我们正在处理的数据集如此庞大和多样,以至于传统工具和分析方法已不再适用,这为新工具、新技术以及新知识和洞察铺平了道路。我们将在本课程后续部分进一步了解大数据及其对商业决策的影响。


本节课中我们一起学习了现代数据生态系统的完整流程:从多样化的数据来源,到数据的采集与整合,再到数据的处理与治理,最后到数据的消费与应用。我们还看到了云计算、机器学习和大数据等关键技术如何驱动这一生态系统不断演进。理解这个生态系统是成为一名合格数据分析师的重要基础。

003:P3|数据生态系统的关键参与者 👥

在本节课中,我们将要学习数据生态系统中的几个核心角色。理解这些角色如何协作,是将数据转化为商业价值的关键。

如今,那些利用数据发掘机遇并应用这些知识来形成自身差异化的组织,正引领着未来。无论是通过分析金融交易模式来检测欺诈,使用推荐引擎提升转化率,挖掘社交媒体帖子以倾听客户声音,还是品牌根据客户行为分析来个性化其服务,商业领袖们都认识到,数据是获取竞争优势的关键。

要从数据中获取价值,需要大量不同的技能组合和扮演不同角色的人员。在本视频中,我们将探讨数据工程师、数据分析师、数据科学家、业务分析师和商业智能分析师在帮助组织利用海量数据并将其转化为可执行见解方面所扮演的角色。

数据工程师:架构的构建者 🏗️

一切始于数据工程师。数据工程师是开发和维护数据架构,并使数据可用于业务运营和分析的人员。

数据工程师在数据生态系统内工作,执行以下关键任务:

  • 从不同来源提取、整合和组织数据。
  • 清洗、转换和准备数据。
  • 设计、存储和管理数据仓库中的数据。

他们使数据能够以各种业务应用以及数据分析师、数据科学家等利益相关者可以利用的格式和系统进行访问。一名数据工程师必须具备良好的编程知识、扎实的系统和技术架构知识,以及对关系型数据库和非关系型数据存储的深入理解。

数据分析师:信息的翻译官 📊

上一节我们介绍了数据架构的构建者,本节中我们来看看信息的翻译官——数据分析师。简而言之,数据分析师将数据和数字翻译成通俗语言,以便组织做出决策。

数据分析师检查并清洗数据以获取洞察,识别相关性,寻找模式,应用统计方法分析和挖掘数据,并通过可视化来解读和呈现数据分析的结果。他们是回答以下问题的人:

  • 我们网站上的搜索功能,用户体验总体是好是坏?
  • 公众对我们品牌重塑举措的普遍看法如何?
  • 一种产品的销售与另一种产品的销售是否存在关联?

数据分析师需要熟练掌握电子表格、编写查询语句以及使用统计工具创建图表和仪表板。现代数据分析师还需要具备一定的编程技能,同时需要强大的分析和叙事能力。

数据科学家:未来的预测者 🔮

接下来,我们看看数据科学家在这个生态系统中扮演的角色。数据科学家分析数据以获取可执行的见解,并构建机器学习或深度学习模型,这些模型基于历史数据进行训练,以创建预测模型。

数据科学家是回答以下问题的人:

  • 下个月我可能会获得多少新的社交媒体关注者?
  • 下一季度我可能失去多少客户给竞争对手?
  • 这笔金融交易对该客户来说是否异常?

数据科学家需要具备数学、统计学知识,并对编程语言、数据库和构建数据模型有相当的理解。他们还需要拥有领域知识。

业务与商业智能分析师:决策的推动者 🎯

然后,我们还有业务分析师和商业智能分析师。业务分析师利用数据分析师和数据科学家的工作成果,审视对其业务的可能影响以及他们需要采取或建议的行动。商业智能分析师做类似的工作,但他们的侧重点在于塑造其业务的市场力量和外部影响。

以下是他们的核心工作:

  • 通过组织和监控不同业务功能的数据来提供商业智能解决方案。
  • 探索这些数据以提取能改善业务绩效的洞察和可执行建议。

总结与职业路径 🛣️

本节课中我们一起学习了数据生态系统中的关键角色。简单总结一下:

  • 数据工程将原始数据转换为可用数据。
  • 数据分析利用这些数据生成洞察。
  • 数据科学使用数据分析和数据工程的成果,基于过去的数据预测未来。
  • 业务分析师商业智能分析师则利用这些洞察和预测来推动有利于业务增长和发展的决策。

有趣的是,数据专业人士从其中一个数据角色开始职业生涯,并通过补充技能过渡到数据生态系统内的另一个角色,这种情况并不少见。

004:定义数据分析

在本节课中,我们将学习数据分析的定义、主要类型以及其核心流程。数据分析是一个系统性的过程,旨在从数据中提取有价值的信息,以支持决策制定。


🔍 什么是数据分析?

数据分析是收集、清洗、分析、挖掘数据,解释结果,并报告发现的过程。

通过数据分析,我们能在数据中发现模式以及不同数据点之间的关联。正是通过这些模式和关联,我们得以生成见解并得出结论。

数据分析帮助企业理解其过去的表现,并为未来的行动决策提供信息。通过数据分析,企业可以在投入资源前验证行动方案的可行性,从而节省宝贵的时间和资源,并确保更高的成功率。


📈 数据分析的四种主要类型

上一节我们介绍了数据分析的基本概念,本节中我们来看看数据分析的四种主要类型。每种类型在数据分析过程中都有不同的目标和位置。

以下是四种主要的数据分析类型:

  1. 描述性分析

    • 目标:帮助回答“发生了什么”的问题。
    • 方法:通过总结过去的数据并向利益相关者呈现结果来实现。
    • 作用:提供对过去事件的基本见解。
    • 示例:基于组织的关键绩效指标跟踪过去表现,或进行现金流分析。
  2. 诊断性分析

    • 目标:帮助回答“为什么会发生”的问题。
    • 方法:利用描述性分析得出的见解,更深入地挖掘结果的原因。
    • 示例:网站流量在无明显原因的情况下突然变化,或某个区域在营销策略未变的情况下销售额增加。
  3. 预测性分析

    • 目标:帮助回答“接下来会发生什么”的问题。
    • 方法:使用历史数据和趋势来预测未来结果。
    • 作用:其目的不是断言未来一定会发生什么,而是预测未来可能发生的情况。所有预测本质上都是概率性的。
    • 应用领域:企业将其应用于风险评估和销售预测等领域。
  4. 规范性分析

    • 目标:帮助回答“对此应该做什么”的问题。
    • 方法:通过分析过去的决策和事件,估计不同结果的可能性,并据此决定行动方案。
    • 示例:自动驾驶汽车分析环境以做出关于速度、变道、路线选择等决策;航空公司根据客户需求、油价、天气或联程路线的交通状况自动调整机票价格。


🛠️ 数据分析的关键步骤

了解了数据分析的类型后,我们来看看任何数据分析过程都包含的一些关键步骤。这个过程是一个系统性的工作流。

以下是数据分析流程的关键步骤:

  1. 理解问题与期望结果

    • 数据分析始于理解需要解决的问题和需要达成的期望结果。
    • 在分析过程开始之前,必须明确定义“现状”和“目标”。
  2. 设定清晰的指标

    • 此阶段包括决定测量什么(例如,某个区域产品X的销售量)以及如何测量(例如,在一个季度内或在某个节日期间)。

  1. 收集数据
    • 一旦明确了测量内容和方式,就需要确定所需的数据、需要从中提取数据的数据源,以及完成这项工作的最佳工具。

  1. 清洗数据

    • 收集数据后,下一步是修复数据中可能影响分析准确性的质量问题。
    • 这是一个关键步骤,因为只有数据干净,才能确保分析的准确性
    • 清洗工作包括处理缺失值、不完整值以及异常值。
    • 示例:在客户人口统计数据中,年龄字段值为150就是一个异常值。
    • 此外,还需要对来自多个来源的数据进行标准化处理。
  2. 分析与挖掘数据

    • 数据清洗干净后,将从不同角度提取和分析数据。
    • 可能需要以多种不同方式操作数据,以理解趋势、识别关联、发现模式和变化。
  3. 解释结果

    • 在分析数据并可能进行进一步研究(这可能是一个迭代循环)之后,就到了解释结果的时候。
    • 在解释结果时,需要评估你的分析是否能够经得起质疑,以及是否存在任何局限性或特定情况,使得你的分析可能不成立。
  4. 呈现你的发现

    • 最终,任何分析的目标都是影响决策。
    • 以清晰且有影响力的方式沟通和呈现你的发现,是数据分析过程中与分析本身同等重要的一部分。
    • 报告、仪表板、图表、图形、地图和案例研究等都是呈现数据的有效方式。


📝 总结

本节课中,我们一起学习了数据分析的核心定义。我们了解到数据分析是一个包含收集、清洗、分析、解释和报告的系统过程。我们探讨了四种主要的数据分析类型:描述性、诊断性、预测性和规范性分析,它们分别回答了“发生了什么”、“为什么发生”、“将发生什么”和“应该做什么”的问题。最后,我们梳理了数据分析的关键步骤,从理解问题到呈现发现,这是一个确保分析有效且能支持决策的完整工作流。掌握这些基础知识是成为一名合格数据分析师的第一步。

005:什么是数据分析 📊

概述

在本节课中,我们将聆听几位数据专业人士分享他们如何定义数据分析,以及这个术语对他们意味着什么。通过他们的视角,我们可以更全面地理解数据分析的本质和应用。


专业人士的观点

上一节我们了解了数据分析的基本概念,本节中我们来看看几位从业者是如何具体描述它的。

定义与过程

一位专业人士将数据分析定义为收集信息并分析这些信息以验证各种假设的过程。同时,数据分析也意味着用数据讲故事,清晰简洁地向周围的人传达世界的状态。

另一位专业人士的表述是:你遇到了一个问题,需要使用事实来检验一个假设。数据分析就在此发挥作用。这个过程从定义问题开始,然后你需要建立自己的假设并进行检验。为此,你需要收集数据、清理数据、分析数据,然后向关键利益相关者展示结果

日常决策与商业应用

数据分析是利用周围的信息来做决策。就像你每天早上起床,看新闻时,天气预报会告诉你当天的温度和是否会下雨,这可能会决定你穿什么或能进行什么活动。因此,数据分析不是一个抽象概念,而是我们自然而然在做的事情,只是它现在有了一个技术名称,并且人们以此为职业,在更大规模或更宏大的场景中应用它,但其核心并不复杂。

在商业环境中,数据分析是任何可以用来审查信息、帮助你理解当前状况的数据集。以注册会计师为例,他们总是查看财务报表,分析数据以预测一家公司的过去、现在和未来走向。这些数据帮助他们看得更远,几乎可以预测所合作公司的未来。

核心流程与目标

数据分析是清理、分析、呈现并最终分享数据及你的分析结果的过程,目的是帮助准确传达你的业务或数据中正在发生的情况,以便做出更好的决策。

另一位定义是:数据分析是一个过程,或者说是一种现象,即从相关群体(如你的客户或社交受众)那里收集信息,将这些信息分解成子集,并利用这些数据来决策你想要提供的产品或服务。在我们所处的数字环境中,这也意味着决定发布哪些内容以吸引你的目标受众。


总结

本节课中,我们一起学习了多位数据专业人士对“数据分析”的定义。尽管表述角度不同,但核心都指向一个过程:从定义问题或目标出发,收集和处理相关数据,通过分析验证假设或发现洞察,最终将结果清晰呈现以支持决策。数据分析既是我们日常生活中的自然行为,也是一项可以系统化、专业化并创造巨大商业价值的技术活动。

006:数据分析师的职责

在本节课中,我们将学习数据分析师在组织中的典型职责,以及成功履行这些职责所需的关键技能组合。我们将职责与技能对应起来,帮助你全面理解这一角色的要求。

📋 数据分析师的典型职责

虽然数据分析师的角色因组织类型及其数据实践采用程度而异,但在当今组织中,数据分析师通常承担一些共同的职责。

以下是数据分析师的核心职责列表:

  • 数据获取:从主要和次要数据源获取数据。
  • 数据提取:创建查询,从数据库和其他数据收集系统中提取所需数据。
  • 数据准备:对数据进行过滤、清洗、标准化和重组,为分析做好准备。
  • 数据解读:使用统计工具解读数据集。
  • 模式识别:使用统计技术识别数据中的模式和相关性。
  • 趋势分析:分析复杂数据集中的模式并解读趋势。
  • 结果呈现:准备有效传达趋势和模式的报告与图表。
  • 流程记录:创建适当的文档,以定义和展示数据分析过程的各个步骤。

🔧 数据分析师的关键技能

与上述职责相对应,我们来看看数据分析师需要具备哪些有价值的技能。数据分析过程需要技术技能、职能技能和软技能的结合。

技术技能

首先,我们看看作为数据分析师需要的一些技术技能。这些技能是你处理数据的工具箱。

以下是数据分析师所需的核心技术技能:

  • 电子表格精通:熟练使用电子表格软件,如 Microsoft Excel 或 Google Sheets。
  • 分析可视化工具:精通统计分析和可视化工具及软件,例如 IBM Cognos、IBM SPSS、Oracle Visual Analyzer、Microsoft Power BI 和 Tableau。
  • 编程语言:至少精通一种编程语言,如 R 或 Python;在某些情况下,也可能需要 C++、Java 和 MATLAB。
  • 数据库查询:熟练掌握 SQL,并具备在关系型和非 SQL 数据库中处理数据的能力。
  • 数据仓库操作:能够访问和提取数据仓库(如数据集市、数据仓库、数据湖和数据管道)中的数据。
  • 大数据处理:熟悉 Hadoop、Hive 和 Spark 等大数据处理工具。

我们将在课程后续部分更深入地了解其中一些编程语言、数据库、数据仓库和大数据处理工具的特性及用例。

职能技能

现在,让我们看看数据分析师角色所需的一些职能技能。这些技能帮助你更有效地理解和运用数据。

以下是数据分析师所需的职能技能列表:

  • 统计学知识:精通统计学,以帮助你分析数据、验证分析结果并识别谬误和逻辑错误。
  • 分析能力:具备帮助你研究和解读数据、建立理论并进行预测的分析能力。
  • 问题解决能力:因为所有数据分析的最终目标都是解决问题。
  • 探究能力:这对于发现过程至关重要,即从不同利益相关者和用户的角度理解问题,因为数据分析过程真正始于对问题陈述和期望结果的清晰阐述。
  • 数据可视化技能:帮助你根据受众、数据类型、背景和分析的最终目标,决定有效呈现研究结果的技术和工具。
  • 项目管理技能:用于管理项目流程、依赖关系和时间线。

软技能

这让我们来到了数据分析师的软技能部分。数据分析既是一门科学,也是一门艺术。你可以精通技术和职能专长,但成功的关键区别因素之一将是软技能。

以下是数据分析师成功所需的关键软技能:

  • 协作能力:与业务部门和跨职能团队协作的能力。
  • 有效沟通:有效沟通以报告和呈现你的发现。
  • 故事叙述能力:讲述引人入胜且令人信服的故事,并为你的工作争取支持和认同。
  • 好奇心:最重要的是,好奇心是数据分析的核心。在你的工作过程中,你会遇到可能指引你走向不同路径的模式、现象和异常。允许新问题浮现并挑战你的假设和假设的能力,是进行出色分析的关键。
  • 直觉:你还会听到数据分析从业者将直觉视为必备品质。必须注意的是,这里的直觉是指基于模式识别和过去经验对未来有所感知的能力。

📝 课程总结

本节课中,我们一起学习了数据分析师的核心职责,包括从数据获取、清洗到分析、解读和呈现的全过程。同时,我们详细探讨了履行这些职责所需的三类关键技能:处理数据的技术技能、理解与应用数据的职能技能,以及促进协作与沟通的软技能。理解这些职责与技能的对应关系,是迈向成功数据分析师职业生涯的重要一步。

007:成为数据分析师的素质和技能 💼

在本节课中,我们将聆听从业的数据专业人士分享成为数据分析师所需的素质和技能。我们将这些内容归纳为软技能和硬技能两大类,并详细探讨每类中的关键要素。


概述

数据分析师需要具备一系列特定的素质和技能,以有效地处理数据、发现洞察并支持决策。本节将介绍从业者眼中成功数据分析师的核心特质。


软技能:成功的基础

上一节我们概述了课程内容,本节中我们来看看数据分析师需要具备哪些软技能。软技能涉及个人特质和人际交往能力,是理解业务需求、有效沟通和持续学习的基础。

以下是几位从业者强调的关键软技能:

  • 好奇心:主动探索数据,即使在没有明确问题的情况下也乐于寻找答案和模式。
  • 注重细节:能够深入观察,不满足于表面信息,例如对比不同时期的数据以发现异常。
  • 持续学习的心态:由于技术领域发展迅速,需要愿意不断学习新工具和方法以适应变化。
  • 沟通与理解能力:仔细倾听,理解用户和同事的视角,明确他们从数据中最需要获得什么。
  • 商业敏锐度:知道在特定情境下应使用哪些数据和工具,以及如何向利益相关者清晰呈现数据。

硬技能:必备的技术工具

了解了软技能的重要性后,我们来看看支撑数据分析工作的硬技能。硬技能主要指具体的技术和工具使用能力,是执行数据分析任务的核心。

以下是数据分析师需要掌握的关键硬技能:

  • SQL:这是最重要的技能。几乎所有从数据库提取数据的场景都需要使用SQL。掌握扎实的SQL技能至关重要。
    -- 示例:从“销售表”中查询2023年的数据
    SELECT * FROM sales WHERE year = 2023;
    
  • 编程语言:Python和R是进行数据分析的两大主要编程语言。作为新手,无需同时精通两者,但熟练掌握其中一种将对职业生涯大有裨益。
    # 示例:使用Python的pandas库加载数据
    import pandas as pd
    data = pd.read_csv('sales_data.csv')
    
  • 数据可视化:需要精通至少一种数据可视化工具(如Tableau、Power BI),并理解数据可视化的通用原则,以便清晰、简洁地呈现洞察。
  • 端到端数据处理能力:现代数据分析师的工作流程是动态的,需要能够:定义待解决的问题 → 使用SQL从数据湖中提取并整合所需数据 → 清理、整理、处理数据 → 挖掘洞察 → 通过可视化和仪表板讲述数据故事。

总结

本节课中,我们一起学习了成为数据分析师所需的核心素质和技能。我们了解到,软技能(如好奇心、注重细节和沟通能力)与硬技能(如SQL、编程和可视化)同等重要。一名优秀的数据分析师需要将技术能力与对业务的理解、批判性思维和讲故事的能力相结合,从而从数据中提取有价值的见解并推动有效决策。

008:数据分析师的日常生活

在本节课中,我们将通过一位数据分析师的实际工作案例,了解数据分析师日常工作中的一项核心任务:从数据中寻找洞察。我们将跟随一位分析师,探索如何通过系统性的分析来解决一个具体的业务问题。


数据分析师的日常工作包含多种可能性。从获取多样化的数据源,到编写查询语句从数据仓库中提取数据,再到逐行筛查数据以寻找洞察、创建报告和仪表板,以及与利益相关者沟通以收集信息和呈现发现,这是一个完整的流程。当然,还有一个重要的环节:清洗和准备数据,以确保分析结果具有可信的基础。这通常是数据分析师工作中很大的一部分。

如果必须选择一种典型的工作日来描述,我会选择在数据中探索以寻找洞察的那一天。这是我工作中最令我着迷的部分。

大家好,我是 Sieveramjaladi。我在 Fluent Grid 公司担任数据分析师。Fluent Grid 是一家位于印度维沙卡帕特南的智能电网技术解决方案公司,也是 IBM 的合作伙伴,并因其在智能能源和智慧城市领域的解决方案而获得 IBM Beacon 奖项。我们利用名为 Fluent Grid ACT Diligence 的可执行智能平台,为电力公司和智慧城市提供集成的运营中心解决方案。

我们的客户是印度南部的一家电力公司,他们注意到关于账单过高的投诉激增。投诉的频率表明,这可能不是随机事件,背后或许存在某种规律。因此,我被要求查看投诉数据和账单数据,看看是否能发现什么。

我首先盘点手头已有的数据。一些显而易见的需要查看的数据包括:投诉数据、用户信息数据和账单数据。这将是我的起点。

在深入分析具体数据之前,我会先列出一些问题,也就是我最初的假设。例如:

以下是几个初始假设:

  1. 投诉用户的用电模式:账单过高是否更频繁地发生在某个特定的用电量区间?
  2. 投诉的区域集中度:投诉是否集中在城市的特定区域?
  3. 投诉的频率与用户关联:是否同一用户反复投诉账单过高?如果是,重复投诉的频率如何?如果用户被多收费一次,是从第一次开始每月都发生,还是偶尔发生,或者之后不再发生?

明确了初始假设和问题后,我确定了需要隔离和分析以验证或反驳这些假设的数据集。

我提取了投诉用户的年平均、季度平均和月平均账单金额,寻找投诉更集中的金额区间。

接着,我调取了投诉用户的位置数据,查看账单过高是否与邮政编码有关联。在这里,我发现投诉似乎集中在某些区域。这看起来可能是一个线索,因此我没有立即转向第三个假设,而是决定更深入地挖掘这部分数据。

接下来,我提取了用户的接入日期数据。超过 95% 的投诉用户成为我们的用户已超过七年,当然,并非所有超过七年的用户都面临此投诉。

至此,我们看到了一些区域集中性,并且基于接入日期,投诉也存在显著的集中性。

然后,我提取了电表的制造商和序列号。答案出现了:这些序列号属于同一供应商提供的同一批电表。这些电表的安装区域,也正是投诉集中的区域。

在这个阶段,我有信心将这些发现呈现给利益相关者。我也会分享数据来源和分析过程,这总是能极大地增加发现结果的可信度。

这个项目可能就此结束,也可能会有后续。也许会出现具有不同共性的相同投诉,或者出现一组全新的、需要我们寻找答案的投诉。


本节课中,我们一起学习了数据分析师如何通过定义问题、提出假设、提取和分析数据来逐步解决一个实际的业务问题。这个过程展示了数据分析的核心:从杂乱的数据中梳理出有意义的模式,并为决策提供可信的依据。记住,清晰的问题定义和系统性的分析步骤是成功的关键。

009:数据分析的应用 🌍

在本节课中,我们将通过从业者的视角,了解数据分析在当今世界中的广泛应用。数据分析已渗透到各行各业,成为决策和创新的核心驱动力。


概述

本节视频中,多位数据实践者将讨论数据分析在当今世界的多种应用场景。从商业广告到健康管理,从传统行业到新兴领域,数据分析正发挥着不可或缺的作用。


数据分析的普遍性

数据分析在当今世界的应用无处不在。你看到的每一个商业广告,背后都有人通过分析来确定要向消费者或公司传达何种信息。例如,“十分之四的牙医推荐”这类表述,或是与卡路里计数、对某些事物的反应相关的信息,所有这些都需要数据分析。数据分析不应被视为独立于日常生活的事物,它正是我们日常所做的一部分。即使是糖尿病患者监测血糖水平,也始终伴随着分析过程。因此,数据分析的应用是普遍存在的。

当今时代,数据分析的一大优势在于其广泛适用性。


跨行业与跨职能的应用

数据分析的益处遍及每个行业、每个垂直领域以及组织内的每一项职能。

以下是数据分析的一些典型应用场景:

  • 销售渠道分析:评估销售流程和业绩。
  • 月度财务分析:在月末进行财务数据核算与总结。
  • 生成预定义和标准化的格式化报告:自动创建统一格式的业务报告。
  • 人员编制规划或审查:基于数据制定或评估人力资源计划。

正如之前提到的,这些应用跨越所有垂直领域,无论是航空、制药还是银行业,其内部的各项职能都能从数据分析中获益。


特定环境下的应用价值

在我们当前所处的疫情环境下,数据分析显得尤为重要。

许多公司正在密切关注客户的购买习惯。显然,这些习惯可能与公司的预期有所不同。因此,数据分析现在变得更加重要,因为它能帮助公司确保及时调整策略,跟上需求变化,并真正满足其客户和顾客的需求。


金融领域的应用实例

我可以谈谈数据分析在金融领域的应用。近年来,我们在金融界看到了越来越多另类数据分析的应用。

例如,我们可以利用对推文和新闻故事的情感分析来补充传统的金融分析,从而做出更明智的投资决策。此外,卫星图像数据可用于追踪工业活动的发展,而地理位置数据则可用于跟踪门店客流量并预测销售额。


总结

本节课中,我们一起学习了数据分析广泛而深入的应用。从日常生活的细微之处到企业战略的核心决策,从传统行业的运营优化到金融领域的创新投资,数据分析已成为理解和塑造世界的关键工具。认识到其普遍性和跨领域价值,是成为一名数据分析师的重要起点。

010:数据分析师生态系统概述 🌐

在本节课中,我们将学习数据分析师生态系统的基本构成。这个生态系统包含了用于收集、清洗、分析、挖掘和可视化数据的基础设施、软件、工具、框架和流程。我们将首先对生态系统进行一个概览,后续视频会深入探讨每个主题的细节。


数据分类 📊

首先,我们来谈谈数据。根据数据结构的明确程度,数据可以分为结构化、半结构化和非结构化数据。

以下是不同类型数据的定义和示例:

  • 结构化数据:遵循严格格式,可以整齐地组织成行和列的数据。例如,你在数据库和电子表格中看到的数据。
  • 半结构化数据:混合了具有一致特征的数据和不符合刚性结构的数据。例如,电子邮件包含发件人、收件人(结构化数据),也包含邮件正文内容(非结构化数据)。
  • 非结构化数据:结构复杂且主要为定性信息,无法简化为行和列的数据。例如,照片、视频、文本文件、PDF 文件和社交媒体内容。

数据的类型决定了可以收集和存储数据的种类,也决定了可用于查询或处理数据的工具。


数据来源与存储库 🗄️

上一节我们介绍了数据的类型,本节中我们来看看数据的来源和存储方式。数据以多种文件格式存在,并从各种数据源收集,范围涵盖关系型和非关系型数据库、API、网络服务、数据流、社交平台和传感器设备。

这引出了数据存储库的概念,它包括数据库、数据仓库、数据集市、数据湖和大数据存储。数据的类型、格式和来源会影响你用于收集、存储、清洗、分析和挖掘数据的数据存储库类型。

例如,如果你处理的是大数据,你将需要能够存储和处理海量、高速数据的大数据仓库,以及允许你对大数据进行实时复杂分析的框架。


数据分析语言 💻

生态系统还包括各种语言,可分为查询语言、编程语言以及 Shell 和脚本语言。

以下是数据分析师工作台中重要的语言组件:

  • 查询语言:使用 SQL 查询和操作数据。
  • 编程语言:使用 Python 开发数据应用程序。
  • Shell 和脚本语言:编写 Shell 脚本以执行重复性操作任务。


工具与框架 🛠️

自动化工具、框架和流程是数据分析师生态系统的一部分,它们覆盖了分析过程的各个阶段。

从用于将数据收集、提取、转换和加载到数据存储库的工具,到用于数据整理、数据清洗、分析、数据挖掘和数据可视化的工具,这是一个非常多样化和丰富的生态系统。电子表格、Jupyter Notebooks 和 IBM Cognos 只是其中的几个例子。

我们将在课程后续章节中更详细地介绍一些数据分析工具。


总结 📝

本节课中,我们一起学习了数据分析师生态系统的核心组成部分。我们了解了数据的三种主要类型(结构化、半结构化和非结构化),认识了不同的数据来源和存储库(如数据仓库、数据湖),熟悉了数据分析中常用的语言(如 SQL、Python),并概览了支持整个分析流程的各种工具和框架。理解这个生态系统是成为一名高效数据分析师的重要基础。

011:数据类型

在本节课中,我们将学习数据的基本分类方式。理解不同类型的数据是进行有效数据分析的第一步。我们将重点介绍结构化数据、半结构化数据和非结构化数据,并探讨它们各自的特点与来源。


数据是未经组织的信息,经过处理后变得有意义。数据包含事实、观察、感知、数字、字符、符号和图像,这些内容可以被解释以获取含义。对数据进行分类的一种方式是依据其结构。数据可以分为结构化数据半结构化数据非结构化数据

🗂️ 结构化数据

结构化数据具有定义良好的结构,或遵循特定的数据模型。它可以存储在定义明确的模式中,例如数据库,并且在许多情况下可以以包含行和列的表格形式表示。

结构化数据是客观的事实和数字,可以被收集、导出、存储和组织在典型的数据库中。

以下是结构化数据的一些来源:

  • SQL数据库
  • 在线事务处理系统
  • 电子表格
  • 在线表单
  • 传感器
  • 网络和Web服务器日志

你可以使用标准的数据分析工具和方法轻松地检查结构化数据。

📄 半结构化数据

上一节我们介绍了具有固定格式的结构化数据,本节中我们来看看半结构化数据。半结构化数据具有一定的组织属性,但缺乏固定或严格的模式。它不能像数据库中那样以行和列的形式存储。

它包含标签、元素或元数据,用于对数据进行分组并以层次结构进行组织。

以下是半结构化数据的一些来源:

  • 电子邮件
  • XML等标记语言
  • 二进制可执行文件
  • TCP/IP数据包
  • 压缩文件
  • 来自不同来源的数据集成

XML和JSON允许用户定义标签和属性,以分层形式存储数据,并被广泛用于存储和交换半结构化数据。

🗃️ 非结构化数据

与具有特定格式的数据不同,非结构化数据没有易于识别的结构,因此无法以行和列的形式组织到主流的关系型数据库中。它没有任何特定的格式、顺序、语义或规则。

非结构化数据可以处理来源的异构性,并具有多种商业智能和分析应用。

以下是非结构化数据的一些来源:

  • 网页
  • 社交媒体信息流
  • 图像文件
  • 视频和音频文件
  • 文档和PDF文件
  • PowerPoint演示文稿
  • 媒体日志和调查问卷

非结构化数据可以存储在文件和文档中,也可以存储在拥有专门分析工具的NoSQL数据库中。


本节课中我们一起学习了数据的三种主要类型。

  • 结构化数据是组织良好的数据,格式规范,可存储在数据库中,适用于标准的数据分析方法和工具。
  • 半结构化数据具有一定组织性,依赖元标签进行分组和层次化。
  • 非结构化数据则没有以特定的行、列格式进行常规组织。

在下一个视频中,我们将学习不同类型的文件结构。

012:理解不同类型的文件格式 📁

在本节课中,我们将学习数据分析工作中常见的几种数据文件格式。理解这些格式的底层结构、优势与局限性,将帮助你根据数据和性能需求做出正确的格式选择。


分隔文本文件 📄

上一节我们介绍了课程目标,本节中我们首先来看看分隔文本文件。这是一种以文本形式存储数据的文件,其中每一行(或每一行记录)的值都由一个分隔符隔开。分隔符是一个或多个字符的序列,用于指定独立实体或值之间的边界。

以下是分隔文本文件的核心特点:

  • 任何字符都可以用作分隔符,但最常见的包括:逗号制表符冒号竖线空格
  • 逗号分隔值文件制表符分隔值文件是此类中最常用的文件类型。
    • 在CSV中,分隔符是逗号。
    • 在TSV中,分隔符是制表符。
  • 当文本数据本身包含逗号时,TSV可作为CSV的替代格式,因为文本中很少出现制表符。
  • 文本文件中的每一行代表一条记录,包含一组由分隔符分隔的值。
  • 第一行通常作为列标题,每列可以包含不同类型的数据(例如日期、字符串、整数)。
  • 分隔文件允许字段值为任意长度,被视为提供简单信息模式的标准格式,几乎能被所有现有应用程序处理。

Microsoft Excel Open XML 电子表格 📊

了解了基础的文本格式后,我们来看看更结构化的电子表格格式。Microsoft Excel Open XML 电子表格是一种基于XML的电子表格文件格式,由Microsoft创建。

以下是XLSX格式的核心特点:

  • 一个XLSX文件也称为一个工作簿,可以包含多个工作表
  • 每个工作表由行和列组织,其交叉点称为单元格,每个单元格包含数据。
  • 它采用开放文件格式,意味着大多数其他应用程序通常也能访问它。
  • 它可以使用并保存Excel中的所有可用功能。
  • 它被认为是更安全的文件格式之一,因为它无法保存恶意代码。

可扩展标记语言 🔖

接下来,我们探讨一种用于数据编码的标记语言。可扩展标记语言是一种用于编码数据的标记语言,具有一套规则。

以下是XML格式的核心特点:

  • XML文件格式对人类和机器都可读。
  • 它是一种自描述语言,专为在互联网上发送信息而设计。
  • XML在某些方面与HTML相似,但也有区别。例如,XML不像HTML那样使用预定义的标签。
  • XML独立于平台和编程语言,因此简化了不同系统之间的数据共享。

便携式文档格式 📑

除了用于数据交换的格式,我们还需要了解用于文档呈现的格式。便携式文档格式由Adobe开发,用于呈现独立于应用软件、硬件和操作系统的文档。

以下是PDF格式的核心特点:

  • 这意味着它可以在任何设备上以相同的方式查看。
  • 这种格式常用于法律和金融文件,也可用于填写表格等数据。

JavaScript 对象表示法 🔄

最后,我们来看一种在现代Web开发中广泛使用的数据交换格式。JavaScript 对象表示法是一种基于文本的开放标准,专为在网络上传输结构化数据而设计。

以下是JSON格式的核心特点:

  • 该文件格式是一种独立于语言的数据格式,可以用任何编程语言读取。
  • JSON易于使用,与广泛的浏览器兼容,并被认为是共享任何大小和类型数据(甚至音频和视频)的最佳工具之一。
  • 这也是许多API和Web服务器将数据以JSON格式返回的原因之一。

本节课中,我们一起学习了五种常见的数据文件格式:分隔文本文件XLSX电子表格XMLPDFJSON。每种格式都有其特定的结构、用途和适用场景。理解这些差异是数据分析师高效处理和分析数据的基础。

013:数据来源 📊

概述

在本节课中,我们将要学习数据分析中至关重要的一个环节:数据来源。数据是分析的基石,了解数据从何而来、以何种形式存在,是每位数据分析师必备的知识。我们将探讨当今动态且多样的数据来源,包括关系型数据库、平面文件、API、网络爬虫、数据流和订阅源等。


数据来源的多样性与动态性

正如我们在之前的视频中提到的,数据来源从未像今天这样动态和多样。本节中,我们将具体看看一些常见的数据来源。

以下是几种主要的数据来源类型:

  • 关系型数据库
  • 平面文件与XML数据
  • API与网络服务
  • 网络爬虫
  • 数据流与订阅源

内部数据源:关系型数据库

通常,组织拥有内部应用程序来支持其日常业务活动、客户交易、人力资源活动和工作流程的管理。

这些系统使用如 SQL ServerOracleMySQLIBM DB2 等关系型数据库,以结构化的方式存储数据。存储在数据库和数据仓库中的数据可以作为分析的数据源。

例如,来自零售交易系统的数据可用于分析不同区域的销售情况;来自客户关系管理系统的数据可用于进行销售预测。


外部数据源:公开与私有数据集

在组织外部,还存在其他公开和私有的可用数据集。

例如,政府机构会持续发布人口统计和经济数据集。此外,还有一些公司销售特定数据,例如销售点数据、金融数据或天气数据。

企业可以利用这些数据来制定战略、预测需求,并在分销或营销推广等方面做出决策。

这类数据集通常以平面文件、电子表格文件或XML文档的形式提供。


平面文件与电子表格

上一节我们提到了外部数据常以文件形式提供,本节中我们来看看这些文件的具体格式。

平面文件以纯文本格式存储数据,每行一条记录,每个值由逗号、分号或制表符等分隔符分隔。平面文件中的数据映射到单个表,这与包含多个表的关系型数据库不同。最常见的平面文件格式是CSV,其值由逗号分隔。

姓名,年龄,城市
张三,28,北京
李四,35,上海

电子表格文件是一种特殊类型的平面文件,它也以表格格式(行和列)识别数据,但一个电子表格可以包含多个工作表,每个工作表可以映射到不同的表。虽然电子表格中的数据是纯文本,但文件可以以自定义格式存储,并包含格式、公式等附加信息。

Microsoft Excel(以XLS或XLSX格式存储数据)可能是最常见的电子表格。其他还包括Google Sheets、Apple Numbers和Libre Office。


XML 数据

XML文件包含使用标签标识或标记的数据值。与映射到单个表的平面文件不同,XML文件可以支持更复杂的数据结构,例如层次结构。

XML的一些常见用途包括来自在线调查、银行对账单和其他非结构化数据集的数据。

<person>
  <name>张三</name>
  <age>28</age>
  <city>北京</city>
</person>

API 与网络服务

许多数据提供商和网站提供API或应用程序编程接口以及网络服务,多个用户或应用程序可以与之交互,以获取数据进行处理或分析。

API和网络服务通常监听传入的请求(可以是来自用户的网络请求或来自应用程序的网络请求形式),并以纯文本、XML、HTML、JSON或媒体文件的形式返回数据。

让我们看一些将API用作数据分析数据源的流行例子:

  • 社交媒体API:使用Twitter和Facebook API从推文和帖子中获取数据,用于执行意见挖掘或情感分析等任务,以总结对特定主题(如政府政策、产品、服务或总体客户满意度)的赞赏和批评数量。
  • 金融市场API:用于提取股价和商品价格、每股收益和历史价格等数据,用于交易和分析。
  • 数据查询与验证API:这对数据分析师清理和准备数据以及核对数据非常有用,例如,检查邮政编码属于哪个城市或州。
  • 数据库API:也用于从组织内部和外部的数据库源中提取数据。

网络爬虫

网络爬虫用于从非结构化来源中提取相关数据,也称为屏幕抓取、网络采集和网络数据提取。网络爬虫使得可以根据定义的参数从网页下载特定数据成为可能。

网络爬虫可以从网站中提取文本、联系信息、图像、视频、产品项目等。网络爬虫的一些流行用途包括:

  • 从零售商、制造商和电子商务网站收集产品详情以提供价格比较。
  • 通过公共数据源生成销售线索。
  • 从各种论坛和社区的帖子和作者中提取数据。
  • 为机器学习模型收集训练和测试数据集。

一些流行的网络爬虫工具包括 Beautiful SoupScrapyPandasSelenium


数据流与订阅源

数据流是另一种广泛使用的数据源,用于聚合来自仪器、物联网设备、应用程序、汽车GPS数据、计算机程序、网站和社交媒体帖子等来源的持续数据流。这些数据通常带有时间戳,并带有地理标签以进行地理识别。

一些数据流及其利用方式包括:

  • 用于金融交易的股票和市场行情。
  • 用于预测需求和供应链管理的零售交易流。
  • 用于威胁检测的监控和视频源。
  • 用于情感分析的社交媒体源。
  • 用于监控工业或农业机械的传感器数据源。
  • 用于监控网络性能和改进设计的网络点击流。
  • 用于重新预订和重新安排航班的实时航班事件。

用于处理数据流的一些流行应用程序包括 Apache KafkaApache Spark StreamingApache Storm

RSS 是另一种流行的数据源。这些通常用于从在线论坛和新闻网站捕获更新的数据,这些地方的数据会持续刷新。

使用订阅阅读器(一种将RSS文本文件转换为更新数据流的接口),更新会被推送到用户设备。


总结

本节课中,我们一起学习了数据分析中多样化的数据来源。我们从组织内部的关系型数据库,探讨到外部的平面文件、XML、API和网络服务,并了解了如何通过网络爬虫获取网页数据,以及如何处理持续不断的数据流和订阅源。理解这些数据来源的特性和获取方式,是进行有效数据采集、为后续分析步骤准备高质量数据的基础。

014:数据专业人员的语言

在本节课中,我们将学习数据专业人员工作中常用的一些语言。这些语言可以分为查询语言、编程语言和Shell脚本语言。掌握每个类别中的至少一种语言,对任何数据专业人员都至关重要。


🔍 查询语言

查询语言主要用于访问和操作数据库中的数据。例如,SQL

SQL(结构化查询语言)是一种为访问和操作信息而设计的查询语言,主要(但不仅限于)用于关系型数据库。使用SQL,我们可以编写一组指令来执行操作,例如在数据库中插入、更新和删除记录,创建新的数据库、表和视图,以及编写存储过程。这意味着你可以编写一组指令,并在以后调用它们。

以下是使用SQL的一些优势:

  • 可移植性:SQL是平台无关的,可以在不同平台上使用。
  • 通用性:可用于查询各种数据库和数据存储库中的数据,尽管每个供应商可能有一些变体和特殊扩展。
  • 语法简单:其语法类似于英语,允许开发者用比其他一些编程语言更少的代码行来编写程序。
  • 高效检索:可以快速高效地检索大量数据。
  • 解释型系统:代码编写后即可执行,使得原型设计快速简便。
  • 社区与文档:拥有庞大的用户社区和多年积累的大量文档,是全球范围内为用户提供统一平台的流行语言。

💻 编程语言

上一节我们介绍了用于数据查询的SQL,本节中我们来看看用于开发应用程序和控制应用行为的编程语言。例如,PythonRJava

Python

Python是一种广泛使用的开源、通用、高级编程语言。与其他一些较老的语言相比,其语法允许程序员用更少的代码行来表达概念。Python因其注重简洁性、可读性以及较低的学习曲线,被认为是最容易学习的语言之一,并拥有庞大的开发者社区。它是初学者的理想工具。

Python非常适合对海量数据执行高计算任务,否则这些任务可能极其耗时且繁琐。Python提供了如 numpypandas 这样的库,通过使用并行处理来简化任务。它内置了几乎所有常用概念的函数。

Python支持多种编程范式,如面向对象、命令式、函数式和过程式,使其适用于广泛的用例。

现在,让我们看看使Python成为当今世界增长最快的编程语言之一的一些原因:

  • 易于学习:使用Python,你可以用比其他语言更少的代码行完成任务。
  • 开源:Python是免费的,采用基于社区的开发模式。
  • 跨平台:可在Windows和Linux环境中运行,并可移植到多个平台。
  • 社区支持广泛:拥有大量可用的有用分析库。
  • 丰富的库:拥有多个用于数据操作、数据可视化、统计和数学的开源库。其庞大的库和功能还包括:
    • pandas:用于数据清理和分析。
    • numpyscipy:用于统计分析。
    • BeautifulSoupScrapy:用于网络爬虫。
    • matplotlibseaborn:用于以条形图、直方图和饼图等形式可视化呈现数据。
    • OpenCV:用于图像处理。

R

R是一种用于数据分析、数据可视化、机器学习和统计的开源编程语言和环境,广泛用于开发统计软件和执行数据分析。它尤其以创建引人注目的可视化效果而闻名,这使其在该领域比其他一些语言更具优势。

R的一些主要优点包括:

  • 开源与跨平台:是一种开源、平台无关的编程语言。
  • 兼容性强:可以与包括Python在内的许多编程语言配对使用。
  • 高度可扩展:开发者可以通过定义新函数来持续添加功能。
  • 数据处理能力强:便于处理结构化和非结构化数据,意味着具有更全面的数据处理能力。
  • 强大的图形库:拥有如 ggplot2plyr 这样的库,为用户提供美观的图形绘图。
  • 报告与交互应用:可以制作嵌入数据和脚本的报告,以及允许用户与结果和数据交互的交互式Web应用。
  • 统计工具开发:在开发统计工具方面,比其他编程语言更具优势。

Java

Java是一种面向对象、基于类且平台无关的编程语言,最初由Sun Microsystems开发。它是当今使用最广泛的顶级编程语言之一。

Java在数据分析的多个过程中都有应用,包括数据清理、数据导入导出、统计分析和数据可视化。事实上,大多数用于大数据的流行框架和工具通常都是用Java编写的,例如 HadoopHiveSpark。它非常适合对速度要求高的项目。


🐚 Shell与脚本语言

在了解了编程语言之后,我们最后来看看Shell和脚本语言,例如 Unix/Linux ShellPowerShell。这些语言非常适合处理重复且耗时的操作任务。

Unix/Linux Shell

Unix或Linux Shell是为Unix Shell编写的计算机程序。它是一系列写在纯文本文件中的Unix命令,用于完成特定任务。

编写Shell脚本快速且简单。它对于重复性任务最为有用,这些任务如果一次输入一行命令来执行可能会非常耗时。

Shell脚本执行的典型操作包括:

  • 文件操作
  • 程序执行
  • 系统管理任务,如磁盘备份和评估系统日志
  • 复杂程序的安装脚本
  • 执行例行备份
  • 运行批处理任务

PowerShell

PowerShell是微软推出的跨平台自动化工具和配置框架,针对处理结构化数据格式(如JSON、CSV、XML)以及REST API、网站和Office应用程序进行了优化。它由命令行Shell和脚本语言组成。

PowerShell是基于对象的,这使得在对象通过数据管道时,可以对它们进行过滤、排序、测量、分组、比较等多种操作。

它也是数据挖掘、构建GUI、创建图表、仪表板和交互式报告的良好工具。


📝 总结

在本节课中,我们一起学习了数据专业人员使用的三类核心语言:

  1. 查询语言:以SQL为代表,专注于从数据库中高效访问和操作数据。
  2. 编程语言:包括PythonRJava,用于开发应用程序、执行复杂的数据分析、统计计算和构建大规模数据处理系统。
  3. Shell与脚本语言:如Unix/Linux ShellPowerShell,用于自动化重复的系统操作和管理任务。

掌握这些语言中的至少一种,将为你构建坚实的数据分析技能基础提供重要支持。每种语言都有其独特的优势和适用场景,理解它们将帮助你在数据领域的工作中更加得心应手。

015:数据仓库概述 📊

在本节课中,我们将要学习数据仓库的基本概念。我们将了解数据存储库的不同类型,包括数据库、数据仓库和大数据存储,并探讨它们各自的特点与用途。


什么是数据存储库? 🗃️

数据存储库是一个通用术语,指代那些被收集、组织并隔离起来的数据,以便用于业务运营,或用于生成报告和进行数据分析。它可以是一个小型或大型的数据库基础设施,包含一个或多个用于收集、管理和存储数据的数据库。

在接下来的视频中,我们将更详细地探讨不同类型的数据存储库。本节中,我们先来概述一下您的数据可能驻留的几种主要存储库类型:数据库、数据仓库和大数据存储。


数据库 🗄️

上一节我们介绍了数据存储库的总体概念,本节中我们来看看其中最常见的一种类型:数据库。

数据库是为数据的输入、存储、检索、搜索和修改而设计的数据或信息集合。数据库管理系统(DBMS)是一组用于创建和维护数据库的程序,它允许您通过一种称为“查询”的功能来存储、修改和从数据库中提取信息。

例如,如果您想查找已闲置六个月或更长时间的客户,使用查询功能,数据库管理系统将从数据库中检索出所有符合此条件的客户数据。

尽管“数据库”和“数据库管理系统”含义不同,但这两个术语经常互换使用。

以下是影响数据库选择的一些关键因素:

  • 数据类型和结构
  • 查询机制
  • 延迟要求
  • 事务处理速度
  • 数据的预期用途

在此,需要提及两种主要的数据库类型:关系型数据库和非关系型数据库。

关系型数据库

关系型数据库,也称为 RDBMS,其组织原则建立在平面文件的基础上。数据被组织成具有行和列的表格格式,遵循明确定义的结构和模式。然而,与平面文件不同,RDBMS 针对涉及多个表和更大数据量的数据操作和查询进行了优化。

结构化查询语言(SQL)是关系型数据库的标准查询语言。

非关系型数据库

非关系型数据库,也称为 NoSQL 或“不仅仅是 SQL”,是为了应对当今数据生成的速度、多样性和体量而出现的,主要受到云计算、物联网和社交媒体普及的推动。

非关系型数据库为速度、灵活性和可扩展性而构建,使得以无模式或自由形式的方式存储数据成为可能。NoSQL 被广泛用于处理大数据。


数据仓库 🏢

上一节我们讨论了数据库,本节中我们来看看另一种专门用于分析的数据存储库:数据仓库。

数据仓库作为一个中央存储库,将来自不同来源的信息合并,并通过提取、转换和加载过程(也称为 ETL 过程)将其整合到一个用于分析和商业智能的综合性数据库中。

在较高层面上,ETL 过程帮助您从不同的数据源提取数据,将数据转换为干净可用的状态,并将数据加载到企业的数据存储库中。

与数据仓库相关的概念还有数据集市和数据湖,我们将在后面介绍。历史上,数据集市和数据仓库通常是关系型的,因为许多传统的企业数据都驻留在 RDBMS 中。然而,随着 NoSQL 技术和新数据源的出现,非关系型数据存储库现在也用于数据仓库。


大数据存储 🌐

另一类数据存储库是大数据存储,它包括分布式计算和存储基础设施,用于存储、扩展和处理非常大的数据集。


总结 📝

本节课中,我们一起学习了数据存储库的核心概念。我们了解到,数据存储库有助于隔离数据,使报告和分析更加高效和可靠,同时也充当数据档案库。我们探讨了数据库(包括关系型和非关系型)、数据仓库及其 ETL 过程,以及大数据存储的基本特点。理解这些不同类型的存储库是构建有效数据分析解决方案的基础。

016:关系数据库管理系统 📊

在本节课中,我们将要学习关系数据库管理系统(RDBMS)的核心概念、工作原理、优势、局限性及其典型应用场景。关系数据库是组织和管理结构化数据的基础工具,理解它对于数据分析至关重要。


什么是关系数据库? 🗂️

关系数据库是一种将数据组织成表格结构的数据集合。这些表格可以根据彼此共有的数据相互链接或关联。表格由行和列组成,其中行代表记录,列代表属性。

让我们以一个客户表为例,该表维护公司每位客户的数据。客户表中的列或属性包括:客户ID、客户姓名、客户地址和客户主要电话。每一行则代表一条客户记录。


表之间的关联 🔗

上一节我们介绍了关系数据库的基本结构,本节中我们来看看“表之间基于共有数据关联”的具体含义。

除了客户表,公司通常还会维护交易表,其中包含描述每位客户多笔独立交易的数据。

交易表的列可能包括:交易日期、客户ID、交易金额和支付方式。客户表和交易表可以通过共有的“客户ID”字段建立关联。

通过这种关联,你可以查询客户表来生成报告,例如一份汇总了特定时间段内所有交易的客户对账单。这种基于共有数据关联表格的能力,使你能够通过一次查询,从一个或多个表中的数据检索出一个全新的表格。它还允许你理解所有可用数据之间的关系,并获得新的见解以做出更好的决策。

实际的数据库使用结构化查询语言(SQL)来查询数据。我们将在本课程后续部分深入学习SQL。


关系数据库与平面文件的区别 📈

关系数据库建立在平面文件(如电子表格)的组织原则之上,数据按照定义良好的结构和模式组织成行和列。但相似之处仅此而已。

关系数据库在设计上非常适合对大量数据进行优化的存储、检索和处理。与行列数量有限的电子表格不同,关系数据库中的每个表都有唯一的行和列集合,并且可以在表之间定义关系,这最大限度地减少了数据冗余。

此外,你可以将数据库字段限制为特定的数据类型和值,这减少了不规则性,并带来了更高的一致性和数据完整性。

关系数据库使用SQL查询数据,这使你能够处理数百万条记录,并在几秒钟内检索大量数据。

关系数据库的安全架构提供了对数据的受控访问,并确保可以执行管理数据的标准和策略。


关系数据库的类型与示例 🌐

关系数据库的范围很广,从小型桌面系统到大规模云基系统都有。它们可以是开源且内部支持的、开源但有商业支持的,或商业闭源系统。

以下是部分流行的关系数据库:

  • IBM DB2
  • Microsoft SQL Server
  • MySQL
  • Oracle Database
  • PostgreSQL

基于云的关系数据库,也称为“数据库即服务”(DBaaS),正获得广泛应用,因为它们可以利用云提供的近乎无限的计算和存储能力。

一些流行的云关系数据库包括:

  • Amazon Relational Database Service (RDS)
  • Google Cloud SQL
  • IBM DB2 on Cloud
  • Oracle Cloud
  • SQL Azure

RDBMS是一项成熟且文档完善的技术,易于学习并找到合格人才。


关系数据库的优势 ✅

关系数据库方法最显著的优势之一是其通过连接表来创建有意义信息的能力。

以下是它的其他一些优势:

  • 灵活性:使用SQL,你可以在数据库运行和查询进行时添加新列、添加新表、重命名关系并进行其他更改。
  • 减少冗余:关系数据库最大限度地减少了数据冗余。例如,客户的信息仅在客户表中出现一次,而交易表只存储指向客户表的链接。
  • 易于备份和灾难恢复:关系数据库提供简单的导入导出选项,使备份和恢复变得容易。导出可以在数据库运行时进行,使得故障恢复变得简单。基于云的关系数据库进行连续镜像,这意味着恢复时的数据丢失可以控制在几秒甚至更短的时间内。
  • ACID 合规性:ACID 代表原子性、一致性、隔离性和持久性。ACID 合规性意味着无论发生何种故障,数据库中的数据都保持准确和一致,并且数据库事务被可靠地处理。

关系数据库的典型应用场景 🎯

现在,我们来看看关系数据库的一些典型应用场景。

  • 在线事务处理(OLTP)应用程序:这类应用专注于以高速率运行面向事务的任务。关系数据库非常适合 OLTP 应用,因为它们可以容纳大量用户,支持插入、更新或删除少量数据,也支持频繁的查询和更新以及快速的响应时间。
  • 数据仓库:在数据仓库环境中,关系数据库可以针对在线分析处理(OLAP)进行优化,用于分析历史数据以获取商业智能。
  • 物联网(IoT)解决方案:物联网解决方案需要速度以及从边缘设备收集和处理数据的能力,这些设备需要一个轻量级的数据库解决方案。

关系数据库的局限性 ⚠️

这引出了 RDBMS 的局限性。

  • RDBMS 不擅长处理半结构化或非结构化数据,因此不适合对此类数据进行广泛分析。
  • 在两个 RDBMS 之间迁移时,源表和目标表的模式及数据类型需要完全相同。
  • 关系数据库对数据字段的长度有限制。这意味着,如果你尝试向一个字段输入超出其容量的信息,这些信息将不会被存储。

总结 📝

本节课中,我们一起学习了关系数据库管理系统(RDBMS)。尽管存在局限性,并且在大数据、云计算、物联网设备和社交媒体时代数据形态不断演变,RDBMS 仍然是处理结构化数据的主导技术。我们了解了它的表格结构、表间关联原理、相较于平面文件的优势、不同类型、核心优势(如灵活性、ACID合规性)以及典型的应用场景(如OLTP、数据仓库)。理解 RDBMS 是成为一名数据分析师的重要基石。

017:NoSQL 数据库简介 🗄️

在本节课中,我们将要学习 NoSQL 数据库。我们将了解 NoSQL 的含义、它与传统数据库的区别、常见的 NoSQL 数据库类型及其各自的优缺点。通过本节内容,你将能够理解 NoSQL 数据库在现代数据应用中的角色和适用场景。


NoSQL,全称为“Not Only SQL”(不仅仅是 SQL),有时也指“Non SQL”(非 SQL)。它是一种非关系型数据库设计,为数据的存储和检索提供了灵活的架构。

NoSQL 数据库已存在多年,但直到云、大数据以及高流量网络和移动应用时代才变得更为流行。如今,人们选择 NoSQL 是因为其在扩展性、性能和易用性方面的优势。需要强调的是,NoSQL 中的“No”是“Not Only”的缩写,而非简单的否定词“不”。

NoSQL 数据库为特定的数据模型构建,并拥有灵活的架构,使程序员能够创建和管理现代应用程序。它们不使用具有固定架构的传统行列式表格数据库设计,并且通常不使用结构化查询语言(SQL)来查询数据,尽管有些可能支持 SQL 或类 SQL 接口。

NoSQL 允许数据以无模式或自由格式的方式存储。任何数据,无论是结构化、半结构化还是非结构化的,都可以存储在任何记录中。

根据用于存储数据的模型,NoSQL 数据库主要有四种常见类型。

以下是四种主要的 NoSQL 数据库类型:

  • 键值存储:在键值数据库中,数据以键值对的集合形式存储。键代表数据的属性,并且是唯一标识符。键和值可以是任何内容,从简单的整数或字符串到复杂的 JSON 文档。

    • 适用场景:存储用户会话数据、用户偏好设置、实时推荐、定向广告和内存数据缓存。
    • 不适用场景:需要对特定数据值进行查询、数据值之间存在关系或需要多个唯一键的情况。
    • 知名示例RedisMemcachedDynamoDB
  • 文档型数据库:文档数据库将每条记录及其关联数据存储在单个文档中。它们支持对文档集合进行灵活的索引、强大的即席查询和分析。

    • 适用场景:电子商务平台、医疗记录存储、CRM 平台和分析平台。
    • 不适用场景:需要运行复杂搜索查询和多重操作事务的情况。
    • 知名示例MongoDBDocumentDBCouchDBCloudant
  • 列式数据库:列式模型将数据存储在按数据列(而非行)分组的单元格中。通常被一起访问的列的逻辑分组称为列族。

    • 适用场景:需要大量写入请求的系统、存储时间序列数据、天气数据和物联网数据。
    • 不适用场景:需要使用复杂查询或频繁更改查询模式的情况。
    • 知名示例CassandraHBase
  • 图数据库:图数据库使用图模型来表示和存储数据。它们特别适用于可视化、分析和查找不同数据片段之间的连接。圆圈代表节点,包含数据;箭头代表关系。

    • 适用场景:处理关联数据(包含大量互连关系的数据),如社交网络、实时产品推荐、网络图、欺诈检测和访问管理。
    • 不适用场景:处理高吞吐量事务,因为图数据库未针对大规模分析查询进行优化。
    • 知名示例Neo4jCosmos DB

NoSQL 的出现是为了应对传统关系型数据库技术的局限性。其主要优势在于能够处理大量结构化、半结构化和非结构化数据。

以下是 NoSQL 数据库的其他一些优势:

  • 能够作为分布式系统运行,跨多个数据中心扩展,从而利用云计算基础设施。
  • 高效且经济高效的横向扩展架构,通过添加新节点提供额外的容量和性能。
  • 设计更简单,对可用性有更好的控制,以及改进的可扩展性,使你能够更敏捷、更灵活、更快速地迭代。


上一节我们介绍了 NoSQL 的优势,现在我们来总结一下关系型数据库与非关系型数据库之间的关键区别。

以下是关系型数据库与非关系型数据库的主要区别:

  • 架构:RDBMS 的架构严格定义了插入数据库的所有数据的类型和组成方式,而 NoSQL 数据库可以是模式无关的,允许存储和操作非结构化和半结构化数据。
  • 成本:维护高端的商业关系型数据库管理系统成本高昂,而 NoSQL 数据库专为低成本商用硬件设计。
  • 事务:与大多数 NoSQL 不同,关系型数据库支持 ACID 合规性,这确保了事务的可靠性和故障恢复能力。
  • 成熟度:RDBMS 是一项成熟且文档完善的技术,这意味着其风险或多或少是可预见的;相比之下,NoSQL 是一项相对较新的技术。

尽管如此,NoSQL 数据库已经站稳脚跟,并且越来越多地被用于关键任务型应用程序中。


本节课中,我们一起学习了 NoSQL 数据库。我们了解了 NoSQL 的含义、其灵活的架构特点,并详细探讨了四种主要类型:键值存储、文档型、列式和图数据库,以及它们各自的适用场景。我们还对比了 NoSQL 与关系型数据库在架构、成本、事务和成熟度方面的关键差异。理解这些概念将帮助你在不同的数据应用场景中做出合适的数据库选择。

018:数据集市、数据湖、ETL与数据管道 🗂️➡️🔄

在本节课中,我们将深入探索数据仓库、数据集市和数据湖的概念,并学习ETL过程与数据管道。这些是构建现代数据分析基础设施的核心组件,理解它们将帮助你掌握数据如何从原始状态转变为可供分析的宝贵资产。

数据仓库:企业的统一真相源 🏢

在之前的课程中,我们探讨了数据库、数据仓库和大数据存储。本节中,我们将更深入地研究数据仓库。

数据仓库就像一个多功能存储库,服务于不同的用例。当数据进入仓库时,它已经为特定目的进行了建模和结构化,这意味着它已准备好进行分析。当组织拥有来自运营系统的大量数据,并且需要随时可用于报告和分析时,通常会选择数据仓库。

数据仓库作为单一真相源,存储经过清洗、整合和分类的当前及历史数据。它是一个支持运营和绩效分析的多功能工具。

数据集市:面向业务的专用视图 📊

上一节我们介绍了数据仓库,本节中我们来看看它的一个子集——数据集市。

数据集市是数据仓库的一个子部分,专门为特定的业务功能、目的或用户群体构建。其核心思想是为利益相关者提供最相关且及时的数据。例如,销售或财务团队访问数据以生成季度报告和预测。

由于数据集市为数据仓库的特定区域提供分析能力,因此它提供了隔离的安全性隔离的性能。数据集市最重要的角色是支持特定业务的报告和分析

数据湖:原始数据的广阔蓄水池 🌊

了解了结构化的数据仓库和数据集市后,我们来看看一个更灵活的概念——数据湖。

数据湖是一个存储库,可以以其原生格式存储大量结构化、半结构化和非结构化数据,并通过元数据进行分类和标记。因此,数据仓库存储的是为特定需求处理过的数据,而数据湖则是原始数据的集合池,其中每个数据元素都被赋予唯一标识符,并标记元数据以供将来使用。

如果你持续生成或访问大量数据,但又不想局限于特定或预定义的用例,那么数据湖是一个合适的选择。与数据仓库不同,数据湖会保留所有源数据,不做任何排除,并且可以包含所有类型的数据源和格式。数据湖有时也用作数据仓库的暂存区。数据湖最重要的角色是支持预测性和高级分析

ETL过程:从数据中提取价值的核心 🔄

现在,我们来到从数据中获取价值的核心过程——提取、转换和加载过程,即ETL。ETL是将原始数据转换为可供分析的数据的方式。

这是一个自动化过程,你从已识别的来源收集原始数据,提取与报告和分析需求相符的信息,然后清洗、标准化这些数据,并将其转换为适合组织上下文的可用格式,最后加载到数据存储库中。

虽然ETL是一个通用过程,但实际工作在使用、效用和复杂性上可能大不相同。

以下是ETL的三个核心步骤:

  • 提取:这是从源位置收集数据以进行转换的步骤。数据提取可以通过批处理(在预定时间间隔将大量数据块从源移动到目标系统,工具如Stitch和Blendo)或流处理(实时从源拉取数据,并在传输过程中进行转换,然后加载到数据存储库,工具如Apache Samza、Apache Storm和Apache Kafka)完成。

  • 转换:此步骤涉及执行规则和函数,将原始数据转换为可用于分析的数据。例如:
    • 使所有源数据的日期格式和度量单位保持一致。
    • 删除重复数据。
    • 过滤掉不需要的数据。
    • 丰富数据,例如将全名拆分为名、中间名和姓。
    • 建立跨表的关键关系。
    • 应用业务规则和数据验证。

  • 加载:这是将处理后的数据传输到目标系统或数据存储库的步骤。加载类型包括:
    • 初始加载:填充存储库中的所有数据。
    • 增量加载:根据需要定期应用持续的更新和修改。
    • 完全刷新:擦除一个或多个表的内容并重新加载新数据。
    • 加载验证:包括检查数据是否存在缺失值或空值。

由于此过程步骤的重要性,监控加载失败并确保有正确的恢复机制至关重要。ETL传统上用于大规模的批处理工作负载。然而,随着流式ETL工具的出现,它们也越来越多地用于实时流事件数据。

数据管道:数据的完整旅程 🚀

我们常常看到ETL和数据管道这两个术语互换使用。虽然两者都将数据从源移动到目的地,但数据管道是一个更广泛的术语,它涵盖了将数据从一个系统移动到另一个系统的整个旅程,而ETL是其中的一个子集。

数据管道可以针对批处理、流数据以及批处理和流数据的组合进行架构。对于流数据,数据处理或转换以连续流的形式发生,这对于需要不断更新的数据(如来自传感器的交通监控数据)特别有用。数据管道是一个高性能系统,支持长时间运行的批处理查询和较小的交互式查询。

数据管道的目标通常是数据湖,尽管数据也可能被加载到不同的目标目的地,例如另一个应用程序或可视化工具。

以下是可用的数据管道解决方案,其中最流行的是Apache Beam和Dataflow。

总结 📝

本节课中,我们一起学习了现代数据架构中的几个关键概念。我们探讨了作为企业统一真相源的数据仓库,为特定业务需求服务的数据集市,以及存储原始、多样化数据的数据湖。接着,我们深入了解了将原始数据转化为分析就绪数据的核心过程——ETL(提取、转换、加载),并认识了涵盖数据移动更广泛旅程的数据管道。理解这些组件及其相互关系,是构建高效、可靠数据分析基础的第一步。

019:大数据基础 📊

在本节课中,我们将要学习大数据的基础概念。我们将了解什么是大数据,以及描述其核心特征的“5V”模型。通过理解这些特征,我们可以更好地认识大数据在现代世界中的重要性及其带来的挑战。


在这个数字化的世界里,每个人都会留下痕迹,从我们的出行习惯到锻炼和娱乐活动。

我们日常交互的联网设备数量日益增多,它们记录着关于我们的海量数据。

甚至有一个专门的术语来描述它:大数据。安永(Ernst & Young)提供了以下定义。

大数据指的是由人、工具和机器产生的动态、庞大且多样的数据量。

它需要新颖、创新且可扩展的技术来收集、存储和分析所汇集的海量数据,以获取与消费者、风险、利润、绩效、生产力管理和提升股东价值相关的实时商业洞察。

对于大数据没有一个统一的定义,但在不同的定义中存在一些共同的要素。

例如:速度(Velocity)、体量(Volume)、多样性(Variety)、真实性(Veracity)和价值(Value)

这些就是大数据的 5V 特征。


上一节我们介绍了大数据的定义和5V模型,本节中我们来详细看看每一个“V”具体指什么。

以下是关于大数据5V特征的详细解释:

  • 速度(Velocity)
    速度指的是数据积累的速率;数据正以极高的速度生成,这个过程永不停止。
    近实时或实时的流处理技术,以及本地和基于云的技术,可以非常快速地处理信息。

  • 体量(Volume)
    体量指的是数据的规模或存储数据量的增长。
    驱动数据体量增长的因素包括数据源的增加、更高分辨率的传感器以及可扩展的基础设施。

  • 多样性(Variety)
    多样性指的是数据的多样性。
    结构化数据可以整齐地放入行、列和关系型数据库中,而非结构化数据则没有预定义的组织方式,例如推文、博客文章、图片、数字和视频。
    多样性也反映了数据来自不同的来源:机器、人员和流程,既有组织内部的,也有外部的。
    驱动因素包括移动技术、社交媒体、可穿戴技术、地理技术、视频等等。

  • 真实性(Veracity)
    真实性指的是数据的质量和来源,以及其与事实和准确性的符合程度。
    属性包括一致性、完整性、准确性和明确性。
    驱动因素包括成本和对海量数据可追溯性的需求。
    在数字时代,关于数据准确性的争论非常激烈。信息是真实的还是虚假的?

  • 价值(Value)
    价值指的是我们将数据转化为价值的能力和需求。
    价值不仅仅是利润,它还可能带来医疗或社会效益,以及客户、员工或个人的满意度。
    人们投入时间去理解大数据的主要原因就是为了从中获取价值。


了解了每个“V”的含义后,我们来看看它们在现实世界中的具体例子。

以下是大数据5V特征的一些实际案例:

  • 速度(Velocity)示例
    每分钟,都有数小时的视频被上传到YouTube,这就在不断生成数据。
    试想一下,数据在数小时、数天和数年内积累的速度有多快。

  • 体量(Volume)示例
    世界人口大约有70亿,其中绝大多数人现在都在使用数字设备,如手机、台式机和笔记本电脑、可穿戴设备等。
    这些设备每天生成、捕获和存储大约2.5万亿亿字节的数据,这相当于1000万张蓝光DVD的容量。

  • 多样性(Variety)示例
    让我们想想不同类型的数据:文本、图片、电影、声音、来自可穿戴设备的健康数据,以及来自物联网设备的许多不同类型的数据。

  • 真实性(Veracity)示例
    大约80%的数据被认为是非结构化的。
    我们必须设计方法来产生可靠且准确的洞察;数据必须被分类、分析和可视化。


面对如此庞大、快速、多样的数据,传统的分析工具已难以应对。接下来,我们看看数据科学家们是如何处理这些挑战的。

如今的数据科学家从大数据中获取洞察,并应对这些海量数据集带来的挑战。
所收集数据的规模意味着使用传统的数据分析工具是不可行的。
然而,利用分布式计算能力的替代工具可以克服这个问题。
Apache SparkHadoop 及其生态系统这样的工具,提供了跨分布式计算资源提取、加载、分析和处理数据的方法,从而提供新的洞察和知识。

这为组织提供了更多与客户连接的方式,并丰富了他们提供的服务。

所以,下次当你戴上智能手表、解锁智能手机或追踪你的锻炼时,请记住,你的数据正在开始一段旅程,它可能通过大数据分析环游世界,然后再回到你身边。


本节课中我们一起学习了大数据的基础知识。我们了解了大数据是由人、工具和机器产生的海量、多样、快速的数据集合。我们深入探讨了描述其核心特征的 5V 模型速度(Velocity)、体量(Volume)、多样性(Variety)、真实性(Veracity)和价值(Value),并通过实例加深了理解。最后,我们认识到处理大数据需要像 Apache SparkHadoop 这样的分布式计算工具。理解这些概念是成为一名数据分析师的重要第一步。

020:大数据处理工具 🛠️

在本节课中,我们将学习三种用于处理大规模数据集的开源技术:Apache Hadoop、Apache Hive 和 Apache Spark。这些工具为处理结构化、半结构化和非结构化的大数据提供了解决方案,并能从中提取价值。


大数据处理技术概述

大数据处理技术提供了处理大规模结构化、半结构化和非结构化数据集的方法,以便从大数据中提取价值。

在之前的课程中,我们讨论过 NoSQL 数据库和数据湖等技术。本节中,我们将重点介绍三种开源技术及其在大数据分析中的作用。

以下是三种核心的大数据处理工具:

  • Apache Hadoop:一个工具集合,提供大数据的分布式存储和处理。
  • Apache Hive:一个构建在 Hadoop 之上的数据仓库,用于数据查询和分析。
  • Apache Spark:一个分布式数据分析框架,旨在实时执行复杂的数据分析。

Apache Hadoop:分布式存储与处理框架

Apache Hadoop 是一个基于 Java 的开源框架,它允许在计算机集群组成的分布式系统中,对大型数据集进行分布式存储和处理。

在 Hadoop 分布式系统中,一台单独的计算机称为一个节点,而节点的集合则构成一个集群。Hadoop 可以从单个节点扩展到任意数量的节点,每个节点都提供本地存储和计算能力。Hadoop 为存储数据提供了一个可靠、可扩展且经济高效的解决方案,并且对数据格式没有要求。

使用 Hadoop,您可以整合新兴的数据格式(如流媒体音频、视频、社交媒体情绪和点击流数据),以及传统数据仓库中不常使用的结构化、半结构化和非结构化数据。

Hadoop 的主要优势包括:

  • 为所有利益相关者提供近乎实时的服务访问
  • 通过整合整个组织的数据,并将“冷数据”(不频繁使用的数据)迁移到基于 Hadoop 的系统,来优化和简化企业数据仓库的成本

Hadoop 分布式文件系统

Hadoop 的四个主要组件之一是 Hadoop 分布式文件系统。这是一个为大数据设计的存储系统,运行在通过网络连接的多台商用硬件上。

HDFS 通过将文件分区存储到多个节点上来提供可扩展且可靠的大数据存储。它将大文件分割并存储在多台计算机上,允许并行访问。因此,计算可以在存储数据的每个节点上并行运行。它还在不同节点上复制文件块以防止数据丢失,从而具备容错能力。

让我们通过一个例子来理解。假设有一个包含全美国电话号码的文件。姓氏以 A 开头的人的电话号码可能存储在服务器 1 上,以 B 开头的存储在服务器 2 上,依此类推。在 Hadoop 中,这个电话簿的各个部分会被存储在集群中,要重建整个电话簿,您的程序需要从集群中的每台服务器获取数据块。

HDFS 默认还会将这些较小的数据块复制到另外两台服务器,确保当一台服务器故障时数据仍然可用。除了更高的可用性,这还带来了多重好处:

  • 它允许 Hadoop 集群将工作分解成更小的块,并在集群中的所有服务器上运行这些任务,从而实现更好的可扩展性。
  • 最后,您获得了数据本地性的优势,即将计算任务移动到数据所在的节点附近执行。这在处理大型数据集时至关重要,因为它能最大限度地减少网络拥塞并提高吞吐量。

使用 HDFS 的其他好处还包括:

  • 强大的硬件故障恢复能力,因为 HDFS 旨在检测故障并自动恢复。
  • 支持流数据访问,因为 HDFS 支持高数据吞吐率。
  • 容纳大型数据集,因为 HDFS 可以扩展到单个集群中的数百个节点或计算机。
  • 可移植性,因为 HDFS 可在多个硬件平台上移植,并与各种底层操作系统兼容。

Apache Hive:基于 Hadoop 的数据仓库

上一节我们介绍了 Hadoop 的存储基础,本节我们来看看构建在其之上的数据查询工具。Apache Hive 是一个开源数据仓库软件,用于读取、写入和管理直接存储在 HDFS 或其他数据存储系统(如 Apache HBase)中的大型数据集文件。

Hadoop 设计用于长时间的顺序扫描,而 Hive 基于 Hadoop,因此查询具有很高的延迟。这意味着 Hive 不太适合需要极快响应时间的应用程序。Hive 也不适合通常涉及大量写入操作的事务处理。

Hive 更适合数据仓库任务,例如 ETL、报告和数据分析,并且包含支持通过 SQL 轻松访问数据的工具。


Apache Spark:快速通用数据处理引擎

从 Hive 的高延迟特性,我们自然过渡到对速度有更高要求的场景。Apache Spark 是一个通用数据处理引擎,旨在为广泛的应用(包括交互式分析、流处理、机器学习、数据集成和 ETL)提取和处理海量数据。

它利用内存处理来显著提高计算速度,仅在内存受限时才溢出到磁盘。Spark 支持多种主流编程语言,如 Java、Scala、Python、R 和 SQL。它可以使用其独立的集群技术运行,也可以在 Hadoop 等其他基础设施之上运行,并且可以访问 HDFS 和 Hive 等多种数据源中的数据,使其具有高度的通用性。

快速处理流数据并实时执行复杂分析是 Apache Spark 的关键用例。


课程总结

在本节课中,我们一起学习了三种核心的大数据处理工具:

  1. Apache Hadoop:提供了可扩展、容错的分布式存储和批处理基础架构,尤其适合存储海量多格式数据。
  2. Apache Hive:构建在 Hadoop 之上,通过类 SQL 接口简化了大数据的查询与分析,适用于数据仓库场景。
  3. Apache Spark:一个利用内存计算实现高速处理的通用引擎,擅长流处理、交互式查询和机器学习等实时或迭代计算任务。

理解这些工具的特点和适用场景,是构建有效大数据分析解决方案的重要基础。

021:识别与分析数据 📊

在本节课中,我们将学习数据分析流程中的关键一步:如何识别和确定分析所需的数据。我们将了解从明确信息需求、制定收集计划到选择收集方法的完整过程,并讨论数据质量、安全与隐私等重要考量因素。


概述:识别数据的重要性

在上一阶段,你已经理解了问题与期望目标,明确了现状与理想状态,并定义了衡量指标。接下来,你需要为你的具体用例识别所需的数据。

识别数据的过程始于确定你想要收集的信息。这一步需要你决定所需的具体信息以及这些数据的可能来源。你的目标决定了这些问题的答案。

识别所需信息

以下是一个产品公司的例子,该公司希望根据最喜爱其产品的年龄段创建有针对性的营销活动。他们的目标是设计最能吸引该细分市场的推广方式,并鼓励他们进一步影响朋友和同龄人购买产品。

基于这个用例,你将识别出的一些明显信息包括:

  • 客户档案
  • 购买历史
  • 地理位置
  • 年龄
  • 教育程度
  • 职业
  • 收入
  • 婚姻状况

例如,为了确保你对该细分市场有更深入的了解,你可能还会决定收集该细分市场的客户投诉数据,以了解他们遇到的问题类型,因为这可能会阻碍他们向他人推荐你的产品。

为了了解他们对问题解决的满意程度,你可以收集他们客户服务调查的评分。

更进一步,你可能希望了解这些客户在社交媒体上如何谈论你的产品,以及他们的多少联系人在这些讨论中与他们互动,例如,他们的帖子获得的点赞、分享和评论数量。

制定数据收集计划

流程的下一步是制定数据收集计划。你需要为收集已识别的数据建立一个时间框架。你需要的某些数据可能需要持续收集,而有些则需要在特定时间段内收集。

例如,收集网站访问者数据可能需要实时更新数字,但如果你正在跟踪特定事件的数据,则数据收集有明确的开始和结束日期。

在这一步,你还可以定义多少数据量足以让你得出可信的分析。数据量是由细分市场定义的吗?例如,是所有21至30岁年龄段的客户,还是21至30岁年龄段的10万名客户数据集。

你也可以利用这一步来定义依赖关系、风险、缓解计划以及与你的项目相关的其他几个因素。该计划的目的应该是为执行建立所需的清晰度。

确定数据收集方法

流程的第三步是确定你的数据收集方法。在这一步,你将确定收集所需数据的方法。你将定义如何从已识别的数据源(如内部系统、社交媒体网站或第三方数据提供商)收集数据。

你的方法将取决于数据类型、你需要数据的时间框架以及数据量。

一旦你的计划和数据收集方法最终确定,你就可以实施数据收集策略并开始收集数据。在实施过程中,你需要不断更新你的计划,因为实际情况会随着计划的落地而发生变化。

数据质量、安全与隐私考量

你识别的数据、数据来源以及你用于收集数据的实践,对质量、安全和隐私都有影响。这些都不是一次性的考虑因素,而是在数据分析流程的整个生命周期中都相关的。

不考虑数据如何符合质量指标就使用来自不同来源的数据,可能导致失败。为了可靠,数据需要无错误、准确、完整、相关且可访问。你需要定义质量特征、指标和检查点,以确保你的分析将基于高质量的数据。

你还需要注意与数据治理相关的问题,例如安全、法规和合规性。数据治理政策和程序涉及数据的可用性、完整性和可用性。不合规的处罚可能高达数百万美元,不仅会损害你研究结果的可信度,还会损害你组织的信誉。

另一个重要的考虑因素是数据隐私。你收集的数据需要满足保密性、使用许可和遵守强制性法规的要求。需要计划好检查、验证和可审计的追踪记录。对用于分析的数据失去信任可能会损害流程,导致可疑的研究结果并招致处罚。


总结

本节课我们一起学习了识别与分析数据的完整流程。我们了解到,识别正确的数据是数据分析过程中非常重要的一步。如果操作得当,它将确保你能够从多个角度审视问题,并且你的研究结果是可信和可靠的。关键在于明确信息需求、制定周密的收集计划、选择合适的方法,并始终将数据质量、安全与隐私置于核心考量位置。

022:数据来源 📊

在本节课中,我们将要学习数据的不同来源。理解数据来自何处,以及如何获取和利用这些数据,是数据分析工作的基础。数据来源多种多样,掌握它们的特点有助于我们更有效地收集和分析信息。


数据来源的分类

数据来源可以根据其与组织的关系以及获取方式进行分类。它们可以是组织内部或外部的,也可以是一手数据二手数据第三方数据

上一节我们介绍了数据来源的基本概念,本节中我们来看看这些类别的具体含义。

一手数据

一手数据是指你直接从源头获取的信息。
这可以来自内部来源,例如组织的客户关系管理(CRM)系统、人力资源(HR)系统或工作流应用程序中的数据。
它也包括你通过调查访谈讨论观察焦点小组直接收集的数据。

二手数据

二手数据是指从现有来源检索到的信息,例如外部数据库、研究文章、出版物、培训材料、互联网搜索或作为公开数据提供的财务记录。
这也包括通过外部进行的调查、访谈、讨论、观察和焦点小组收集的数据。

第三方数据

第三方数据是你从数据聚合商处购买的数据。这些聚合商从各种来源收集数据,并将其合并成综合数据集,其目的纯粹是为了出售数据。


主要数据来源示例

了解了数据的基本分类后,以下是实践中一些常见的数据来源。

数据库

数据库可以是一手、二手和第三方数据的来源。
大多数组织都有用于管理其流程、工作流和客户的内部应用程序。
外部数据库可通过订阅或购买获得。
许多企业已经或正在迁移到云端,云平台正日益成为获取实时信息和按需洞察的来源。

网络

网络是公开可用数据的来源,可供公司和个人免费或商业使用。
网络是公共领域中丰富的数据来源。这些数据可能包括教科书、政府记录、供公众消费的文章。
社交媒体网站和互动平台,如 Facebook、Twitter、Google、YouTube 和 Instagram,正越来越多地被用于获取用户数据和意见。
企业正在利用这些数据源,对现有和潜在客户进行定量和定性分析。

传感器数据

由可穿戴设备、智能建筑、智能城市、智能手机、医疗设备甚至家用电器产生的传感器数据,是一种被广泛使用的数据来源。

数据交换

数据交换是第三方数据的一个来源,涉及数据提供者和数据消费者之间自愿共享数据。
个人、组织和政府都可以既是数据提供者,也是数据消费者。
交换的数据可能包括来自商业应用程序、传感器设备、社交媒体活动、位置数据或消费者行为数据。

调查

调查通过向选定人群分发问卷来收集信息。
例如,衡量现有客户对产品更新版本的兴趣和消费意愿。
调查可以是基于网络或纸质的。人口普查数据也是收集家庭数据(如财富和收入)或人口数据的常用来源。

访谈

访谈是收集定性数据的来源,例如参与者的意见和经验。
例如,为理解客服专员日常面临的挑战而进行的访谈。
访谈可以通过电话、网络或面对面进行。

观察研究

观察研究包括在特定环境中或执行特定任务时监测参与者。
例如,观察用户浏览电子商务网站,以评估他们查找产品和进行购买的难易程度。

来自调查、访谈和观察研究的数据,可以作为一手、二手或第三方数据提供。


总结

本节课中我们一起学习了数据的各种来源。数据来源从未像今天这样动态和多样,并且还在不断演变。用二手和第三方数据源来补充你的一手数据,可以帮助你以新的、有意义的方式探索问题和解决方案。理解并善用这些来源,是成为一名优秀数据分析师的关键一步。

023:如何收集和导入数据

在本节课中,我们将学习从课程前面讨论过的各种数据源(如数据库、网络、传感器数据、数据交换平台等)收集数据的不同方法与工具。我们还将学习如何将数据导入到不同类型的数据存储库中。


🔍 数据收集方法

上一节我们介绍了数据源的类型,本节中我们来看看从这些数据源收集数据的具体方法。

结构化查询语言 (SQL)

SQL 是一种用于从关系型数据库中提取信息的查询语言。它提供简单的命令来指定需要从数据库中检索什么、从哪个表中提取、对具有匹配值的记录进行分组、控制查询结果的显示顺序以及限制查询返回的结果数量等众多功能。

核心概念公式/代码示例:

SELECT column1, column2
FROM table_name
WHERE condition
GROUP BY column1
ORDER BY column2
LIMIT 10;

非关系型数据库也可以使用 SQL 或类 SQL 的查询工具进行查询。一些非关系型数据库拥有自己的查询工具,例如 Cassandra 的 CQL 和 Neo4j 的 GraphQL。

应用程序编程接口 (API)

API 也普遍用于从各种数据源提取数据。需要数据的应用程序会调用 API 并访问包含数据的端点。这些端点可以包括数据库、网络服务和数据市场。

API 还可用于数据验证。例如,数据分析师可以使用 API 来验证邮政地址和邮政编码。

网络爬取

网络爬取(也称为屏幕抓取或网络采集)用于根据定义的参数从网页下载特定数据。网络爬取可用于从网站提取文本、联系信息、图像、视频、播客和产品项目等数据。

RSS 源

RSS 源是另一个数据源,通常用于从在线论坛和新闻网站捕获持续更新的数据。

数据流

数据流是聚合来自仪器、物联网设备、应用程序以及汽车 GPS 数据等来源的持续数据流的常用来源。数据流和源也用于从社交媒体网站和互动平台提取数据。

数据交换平台

数据交换平台允许数据提供者和数据消费者之间交换数据。数据交换平台有一套明确定义的、与数据交换相关的交换标准、协议和格式。

这些平台不仅促进数据交换,还确保安全性和治理得到维护。它们提供数据许可工作流、个人信息的去标识化和保护、法律框架以及隔离的分析环境。

以下是流行的数据交换平台示例:

  • AWS Data Exchange
  • Crunchbase
  • Loomy
  • Snowflake

其他特定数据源

许多其他数据源可以满足特定的数据需求。例如,对于营销趋势和广告支出数据,Forrester 和 Business Insider 等研究公司以提供可靠数据而闻名。Gartner 和 Forrester 等研究和咨询公司是战略和运营指导方面广受信赖的来源。

同样,在用户行为数据、移动和网络使用情况、市场调查和人口统计研究领域也有许多值得信赖的机构。


🗃️ 数据导入与存储库

从各种数据源识别和收集到的数据,在能够进行整理、挖掘和分析之前,需要被加载或导入到数据存储库中。导入过程涉及将来自不同来源的数据组合起来,提供一个统一的视图和单一接口,以便查询和操作数据。

根据数据类型、数据量以及目标存储库的类型,您可能需要不同的工具和方法。

数据存储库类型

特定的数据存储库针对某些类型的数据进行了优化。

关系型数据库存储具有明确定义模式的结构化数据。如果您使用关系型数据库作为目标系统,您将只能存储结构化数据,例如来自 OLTP 系统、电子表格、在线表单、传感器、网络和 Web 日志的数据。结构化数据也可以存储在 NoSQL 数据库中。

半结构化数据具有一些组织属性,但没有严格的模式,例如来自电子邮件、XML、ZIP 文件、二进制可执行文件以及 TCP/IP 协议的数据。半结构化数据可以存储在 NoSQL 集群中。XML 和 JSON 通常用于存储和交换半结构化数据。JSON 也是 Web 服务的首选数据类型。

非结构化数据是没有结构且无法组织成模式的数据,例如来自网页、社交媒体源、图像、视频、文档、媒体日志和调查的数据。NoSQL 数据库和数据湖为存储和操作大量非结构化数据提供了很好的选择。数据湖可以容纳所有数据类型和模式。

导入工具

ETL 工具和数据管道提供了自动化功能,以促进数据导入过程。诸如 Talend 和 Informatica 等工具,以及 Python 和 R 等编程语言及其库,被广泛用于导入数据。


📝 总结

本节课中我们一起学习了数据收集与导入的核心知识。我们探讨了使用 SQL、API、网络爬取等多种方法从不同数据源收集数据,并了解了如何根据数据的结构类型(结构化、半结构化、非结构化)将其导入到相应的数据存储库(如关系型数据库、NoSQL、数据湖)中。理解这些方法是进行有效数据分析的重要基础。

024:什么是数据整理

在本节课中,我们将学习数据整理的核心概念、步骤及其在数据分析中的重要性。数据整理是数据分析流程中至关重要的一环,它确保原始数据被转化为可信、有意义且可用于分析的形式。


数据整理,也称为数据清洗,是一个迭代过程,涉及数据探索、转换、验证,并使其可用于可信且有意义的分析。它包括一系列任务,旨在为明确定义的目的准备原始数据。此阶段的原始数据是指通过数据存储库中的各种数据源收集的数据。

数据整理涵盖了为分析准备数据所涉及的一系列任务。通常,它是一个包含四个步骤的过程:发现、转换、验证和发布。

发现阶段

发现阶段,也称为探索阶段,是关于根据您的用例更好地理解您的数据。其目标是具体找出如何最好地为您拥有的数据进行清理、结构化、组织和映射,以满足您的用例需求。

转换阶段

接下来是转换阶段,它构成了数据整理过程的主体。它涉及您为转换数据而执行的任务,例如结构化、规范化、反规范化、清理和丰富数据。

以下是转换阶段的主要任务类型:

1. 结构化
此任务包括改变数据形式和模式的操作。传入的数据可能具有多种格式。例如,您可能有一些数据来自关系数据库,另一些数据来自Web API。为了合并它们,您需要更改数据的形式或模式。这种更改可能简单到改变记录内字段的顺序,也可能复杂到将字段组合成复杂的结构。

连接(Joins)和联合(Unions)是用于合并一个或多个表中数据的最常见的结构转换。它们合并数据的方式不同:

  • 连接(Joins)合并列:当两个表连接时,第一个源表的列与第二个源表的列在同一行中组合。因此,结果表中的每一行都包含来自两个表的列。
    • 公式/代码示例SELECT * FROM table_a JOIN table_b ON table_a.id = table_b.id
  • 联合(Unions)合并行:第一个源表的数据行与第二个源表的数据行组合成一个表。结果表中的每一行都来自某一个源表。
    • 公式/代码示例SELECT * FROM table_a UNION SELECT * FROM table_b

2. 规范化与反规范化
转换还可以包括数据的规范化和反规范化。

  • 规范化侧重于清理数据库中未使用的数据,并减少冗余和不一致性。例如,来自事务系统的数据,其中持续执行大量插入、更新和删除操作,通常是高度规范化的。
  • 反规范化用于将来自多个表的数据合并到单个表中,以便更快地进行查询。例如,来自事务系统的规范化数据通常在运行报告和分析查询之前进行反规范化。

3. 清理
清理任务是修复数据中的不规则性,以产生可信且准确的分析。不准确、缺失或不完整的数据可能会扭曲您的分析结果,需要加以考虑。数据也可能存在偏差、相关字段中存在空值或存在异常值。

例如,您可能想了解某产品的销售人口统计信息,但您收到的数据没有记录性别。您要么需要获取这个数据点并将其与现有数据集合并,要么可能需要删除或不考虑缺少此字段的记录。我们将在本课程后续部分探讨更多数据清理的示例。

4. 丰富数据
丰富数据是第四种转换类型。当您审视现有数据,并考虑可能使您的分析更有意义的额外数据点时,您就是在考虑丰富您的数据。

例如,在一个信息分散在多个系统中的大型组织中,您可能需要用其他系统甚至公共数据集中可用的信息来丰富一个系统提供的数据集。

考虑这样一个场景:您向企业销售IT外设,并想分析过去五年客户的购买模式。您拥有客户主表和交易表,从中捕获了客户信息和购买历史。用这些企业的绩效数据(可能作为公共数据集提供)来补充您的数据集,可能对您理解影响其购买决策的因素很有价值。

插入元数据也能丰富数据。例如,从客户反馈日志计算情感得分,从度假村位置收集基于地理位置的天气数据以分析入住趋势,或捕获博客文章的发布时间和标签。

验证阶段

转换之后,数据整理的下一个阶段是验证。在此阶段,您检查经过结构化、规范化、清理和丰富后的数据质量。验证规则指的是用于验证数据一致性、质量和安全性的重复性编程步骤。

发布阶段

这引出了数据整理过程的第四阶段——发布。发布涉及为下游项目需求交付整理后的数据输出。发布的是输入数据集的转换和验证版本,以及关于数据的元数据。

文档记录的重要性

最后,必须注意记录您将原始数据转换为可用于分析的数据所采取的步骤和考虑因素的重要性。数据整理的所有阶段本质上都是迭代的。为了复制这些步骤并重新审视执行这些步骤时的考虑因素,记录所有考虑因素和操作至关重要。


总结
在本节课中,我们一起学习了数据整理(Data Wrangling)的完整流程。我们了解到它是一个包含发现、转换、验证和发布四个核心阶段的迭代过程。转换阶段是核心,涉及结构化、规范化/反规范化、清理和丰富数据。我们强调了验证对于确保数据质量的关键作用,以及发布整理后数据以供下游使用的必要性。最后,我们认识到详细记录整个整理过程的步骤和决策对于确保分析的可重复性和透明度至关重要。掌握数据整理是成为一名合格数据分析师的基础技能。

025:数据整理工具 🛠️

在本节课中,我们将学习一些常用的数据整理软件和工具。数据整理是数据分析的关键步骤,它涉及清洗、转换和准备原始数据,使其适合进行分析。我们将介绍从基础的电子表格到高级编程语言中的多种工具。

电子表格软件 📊

上一节我们介绍了数据整理的概念,本节中我们来看看最基础的手动整理工具——电子表格。

电子表格,如 Microsoft Excel 和 Google Sheets,拥有丰富的功能和内置公式,可以帮助你识别问题、清洗和转换数据。

以下是电子表格工具的特点:

  • 它们提供插件或功能,允许你从多种不同类型的源导入数据,并根据需要进行清洗和转换。
  • 例如,Microsoft Excel 的 Power Query 和 Google Sheets 的查询函数。

专用数据整理工具 🧹

除了通用电子表格,还有一些专门为数据整理设计的工具。

OpenRefine 是一个开源工具,允许你以多种格式(如 TSV、CSV、XLS、XML、JSON)导入和导出数据。使用 OpenRefine,你可以清洗数据、将其从一种格式转换为另一种格式,并通过网络服务和外部数据扩展数据集。它的优点是易于学习和使用,提供基于菜单的操作,无需记忆命令或语法。

Google Data Prep 是一个智能的云数据服务,允许你直观地探索、清洗和准备结构化和非结构化数据以进行分析。它是一个完全托管的服务,意味着你无需安装或管理软件或基础设施。它的特点是易于使用,会根据你的每一步操作提供下一步的建议,并能自动检测模式、数据类型和异常。

Watson Studio Refinery(通过 IBM Watson Studio 提供)允许你使用内置操作来发现、清理和转换数据。它将大量原始数据转换为可供分析使用的优质信息。该工具提供了将数据导出到各种数据源的灵活性,能自动检测数据类型和分类,并自动执行适用的数据治理策略。

Trifacta Wrangler 是一个基于云的交互式服务,用于清理和转换数据。它处理混乱的真实世界数据,并将其清理和重新排列成数据表,然后可以导出到 Excel、Tableau 和 R。它以协作功能著称,允许多个团队成员同时工作。

编程语言工具 🐍📈

对于需要更强大、自动化处理能力的场景,编程语言提供了丰富的库和包。

Python 拥有庞大的库和包集合,提供强大的数据操作能力。

以下是 Python 中一些重要的数据整理库:

  • Jupyter Notebook:一个广泛用于数据清洗和转换、统计建模以及数据可视化的开源 Web 应用程序。
  • NumPy(Numerical Python):Python 提供的最基础的包。它快速、灵活、可互操作且易于使用。它支持大型多维数组和矩阵,并提供用于操作这些数组的高级数学函数。其核心是 ndarray 对象。
  • Pandas:专为快速简便的数据分析操作而设计。它允许使用简单的单行命令执行复杂操作,如合并、连接和转换大量数据。使用 Pandas,可以防止因来自不同源的数据未对齐而导致的常见错误。其核心数据结构是 DataFrame

R 语言也提供了一系列专门为整理混乱数据而创建的库和包。

以下是 R 语言中一些重要的数据整理包:

  • dplyr:一个用于数据整理的强大库,语法精确且直接。
  • data.table:帮助你快速聚合大型数据集。
  • jsonlite:一个强大的 JSON 解析工具,非常适合与 Web API 交互。

如何选择工具? 🤔

数据整理工具具有不同的能力和维度。关于哪种工具最适合你需求的决策,将取决于你特定用例、基础设施和团队的因素。

以下是选择工具时需要考虑的关键因素:

  • 支持的数据大小:工具能处理的数据量级。
  • 支持的数据结构:工具是否能处理你的数据格式(如表格、JSON、XML)。
  • 清洗和转换能力:工具提供的具体数据操作功能。
  • 基础设施需求:是本地软件、云服务,还是需要特定环境。
  • 易用性和学习曲线:工具是否容易上手和使用。

本节课中我们一起学习了多种数据整理工具,从直观的电子表格和图形化工具(如 OpenRefine、Google Data Prep),到功能强大的编程环境(如 Python 的 Pandas、R 的 dplyr)。理解这些工具的特点和适用场景,将帮助你在实际数据分析项目中,根据数据规模、复杂度和团队技能,选择最合适的工具来高效地准备数据。

026:数据清洗

在本节课中,我们将学习数据清洗的核心概念、工作流程以及常见的数据问题处理方法。数据清洗是确保数据质量、支持有效决策的关键步骤。


根据Gartner的数据质量报告,低质量数据会削弱组织的竞争力,并破坏关键业务目标。

缺失、不一致或不正确的数据可能导致错误结论,进而引发无效决策。在商业世界中,这可能造成高昂代价。

从不同来源收集的数据集可能存在多种问题,包括缺失值、不准确数据、重复记录、错误或缺失的分隔符、不一致的记录以及参数不足。

在某些情况下,可以借助数据整理工具和脚本手动或自动纠正数据。但如果数据无法修复,则必须从数据集中移除。


虽然数据清洗和数据整理这两个术语有时被互换使用,但必须记住,数据清洗只是整个数据整理过程的一个子集。

数据清洗在数据整理工作流程的转换阶段中,构成了非常重要且不可或缺的部分。


🔍 典型的数据清洗工作流程

一个典型的数据清洗工作流程包括检查、清洗和验证三个步骤。

数据检查

数据清洗工作流程的第一步是检测数据集中可能存在的不同类型的问题和错误。

您可以使用脚本和工具来定义特定的规则和约束,并根据这些规则和约束验证数据。

您也可以使用数据剖析和数据可视化工具进行检查。

数据剖析帮助您检查源数据,以理解数据的结构、内容和相互关系。它能揭示异常和数据质量问题。

例如,空白或空值、重复数据,或某个字段的值是否落在预期范围内。

使用统计方法可视化数据可以帮助您发现异常值。例如,绘制人口统计数据集的平均收入可以帮助您发现异常值。


数据清洗

接下来,我们进入数据的实际清洗阶段。应用于清洗数据集的技术将取决于具体用例和您遇到的问题类型。

以下是几种更常见的数据问题及其处理方法。

1. 处理缺失值
缺失值的处理非常重要,因为它们可能导致意外或有偏差的结果。
您可以选择过滤掉含有缺失值的记录,或者,如果该信息对您的用例至关重要,则设法找到获取该信息的途径。
第三种方法是使用插补法,即基于统计值计算缺失值。
您选择采取何种行动方案,需要基于对您的用例最有利的原则来决定。

2. 处理重复数据
数据集中重复出现的数据点即为重复数据,这些需要被移除。

3. 处理无关数据
不符合您用例上下文的数据可被视为无关数据。
例如,如果您正在分析某一人群总体健康状况的数据,他们的联系电话可能对您不相关。

4. 数据类型转换
清洗可能涉及数据类型转换。这是为了确保字段中的值以该字段的数据类型存储。
例如,数字存储为数值数据类型,日期存储为日期数据类型。

5. 数据标准化
您可能还需要清洗数据以实现标准化。
例如,对于字符串,您可能希望所有值都采用小写形式。同样,日期格式和度量单位也需要标准化。

6. 修正语法错误
例如,字符串开头或结尾的空格或多余空格是需要纠正的语法错误。
这也包括修正拼写错误或格式。例如,在某些记录中,州名以全称形式输入(如 New York),而在另一些记录中以缩写形式输入(如 NY)。

7. 处理异常值
数据中也可能存在异常值,即与数据集中其他观测值差异极大的值。
异常值可能正确,也可能不正确。
例如,当选民数据库中的年龄字段值为5时,您知道这是不正确的数据,需要纠正。
现在,考虑一组人群,其年收入在10万到20万美元之间,但其中一人年收入为100万美元。虽然这个数据点并非不正确,但它是一个异常值,需要审视。
根据您的用例,您可能需要决定包含此数据是否会以不利于您用例的方式扭曲结果。


数据验证

这使我们进入数据清洗工作流程的下一步:验证。
在此步骤中,您检查结果,以确定数据清洗操作所达到的有效性和准确性。
您需要重新检查数据,以确保在您进行修正后,适用于数据的规则和约束仍然成立。


最后,必须注意,作为数据清洗操作一部分进行的所有更改都需要被记录。
不仅要记录更改,还要记录进行这些更改的原因以及当前存储数据的质量。报告数据的健康程度是一个非常关键的步骤。


📝 总结

在本节课中,我们一起学习了数据清洗的重要性及其在数据整理中的位置。我们详细探讨了数据清洗的标准工作流程:检查、清洗和验证。我们还介绍了处理缺失值、重复数据、无关数据、数据类型转换、标准化、语法错误和异常值等常见数据问题的方法。记住,记录所有清洗操作及其原因对于维护数据质量和确保分析的可追溯性至关重要。

027:数据准备与可靠性观点 🛠️📊

在本节课中,我们将学习数据准备与数据可靠性在数据分析工作中的重要性。多位数据领域的专业人士将分享他们日常工作中处理数据的经验,包括数据收集、清洗、准备以及如何确保数据可靠性的具体步骤。

数据准备:工作中的重要部分 📥

上一节我们介绍了数据分析的基本流程,本节中我们来看看数据准备在实际工作中的占比与具体内容。

一位数据科学家表示,其工作中相对较大的比例涉及为分析收集、准备和清洗数据。虽然所在公司拥有出色的数据工程团队,与其他数据科学家相比,这类工作有所减少,但任何与数据密切合作的人员,无论是数据科学家、数据分析师还是机器学习工程师,都必须熟悉数据来源。不可避免地,没有任何数据集是完美的,总会存在妥协或小错误。因此,花费大量时间理解生成数据所用的基础数据以及该数据可能存在的潜在问题至关重要。

一位注册会计师(CPA)表示,其工作涉及大量财务报表、账户活动评估、流程和控制的分析。只要会计信息存在于总账系统或数据易于集中的中央存储库中,数据收集部分可能相当简单。实际上,工作中大约30%是整理一切,以便在进行分析时可以直接深入核心。因此需要准备数据,确保其准确,确保各项数据相加正确,并拥有所有月份的信息。例如,在财务报表中,需要确保已获得12个月的报表,且没有缺失任何数据。如果确实缺失,则需要有足够的信息来进行预测、预估,甚至根据已有信息回顾并估算该月的情况。

确保数据可靠性的步骤 ✅

了解了数据准备的普遍性后,我们接下来看看专业人士为确保数据可靠性所采取的具体步骤。

以下是确保数据可靠性的关键步骤:

  • 运行摘要统计:确保数据可靠的基本步骤之一是对数据中的各个列运行摘要统计,并确保它们与现实情况一致。例如,如果某列记录了网站每月访问量,对该列运行摘要统计后得到最小值、平均值、中位数和最大值,若发现某月访问量为负值等异常情况,则可知数据不可靠。
  • 进行逻辑检查:财务信息尤其必须可靠,必须无偏见、无错误,这只是数据可信赖所需的众多属性中的几个。因此,在深入交易细节之前,进行所谓的“逻辑检查”至关重要。从宏观层面看,数据是否合理?例如,预期总收入增长,但发现其急剧下降,则应首先排查这部分问题:数据源是否正确?查询的时间段是否正确?提取的总账科目是否正确?因此,首先确保基本的数据完整性问题得到解决。
  • 深入分析与得出结论:一旦确认数据可靠,便可以开始深入审查,并根据对数据的分析形成关于财务绩效的结论。

总结 📝

本节课中,我们一起学习了数据准备在数据分析师、数据科学家等岗位日常工作中的重要占比,以及确保数据可靠性的具体实践方法。核心在于理解数据来源、进行彻底的清洗与验证(如运行摘要统计和逻辑检查),只有在数据可靠的基础上,后续的深入分析与结论才具有价值。记住,可靠的数据是有效分析的基石

028:统计分析概述 📊

在本节课中,我们将要学习统计分析的基础知识,包括其定义、与数据分析的关系,以及描述性统计和推断性统计的核心概念。我们将通过简单的例子和公式来帮助你理解这些关键点。


什么是统计学? 📈

在理解统计分析、它与数据分析特别是数据挖掘的关系之前,我们首先需要了解什么是统计学。

统计学是数学的一个分支,涉及数值或定量数据的收集、分析、解释和呈现。它无处不在,无论是谈论平均收入、平均年龄还是最高薪职业,都属于统计学的范畴。

如今,统计学正被应用于各行各业,以基于数据做出决策。例如,研究人员使用统计学分析疫苗生产数据以确保安全性和有效性,或者公司使用统计学来深入了解客户需求以减少客户流失。


什么是统计分析? 🔍

上一节我们介绍了统计学,本节中我们来看看统计分析。

统计分析是将统计方法应用于数据样本,以理解该数据所代表的意义。它包括收集和审查可以从一组项目中抽取的每个数据样本。

在统计学中,样本是从总体中抽取的代表性选择。而总体是指一组离散的人或事物,它们至少有一个共同特征,以便进行数据收集和分析。

例如,在某个用例中,总体可能是某个州所有拥有驾驶执照的人,而样本(即总体的一个子集)可能是年龄超过50岁的男性驾驶员。

统计方法主要用于确保数据被正确解释,并且明显的关系是有意义的,而不仅仅是偶然发生的。


统计分析的两种类型

每当我们从样本中收集数据时,可以运行两种不同类型的统计:描述性统计用于总结样本信息,推断性统计用于对更广泛的总体进行推断或概括。


描述性统计

描述性统计使你能够以有意义的方式呈现数据,从而简化数据的解释。数据通过汇总图表、表格和图形来描述,而不试图从抽取样本的总体中得出结论。其目标是使原始数据更容易理解和可视化,而不对任何假设做出结论。

例如,我们想描述一个特定班级25名学生的英语考试成绩。我们记录所有学生的考试成绩,计算汇总统计数据并生成图表。

以下是描述性统计分析的一些常见度量:

  • 集中趋势:定位数据样本的中心。常见的度量包括均值、中位数和众数。这些度量告诉你数据集中大多数值落在哪里。

    • 均值:数学平均值。在上述例子中,25名学生的平均分是所有25名学生分数的总和除以25(学生人数)。公式为:均值 = 总和 / 数量
    • 中位数:将数据集从小到大排序后,位于中间的值。对于25个值,中位数是第13个值(左右各有12个值)。中位数不受异常值影响。
    • 众数:一组观测值中出现频率最高的值。例如,如果这25名学生中最常见的分数是72%,那么这就是该数据集的众数。
  • 离散程度:衡量数据集的变异性。常见的统计离散度量是方差、标准差和极差。

    • 方差:衡量数据点偏离中心(即值的分布)的程度。变异性越低,数据集中的值越一致;变异性越高,数据点差异越大,极端值出现的可能性越大。
    • 标准差:告诉你数据围绕均值聚集的紧密程度。
    • 极差:数据集中最大值和最小值之间的距离。
  • 偏度:衡量数值分布是围绕中心值对称还是向左或向右偏斜。偏斜的数据会影响哪些类型的分析是有效的。

这些是一些基本且最常用的描述性统计工具,但还有其他工具,例如使用相关性和散点图来评估配对数据的关系。


推断性统计

上一节我们介绍了如何描述数据,本节中我们来看看如何从样本数据推断总体情况。

推断性统计从样本中获取数据,对抽取样本的更大总体进行推断。使用推断性统计的方法,你可以得出将样本结果应用于整个总体的概括性结论。

以下是推断性统计的一些常见方法:

  • 假设检验:例如,可以通过比较对照组的结果来研究疫苗的有效性。假设检验可以告诉你,在对照组中观察到的疫苗有效性是否也可能存在于总体中。
  • 置信区间:结合不确定性和抽样误差,创建一个实际总体值可能落入的数值范围。
  • 回归分析:包含假设检验,有助于确定在样本数据中观察到的关系是否确实存在于总体中,而不仅仅是在样本中。

统计软件与数据分析的关系 🛠️

有多种软件包可以执行统计数据分析,例如统计分析系统(SAS)、社会科学统计软件包(SPSS)和Stata。

统计学通过提供数据挖掘所需的度量和方法论,并帮助识别随机噪声与重要发现之间的差异,构成了数据挖掘的核心。

数据挖掘(我们将在本课程中了解更多)和统计学作为数据分析技术,都有助于做出更好的决策。


总结 📝

本节课中我们一起学习了统计分析的基础。我们首先定义了统计学及其在日常生活中的应用,然后探讨了统计分析的含义,区分了描述性统计(用于总结和呈现数据)和推断性统计(用于从样本推断总体)。我们还介绍了一些核心概念,如集中趋势、离散程度和偏度的度量,以及假设检验、置信区间等推断方法。最后,我们了解了统计学在数据挖掘和决策支持中的核心作用。

029:什么是数据挖掘 🧠💎

在本节课中,我们将要学习数据挖掘的核心概念、应用场景以及常用的技术方法。数据挖掘是从数据中提取知识的关键过程,是数据分析的核心环节。


概述

数据挖掘,即从数据中提取知识的过程,是数据分析流程的核心。它是一个跨学科领域,涉及模式识别技术、统计分析和数学方法的应用。其目标是识别数据中的关联、发现模式和变化、理解趋势并预测概率。

在数据分析的语境中,你会频繁听到“模式”和“趋势”这两个词,因此我们首先来理解这些概念。


模式与趋势

模式识别是指在数据中发现规律性或共性的过程。

考虑一个组织内应用程序的登录日志数据。它包含诸如用户名、登录时间戳、每次登录会话的持续时间以及执行的活动等信息。

当我们分析这些数据以获取关于用户习惯或行为的洞察时,例如,一天中最多用户倾向于登录的时间、通常登录应用程序时间最长的用户角色,或者工作流应用程序中正在被使用的模块,我们正在通过手动或工具检查数据,以揭示隐藏在数据中的模式。

趋势则是一组数据随时间变化的一般倾向。例如,全球变暖。在短期内,比如逐年来看,温度可能保持不变或上下波动几度,但全球总体温度随着时间的推移持续上升,这使得全球变暖成为一种趋势。


数据挖掘的应用

数据挖掘在各行各业和学科中都有应用。

以下是数据挖掘的一些典型应用场景:

  • 客户分析:分析客户行为、需求和可支配收入,以提供有针对性的营销活动。
  • 金融风控:金融机构跟踪客户交易中的异常行为,并使用数据挖掘模型标记欺诈交易。
  • 医疗健康:使用统计模型预测患者患特定健康状况的可能性,并优先安排治疗。
  • 教育评估:评估学生的表现数据以预测其成就水平,并有针对性地在需要的地方提供支持。
  • 公共安全与物流:帮助调查机构在犯罪可能性较高的地区部署警力,并根据需求预测调整供应和物流。

常用数据挖掘技术

有多种技术可用于检测模式并为描述性、诊断性、预测性或规范性建模构建准确的发现模型。

让我们来了解一些最常用的技术:

  • 分类:一种将属性分类到目标类别的技术。例如,根据客户的收入水平将其分为低、中、高消费群体。
    • 公式/代码示例if (income > 100000) then category = “高消费”
  • 聚类:与分类类似,但涉及将数据分组到簇中,以便将它们视为群体。例如,根据地理区域对客户进行聚类。
  • 异常值检测:一种帮助发现数据中不正常或意外模式的技术。例如,信用卡使用量的激增可能标志着潜在的滥用。
  • 关联规则挖掘:一种帮助建立两个数据事件之间关系的技术。例如,购买笔记本电脑经常伴随着购买散热垫。
    • 公式/代码示例{笔记本电脑} -> {散热垫} (支持度=0.05, 置信度=0.7)
  • 序列模式:追踪按顺序发生的一系列事件的技术。例如,追踪客户从登录在线商店到退出的整个购物路径。
  • 亲和性分组:一种用于发现共现关系的技术。该技术广泛应用于在线商店,通过根据购买同一商品的其他人的购买历史向人们推荐产品,来进行交叉销售和向上销售。
  • 决策树:帮助以树形结构构建分类模型,树有多个分支,每个分支代表一个可能的发生事件。该技术有助于清晰理解输入和输出之间的关系。
  • 回归:一种帮助识别两个变量之间关系性质的技术,这种关系可能是因果关系或相关关系。例如,基于位置和覆盖面积等因素,回归模型可用于预测房屋的价值。
    • 公式/代码示例房价 = β₀ + β₁ * 面积 + β₂ * 区位评分 + ε

总结

本节课中,我们一起学习了数据挖掘的基础知识。数据挖掘本质上帮助我们从噪音中分离出真实信息,并帮助企业将精力集中在相关的事务上。我们了解了模式与趋势的区别,探讨了数据挖掘在多个领域的实际应用,并介绍了几种核心的数据挖掘技术,包括分类、聚类、关联规则挖掘和回归等。掌握这些概念是成为一名数据分析师的重要基石。

030:数据挖掘工具

在本节课中,我们将学习一些常用的数据挖掘软件和工具,包括电子表格、R语言、Python、IBM SPSS Statistics、IBM Watson Studio 和 SAS。了解这些工具的特点和适用场景,将帮助你为不同的数据挖掘任务选择合适的工具。


📈 电子表格工具

上一节我们介绍了数据挖掘的基本概念,本节中我们来看看最基础的工具——电子表格。电子表格,如 Microsoft Excel 和 Google Sheets,常用于执行基本的数据挖掘任务。

以下是电子表格在数据挖掘中的主要应用:

  • 数据承载与展示:电子表格可以承载从其他系统导出的数据,并以易于访问和阅读的格式呈现。
  • 数据透视:你可以使用数据透视表来展示数据的特定方面。这在需要筛选和分析大量数据时至关重要。
  • 数据比较:它们使不同数据集之间的比较变得相对容易。
  • 插件扩展功能:Excel 有可用的插件,如 Data Mining Client for ExcelXL MinerKnowledge Miner for Excel,允许你执行常见的挖掘任务,如分类、回归、关联规则、聚类和模型构建。
  • Google Sheets 插件:Google Sheets 也有一系列可用于分析和挖掘的插件,如文本分析、文本挖掘和 Google Analytics。


🔢 R 语言与 RStudio

电子表格适合入门和简单分析,但对于更复杂的统计建模,我们则需要更专业的工具。R 语言是统计学家和数据挖掘者用于执行统计建模和计算的最广泛使用的语言之一。

以下是 R 语言的核心特点:

  • 丰富的库:R 打包了数百个专门为数据挖掘操作构建的库,例如回归、分类、数据聚类、关联规则挖掘、文本挖掘、异常值检测和社交网络分析。
  • 流行包示例:一些流行的 R 包包括 tmtwitter
    • tm:一个在 R 中用于文本挖掘应用程序的框架,提供了文本挖掘功能。
    • twitter:提供了一个挖掘推文的框架。
  • 集成开发环境RStudio 是一个广泛使用的开源集成开发环境(IDE),用于处理 R 编程语言。


🐍 Python 与相关库

除了 R,Python 是另一个在数据科学领域极其流行的语言。Python 库如 PandasNumPy 常用于数据挖掘。

以下是这些库的主要功能:

  • Pandas:这是一个用于处理数据结构和分析的开源模块。它可能是 Python 中最流行的数据分析库。
    • 它允许你以任何格式上传数据,并提供一个简单的平台来组织、排序和操作数据。
    • 使用 Pandas,你可以执行基本的数值计算,如均值、中位数、众数和极差
    • 它可以计算统计数据,回答有关数据相关性和数据分布的问题。
    • 它可以帮助你以可视化和定量的方式探索数据。
    • 可以借助其他 Python 库(如 Matplotlib, Seaborn)实现数据可视化。
  • NumPy:这是 Python 中用于数学计算和数据准备的工具。NumPy 为数据挖掘提供了一系列内置函数和能力。
  • Jupyter NotebooksJupyter Notebooks 已成为数据科学家和数据分析师使用 Python 执行数据挖掘和统计分析时的首选工具,因为它支持交互式代码编写和文档记录。

🧮 IBM SPSS Statistics

对于寻求图形化界面和强大分析能力的企业用户,SPSS 是一个重要选择。SPSS 代表“社会科学统计软件包”。

以下是 SPSS 的主要特点:

  • 广泛应用:虽然其名称暗示了最初在社会科学领域的用途,但它现在广泛用于高级分析、文本分析、趋势分析、假设验证以及将业务问题转化为数据科学解决方案。
  • 商业软件:SPSS 是闭源软件,需要许可证才能使用。
  • 易于使用:SPSS 拥有易于使用的界面,对于复杂任务只需最少的编码。
  • 强大功能:它包含高效的数据管理工具,并因其深入的分析能力和准确的数据结果而广受欢迎。

☁️ IBM Watson Studio

在云平台和协作成为趋势的今天,IBM 提供了集成化的解决方案。IBM Watson Studio 包含在 IBM Cloud Pak for Data 中。

以下是 IBM Watson Studio 的核心优势:

  • 工具集成:它利用了一系列开源工具(如 Jupyter Notebooks),并通过 IBM 的闭源工具对其进行了扩展,使其成为一个强大的数据分析和数据科学环境。
  • 多平台访问:它可以通过 Web 浏览器在公有云、私有云上使用,也可作为桌面应用程序使用。
  • 团队协作:Watson Studio 使团队成员能够在项目上进行协作,项目范围可以从简单的探索性分析到构建机器学习和 AI 模型。
  • 快速建模:它还包括 SPSS Modeler 流程,使你能够快速为业务数据开发预测模型。

🏢 SAS Enterprise Miner

最后,我们来看一个为企业级数据挖掘设计的综合平台。SAS Enterprise Miner 是一个用于数据挖掘的综合性图形化工作台。

以下是 SAS 的主要功能:

  • 交互式探索:它提供了强大的交互式数据探索能力,使用户能够识别数据内部的关系。
  • 数据管理:SAS 可以管理来自各种来源的信息,挖掘和转换数据,并分析统计数据。
  • 图形化界面:它为非技术用户提供了图形用户界面。
  • 核心分析能力:使用 SAS,你可以:
    • 使用一系列可用的建模技术识别数据中的模式。
    • 探索数据中的关系和异常。
    • 分析大数据。
    • 验证数据分析过程中发现的可靠性。
  • 易用性与安全性:SAS 因其语法而非常易于使用,也易于调试。它能够处理大型数据库,并为用户提供高安全性。

📝 总结与工具选择建议

本节课中,我们一起学习了几种当今可用的数据挖掘工具。关于最适合你需求的工具的决定,将受到以下因素驱动:

  • 工具支持的数据大小和结构
  • 它提供的功能
  • 其数据可视化能力
  • 基础设施需求
  • 易用性和可学习性

为了满足你的所有需求,结合使用多种数据挖掘工具是相当常见的做法。建议初学者从电子表格或 Python 入手,掌握基础后,再根据项目复杂度和团队需求,探索 R、SPSS 或 SAS 等专业工具。

031:分享和传播数据分析结果的概述 📊

在本节课中,我们将要学习如何有效地分享和传播数据分析结果。理解如何将你的发现清晰地传达给受众,是数据分析流程中至关重要的一环,它直接影响决策的制定和后续行动。

数据分析流程始于理解需要解决的问题和期望达成的目标,终于以能够影响决策的方式传达分析结果。数据项目通常是跨部门协作的成果,涉及具备多领域技能的人员,其发现最终会融入更广泛的业务计划中。

理解你的受众 👥

上一节我们介绍了数据分析流程的起点与终点,本节中我们来看看成功沟通的关键——理解你的受众。沟通的成功与否,取决于他人能否理解并信任你的见解,从而采取进一步行动。因此,数据分析师需要通过清晰的可视化数据和结构化的叙述,用数据讲述故事。

在开始构思沟通内容前,你需要重新连接你的受众。以下是开始前需要问自己的几个关键问题:

  • 我的受众是谁?
  • 对他们而言,什么是重要的?
  • 什么能帮助他们信任我?

你的受众通常是一个多元化的群体,他们代表不同的业务职能,在组织中扮演运营或战略角色,受问题影响的程度也各不相同。

构建你的演示内容 🗣️

理解了受众之后,下一步就是围绕他们已有的信息水平来构建你的演示内容。基于对受众的理解,你将决定哪些信息以及多少信息对于帮助他们更好地理解你的发现是至关重要的。

以下是构建演示内容的核心原则:

  • 聚焦关键信息:你可能会忍不住展示所有处理过的数据,但必须考虑哪些部分对你的受众更重要。演示不是数据倾倒。单纯的事实和数字无法影响决策或推动人们行动。
  • 讲述引人入胜的故事:只包含解决业务问题所必需的信息。信息过多会让受众难以理解你的核心观点。
  • 从问题共识开始:通过向受众展示你对业务问题的理解来开始你的演示。重申需要解决的问题和期望达成的目标,是赢得他们关注和建立信任的良好第一步。
  • 使用业务领域语言:使用你所在组织的业务领域语言,是建立你与受众之间联系的另一个重要因素。

组织信息与建立可信度 📝

设计沟通的下一步,是为实现最大影响力而构建和组织你的演示。你需要引用所收集的数据。记住,数据是你一切沟通的基础,但对受众来说可能像一个“黑箱”。

为了建立可信度,你需要:

  1. 分享数据来源:说明你的数据从何而来。
  2. 阐明假设与验证:清晰地陈述分析过程中所做的关键假设,并说明你是如何验证数据和结论的。
  3. 逻辑分类信息:根据你掌握的信息,将其组织成逻辑类别。例如,你是否同时拥有定性和定量信息?

在叙述中,可以有意识地采用自上而下或自下而上的方法,两者都可能有效,具体取决于你的受众和使用场景。关键在于保持方法的一致性。

选择沟通格式与可视化 📈

确定哪种沟通格式对你的受众最有用至关重要。他们需要带走一份执行摘要、一份事实清单还是一份完整报告?受众将如何使用你提供的信息,这应该决定你选择的格式。

见解必须以能激发行动的方式解释。如果你的受众没有领会到见解的重要性,或对其效用持怀疑态度,那么该见解就无法创造任何价值。

在受众脑海中创建清晰的心理图像方面,一段100字的论述可能不如一张可视化图表有冲击力。强大的可视化通过图形化描绘事实和数字来讲述故事。

数据可视化,如图表、图形和示意图,是让数据“活”起来的好方法。无论你是要展示比较关系分布还是构成,都有相应的工具可以帮助你展示关于假设的模式和结论。

总结 📋

本节课中,我们一起学习了如何有效地分享和传播数据分析结果。数据通过其讲述的故事产生价值。你的受众必须能够信任你、理解你并与你的发现和见解产生共鸣。通过建立发现的可信度在叙述中呈现数据通过视觉印象加以支持,你可以帮助你的受众获得有价值的见解,从而推动决策和行动。

032:数据分析中的故事讲述 📖

在本节课中,我们将聆听数据专业人士分享故事讲述在数据分析师工作中的角色。我们将探讨为何故事讲述是数据分析中不可或缺的一环,以及如何通过故事有效地传达数据见解。


故事讲述在数据分析师生活中的作用至关重要。擅长用数据讲故事极为关键。人类天生通过故事理解世界。因此,若想说服他人依据数据采取行动,首要任务是讲述一个清晰、简洁且引人入胜的故事。

对于数据分析师而言,在处理任何数据集时构建一个故事也极为有用。这能帮助他们更好地理解底层数据集及其运作方式。

在讲述一个清晰、连贯、简单的故事与确保传达数据中可能存在的所有复杂性之间,总需要取得平衡。找到这种平衡可能极具挑战性,但也确实至关重要。

故事讲述的艺术在数据分析师的生活中意义重大。无论你发现了多少或多么出色的信息,如果无法找到方法将其传达给你的受众,无论是消费者、总监级还是高管级人员,这些信息都将毫无价值。

你必须找到传达信息的方法。通常,最佳方式是通过可视化或讲述故事来实现,以便他们理解这些信息如何发挥作用。

故事讲述是一项必不可少的技能。它就像是交付过程中的“最后一公里”。许多人可以通过短期培训掌握技术层面,然而,从数据中提取价值并进行沟通的能力却供不应求。

从长远职业发展来看,掌握如何用数据讲述一个引人入胜的故事非常关键。故事讲述对数据分析绝对至关重要,这是你实际传达信息的方式。每个人都能展示数字,但如果没有一个故事围绕其中,没有一个令人信服的行动理由,那么你呈现的内容最终将无法引起受众的共鸣。

斯坦福大学进行了一项研究,让人们进行提案演示。在演示中,他们既展示了简单的关键绩效指标、数字和统计数据,也讲述了一个故事。事后对听众进行测试,询问他们记住了演示中的哪些内容,结果发现是那些故事给他们留下了深刻印象。

当然,故事中仍然包含事实和数字,但正是通过故事,你才能将观点深入人心。与故事、理解或数据建立情感联系,才是促使人们采取你希望和需要他们采取的行动的真正方式。


本节课中,我们一起学习了故事讲述在数据分析中的核心作用。关键要点包括:故事是人类理解世界的基本方式,是有效沟通数据见解的“最后一公里”;在简洁叙事与呈现数据复杂性之间需取得平衡;通过故事建立情感连接,是推动决策和行动的关键。掌握用数据讲故事的技能,对于数据分析师的长期职业发展至关重要。

033:数据可视化介绍

在本节课中,我们将学习数据可视化的基本概念、目的以及如何选择合适的图表类型来有效传达信息。数据可视化是数据分析中至关重要的一环,它帮助我们更直观地理解数据背后的故事。


🎯 什么是数据可视化?

数据可视化是通过图形、图表和地图等视觉元素传达信息的学科。其目标是使信息易于理解、解释和记忆。

想象一下,你需要浏览数千行数据来得出结论,而相比之下,通过可视化呈现相同数据的摘要结果则更为直观。使用数据可视化,你可以总结数据中隐藏的关系、趋势和模式,这些信息如果仅从原始数据中解读,即使不是不可能,也会非常困难。


❓ 如何选择正确的可视化方式?

要使数据可视化具有价值,你必须选择最能有效向受众传达发现的可视化方式。为此,你需要首先问自己一些问题:

以下是需要考虑的关键问题:

  • 我想建立什么样的关系?
  • 我是否想比较一个整体中各部分的相对比例?例如,不同产品线对公司总收入的贡献。
  • 我是否想比较多个值?例如,过去三年销售的产品数量和产生的收入。
  • 我是否想分析单个值随时间的变化?例如,某一特定产品在过去三年的销售情况如何变化。
  • 我是否需要受众看到两个变量之间的相关性?例如,天气条件与滑雪胜地预订量之间的相关性。
  • 我是否想检测数据中的异常值?例如,查找可能影响结论的潜在异常数据。

“我想回答什么问题?” 这不仅是数据可视化设计和过程中的一个总体性问题。对于你可视化的每一个数据集和信息,你都需要能够为你的受众回答这个问题。

你还需要考虑可视化应该是静态的还是交互式的。例如,交互式可视化可以允许你更改值并实时查看对相关变量的影响。

因此,请思考你的受众的关键收获、他们的信息需求以及他们可能提出的问题,然后规划出能够清晰、有力地传达你信息的可视化方案。


📈 基本图表类型介绍

上一节我们探讨了如何根据目标选择可视化方式,本节中我们来看看一些可用于可视化数据的基本图表类型示例。

以下是几种常见的图表类型及其适用场景:

  • 条形图:非常适合比较相关的数据集或整体的各个部分。例如,在条形图中,你可以看到10个不同国家的人口数量以及它们之间的比较。
  • 柱状图:并排比较数值,可以非常有效地显示随时间的变化。例如,显示你网站的页面浏览量和用户会话时间如何逐月变化。
  • 饼图:显示一个实体如何分解为其子部分,以及子部分之间的比例关系。饼图的每一部分代表一个静态值或类别,所有类别的总和等于100%。
  • 折线图:显示趋势。非常适合展示数据值如何随连续变量变化。例如,你的产品或多种产品的销售额如何随时间变化,其中时间是连续变量。折线图可用于理解数据的趋势、模式和变化,也可用于比较多个系列的不同但相关的数据集。

注意:尽管条形图和柱状图除了方向外很相似,但它们并不总是可以互换使用。例如,柱状图可能更适合显示负值和正值。


🖥️ 数据仪表板

数据可视化也可用于构建仪表板。仪表板将来自多个数据源的报告和可视化内容组织并显示在单个图形界面中。

你可以使用仪表板来监控日常进度、业务功能甚至特定流程的整体健康状况。仪表板可以呈现运营数据和分析数据。

例如,你可以拥有一个营销仪表板,从中实时监控当前营销活动的覆盖范围、产生的查询和销售转化率。在同一仪表板中,你还可以看到此活动的转化率与过去一些成功运行的活动的转化率相比如何。

仪表板是一个很好的工具,可以呈现整体情况的概览,同时也允许你深入查看每个参数的下一级信息。仪表板易于普通用户理解,使团队之间的协作变得容易,并允许你使用仪表板随时随地生成报告。

使用仪表板,你几乎可以立即看到数据和指标变化的结果。这可以帮助你在行进中从多个角度评估情况,而无需重新开始规划。


📝 课程总结

本节课中,我们一起学习了数据可视化的核心概念。我们了解到,数据可视化是通过视觉元素清晰传达数据洞察的关键工具。我们探讨了如何通过提问来选择合适的图表类型,并介绍了条形图、柱状图、饼图和折线图等基本图表的用途。最后,我们介绍了功能强大的数据仪表板,它能够整合多源信息,提供实时、全面的业务视图,助力高效决策。掌握这些基础知识,是成为一名优秀数据分析师的重要一步。

034:可视化和仪表板软件介绍 📊

在本节课中,我们将学习一些最常用的数据可视化软件和工具。这些工具包括电子表格、Jupyter Notebook、Python库、RStudio、IBM Cognos Analytics、Tableau和Microsoft Power BI。其中一些是端到端的数据分析解决方案,另一些则专门用于数据可视化,涵盖了从免费开源工具到商业解决方案的广泛选择。

电子表格软件 📈

上一节我们介绍了课程概述,本节中我们来看看最基础的可视化工具——电子表格。Microsoft Excel和Google Sheets可能是最常用于制作数据集图形表示的软件。它们易于学习,并且有大量在线文档和视频教程可供参考。

以下是Excel提供的主要图表类型:

  • 基础图表:条形图、折线图、饼图、数据透视表。
  • 高级图表:散点图、趋势线、甘特图、瀑布图。
  • 组合图表:可以将多种图表类型组合在一起。

Excel还会根据你的数据集推荐最佳的可视化表示方式。为了使图表更具表现力,你可以添加图表标题、更改元素颜色以及为数据添加标签。Google Sheets也提供类似的图表类型,尽管Excel拥有更多基于公式的内置选项。与Excel一样,Google Sheets可以帮助你选择正确的可视化方式,只需高亮显示要可视化的数据并点击图表按钮,即可获得最适合你数据的建议图表列表。

当底层数据发生变化时,Excel和Google Sheets中的图表和报告都会自动更新。在需要多用户协作的场景下,Google Sheets通常比Excel更受青睐。

Jupyter Notebook与Python库 🐍

上一节我们介绍了电子表格工具,本节中我们来看看基于代码的可视化工具。Jupyter Notebook是一个开源的Web应用程序,为探索数据和创建可视化提供了绝佳的方式。使用Jupyter Notebook并不需要你是Python专家。

Python提供了大量用于数据可视化的库。以下是几个主要的库:

  • Matplotlib:这是一个广泛使用的Python数据可视化库。它提供不同类型的2D和3D绘图,并具有以多种方式创建绘图的灵活性。使用Matplotlib,只需几行代码即可创建高质量的交互式图形和图表。作为一个开源工具,它拥有庞大的社区支持和跨平台兼容性。
  • Bokeh:该库以提供交互式图表和绘图而闻名,尤其擅长处理大型或流式数据集的高性能交互。Bokeh在应用交互、布局和不同样式选项以实现可视化方面提供了灵活性。它还可以转换使用其他Python库(如Matplotlib、Seaborn和ggplot)编写的可视化。
  • Dash:这是一个用于创建基于Web的交互式可视化的Python框架。使用Dash,你可以用Python代码构建高度交互的Web应用程序。虽然了解HTML和JavaScript会有所帮助,但并非必需。Dash易于维护,支持跨平台且适配移动端。

RStudio与Shiny 📊

上一节我们探讨了Python生态中的可视化工具,本节我们将目光转向R语言。使用RStudio,你可以创建从基础到高级的各种可视化。

以下是RStudio支持的可视化类型:

  • 基础可视化:直方图、条形图、折线图、箱线图、散点图。
  • 高级可视化:热力图、马赛克图、3D图形、相关图。

Shiny是一个R包,可帮助构建交互式Web应用程序,你可以将其作为独立应用程序托管在网页上。这些Web应用可以无缝显示R对象(如绘图和表格),并且可以设置为实时访问,允许任何人查看。你也可以使用Shiny构建仪表板。其易用性使其在数据专业人士中广受欢迎。

端到端分析解决方案 🏢

上一节我们介绍了R语言的可视化工具,本节我们来看看功能更全面的商业分析平台。IBM Cognos Analytics是一个端到端的分析解决方案。

以下是Cognos提供的一些可视化功能:

  • 导入自定义可视化
  • 预测功能:提供时间序列数据建模,并基于相应可视化中呈现的数据进行预测。
  • 根据数据推荐可视化方案
  • 条件格式设置:允许你查看数据分布并突出显示异常数据点,例如,突出显示超过特定阈值的高销售额和低销售额。

Cognos以其卓越的可视化效果以及利用地理空间能力将数据叠加到物理世界而闻名。

Tableau与Microsoft Power BI 🚀

上一节我们介绍了IBM Cognos,本节我们来看看另外两个流行的商业智能工具。Tableau是一家生产交互式数据可视化产品的软件公司。

使用Tableau产品,你可以通过拖拽手势,以仪表板和工作表的形式创建交互式图形和图表。Tableau还提供以“故事”形式发布结果的选项。你可以在Tableau中导入R和Python脚本,并利用其远优于其他语言的可视化功能。Tableau的可视化功能易于使用且直观。它兼容Excel文件、文本文件、关系数据库以及Google Analytics和Amazon Redshift等云数据库源。

Power BI是微软提供的一项基于云的业务分析服务,使你能够创建报告和仪表板。它是一个强大而灵活的工具,以其速度、效率以及易于使用的拖放界面而闻名。Power BI兼容多种数据源,包括Excel、SQL Server和基于云的数据存储库,这使其成为数据专业人士的绝佳选择。

Power BI提供了安全地协作和共享定制仪表板及交互式报告的能力,甚至在移动设备上也可以。Power BI的仪表板由单个页面上的多个可视化元素组成,帮助你讲述数据故事。这些被称为“磁贴”的可视化元素被固定到仪表板上。仪表板是交互式的,这意味着一个磁贴的变化会影响其他磁贴。

工具选择考量 🤔

上一节我们介绍了多种强大的可视化工具,本节我们来总结如何选择。在决定使用哪种工具时,你需要考虑易用性以及可视化的目的,同时权衡可用工具及其提供的可视化能力。记住一个原则:只要你能想象出来,你就能创建出来。

总结 📝

本节课我们一起学习了多种主流的数据可视化和仪表板软件。我们从基础的电子表格(Excel, Google Sheets)开始,了解了基于代码的工具(Jupyter Notebook, Python的Matplotlib/Bokeh/Dash库,R的RStudio/Shiny),最后探讨了功能强大的商业端到端解决方案(IBM Cognos Analytics, Tableau, Microsoft Power BI)。每种工具都有其特点和适用场景,选择时应根据具体需求、数据复杂度、团队技能和协作要求来决定。掌握这些工具将为你有效传达数据洞察奠定坚实基础。

035:数据可视化工具观点 🛠️

在本节课中,我们将了解几位数据专业人士在日常工作中最依赖的可视化工具及其原因。通过他们的分享,你可以初步认识不同工具的特点和适用场景。

上一节我们探讨了数据分析的基本流程,本节中我们来看看几位从业者如何利用工具将数据转化为直观的图表。

一位专家表示,他最常使用的工具是 Cognos Analytics。他列举了几个原因:该工具能让他快速导入电子表格或连接数据库,并对数据进行可视化。无论是自主探索数据、驱动字段,还是借助AI助手发现新数据集中的有趣信息,它都能胜任。此外,他还能利用其报告工具进行更复杂的分析,并构建和安排报告自动发送。例如,可以设置每周一早上自动向销售团队发送管道报告。他特别提到,该工具能整合多个数据源,系统可协助完成数据连接,并将所有信息呈现在一个高度交互的单一仪表板上,支持动态筛选、排序,并能轻松与整个组织共享。

另一位专家则主要依赖 Looker。这是一个位于公司内部数据库之上的数据可视化工具,与 Tableau 类似。她认为这类工具(如Looker和Tableau)的优点在于,能让组织中的每个人——无论是否是数据专业人士——都能轻松查看数据,并进行基本的聚合或排序操作。

对于探索性数据分析,有专家非常依赖 R语言。他近年来深刻体会到使用R进行基础数据分析和可视化的高效性,尤其是利用 tidyverse 这一软件包集合。tidyverse能帮助用户轻松加载数据、在不同层级进行聚合,并快速实现可视化。

还有观点认为,TableauPower BI 是显而易见的选择,因为它们易于上手且非常实用。随着越来越多的公司和人员开始使用,其内置模板和资源库也日益丰富。

最后,一位专家提到,基础的 Excel 以及整个 Microsoft 套件(如利用透视表和条件格式等功能)在数据准备阶段至关重要。在深入分析之前,先用这些工具确保数据是干净、合理且经过适当处理的。

本节课中,我们一起学习了不同数据专业人士对多种可视化工具(如Cognos Analytics, Looker, Tableau, R, Power BI, Excel)的评价和应用场景。理解这些工具的差异能帮助你在未来的数据分析工作中,根据具体任务选择最合适的助手。

036:数据分析的职业机会

在本节课中,我们将探讨数据分析师广阔的就业前景、职业发展路径以及如何规划你的职业生涯。我们将了解不同行业的需求、职业角色的分类以及如何通过技能提升实现职业成长。


数据分析师的职位空缺遍布各行各业,包括工业界、政府和学术界。无论是银行金融、保险、医疗保健、零售还是信息技术行业,都需要熟练的数据分析师。这些角色在大型企业和初创公司中同样受到追捧。

根据《福布斯》的数据,全球大数据分析市场在2018年达到373.4亿美元,预计在2019年至2027年间将以12.3%的复合年增长率增长,到2027年将达到1050.8亿美元。目前,市场对熟练数据分析师的需求远大于供给,这意味着公司愿意支付更高的薪酬来聘请技能娴熟的数据分析师。

为了帮助你理解向你开放的职业道路,我们将广泛地将数据分析相关角色分为两大类:数据分析专家角色领域专家角色


🎯 数据分析专家角色

上一节我们了解了数据分析师的整体市场需求,本节中我们来看看专注于技术和职能发展的职业路径。

数据分析专家角色适合那些希望在其角色的技术和职能方面保持专注并不断成长的数据分析师。在这条路径上,你可以从助理或初级数据分析师开始职业生涯,然后逐步晋升为分析师、高级分析师、首席分析师和首席分析师。

这些角色之间的界限、晋升到下一级别所需的经验年限以及需要获得的经验性质,可能因行业、组织规模和团队规模而异。例如,在较小的团队中,你可能会在短时间内获得数据分析所有方面的经验,从收集数据一直到向利益相关者可视化和呈现你的发现。而在较大的团队和组织中,角色通常根据活动进行划分,这意味着在进入下一阶段之前,你可能会在流程的某个特定阶段积累经验。这有助于你在进入下一阶段之前,磨练流程中某一部分的技能。

在你的职业生涯中,从助理数据分析师晋升到首席或首席数据分析师,你将持续提升你的技术、统计和分析技能,从基础水平到专家水平。你将展示自己使用广泛工具和平台、处理数据分析流程不同方面以及应对各种用例的能力。

以下是技术技能发展的一个典型路径:

  • 初级阶段:你可能只掌握一种查询工具和编程语言,一种类型的数据仓库或有限的几种可视化工具。
  • 随着经验积累:你被期望学习并展示自己能够使用越来越多的工具、语言、数据仓库和新技术。

此外,你的沟通技巧、演示技巧、利益相关者管理技巧和项目管理技巧都需要逐步磨练和提升。作为首席或首席分析师,你可能还需要负责在团队中建立流程,为团队应使用的软件和工具提出建议,提升团队技能,并扩大团队以纳入更多角色。在一些组织中,这些职责可能由一位经理级别的人员承担,他通过晋升来管理一个数据分析师团队。


🧑‍⚕️ 领域专家角色

上一节我们探讨了技术专家的成长路径,本节中我们来看看另一种重要的职业方向。

领域专家,也称为职能分析师,是在特定领域(如人力资源、医疗保健、销售、财务、社交媒体或数字营销)获得专长并被视作该领域权威的分析师。他们可能不是技术最娴熟的人。这些角色的头衔包括人力资源分析师、营销分析师、销售分析师、医疗保健分析师或社交媒体分析师。


🔄 数据分析赋能型职位

除了专门的分析师角色,数据分析技能还能赋能许多其他职位。

然后是数据分析赋能型职位。这些包括项目经理、营销经理和人力资源经理等角色。在这些工作中,数据分析技能能带来更高的效率和效果。相当一部分数据分析师职位空缺属于数据分析赋能型,因为越来越多的组织依赖数据做决策。


🛤️ 职业发展与横向拓展

了解了主要的职业角色分类后,我们来看看数据分析师职业发展的多样性和可能性。

作为一名数据分析师,你也有机会探索和学习新技能,从而进入其他数据专业领域,如数据工程或数据科学。例如,如果你从初级数据分析师起步,并且非常喜欢使用数据湖和大数据仓库,你可以进一步获取这些技术的专业知识,将你的职业发展成大数据工程师。如果业务方面的事情更让你兴奋,你同样可以探索横向转入业务分析或商业智能分析所需的技能。

虽然数据分析师的职业前景非常广阔,但好消息是,你有大量资源可以帮助你成长。要在你的数据分析师之旅中取得成功,你只需要抓住你想要追求的机会或出现在你面前的机会,并在此过程中不断学习。


📝 课程总结

本节课中,我们一起学习了数据分析师职业机会的全貌。我们了解到数据分析师在各行各业都有旺盛需求,市场增长迅速。职业路径主要可分为专注于技术深度的数据分析专家和深耕特定业务的领域专家。此外,数据分析技能还能赋能许多传统管理岗位。最后,数据分析师的职业发展具有高度灵活性,可以纵向深入技术,也可以横向拓展至数据工程、数据科学或业务分析等领域。关键在于持续学习,抓住机遇,在实践中成长。

037:数据专业人士的入行观点 🎤

在本节课中,我们将聆听几位数据专业人士分享他们是如何进入这个行业的。他们的经历各不相同,但都揭示了数据领域职业道路的多样性与机遇。


从发现需求到创造价值

我的数据专业职位在我担任之前并不存在。

我意识到公司需要一种比现有流程更快速、更高效的数据提供方式。原有的流程是:去找信息系统部门,他们开会讨论需求,然后产出一个大家并不满意的产品。但你必须排队等待,并重新走完整个流程才能获得你想要的东西。

因此,为了满足公司在两周内提供报告的需求,我搭建了一个公司数据库,使其能够访问更多信息。现在,我们有了分析师来满足公司这个未被满足的需求。


学术道路的意外转变

我进入数据专业领域纯属偶然。当时我其实正在伊利诺伊大学厄巴纳-香槟分校攻读经济学博士学位,我的一位同事建议说,一个统计学硕士学位也会是极有价值的加分项。

于是,我也进入了伊利诺伊大学的统计学项目。但一旦开始学习,我就被深深吸引,可以说再也回不去了。换句话说,我最初成为经济学家的目标,实际上演变成了一个充满数据、建模、分析、洞见收集、沟通、可视化,当然,还有贯穿所有这些的数据驱动问题解决的职业生涯。


金融与技术的结合

我进入数据分析师角色是在一家金融数据公司,实际上也是偶然。那时,我的公司开始在中国大陆招聘股票数据分析师,我非常幸运地加入了团队,因为他们正在寻找具备金融分析技能的人,而这正是我能带来的。

在那之后,我的团队开始招聘具备Python、R和SQL等技术技能的人才。


对数字与故事的热爱

我一直热爱数字。当你与数字打交道多了,它们就开始讲述故事。能够审视这些数字并讲述那个故事,这深深吸引着我。因此,一直拥有这种对数字的热爱,我总是被数据分析所吸引。

无论是Excel电子表格、QuickBooks,还是任何能帮助我们获取所需信息的数据集,尤其是在金融行业,当我们查看损益表、资产负债表,或者一家公司收购另一家公司时会发生什么,我们总是在审视那些数据,来谈论公司的历史和未来。


从学院到职场

我直接从我的研究生项目获得了目前的数据科学家职位,该项目是数据科学硕士学位。而在读研之前,我曾担任过数据分析师和分析经理。


总结

本节课中,我们一起聆听了数据专业人士多样的入行经历。他们的故事表明,进入数据领域可以通过多种路径:从解决实际业务需求、学术研究的转向、金融与技术的结合,到对数据故事本身的热爱,以及系统的学术训练。这些经历共同描绘出一个充满机遇、注重解决问题和创造价值的专业领域。

038:雇主在数据分析师中寻求什么 👔

在本节课中,我们将聆听数据专业人士的分享,了解雇主在招聘数据分析师时最看重哪些素质和技能。


上一节我们探讨了数据分析的基本流程,本节中我们来看看雇主对数据分析师的具体期望。多位行业专家分享了他们的观点。

诚信是雇主首要看重的品质。在招聘过程中,面试官可能会提出一个经典问题:“如果只能选一个,你是选择按时交付,还是选择得出正确答案?”理想的候选人会优先确保信息的准确性。因为错过截止日期,其危害远小于公司基于错误信息做出数百万美元的决策,或因报告不准确而导致他人失业。因此,诚信远比单纯守时更重要

除了诚信,清晰的沟通能力是另一项关键技能。即使你完成了世界上最出色的分析,但如果无法向外部利益相关者清晰地传达你的发现,那么这项分析就毫无价值。因此,这项技能备受雇主青睐。


在专业技能方面,雇主对数据分析师有多项明确要求。

以下是雇主普遍寻求的核心能力:

  • 数字敏感性与分析能力:对数字的敏感度、理解复杂分析的能力、理解A/B测试及其结果含义的能力。
  • 扎实的SQL技能:强大的SQL技能正变得越来越重要。
  • 成长型思维与学习意愿:由于行业变化极快,拥有成长型思维和持续学习的意愿至关重要。
  • 编程技能:包括Python或R等编程语言能力。
  • 解决问题的能力:如果向数据分析师提出一个问题,他们应该知道如何利用各种格式的数据来解决它,能够分析数据并呈现可解决问题的见解。

除了技术硬技能,个人特质和软技能同样关键。

作为雇主,在招聘时还会关注候选人的性格特质。我们寻找的人是注重细节的,并且是那种追求超越的人。他们不只想完成眼前的任务,更希望走得更远。

以下是雇主看重的关键个人特质:

  • 注重细节:对工作精益求精。
  • 有抱负且能跳出框架思考:不满足于简单执行指令(例如,如果要求做A、B、C,他们不仅会完成,还会进一步思考并提供备选方案)。
  • 具备解决问题和故障排除的能力:当出现问题时,他们不会停滞不前或只会上报,而是能够主动思考,提出可能的解决方案,推动工作和公司继续前进。
  • 动态适应能力:如果突然面对一个与以往截然不同的数据集,他们需要能够快速适应这种变化。因此,动态性和适应性非常重要。
  • 快速学习技术技能的能力:例如,在一个环境中使用一种SQL范式,需要能快速切换到另一种范式;或者熟悉Python但需要快速掌握R Studio。

本节课中我们一起学习了雇主在招聘数据分析师时看重的多方面素质。总结来说,一名优秀的数据分析师不仅需要诚信的品格和清晰沟通的能力,还需具备数字敏感性、扎实的SQL与编程技能,以及强大的问题解决能力。在个人特质上,注重细节、能跳出框架思考、具备成长型思维、能动态适应变化并快速学习,这些综合能力共同构成了雇主所寻求的理想候选人画像。

039:数据分析的多条路径 🛤️

在本节课中,我们将探讨进入数据分析领域的多种可能路径。无论你目前的教育背景或工作经验如何,都有机会开启数据分析师的职业生涯。


学术学位路径 🎓

最直接的路径之一是获得相关领域的学术学位。数据分析、统计学、计算机科学、管理信息系统或信息技术管理等专业的学位,能为你提供一个坚实的起点和优势。

公式示例: 学术学位路径 ≈ 相关专业学位 + 基础知识体系


在线培训与专业课程路径 💻

如果你没有相关学术学位,可以选择在线培训项目来获取所需的知识和技能。许多学习平台提供了全面的数据分析多课程专项项目。

以下是主要的在线学习平台:

  • Coursera
  • edX
  • Udacity

这些课程由全球顶尖的领域专家设计和讲授。它们通常包含实践性的作业和项目,让你能体验知识和技能在真实世界中的应用,这些项目甚至可以成为你作品集的一部分。


跨行业转型路径 🔄

上一节我们介绍了通过系统学习入行的路径,本节中我们来看看如何从其他行业转型进入数据分析领域。如果你已在其他领域工作数年并希望转行,只要规划得当,成功转型的可能性很高。

由于数据分析领域广阔,建议你先进行调研,明确所需的知识技能、可用的工作机会以及目标路径上的发展前景。你可以利用在线资源、论坛和人脉网络,与业内人士交流,获取对真实工作场景的洞察。

根据你当前的角色,可以考虑不同的切入点:

如果你目前从事非技术类工作,可以考虑向领域专家职能分析师的方向发展。例如,如果你在销售部门,可以利用行业经验优势,将自己定位并培养为销售分析师,同时补充学习统计学和编程等技能。

公式示例: 转型路径 = 现有行业经验 + 目标岗位所需技术技能(如 Python, SQL

如果你目前从事技术类工作,你通常能更快掌握数据分析角色所需的工具和软件。同时,你对所在领域或行业的深刻理解也是一大优势。对于问题解决、项目管理、沟通和叙事等软技能,你可能已在现有工作中有所应用,可以通过培训、在线课程和实践社区来进一步提升。


总结 📝

本节课中我们一起学习了进入数据分析领域的多条路径。数据分析是一个快速发展的领域。关键在于保持好奇心、乐于学习新事物并对该领域充满热情。无论你认为自己缺少何种正式资质,都能找到前进的道路。

核心总结:

  • 路径一:获取相关学术学位
  • 路径二:完成在线专业课程与认证。
  • 路径三:基于现有行业或技术经验进行战略转型

无论选择哪条路,持续学习和积累实践经验都是成功的关键。

040:数据专业人员的职业选择 🧭

在本节课中,我们将聆听从业的数据专家分享该领域内多样化的职业选择,帮助你了解成为一名数据专业人员后可能的发展路径。


如今,整个数据相关职业领域已变得非常丰富多彩且充满活力。它持续演进,并为任何希望进入数据专业领域的人提供了广泛的选择范围。

接下来,我们将具体介绍几种主要的职业路径。以下是数据专业人员常见的几种职业发展方向:

  • 数据分析师:这是许多人进入数据领域的起点。
  • 数据科学家:通过提升技能,可以从数据分析师进阶为数据科学家。
  • 统计学家:这是一个基础且重要的角色,也是我职业生涯的起点。
  • 数据工程师:你可以朝数据处理的特定方向深入专精,成为数据工程师。
  • 商业智能分析师/专家:你也可以从BI分析师起步,然后发展为数据工程师。

上一节我们列举了核心的数据职业角色,本节中我们来看看它们如何构成不同的发展路径。简而言之,在数据专业领域内,主要有两条并行的职业发展轨道:

  • 轨道一:数据分析师 → 数据科学家。
  • 轨道二:商业智能分析师 → 数据工程师。

此外,你还可以走向另一个更专业的极端,成为机器学习工程师人工智能工程师等。因此,存在许多这样的角色,对数据领域感兴趣的人可以承担其中任何一个。

了解了发展轨道后,我们来看看数据分析师具体有哪些进阶方向。对于数据分析师而言,最常见的职业选择包括:

  • 深入技术与工程:更深入地钻研机器学习和工程领域,成为专注于机器学习建模的数据科学家机器学习工程师
  • 深入业务与战略:更深入地理解所在业务,为公司高层战略提供信息支持。这个角色非常重要且有趣,近年来已得到显著发展。
  • 转向人员管理:开始成为人员经理,管理其他数据分析师,并负责筛选和确定工作的优先级。由于组织中能用数据解答的问题总是多于能解答问题的人员,因此数据经理的角色在确保最重要的工作得以完成方面,既有趣又关键。

最后,我们想强调的是,数据分析技能的应用范围远不止于科技行业。实际上,许多职业都需要优秀的数据分析能力。你可以是簿记员、会计师、注册会计师、股票经纪人、政府或大公司的财务分析师、房地产经纪人等等。许多人都是出色的数据分析师。

然而,要从事这类工作,你必须真正喜欢数字,并且要非常注重细节。如果这不是你的特点,或者数字不能让你感到兴奋,那么数据分析师可能并不适合你。


本节课中,我们一起学习了数据专业领域的多样性和活力,了解了从数据分析师、数据科学家到数据工程师等核心角色,并探讨了数据分析师向技术、业务或管理方向发展的不同路径。记住,数据分析思维是许多职业的宝贵财富,但找到与个人兴趣和特质相匹配的方向至关重要。

041:对有志成为数据分析师的建议 📝

在本节课中,我们将聆听数据专业人士为有志成为数据分析师的人士提供的宝贵建议。这些建议涵盖了学习态度、技能发展、实践经验以及职业选择等多个方面,旨在帮助初学者更好地规划自己的数据分析师成长之路。

持续学习,保持耐心 💡

一位专业人士建议,有志成为数据分析师的人应保持学习,不要气馁。关于数据分析的知识浩如烟海,远超一个人一生所能掌握的范围。因此,不要试图一次性学会所有内容,而应循序渐进。确保每周、每月、每年都能持续学习新知识,这种习惯将使你受益匪浅。

构建“T型”知识结构 🧠

在职业生涯中,一个非常有益的建议是将你的知识结构视为一个大写字母 T

以下是“T型”结构的具体含义:

  • 广泛的知识面(T的顶部):你应在多个不同领域拥有广泛的知识,尽管这些知识不一定非常深入。你至少应对以下领域有所了解:
    • A/B 测试
    • 机器学习
    • 数据可视化
    • SQL
    • Python
    • R
  • 精深的专业技能(T的底部):你应在至少一个领域进行深入、严谨的学习,达到精通的程度。这个领域可以是上面提到的任何一个。

从一切经历中挖掘数据价值 🔍

充分利用你的每一份工作经历。这意味着你可以从任何事情中发现价值。例如:

  • 查看父母的预算,或询问父母是否可以查看家庭账本。
  • 如果你在快餐店工作,可以观察客流量、营业额等数字,并与经理探讨这些数字背后的意义以及下一步计划。

准备你的案例故事 📖

当你与潜在雇主交流时,准备好你的案例。这些案例不一定非得是工作经验,也可以是生活经历。关键在于你如何运用了数据分析思维。

例如,你可以讲述你在个人生活或职业中做过什么,以及它是如何与我们正在讨论的工作相关联的。能够清晰阐述这一点,将对你大有裨益。

打造专业作品集 🎨

给有志成为数据科学家或分析师的一条建议是:构建一个能够展示你数据科学或数据分析技能的专业作品集

你可以通过以下方式实现:

  1. 在线寻找有趣的数据集并进行分析。
  2. 在当前工作中寻找机会,即使你的本职工作不是数据分析师。寻找可以处理数字、进行数据分析的契机,这自然会帮助你积累起优秀的作品集或成功的数据分析项目案例。

追随你的热情 ❤️

给有志成为数据分析师的最后一条建议是:追随你的热情。找到一份既能满足你需求,又能让你在工作中获得快乐的工作。

每天早晨醒来都讨厌去上班是最糟糕的事情。数据分析师的职位遍布各行各业、各个部门,有非常多的选择。因此,没有必要仅仅为了有一份工作而将就。找到真正能点燃你热情、让你每天早晨都有动力起床去奋斗的事业。


本节课总结

本节课中,我们一起学习了多位数据专业人士对数据分析新人的建议。核心要点包括:保持持续学习的耐心,构建“T型”的广博与精深相结合的知识体系,善于从任何经历中提炼数据价值,在求职时准备好个人案例故事,积极构建个人作品集来展示技能,以及最重要的——选择一份能点燃你热情的数据分析工作。遵循这些建议,将帮助你更稳健地开启数据分析师的职业生涯。

042:数据专业中的女性观点 👩💻

在本节课中,我们将聆听几位女性数据专业人士分享她们在该领域的亲身经历,以及她们对有志进入此领域的女性所提出的建议。


上一节我们探讨了数据分析的基本概念,本节中我们来看看几位行业先驱者的真实故事与见解。

作为一名数据科学领域的女性,我仍然会遇到“这是男性工作”的刻板印象。我曾走进会议室,看到人们流露出失望或困惑的表情。我将此视为一个证明他们错误的机会。这并非仅仅是男性的工作。它属于那些具备洞察力、能力和动力去完成任务的人。只要你拥有这些技能,那么无论你是谁,都没有理由不能做到你决心要做的事。无论你是男性还是女性,无论你的肤色如何,你都有机会通过你产出的工作来证明人们的错误。

我想说,这可能会很艰难,但你必须找到自己的声音,并且不要害怕使用它。很多时候,作为女性,我们无法找到自己的声音或不敢发声,或者我们害怕如果我们发声,人们会如何对待我们。但你要知道,更重要的是你被听到、被看见——不是靠大声喧哗或犯错,而是如果你有数据支持,有好的内容和想法想要表达,不要害怕举手,让人们知道你是一个思考者,并且你能完成工作。因为随着你的进步,这将变得非常重要。而真正取得进步的唯一途径就是驱动力,如果你太安静,人们就不知道你有这种驱动力。所以,如果你只是安静地在角落里工作,很多时候人们是看不到的。因此,要大声说出来,确保你的声音被听到,确保你被看作一个懂得如何在数据科学领域成长和做出贡献的女性。

当我开始时,尤其是在研究生院,我的班级里大部分是男性。但现在我看到,数据团队,包括数据科学和数据工程团队,也有很多女性。因此,我建议女性继续提升技能。这样,如果她们对编程、数据和解决问题的职业感兴趣,她们就应该继续构建自己的技术技能组合。以便她们能够在数据专业领域中尽可能有力地展现自己。

不要让你的性别成为借口。依然要全力以赴,投入工作,向世界展示你惊人的才华。没有任何角色是为特定性别预留的。如果你有幸从事一份你非常热爱的职业,那就勇敢地去追求它。


本节课中,我们一起学习了来自数据科学领域女性的宝贵经验与建议。核心观点在于:成功的关键在于个人能力、驱动力与勇于发声,而非性别。她们鼓励所有有志者持续学习技术技能(如 编程数据分析),自信地展现自己,用扎实的工作成果来定义自己的职业道路。数据领域欢迎并需要多元化的声音与才华。

043:《数据分析简介》|课程介绍

在本节课中,我们将要学习《数据分析简介》这门课程的整体框架与学习目标。这门课程是成为初级数据分析师系列课程中的第一门,旨在为你打下坚实的数据分析基础。


🎯 课程概述

欢迎来到数据分析入门课程。这是系列课程中的第一门,旨在为你成为一名初级数据分析师做好职业准备。

为了说明数据在商业转型中的力量,这里引用一份福雷斯特咨询公司的报告:当今企业认识到数据及其分析中蕴含的未开发价值,这是商业竞争力的关键因素。为了推动其数据和分析计划,公司正在招聘和提升员工技能。他们正在扩大团队并建立卓越中心,以便在组织内建立多管齐下的数据和分析实践。与此同时,熟练的数据分析师存在显著的供需不匹配,这使其成为一个备受追捧且高薪的职业。

你可以选择将掌握数据分析作为职业道路,或者将其作为跳板,扩展到其他数据专业领域,例如数据科学、数据工程、业务分析和商业智能分析。

如果你是一名任何专业的应届毕业生、考虑职业中期转型的在职专业人士、数据驱动的决策者,或任何与数据分析相关的角色,那么这门课程都适合你。

本课程将向你介绍进入数据分析领域所需的核心概念、流程和工具,甚至可以帮助你强化当前作为数据驱动决策者的角色。它将使你了解数据生态系统和数据分析的基础知识,例如数据收集、整理、挖掘、分析和数据可视化。你还将体验数据分析师的日常工作。


👥 实践分享与职业路径

上一节我们介绍了课程的整体目标,本节中我们来看看课程中包含的宝贵实践经验。

以下是课程中你将获得的来自行业专家的见解:

  • 实践中的数据分析师将分享他们进入该领域的经验。
  • 你将了解可以考虑的职业选择和学习路径。
  • 你将知道雇主在寻找数据分析师时看重哪些素质。
  • 他们还将分享关于数据分析过程某些方面的知识和最佳实践。

🚀 展望未来

对于数据分析领域以及作为数据分析师的你来说,前方的道路确实令人兴奋。因此,祝贺你选择踏上这段旅程,并祝你好运。


📝 课程总结

本节课中我们一起学习了《数据分析简介》课程的核心内容。我们了解到数据分析在现代商业中的关键作用、本课程的目标受众,以及课程将涵盖的核心技能与职业见解。这为你后续深入学习数据分析的具体方法和工具奠定了良好的基础。

044:现代数据生态系统 🚀

在本节课中,我们将要学习现代数据生态系统的构成。我们将了解数据如何从多样化的源头产生,经过采集、组织和管理,最终被不同的用户和应用所使用。同时,我们也会探讨云计算、机器学习和大数据等新兴技术如何塑造并扩展了数据生态系统的可能性。


根据《福布斯》2020年一份关于未来十年数据的报告,数据处理速度和带宽的持续提升、用于创建、共享和消费数据的新工具不断涌现,以及全球范围内新的数据创建者和消费者的稳定增加,共同确保了数据的增长势头不减。

数据在持续的良性循环中催生出更多数据。

一个现代数据生态系统包含一个由相互关联、独立且不断演进的实体组成的完整网络。

它包括了需要从不同来源整合的数据、用于生成洞察的不同类型的分析与技能、积极协作并根据生成的洞察采取行动的利益相关者,以及用于按需存储、处理和传播数据的工具、应用程序和基础设施。


上一节我们介绍了现代数据生态系统的整体概念,本节中我们来看看它的核心组成部分。

首先是数据源。数据以各种结构化和非结构化数据集的形式存在,来源包括:

  • 文本、图像、视频
  • 点击流、用户对话
  • 社交媒体平台
  • 物联网设备
  • 实时数据流事件
  • 遗留数据库
  • 专业数据提供商和机构提供的数据

数据源的多样性和动态性前所未有。

当处理如此多不同的数据源时,第一步是将数据从原始源复制到数据存储库中。在此阶段,您主要关注获取所需数据,处理数据格式、来源以及可以拉取数据的接口。确保所获取数据的可靠性、安全性和完整性是此阶段需要应对的挑战之一。


一旦原始数据进入一个公共存储空间,就需要对其进行组织、清理和优化,以便最终用户访问。数据还需要符合组织内执行的合规性和标准。

例如,遵守管理个人数据(如健康、生物识别或物联网设备中的家庭数据)存储和使用的指导方针。

另一个例子是遵循组织内的主数据表,以确保主数据在组织所有应用和系统中的标准化。

此阶段的关键挑战可能涉及数据管理,以及使用能提供高可用性、灵活性、可访问性和安全性的数据存储库。


在数据被妥善组织和管理之后,最终环节是数据的消费与应用。

最终,我们的业务利益相关者、应用程序、程序员、分析师和数据科学用例都会从企业数据存储库中提取这些数据。

此阶段的关键挑战可能包括接口、API和应用程序,它们需要能够根据最终用户的特定需求将数据送达。

以下是不同用户对数据的不同需求示例:

  • 数据分析师可能需要原始数据进行处理。
  • 业务利益相关者可能需要报告和仪表板。
  • 应用程序可能需要自定义API来拉取这些数据。


值得注意的是,一些新兴技术正在塑造当今的数据生态系统及其可能性,例如云计算、机器学习和大数据

得益于云计算技术,如今每家企业都能获得近乎无限的存储、高性能计算、开源技术、机器学习技术以及最新的工具和库。数据科学家通过在历史数据上训练机器学习算法来创建预测模型。

此外是大数据。今天我们处理的数据集如此庞大和多样,以至于传统工具和分析方法已不再适用,这为新工具、新技术以及新知识和洞察铺平了道路。

我们将在本课程后续部分进一步学习大数据及其对商业决策的影响。


本节课中,我们一起学习了现代数据生态系统的完整流程:从多样化的数据源开始,经过数据采集(关注可靠性、安全性、完整性)、数据组织与管理(关注合规性、标准化、高可用性),到最终的数据消费与应用(通过接口、API、报告等形式满足不同用户需求)。同时,我们也认识到云计算、机器学习和大数据等关键技术正在不断扩展数据生态系统的边界与能力。理解这个生态系统是成为一名数据分析师的重要基础。

045:数据生态系统中的关键角色 🧩

在本节课中,我们将学习数据生态系统中的几个核心角色。理解这些角色如何协作,对于从数据中获取价值至关重要。

如今,那些利用数据发现机遇并应用这些知识来形成自身差异化的组织,正引领着未来。无论是通过分析金融交易模式来检测欺诈,使用推荐引擎来提升转化率,挖掘社交媒体帖子以了解客户心声,还是品牌根据客户行为分析来个性化其产品推荐,商业领袖们都认识到,数据是获得竞争优势的关键。

要从数据中获取价值,需要大量不同的技能组合和扮演不同角色的人员。在本视频中,我们将探讨数据工程师、数据分析师、数据科学家、业务分析师和商业智能分析师在帮助组织利用海量数据并将其转化为可操作的见解方面所扮演的角色。

数据工程师:数据的架构师 🏗️

一切始于数据工程师。数据工程师是开发和维护数据架构,并使数据可用于业务运营和分析的人员。

数据工程师在数据生态系统内工作,负责从不同来源提取、整合和组织数据,清洗、转换和准备数据,并在数据仓库中设计、存储和管理数据。他们使数据能够以各种业务应用以及数据分析师和数据科学家等利益相关者可以利用的格式和系统进行访问。

一名数据工程师必须具备良好的编程知识、扎实的系统和技术架构知识,以及对关系型数据库和非关系型数据存储的深入理解。

数据分析师:数据的翻译官 📊

上一节我们介绍了数据的构建者,本节中我们来看看数据的解读者。简而言之,数据分析师将数据和数字翻译成通俗易懂的语言,以便组织能够做出决策。

数据分析师检查和清理数据以获取洞察,识别相关性,寻找模式,应用统计方法分析和挖掘数据,并通过可视化来解读和呈现数据分析的结果。

以下是数据分析师通常回答的问题类型:

  • 我们网站上的搜索功能,用户的搜索体验总体上是好是坏?
  • 公众对我们品牌重塑举措的普遍看法是什么?
  • 一种产品的销售与另一种产品的销售之间是否存在相关性?

数据分析师需要熟练掌握电子表格、编写查询语句,以及使用统计工具创建图表和仪表板。现代数据分析师还需要具备一定的编程技能。他们同样需要强大的分析和叙事能力。

数据科学家:未来的预测者 🔮

现在,让我们看看数据科学家在这个生态系统中扮演的角色。数据科学家分析数据以获得可操作的见解,并构建机器学习或深度学习模型,这些模型基于历史数据进行训练,以创建预测模型。

以下是数据科学家通常回答的问题类型:

  • 下个月我可能会获得多少新的社交媒体关注者?
  • 下一个季度,我可能有多少比例的客户会流失到竞争对手那里?
  • 这笔金融交易对该客户来说是否异常?

数据科学家需要具备数学、统计学知识,并对编程语言、数据库和构建数据模型有相当的理解。他们还需要具备领域知识。

业务分析师与商业智能分析师:决策的推动者 🎯

然后,我们还有业务分析师和商业智能分析师。业务分析师利用数据分析师和数据科学家的工作成果,审视对其业务的可能影响以及他们需要采取或建议的行动。商业智能分析师做类似的工作,但他们的侧重点在于塑造其业务的市场力量和外部影响。

他们通过组织和监控不同业务职能的数据,并探索这些数据以提取能改善业务绩效的见解和可执行方案,来提供商业智能解决方案。

总结与职业路径 🌟

本节课中我们一起学习了数据生态系统中的关键角色。简单总结一下:

  • 数据工程将原始数据转换为可用数据。
  • 数据分析利用这些数据生成洞察。
  • 数据科学使用数据分析和数据工程,基于过去的数据预测未来。
  • 业务分析师商业智能分析师则利用这些洞察和预测来推动有利于业务增长和发展的决策。

有趣的是,数据专业人士从其中一个数据角色开始职业生涯,然后通过补充技能过渡到数据生态系统内的另一个角色,这种情况并不少见。

046:定义数据分析

在本节课中,我们将学习数据分析的核心概念、主要类型以及其标准流程。数据分析是当今商业决策中不可或缺的一环,理解其基本框架是成为一名数据分析师的第一步。


什么是数据分析?

数据分析是一个系统性的过程,它包含收集、清理、分析和挖掘数据,随后解读结果,并最终报告研究发现。通过数据分析,我们能够在数据中发现模式,并识别不同数据点之间的关联。正是通过这些模式和关联,我们得以生成洞察并得出结论。

数据分析帮助企业理解其过往表现,并为未来的行动决策提供信息支持。通过数据分析,企业可以在投入资源前验证行动方案的可行性,从而节省宝贵的时间和资源,并确保更高的成功率。


数据分析的四种主要类型

接下来,我们将探讨数据分析的四种主要类型。每种类型在数据分析过程中都有不同的目标和定位。

以下是四种主要的数据分析类型:

  1. 描述性分析

    • 目标:回答“发生了什么”的问题。
    • 方法:通过汇总过去的数据并向利益相关者展示结果,来总结特定时间段内的情况。
    • 作用:提供对过去事件的基本洞察。
    • 示例:基于组织的关键绩效指标追踪过往表现,或进行现金流分析。
  2. 诊断性分析

    • 目标:回答“为什么会发生”的问题。
    • 方法:利用描述性分析得出的洞察,深入挖掘以找出结果的根本原因。
    • 示例:网站流量在无明显原因的情况下突然变化,或某个区域在营销策略未变的情况下销售额增加。
  3. 预测性分析

    • 目标:回答“接下来可能会发生什么”的问题。
    • 方法:利用历史数据和趋势来预测未来结果。
    • 作用:企业应用预测性分析的领域包括风险评估和销售预测。
    • 核心概念:预测性分析的目的不是断言未来一定会发生什么,而是预测未来可能发生的情况。所有预测本质上都是概率性的。
  4. 规范性分析

    • 目标:回答“应该对此采取什么行动”的问题。
    • 方法:通过分析过去的决策和事件,估计不同结果的可能性,并在此基础上决定行动方案。
    • 示例:自动驾驶汽车分析环境以做出关于速度、变道、路线选择等决策;航空公司根据客户需求、油价、天气或联程路线的交通状况自动调整机票价格。


数据分析的关键步骤

上一节我们介绍了数据分析的类型,本节中我们来看看一个典型的数据分析过程包含哪些关键步骤。遵循一个结构化的流程对于确保分析的有效性和可靠性至关重要。

以下是数据分析过程中的关键步骤:

  1. 理解问题与期望结果

    • 数据分析始于理解需要解决的问题和需要达成的期望结果。在分析过程开始之前,必须明确定义“现状”和“目标”。
  2. 设定清晰的衡量指标

    • 此阶段包括决定测量什么(例如,某地区产品X的销量)以及如何测量(例如,在一个季度内或在某个节日季期间)。
  3. 收集数据

    • 一旦明确了测量内容和方式,就需要确定所需的数据、需要从中提取数据的数据源,以及完成此任务的最佳工具。

  1. 清理数据

    • 收集数据后,下一步是修复数据中可能影响分析准确性的质量问题。这是一个关键步骤,因为只有数据干净,才能确保分析的准确性。
    • 清理工作包括处理缺失值不完整值异常值。例如,客户人口统计数据中年龄字段值为150就是一个异常值。
    • 还需要对来自多个来源的数据进行标准化处理。
  2. 分析与挖掘数据

    • 数据清理完毕后,将从不同角度提取和分析数据。可能需要以多种不同方式操作数据,以理解趋势、识别关联、发现模式和变化。
  3. 解读结果

    • 在分析数据并可能进行进一步研究(这可能是一个迭代循环)之后,就到了解读结果的时候。在解读时,需要评估你的分析是否足以应对质疑,以及是否存在任何局限性或特定情况会使你的分析不成立。
  4. 呈现你的发现

    • 最终,任何分析的目标都是影响决策。以清晰且有影响力的方式沟通和呈现你的发现,是数据分析过程中与分析本身同等重要的一部分。报告、仪表板、图表、图形、地图和案例研究等都是呈现数据的有效方式。


总结

本节课中,我们一起学习了数据分析的基础知识。我们首先定义了数据分析是一个包含收集、清理、分析、解读和报告的系统过程。接着,我们探讨了描述性、诊断性、预测性和规范性这四种主要的数据分析类型及其目标。最后,我们详细介绍了数据分析流程中的七个关键步骤,从理解问题开始,到最终呈现发现结束。掌握这些核心概念和流程,是开启数据分析之旅的重要基石。

047:视角——什么是数据分析?🔍

在本节课中,我们将聆听几位数据专业人士的分享,了解他们如何定义数据分析,以及这个术语对他们意味着什么。通过他们的视角,我们可以更全面地理解数据分析的本质和应用。


上一节我们介绍了本视频的主题。本节中,我们来看看第一位专业人士的观点。

我将数据分析定义为收集信息并分析这些信息以验证各种假设的过程。对我而言,数据分析也意味着用数据讲故事,即使用数据清晰、简洁地向周围的人传达世界的状态。


理解了数据分析作为“验证假设”和“数据叙事”的概念后,我们接下来听听另一位专家如何将其与日常生活联系起来。

数据分析是利用你周围的信息来做决策。就像你每天早上起床,会看新闻,天气预报会告诉你当天的温度和是否会下雨,这可能会决定你穿什么或能进行什么活动。所以数据分析不是一个抽象的概念,它是我们自然而然在做的事情,只是它有一个技术名称。现在人们被雇佣来在更大规模或更宏大的场景中做这件事,但它真的没那么复杂。


既然数据分析与日常决策息息相关,那么它在解决专业问题时的具体流程是怎样的呢?让我们继续聆听。

我的理解是,你遇到了一个问题,你需要用事实来检验一个假设。这就是数据分析发挥作用的地方。这个过程从定义问题开始,然后你需要建立自己的假设。为了检验它,你需要收集数据、清理数据、分析数据,然后将其呈现给关键的利益相关者。数据分析本质上就是你可以用来审查信息的任何数据集。


在商业环境中,数据分析如何帮助洞察现状和预测未来呢?以下是来自一位注册会计师的见解。

任何能帮助你理解正在发生什么事情的数据集。以我作为一名注册会计师为例,我总是在查看财务报表,总是在分析数据,以预测某人过去的情况、现在的状况以及未来的走向。因此,数据帮助我看得更远,几乎可以预测我正在合作的任何公司的未来。所以,数据分析是整理、清洗、分析、呈现,并最终分享你的数据和分析结果,以帮助准确传达你的业务或数据中正在发生的事情,从而帮助做出更好的决策。


最后,让我们从数字营销和内容策略的角度,看看数据分析如何指导产品与服务决策。

我会将数据分析定义为一个过程,或者更确切地说,是一种现象:从相关群体(可能是你的客户或社交受众)那里收集信息,将这些信息分解成子集,并利用这些数据来制定关于你想要提供的产品或服务的决策,或者在我们所处的数字环境中,决定你想要发布的某些内容,以吸引你的目标受众


本节课中,我们一起学习了多位数据专业人士对数据分析的定义。他们从假设验证、数据叙事、日常决策、问题解决流程、商业洞察与预测,以及产品与内容策略等多个视角,阐述了数据分析的核心在于利用数据来理解现状、检验想法并支持更好的决策。无论背景如何,数据分析都围绕着处理信息以获取有价值的见解这一共同目标。

048:数据分析师的职责与技能 📊

在本节课中,我们将学习数据分析师的核心职责以及成功胜任此角色所需的关键技能。我们将从典型的工作内容入手,然后深入探讨支撑这些工作的技术、职能和软技能。

数据分析师的典型职责

虽然数据分析师的角色因组织类型及其数据实践采用程度而异,但在当今的组织中,仍有一些职责是数据分析师角色的典型组成部分。

以下是数据分析师的主要职责列表:

  • 数据获取:从主要和次要数据源获取数据。
  • 数据查询:创建查询以从数据库和其他数据收集系统中提取所需数据。
  • 数据准备:对数据进行过滤、清洗、标准化和重组,为数据分析做准备。
  • 数据解读:使用统计工具解读数据集。
  • 模式识别:使用统计技术识别数据中的模式和相关性。
  • 趋势分析:分析复杂数据集中的模式并解读趋势。
  • 报告与可视化:准备有效传达趋势和模式的报告与图表。
  • 过程文档:创建适当的文档来定义和演示数据分析过程的步骤。


数据分析师的核心技能

上一节我们介绍了数据分析师的主要职责,本节中我们来看看支撑这些职责所需的技能。数据分析过程需要技术、职能和软技能的结合。

技术技能

首先,让我们看看作为数据分析师角色所需的一些技术技能。这些技能是处理数据和工具的基础。

以下是关键的技术技能列表:

  • 电子表格:精通使用电子表格,如 Microsoft Excel 或 Google Sheets。
  • 分析与可视化工具:熟练使用统计分析和可视化工具及软件,如 IBM Cognos、IBM SPSS、Oracle Visual Analyzer、Microsoft Power BI 和 Tableau。
  • 编程语言:至少精通一种编程语言,如 R 或 Python;在某些情况下,可能还需要 C++、Java 和 MATLAB。
  • SQL 与数据库:具备良好的 SQL 知识,能够处理关系型和非 SQL 数据库中的数据。
  • 数据仓库访问:能够从数据仓库、数据湖和数据管道等数据存储库访问和提取数据。
  • 大数据工具:熟悉 Hadoop、Hive 和 Spark 等大数据处理工具。

我们将在课程后续部分进一步了解这些编程语言、数据库、数据存储库和大数据处理工具的特性和用例。

职能技能

现在,让我们看看数据分析师角色所需的一些职能技能。这些技能帮助你理解问题、分析数据并得出有意义的结论。

以下是关键的职能技能列表:

  • 统计学:精通统计学,以帮助你分析数据、验证分析结果并识别谬误和逻辑错误。
  • 分析能力:帮助你研究和解释数据、建立理论并进行预测的分析能力。
  • 解决问题能力:因为所有数据分析的最终目标都是解决问题。
  • 探究能力:对于发现过程至关重要,即从不同利益相关者和用户的角度理解问题,因为数据分析过程真正始于对问题陈述和期望结果的清晰阐述。
  • 数据可视化技能:帮助你根据受众、数据类型、背景和分析的最终目标,决定有效呈现研究结果的技术和工具。
  • 项目管理技能:用于管理项目流程、依赖关系和时间线。

软技能

谈完技术性和职能性技能,接下来我们看看数据分析师的软技能。数据分析既是一门科学,也是一门艺术。你可以精通技术和职能专长,但成功的关键区别因素之一将是软技能。

以下是关键的软技能列表:

  • 协作能力:与业务和跨职能团队协作的能力。
  • 有效沟通:有效沟通以报告和呈现你的发现。
  • 讲故事能力:讲述引人入胜且令人信服的故事,并为你的工作争取支持和认可。
  • 好奇心:最重要的是,好奇心是数据分析的核心。在你的工作过程中,你会遇到可能指引你走向不同路径的模式、现象和异常。允许新问题浮现并挑战你的假设和假设的能力,造就了出色的分析。
  • 直觉:你还会听到数据分析从业者将直觉视为必备品质。必须注意的是,这里的直觉是指基于模式识别和过去经验对未来有所感知的能力。

总结

本节课中,我们一起学习了数据分析师的核心职责,包括从数据获取、清洗到分析、可视化和文档化的全过程。同时,我们深入探讨了支撑这些工作的三大类技能:处理数据和工具的技术技能、理解问题和进行分析的职能技能,以及协作沟通和保持好奇心的软技能。掌握这些职责和技能是成为一名成功数据分析师的基础。

049:数据分析师的视角、特质与技能 🎯

在本节课中,我们将聆听来自数据领域专业人士的分享,了解成为一名数据分析师所需具备的特质与技能。


数据分析师的特质与技能

数据分析师的特质包括:天生充满好奇心、注重细节、并且乐于与计算机打交道。

一个充满好奇心的人,即使在没有明确问题的情况下,也会主动寻找答案。他们不介意深入研究,探索那些可能之前未被考虑过的领域。

注重细节意味着善于寻找规律。例如,你是否会自然地走进一个房间,就开始数人数,或者观察房间的布局?关注这些细微之处至关重要。同时,乐于使用计算机也很重要,因为技术发展日新月异。你今天学习的某项技能,可能在两三年后就不再适用。因此,你需要能够根据市场或行业的变化,不断学习新技能和新软件。


硬技能与软技能

毫无疑问,成为一名数据分析师需要同时具备技术技能(硬技能)和软技能。

技术技能包括:

  • Python
  • SQL
  • R
  • Tableau
  • Power BI

软技能或人际交往能力,意味着你需要知道:

  • 应该使用哪些正确的数据。
  • 应该使用哪些正确的工具。
  • 如何向相关利益方展示数据。

这些技能要求你具备商业头脑和出色的演示能力。你必须非常注重细节,热爱数字和信息,并且愿意深入挖掘信息,而不是停留在表面。

例如,在我的工作中,我不能只看银行对账单的表面价值。我必须仔细检查并对比,比如印章看起来是否正确。尤其是在当今世界,存在大量欺诈和错误信息,有人试图窃取你的信息进行欺诈使用。一名优秀的数据分析师应该能够将去年的信息与今年的信息进行比较,以判断其是否合理。你必须具备这种洞察力和思维方式,而不是只看表面。


软技能与硬技能详解

成为一名数据分析师需要许多特质和技能,我通常将它们分为两大类:软技能和硬技能。

我认为,对于数据分析师来说,最重要的软技能是:

  • 保持真正的好奇心,提出大量好问题。
  • 深思熟虑,并仔细倾听。
  • 理解用户和同事的视角,了解他们最需要从数据中获得什么。
  • 始终保持学习意愿,因为分析领域发展迅速,你必须不断学习和阅读以保持领先。

成为一名数据分析师也需要许多技术技能。

对于任何新的数据分析师来说,最重要的一项技术技能是学习 SQL。这是迄今为止使用最广泛的技能。任何时候你需要从数据库中提取数据,都需要了解 SQL。一个拥有出色 SQL 技能的数据分析师是无与伦比的。

我认为,有时人们会好高骛远,在掌握 SQL 基础之前就尝试一堆非常复杂的技术,这是一个很大的错误。了解 PythonR 这两种用于数据分析的主要编程语言总是好的。作为一名新的数据分析师,你不需要精通两者,甚至不需要精通其中任何一个,但开始熟练掌握其中一种将对你的职业生涯非常有用。

数据分析师的另一项重要技术技能是,至少精通一种数据可视化工具,并理解数据可视化的通用原则。


现代数据分析师的端到端技能

如今,数据分析师的端到端技能组合比过去更加动态。

数据分析师需要知道他们试图用数据解决什么问题。他们需要使用 SQL 从数据湖中提取所需的数据,并以所需的结构进行组织。这通常涉及许多不同的数据表,他们需要弄清楚如何连接这些表,然后提取数据。

接下来,他们需要清理、整理、操作和挖掘这些数据,以便能够从中提炼出见解。最后,他们需要使用良好的可视化和仪表板,简洁清晰地呈现这些见解。换句话说,能够用数据讲述一个精彩的故事


课程总结

在本节课中,我们一起学习了成为一名成功的数据分析师所需的核心特质与技能组合。我们了解到,这不仅是关于掌握 SQLPython 等技术工具,更重要的是培养好奇心、注重细节和持续学习等软技能。现代数据分析师的角色是动态的,涵盖了从理解业务问题、提取和处理数据,到最终通过可视化清晰传达数据故事的完整流程。

050:数据分析师的一天

在本节课中,我们将通过一个真实案例,了解数据分析师日常工作的核心流程。我们将跟随一位数据分析师,探索她如何从业务问题出发,通过数据寻找洞察,并最终向利益相关者汇报发现。

数据分析师的一天可能包含多种任务。从获取多样化的数据源,到编写查询从数据仓库中提取数据;从逐行筛查数据以寻找洞察,到创建报告和仪表板;再到与利益相关者沟通以收集信息和呈现发现,这是一个完整的工作光谱。当然,还有一项重要任务:清洗和准备数据,以确保分析结果具有可信的基础。这通常是数据分析师工作中很大的一部分。

如果必须选择一种典型的工作日来描述,我会选择专注于从数据中挖掘洞察的那一天。这是我工作中最令我着迷的部分。

大家好,我是 Sieveramjaladi。我在 Fluent Grid 公司担任数据分析师。这是一家位于印度维沙卡帕特南的智能电网技术解决方案公司。Fluent Grid 是 IBM 的合作伙伴,并因其在智能能源和智慧城市领域的解决方案而获得 IBM Beacon 奖项。我们利用名为 Fluent Grid Act Diligence 的可操作智能平台,为电力公司和智慧城市提供集成的运营中心解决方案。

我们的客户是印度南部的一家电力公司。他们注意到关于账单过高的投诉激增,投诉频率表明这可能不是随机事件。因此,我被要求查看投诉数据和账单数据,看看是否能发现一些规律。

🎯 第一步:明确问题与假设

在深入数据细节之前,我首先明确手头有什么。我知道需要查看的几个明显数据源是:投诉数据、用户信息数据和账单数据。这将是我的起点。

接着,我会列出初始问题和假设。以下是我开始时提出的假设:

  1. 用户使用模式:报告此问题的用户的使用模式是怎样的?是否存在某个特定的用电量范围,过高账单的发生率更高?
  2. 投诉的区域集中度:投诉是否集中在城市的特定区域?
  3. 投诉的频率与重复性:是否相同的用户在重复报告过高账单?如果是,重复发生的频率如何?如果用户被多收费一次,是从第一次发生起每月都出现,还是重复发生是零星的,或者根本不重复?

🔍 第二步:数据提取与分析

明确了初始假设和问题后,我确定了需要隔离和分析以验证或反驳这些假设的数据集。

首先,我提取了投诉者的年平均、季度平均和月平均账单金额,寻找投诉更集中的金额范围。

接着,我调取了投诉者的位置数据,以查看过高账单是否与邮政编码有关联。在这里,我发现投诉似乎集中在某些区域。这看起来可能是一个线索。

因此,我没有立即转向第三个假设,而是决定更深入地挖掘这部分数据。

然后,我提取了用户的入网日期数据。结果显示,超过95%的投诉者成为我们的用户已超过七年。当然,并非所有超过七年的用户都面临此投诉。

至此,我们看到了一些区域性的集中,以及基于入网日期的显著投诉集中现象。

最后,我提取了电表的制造商和序列号数据。关键发现出现了:这些序列号属于同一供应商提供的同一批电表。这些电表的集中安装区域,也正是投诉集中的区域。

📈 第三步:呈现发现与总结

在这个阶段,我有信心将这些发现呈现给利益相关者。我也会分享数据来源和分析过程,这总是能极大地增加发现结果的可信度。

这个项目可能就此结束,或者很可能会有后续。也许是带有不同共性的相同投诉,也可能是我们需要寻找答案的全新投诉集。

在本节课中,我们一起学习了数据分析师处理一个具体问题的完整流程:从理解业务背景、提出假设、提取和分析相关数据,到最终发现关键洞察(同一批次的电表是问题根源)并准备汇报。这个过程体现了数据分析如何将原始数据转化为有价值的业务决策依据。

051:数据分析的视角与应用 🌐

在本节课中,我们将通过从业者的视角,了解数据分析在当今世界中的广泛应用。我们将看到数据分析如何渗透到各个行业和日常生活,并探讨其在特定领域(如金融)中的创新应用。


上一节我们探讨了数据分析的基本概念,本节中我们来看看数据分析在现实世界中的具体应用场景。

数据分析在当今世界的应用无处不在。你看到的每一个商业广告,都有人从消费者或公司的角度进行分析,以确定他们想要分享的信息。无论是“十分之四的牙医推荐”,还是与卡路里含量或对某些事物的反应相关的信息,所有这些都需要分析。数据分析不应被视为独立于生活之外的事物,它就是我们日常生活中的一部分。即使是糖尿病患者监测血糖水平,也始终伴随着分析。因此,数据分析的应用是普遍存在的。

当今时代,数据分析的一大优势在于其广泛适用性。

每个行业、每个垂直领域、每个组织内的职能部门都能从数据和分析中受益。

以下是数据分析的一些典型应用场景:

  • 销售渠道分析:评估销售流程和预测业绩。
  • 月度财务分析:在月末进行财务数据汇总与审查。
  • 标准化报告生成:创建预定义和标准格式的报告。
  • 人力规划与审查:进行人员编制规划和评估。

正如之前所说,这些应用遍及所有垂直领域,无论是航空、制药还是银行业,其内部的各个职能部门都能从分析中获益。

在我们当前所处的疫情环境下,数据分析显得尤为重要。许多公司正在密切关注客户的购买习惯,这些习惯可能与公司的预期有所不同。因此,数据分析变得更加关键,公司需要确保能够灵活调整策略,跟上需求变化,真正满足客户和顾客的需求。

接下来,让我们聚焦一个具体领域,看看数据分析的深入应用。

我们可以谈谈数据分析在金融领域的应用。近年来,我们在金融界看到了越来越多另类数据分析的应用。

以下是几个具体的例子:

  • 情感分析:我们可以利用对推文和新闻报道的情感分析,来补充传统的金融分析,从而做出更明智的投资决策。其核心是分析文本数据中的情绪倾向,公式可简化为:投资信号 = 传统财务指标 + 市场情绪指数
  • 卫星图像数据:卫星图像数据可用于追踪工业活动的发展情况。
  • 地理位置数据:地理位置数据可用于追踪门店客流量,并预测销售额。

本节课中我们一起学习了数据分析的广泛应用。我们看到,数据分析已融入商业和日常生活的方方面面,从广告营销到健康管理,从传统行业报告到金融领域的创新实践(如情感分析和卫星数据应用)。特别是在快速变化的环境中,数据分析能帮助组织保持敏捷,满足客户需求。理解这些应用场景,有助于我们认识到数据分析的价值和普遍性。

052:数据分析师生态系统概览 🧩

在本节课中,我们将学习数据分析师生态系统的基本构成。这个生态系统包含了用于收集、清洗、分析、挖掘和可视化数据的基础设施、软件、工具、框架和流程。我们将首先对生态系统进行一个快速概览,后续视频会深入探讨每个主题的细节。

数据分类 📊

首先,我们来谈谈数据。根据数据结构的明确程度,数据可以分为结构化、半结构化和非结构化数据。

以下是不同类型数据的定义和示例:

  • 结构化数据:遵循严格格式,可以整齐地组织成行和列的数据。这是你在数据库和电子表格中通常看到的数据。
  • 半结构化数据:混合了具有一致特征的数据和不符合严格结构的数据。例如,电子邮件包含发件人和收件人姓名等结构化数据,但也包含邮件正文这类非结构化数据。
  • 非结构化数据:结构复杂且主要为定性信息,无法简化为行和列。例如,照片、视频、文本文件、PDF 和社交媒体内容。

数据的类型决定了可以收集和存储数据的种类,也决定了可用于查询或处理数据的工具。

数据来源与格式 🌐

数据以多种多样的文件格式存在,并从各种数据源收集而来。这些数据源的范围很广,包括:

  • 关系型和非关系型数据库
  • API 和网络服务
  • 数据流
  • 社交平台
  • 传感器设备

数据存储库 🗄️

上一节我们介绍了数据的来源,本节中我们来看看数据的存储。数据存储库是一个统称,包括数据库、数据仓库、数据集市、数据湖和大数据存储。

数据的类型、格式和来源会影响你可以使用哪种数据存储库来收集、存储、清洗、分析和挖掘数据。例如,如果你处理的是大数据,你将需要能够存储和处理海量、高速数据的大数据仓库,以及允许你对大数据进行实时复杂分析的框架。

编程与查询语言 💻

生态系统还包括各种语言,可分为查询语言、编程语言以及 Shell 和脚本语言。

以下是数据分析师工作台中重要的语言组件:

  • 使用 SQL 查询和操作数据
  • 使用 Python 开发数据应用程序
  • 编写 Shell 脚本 来自动化重复性操作任务

工具与框架 🛠️

自动化工具、框架和流程贯穿数据分析过程的各个阶段,是数据分析师生态系统的一部分。

从用于收集、提取、转换数据并将其加载到数据存储库的工具,到用于数据整理、数据清洗、分析、数据挖掘和数据可视化的工具,这是一个非常多样且丰富的生态系统。电子表格、Jupyter Notebooks 和 IBM Cognos 只是其中的几个例子。我们将在课程后续章节更详细地介绍一些数据分析工具。

总结 📝

本节课中,我们一起学习了数据分析师生态系统的基本组成部分。我们了解了数据的三种主要类型(结构化、半结构化和非结构化),认识了数据的多种来源和存储库,并简要介绍了数据分析中常用的编程语言、查询语言以及各类自动化工具和框架。这个生态系统为数据分析师提供了从数据获取到最终洞察呈现所需的全套支持。

053:数据类型 📊

在本节课中,我们将学习数据的基本概念及其主要分类方式。理解不同类型的数据是进行有效数据分析的第一步。

数据是未经组织的信息,经过处理后变得有意义。它包含事实、观察、感知、数字、字符、符号和图像,这些都可以被解释以获取含义。对数据进行分类的一种方式是依据其结构,数据可分为结构化数据半结构化数据非结构化数据


结构化数据 📋

上一节我们介绍了数据的基本概念,本节中我们来看看第一种类型:结构化数据。

结构化数据具有定义良好的结构,或遵循特定的数据模型。它可以存储在定义明确的模式中,例如数据库,并且在许多情况下可以以包含行和列的表格形式表示。结构化数据是客观的事实和数字,可以被收集、导出、存储和组织在典型的数据库中。

以下是结构化数据的一些来源:

  • SQL数据库
  • 专注于业务交易的在线事务处理系统
  • 电子表格
  • 在线表单
  • 传感器
  • 网络和网络服务器日志

你可以使用标准的数据分析工具和方法轻松地检查结构化数据。


半结构化数据 🧩

了解了高度组织化的结构化数据后,我们来看看介于两者之间的半结构化数据。

半结构化数据具有一些组织属性,但缺乏固定或严格的模式。它不能像数据库中那样以行和列的形式存储。它包含标签、元素或元数据,用于对数据进行分组并以层次结构进行组织。

以下是半结构化数据的一些来源:

  • 电子邮件
  • XML和其他标记语言
  • 二进制可执行文件
  • TCP/IP数据包
  • ZIP文件
  • 来自不同来源的数据集成

XML和JSON允许用户定义标签和属性,以分层形式存储数据,并被广泛用于存储和交换半结构化数据。


非结构化数据 🎨

最后,我们探讨最灵活但也最具挑战性的一种数据类型:非结构化数据。

非结构化数据没有易于识别的结构,因此无法以行和列的形式组织到主流的关系型数据库中。它没有任何特定的格式、顺序、语义或规则。非结构化数据可以处理来源的异构性,并具有多种商业智能和分析应用。

以下是非结构化数据的一些来源:

  • 网页
  • 社交媒体信息流
  • 图像和多种文件格式
  • 视频和音频文件
  • 文档和PDF文件
  • PowerPoint演示文稿
  • 媒体日志和调查

非结构化数据可以存储在文件和文档中,也可以存储在拥有自己分析工具的NoSQL数据库中,以便检查此类数据。


总结 📝

本节课中,我们一起学习了数据的三种主要类型:

  1. 结构化数据:组织良好,格式规范,可存储在数据库中,适用于标准的数据分析方法和工具。
  2. 半结构化数据:具有一定组织性,依赖元标签进行分组和层次化。
  3. 非结构化数据:没有以特定的行和列格式进行常规组织。

理解这些数据类型的特点和来源,将帮助你为后续的数据收集、存储和分析工作做好准备。在下一个视频中,我们将学习不同的文件结构类型。

054:理解不同的文件格式 📁

在本节课中,我们将学习数据分析工作中常见的几种数据文件类型和格式。理解这些格式的底层结构、优点和局限性,将帮助你根据数据和性能需求做出正确的选择。

我们将要介绍的标准文件格式包括:分隔文本文件、Microsoft Excel Open XML 电子表格(XLSX)、可扩展标记语言(XML)、便携式文档格式(PDF)以及 JavaScript 对象表示法(JSON)。


分隔文本文件 📄

上一节我们概述了课程内容,本节中我们首先来看看分隔文本文件。这是一种以文本形式存储数据的文件,其中每一行(或每一行记录)的值都由一个特定的分隔符隔开。

分隔符是一个或多个字符的序列,用于指定独立实体或值之间的边界。任何字符都可以用作分隔符,但最常见的包括:逗号制表符冒号竖线空格

以下是两种最常用的分隔文本文件类型:

  • 逗号分隔值(CSV):使用逗号 , 作为分隔符。
  • 制表符分隔值(TSV):使用制表符 \t 作为分隔符。当文本数据本身包含逗号时,TSV 可以作为 CSV 格式的替代方案。

在文本文件中,每一行代表一条记录,包含一组由分隔符分隔的值。第一行通常作为列标题,每一列可以包含不同类型的数据,例如日期、字符串或整数。

分隔文件允许字段值为任意长度,被视为提供直接信息模式的标准格式,并且几乎可以被所有现有应用程序处理。


Microsoft Excel Open XML 电子表格(XLSX)📊

了解了基础的文本格式后,我们来看看更结构化的电子表格格式。Microsoft Excel Open XML 电子表格(XLSX) 是一种基于 XML 的电子表格文件格式,由 Microsoft 创建。

一个 XLSX 文件也称为一个工作簿,其中可以包含多个工作表。每个工作表由行和列组织,行列交叉处称为单元格,每个单元格包含数据。

XLSX 采用开放文件格式,这意味着大多数其他应用程序通常都可以访问它。它可以使用和保存 Excel 中的所有功能,并且被认为是一种更安全的文件格式,因为它无法保存恶意代码。


可扩展标记语言(XML)🏷️

接下来,我们探讨一种用于编码数据的标记语言。可扩展标记语言(XML) 是一种具有编码数据规则的标记语言。

XML 文件格式对人类和机器都可读。它是一种自描述语言,专为在互联网上传输信息而设计。

XML 在某些方面与 HTML 相似,但也有区别。例如,XML 不像 HTML 那样使用预定义的标签。XML 独立于平台和编程语言,因此简化了不同系统之间的数据共享。


便携式文档格式(PDF)📑

除了用于数据交换的格式,我们还需要了解一种广泛用于文档分发的格式。便携式文档格式(PDF) 由 Adobe 开发,用于呈现独立于应用软件、硬件和操作系统的文档。

这意味着 PDF 文件在任何设备上查看的效果都相同。这种格式常用于法律和财务文件,也可用于填写表格等数据。


JavaScript 对象表示法(JSON)🔤

最后,我们学习一种在现代网络开发中至关重要的数据交换格式。JavaScript 对象表示法(JSON) 是一种基于文本的开放标准,专为在网络上传输结构化数据而设计。

JSON 是一种独立于语言的数据格式,可以用任何编程语言读取。它易于使用,与广泛的浏览器兼容,并被认为是共享任何大小和类型数据(甚至包括音频和视频)的最佳工具之一。这也是许多 API 和 Web 服务器以 JSON 格式返回数据的原因之一。


本节课中,我们一起学习了数据分析中五种常见的文件格式:分隔文本文件(CSV/TSV)Microsoft Excel Open XML 电子表格(XLSX)可扩展标记语言(XML)便携式文档格式(PDF) 以及 JavaScript 对象表示法(JSON)。理解它们各自的特点和适用场景,是高效处理和分析数据的重要基础。

055:数据来源 📊

概述

在本节课中,我们将学习数据分析中常见的几种数据来源。正如我们在之前的视频中提到的,当今的数据来源比以往任何时候都更加动态和多样。我们将逐一探讨关系型数据库、平面文件、XML数据、API与网络服务、网络爬虫以及数据流与订阅源。


内部数据源:关系型数据库

上一节我们提到了数据来源的多样性,本节中我们首先来看看组织内部最常见的数据源。

通常,组织会使用内部应用程序来支持其日常业务活动、客户交易、人力资源活动和工作流程的管理。这些系统使用如 SQL ServerOracleMySQLIBM DB2 等关系型数据库,以结构化的方式存储数据。

存储在数据库和数据仓库中的数据可以作为分析的数据源。例如,来自零售交易系统的数据可用于分析不同地区的销售情况,而来自客户关系管理系统的数据则可用于进行销售预测。


外部数据源:平面文件与XML

除了内部数据,组织外部也存在大量公开或私有的数据集可供使用。

例如,政府机构会持续发布人口统计和经济数据集。此外,还有一些公司专门销售特定数据,如销售点数据、金融数据或天气数据。企业可以利用这些数据来制定战略、预测需求,并做出与分销或营销促销等相关的决策。

这类数据集通常以平面文件、电子表格文件或XML文档的形式提供。

以下是几种常见的外部数据文件格式:

  • 平面文件:以纯文本格式存储数据,每行一条记录,每个值由逗号、分号或制表符等分隔符分隔。平面文件中的数据映射到单个表,这与包含多个表的关系型数据库不同。最常见的平面文件格式是CSV,其值由逗号分隔。
    • 示例代码/公式id,name,age\n1,Alice,30\n2,Bob,25
  • 电子表格文件:这是一种特殊的平面文件,同样以表格格式(行和列)识别数据。但电子表格可以包含多个工作表,每个工作表可以映射到不同的表。虽然电子表格中的数据是纯文本,但文件可以以自定义格式存储,并包含格式、公式等附加信息。Microsoft Excel(存储为XLS或XLSX格式)可能是最常用的电子表格,其他还包括Google Sheets、Apple Numbers和LibroOffice。
  • XML文件:包含使用标签标识或标记的数据值。与映射到单个表的平面文件不同,XML文件可以支持更复杂的数据结构,例如层次结构。XML的一些常见用途包括来自在线调查、银行对账单和其他非结构化数据集的数据。


动态数据获取:API、网络服务与网络爬虫

在了解了静态文件格式后,我们来看看如何动态地获取数据。

许多数据提供商和网站提供API或应用程序编程接口以及网络服务,多个用户或应用程序可以与之交互,以获取数据进行处理或分析。API和网络服务通常监听传入的请求(这些请求可以来自用户的网络请求或应用程序的网络请求),并以纯文本、XML、HTML、JSON或媒体文件的形式返回数据。

让我们看一些将API用作数据分析数据源的流行例子:

  • 使用Twitter和Facebook API从推文和帖子中获取数据,用于执行意见挖掘或情感分析等任务。
  • 使用股市API提取股价和商品价格、每股收益和历史价格等数据,用于交易和分析。
  • 使用数据查找和验证API,这对于数据分析师清理和准备数据以及核对数据非常有用。

网络爬虫用于从非结构化来源中提取相关数据,也称为屏幕抓取、网络采集和网络数据提取。它使得根据定义的参数从网页下载特定数据成为可能。网络爬虫可以从网站中提取文本、联系信息、图像、视频、产品项目等。

一些流行的网络爬虫用途包括:

  • 从零售商、制造商和电子商务网站收集产品详情以提供价格比较。
  • 通过公共数据源生成销售线索。
  • 从各种论坛和社区提取帖子和作者数据。
  • 为机器学习模型收集训练和测试数据集。

一些流行的网络爬虫工具包括 Beautiful SoupScrapyPandasSelenium


实时数据:数据流与订阅源

最后,我们来探讨持续更新的实时数据来源。

数据流是另一种广泛使用的数据源,用于聚合来自仪器、物联网设备、应用程序、汽车GPS数据、计算机程序、网站和社交媒体帖子等来源的持续数据流。这些数据通常带有时间戳,也可能带有地理标签以进行地理标识。

一些数据流及其利用方式包括:

  • 用于金融交易的股票和市场行情。
  • 用于预测需求和供应链管理的零售交易流。
  • 用于威胁检测的监控和视频源。
  • 用于情感分析的社交媒体源。
  • 用于监控工业或农业机械的传感器数据源。
  • 用于监控网络性能和改进设计的网络点击流。
  • 用于重新预订和重新安排航班的实时航班事件。

一些用于处理数据流的流行应用程序包括 Apache KafkaApache Spark StreamingApache Storm

RSS 是另一种流行的数据源,通常用于从在线论坛和新闻网站捕获持续更新的数据。使用订阅阅读器(一种将RSS文本文件转换为更新数据流的接口),更新内容会流向用户设备。


总结

本节课中,我们一起学习了数据分析中多种重要的数据来源。我们从组织内部的关系型数据库开始,扩展到外部的平面文件和XML数据。接着,我们探讨了通过API、网络服务和网络爬虫动态获取数据的方法。最后,我们了解了用于处理实时信息的数据流和订阅源。理解这些数据来源是进行有效数据分析的第一步。

056:数据专业人员相关语言 🖥️

在本节课中,我们将学习数据专业人员工作中相关的一些语言。这些语言可以分为查询语言、编程语言和Shell脚本语言。对于任何数据专业人员而言,熟练掌握每个类别中的至少一种语言都至关重要。

接下来,我们将更深入地探讨这些语言。

查询语言:SQL

上一节我们介绍了语言的基本分类,本节中我们首先来看看查询语言。简单来说,查询语言是为访问和操作数据库中的数据而设计的。

例如,SQL(结构化查询语言)就是一种为访问和操作信息(主要但不限于关系型数据库)而设计的查询语言。使用SQL,我们可以编写一组指令来执行以下操作:

  • 在数据库中插入、更新和删除记录。
  • 创建新的数据库、表和视图。
  • 编写存储过程,这意味着你可以编写一组指令并稍后调用它们。

以下是使用SQL的一些优势:

  • 可移植性:SQL可跨平台使用。
  • 广泛适用:可用于查询多种数据库和数据存储库中的数据,尽管不同供应商可能有各自的变体和特殊扩展。
  • 语法简单:语法类似于英语,允许开发者用比其他一些编程语言更少的代码行来编写程序,使用如 SELECTINSERT INTOUPDATE 等基本关键字。
  • 高效检索:能够快速高效地检索大量数据。
  • 解释型系统:代码编写后可立即执行,使得原型设计快速简便。
  • 社区与生态:拥有庞大的用户社区和多年积累的大量文档,是全球用户统一的平台。

编程语言:Python

了解了用于数据操作的SQL后,我们转向功能更广泛的编程语言。Python 是一种广泛使用的开源、通用、高级编程语言。与其他一些较老的语言相比,其语法允许程序员用更少的代码行表达概念。

Python因其注重简洁性、可读性以及较低的学习曲线,被视为最容易学习的语言之一,并拥有庞大的开发者社区。它是初学者的理想工具。

以下是Python的一些关键特点:

  • 高性能计算:擅长处理海量数据的高计算任务,否则会非常耗时和繁琐。它提供如 NumPyPandas 这样的库,通过使用并行处理来简化任务。
  • 内置功能丰富:为几乎所有常用概念提供了内置函数。
  • 多范式支持:支持面向对象、命令式、函数式和过程式等多种编程范式,适用于广泛的用例。

现在,让我们看看使Python成为当今世界增长最快的编程语言之一的一些原因:

  • 易于学习:与其他语言相比,可以用更少的代码行完成任务。
  • 开源免费:Python是免费的,并采用社区驱动的开发模式。
  • 跨平台:可在Windows和Linux环境中运行,并可移植到多个平台。
  • 强大的社区与库支持:拥有广泛的社区支持,提供了大量有用的分析库。其庞大的库和功能包括:
    • Pandas:用于数据清洗和分析。
    • NumPySciPy:用于统计分析。
    • Beautiful SoupScrapy:用于网络爬虫。
    • MatplotlibSeaborn:用于以条形图、直方图和饼图等形式可视化呈现数据。
    • OpenCV:用于图像处理。

编程语言:R

除了Python,R 是另一个在数据分析领域举足轻重的语言。R是一种用于数据分析、数据可视化、机器学习和统计的开源编程语言和环境。它广泛用于开发统计软件和执行数据分析,尤其以其创建引人注目的可视化效果的能力而闻名,这使其在该领域比其他一些语言更具优势。

R的一些主要优点包括:

  • 开源与跨平台:是一个开源、独立于平台的编程语言。
  • 可与其他语言集成:可以与包括Python在内的许多编程语言配对使用。
  • 高度可扩展:开发者可以通过定义新函数来持续添加功能。
  • 处理多种数据类型:便于处理结构化和非结构化数据,意味着具有更全面的数据处理能力。
  • 强大的图形库:拥有如 ggplot2plotly 这样的库,为用户提供美观的图形绘图。
  • 报告与交互应用:可以制作嵌入数据和脚本的报告,以及允许用户与结果和数据交互的交互式Web应用程序。
  • 统计工具开发:在开发统计工具方面比其他编程语言更具优势。

编程语言:Java

我们已探讨了Python和R,现在来看看另一种强大的通用语言。Java 是一种面向对象、基于类且独立于平台的编程语言,最初由Sun Microsystems开发。它是当今使用最广泛的顶级编程语言之一。

Java在数据分析的多个过程中都有应用,包括数据清洗、数据导入导出、统计分析和数据可视化。事实上,大多数用于大数据的流行框架和工具通常都是用Java编写的,例如 HadoopHiveSpark。它非常适合对速度要求苛刻的项目。

Shell脚本语言

最后,我们来了解用于自动化任务的Shell脚本语言。Unix/Linux Shell 是为Unix Shell编写的计算机程序。它是写入纯文本文件中的一系列Unix命令,用于完成特定任务。

编写Shell脚本快速且简单。它对于重复性任务最为有用,这些任务如果一次键入一行命令来执行可能会非常耗时。Shell脚本执行的典型操作包括:

  • 文件操作。
  • 程序执行。
  • 系统管理任务,如磁盘备份和评估系统日志。
  • 复杂程序的安装脚本。
  • 执行例行备份。
  • 运行批处理作业。

PowerShell 是微软推出的跨平台自动化工具和配置框架,针对处理结构化数据格式(如JSON、CSV、XML)以及REST API、网站和Office应用程序进行了优化。它由命令行Shell和脚本语言组成。

PowerShell基于对象,这使得在对象通过数据管道时,可以对它们进行过滤、排序、测量、分组、比较等多种操作。它也是数据挖掘、构建GUI、创建图表、仪表板和交互式报告的良好工具。


本节课中我们一起学习了数据专业人员常用的几类语言:用于数据查询的SQL,用于通用编程和数据分析的Python、R和Java,以及用于自动化任务的Unix/Linux Shell和PowerShell脚本。掌握这些工具将为你未来的数据分析工作奠定坚实的基础。

057:数据存储库概述 🗃️

在本节课中,我们将学习数据存储库的基本概念,并了解几种主要的数据存储类型,包括数据库、数据仓库和大数据存储。理解这些存储库的差异和用途,是进行有效数据分析的基础。


什么是数据存储库?

数据存储库是一个通用术语,指代那些被收集、组织和隔离起来,以便用于业务运营或用于报告和数据分析的数据。它可以是一个小型或大型的数据库基础设施,包含一个或多个用于收集、管理和存储数据的数据库。

在接下来的内容中,我们将概述您的数据可能驻留的不同类型的存储库,例如数据库、数据仓库和大数据存储,并在后续视频中更详细地研究它们。


数据库

让我们从数据库开始。数据库是为数据的输入、存储、搜索、检索和修改而设计的数据或信息集合。

数据库管理系统(DBMS)是一组用于创建和维护数据库的程序。它允许您使用名为“查询”的功能来存储、修改和从数据库中提取信息。

例如,如果您想查找已闲置六个月或更长时间的客户,使用查询功能,数据库管理系统将从数据库中检索所有已闲置六个月或更长时间的客户数据。

尽管数据库和DBMS含义不同,但这两个术语经常互换使用。

数据库的类型

有多种类型的数据库。选择数据库时需要考虑几个因素,例如数据类型和结构、查询机制、延迟要求、事务速度以及数据的预期用途。

以下是两种主要的数据库类型:

  • 关系型数据库:也称为RDBMS,它建立在平面文件的组织原则之上,数据被组织成具有行和列的表格格式,遵循定义良好的结构和模式。然而,与平面文件不同,RDBMS针对涉及多个表和更大数据量的数据操作和查询进行了优化。结构化查询语言(SQL)是关系型数据库的标准查询语言。
  • 非关系型数据库:也称为NoSQL或Not Only SQL。非关系型数据库的出现是为了应对当今数据生成的速度、多样性和体量,主要受到云计算、物联网和社交媒体普及的推动。非关系型数据库为速度、灵活性和规模而构建,使得以无模式或自由形式的方式存储数据成为可能。NoSQL被广泛用于处理大数据。

数据仓库

上一节我们介绍了数据库,本节中我们来看看数据仓库。数据仓库作为一个中央存储库,合并来自不同来源的信息,并通过提取、转换和加载过程(也称为ETL过程)将其整合到一个用于分析和商业智能的综合性数据库中。

在较高层次上,ETL过程帮助您从不同的数据源提取数据,将数据转换为干净可用的状态,并将数据加载到企业的数据存储库中。

与数据仓库相关的概念还有数据集市和数据湖,我们将在后面介绍。数据集市和数据仓库在历史上一直是关系型的,因为许多传统的企业数据都驻留在RDBMS中。然而,随着NoSQL技术和新数据源的出现,非关系型数据存储库现在也被用于数据仓库。


大数据存储

另一类数据存储库是大数据存储,它包括分布式计算和存储基础设施,用于存储、扩展和处理非常大的数据集。


总结

本节课中我们一起学习了数据存储库的核心概念。总体而言,数据存储库有助于隔离数据,使报告和分析更高效、更可靠,同时也充当数据档案。

数据存储库主要分为数据库、数据仓库和大数据存储等类型。数据库是基础,分为关系型(使用SQL)和非关系型(NoSQL)。数据仓库通过ETL过程整合多源数据用于分析。大数据存储则专门处理海量、高速、多样的数据集。理解这些是选择合适工具进行数据分析的关键一步。

058:关系型数据库管理系统 (RDBMS) 🗄️

在本节课中,我们将学习关系型数据库管理系统(RDBMS)的核心概念、工作原理、优势、局限性及其典型应用场景。我们将通过简单的例子和清晰的解释,帮助你理解这种组织和管理结构化数据的关键技术。

什么是关系型数据库? 🤔

关系型数据库是一种将数据组织成表格结构的数据集合。这些表格可以基于彼此共有的数据项进行链接或关联。

表格由行和列组成,其中行代表记录,列代表属性。

让我们以一家公司的客户表为例。客户表用于维护每位客户的数据。该表的列或属性包括:客户ID、客户姓名、客户地址和客户主要电话。每一行则代表一条客户记录。

表格如何关联? 🔗

上一节我们介绍了表格的基本结构,本节中我们来看看“基于共有数据关联”的具体含义。

除了客户表,该公司还维护着交易表,其中包含描述每位客户多笔独立交易的数据。


交易表的列可能包括:交易日期、客户ID、交易金额和支付方式。

客户表和交易表可以基于共有的“客户ID”字段建立关联。通过这种关联,你可以查询客户表来生成报告,例如一份汇总了特定时间段内所有交易的客户对账单。

这种基于共有数据关联表格的能力,使你能够通过一次查询,从一个或多个表格的数据中检索出一个全新的表格。它还允许你理解所有可用数据之间的关系,并获得新的见解以做出更好的决策。

实际数据库使用结构化查询语言(SQL)来查询数据。我们将在本课程后续部分了解更多关于SQL的知识。

关系型数据库与电子表格 📊

关系型数据库建立在平面文件(如电子表格)的组织原则之上,数据按照明确定义的结构和模式组织成行和列。




但相似之处仅此而已。关系型数据库在设计上非常适合对大量数据进行优化的存储、检索和处理。与行数列数有限的电子表格不同,关系型数据库中的每个表都有唯一的行和列集合,并且可以在表之间定义关系,从而最大限度地减少数据冗余。

此外,你可以将数据库字段限制为特定的数据类型和值,这可以减少不规则性,带来更高的一致性和数据完整性。

关系型数据库的优势 💪

关系型数据库使用SQL查询数据,这使你能够处理数百万条记录,并在几秒钟内检索大量数据。

关系型数据库的安全架构提供了对数据的受控访问,并确保可以执行管理数据的标准和策略。

关系型数据库的范围很广,从小型桌面系统到大型云基系统都有。它们可以是开源且内部支持的、开源但有商业支持的,或商业闭源系统。

以下是部分流行的关系型数据库:

  • IBM DB2
  • Microsoft SQL Server
  • MySQL
  • Oracle Database
  • PostgreSQL

基于云的关系型数据库,也称为数据库即服务(DBaaS),正获得广泛应用,因为它们可以利用云提供的近乎无限的计算和存储能力。

一些流行的云关系型数据库包括:

  • Amazon Relational Database Service (RDS)
  • Google Cloud SQL
  • IBM DB2 on Cloud
  • Oracle Cloud
  • SQL Azure

RDBMS是一项成熟且文档完善的技术,易于学习并找到合格人才。

关系型数据库方法最重要的优势之一是它能够通过连接表来创建有意义的信息。

以下是它的其他一些优势:

  • 灵活性:使用SQL,你可以在数据库运行和查询进行时添加新列、添加新表、重命名关系以及进行其他更改。
  • 减少冗余:关系型数据库最大限度地减少了数据冗余。例如,客户的信息仅作为单一条目出现在客户表中,而交易表只存储指向客户表的链接。
  • 易于备份和灾难恢复:关系型数据库提供简单的导入导出选项,使备份和恢复变得容易。导出可以在数据库运行时进行,使得故障恢复变得容易。基于云的关系型数据库进行持续镜像,这意味着恢复时丢失的数据可能只有几秒或更少。
  • ACID 合规性:ACID代表原子性、一致性、隔离性和持久性。ACID合规性意味着无论发生何种故障,数据库中的数据都保持准确和一致,并且数据库事务被可靠地处理。

关系型数据库的用例 📈

现在,我们来看看关系型数据库的一些用例。

  • 在线事务处理 (OLTP) 应用程序:OLTP应用程序专注于以高速率运行的面向事务的任务。关系型数据库非常适合OLTP应用,因为它们可以容纳大量用户,支持插入、更新或删除少量数据的能力,并且支持频繁的查询和更新以及快速的响应时间。
  • 数据仓库:在数据仓库环境中,关系型数据库可以针对在线分析处理(OLAP)进行优化,用于分析历史数据以获取商业智能。
  • 物联网 (IoT) 解决方案:物联网解决方案需要速度以及从边缘设备收集和处理数据的能力,这些设备需要轻量级的数据库解决方案。

关系型数据库的局限性 ⚠️

这引出了RDBMS的局限性。

  • RDBMS不能很好地处理半结构化或非结构化数据,因此不适合对此类数据进行广泛的分析。
  • 在两个RDBMS之间迁移时,源表和目标表的模式及数据类型需要完全相同。
  • 关系型数据库对数据字段的长度有限制。这意味着,如果你尝试向一个字段输入超出其容量的信息,这些信息将不会被存储。

总结 📝

尽管存在这些局限性,并且在大数据、云计算、物联网设备和社交媒体时代数据形态不断演变,RDBMS仍然是处理结构化数据的主导技术。

本节课中,我们一起学习了关系型数据库的核心概念。我们了解到它是一种基于表格和关系组织数据的系统,具有减少冗余、保证数据完整性、支持复杂查询等显著优势,广泛应用于OLTP、数据仓库等领域。同时,我们也认识到它在处理非结构化数据和字段长度方面存在限制。理解这些基本特性是成为一名数据分析师的重要基础。

059:NoSQL 数据库简介 🗄️

在本节课中,我们将要学习 NoSQL 数据库。我们将了解 NoSQL 的含义、它与传统数据库的区别、主要的四种类型及其适用场景,并总结其核心优势。


NoSQL,全称是“Not Only SQL”(不仅仅是 SQL),有时也指“Non SQL”(非 SQL)。它是一种非关系型数据库设计,为数据的存储和检索提供了灵活的架构。

NoSQL 数据库已存在多年,但直到云计算、大数据以及高流量网络和移动应用时代才变得更为流行。如今,人们选择它们是因为其在扩展性、性能和易用性方面的特性。需要强调的是,“No” 在 NoSQL 中是 “Not Only” 的缩写,而不是“不”的意思。

NoSQL 数据库为特定的数据模型构建,并拥有灵活的架构,允许程序员创建和管理现代应用程序。它们不使用具有固定架构的传统行列式表格数据库设计,并且通常不使用结构化查询语言(SQL)来查询数据,尽管有些可能支持 SQL 或类 SQL 接口。

NoSQL 允许数据以无模式或自由格式的方式存储。任何数据,无论是结构化的、半结构化的还是非结构化的,都可以存储在任何记录中。

根据用于存储数据的模型,NoSQL 数据库主要有四种常见类型。

以下是四种主要的 NoSQL 数据库类型:

  • 键值存储:在键值数据库中,数据以键值对的集合形式存储。键代表数据的属性,并且是唯一标识符。键和值都可以是任何内容,从简单的整数或字符串到复杂的 JSON 文档。键值存储非常适合存储用户会话数据和用户偏好、进行实时推荐和定向广告以及内存数据缓存。然而,如果您需要根据特定的数据值进行查询、需要数据值之间的关系或需要多个唯一键,键值存储可能不是最佳选择。Redis、Memcached 和 DynamoDB 是此类别中一些知名的例子。
  • 文档型数据库:文档数据库将每条记录及其关联数据存储在单个文档中。它们支持对文档集合进行灵活的索引、强大的即席查询和分析。文档数据库更适用于电子商务平台、医疗记录存储、CRM 平台和分析平台。但是,如果您需要运行复杂的搜索查询和多个操作的事务,文档型数据库可能不是您的最佳选择。MongoDB、DocumentDB、CouchDB 和 Cloudant 是一些流行的文档型数据库。
  • 列式数据库:列式模型将数据存储在按数据列(而非行)分组的单元格中。通常一起访问的列的逻辑分组称为列族。例如,客户的姓名和个人资料信息很可能被一起访问,但他们的购买历史则不会,因此客户姓名和个人资料信息数据可以分组到一个列族中。由于列数据库将对应于某一列的所有单元格作为连续的磁盘条目存储,因此访问和搜索数据变得非常快。列数据库非常适合需要大量写入请求的系统、存储时间序列数据、天气数据和物联网数据。但是,如果您需要使用复杂查询或频繁更改查询模式,这可能不是最佳选择。最流行的列数据库是 Cassandra 和 HBase。
  • 图数据库:图数据库使用图模型来表示和存储数据。它们对于可视化、分析和查找不同数据片段之间的连接特别有用。圆圈是节点,它们包含数据。箭头代表关系。图数据库是处理连接数据(即包含大量互连关系的数据)的绝佳选择。图数据库非常适合社交网络、实时产品推荐、网络图、欺诈检测和访问管理。但是,如果您想要处理大量事务,它可能不是最佳选择,因为图数据库并未针对大容量分析查询进行优化。Neo4j 和 Cosmos DB 是一些更流行的图数据库。

NoSQL 的创建是为了应对传统关系数据库技术的局限性。NoSQL 的主要优势在于其处理大量结构化、半结构化和非结构化数据的能力。它的其他一些优点包括:能够作为分布式系统在多个数据中心扩展,这使得它们能够利用云计算基础设施;高效且经济高效的横向扩展架构,通过添加新节点提供额外的容量和性能;以及更简单的设计、更好的可用性控制和改进的可扩展性,使您能够更加敏捷、灵活并更快地进行迭代。


上一节我们介绍了 NoSQL 的优势,本节我们来总结一下关系型数据库与非关系型数据库之间的关键区别。

以下是关系型数据库与非关系型数据库的关键区别:

  • 架构:RDBMS 的架构严格定义了插入数据库的所有数据的类型和组成方式,而 NoSQL 数据库可以是模式无关的,允许存储和操作非结构化和半结构化数据。
  • 成本:维护高端的商业关系数据库管理系统成本高昂,而 NoSQL 数据库专门为低成本商用硬件设计。
  • 事务与可靠性:与大多数 NoSQL 不同,关系数据库支持 ACID 合规性,这确保了事务的可靠性和故障恢复能力。
  • 技术成熟度:RDBMS 是一项成熟且有良好文档记录的技术,这意味着其风险或多或少是可预见的,而 NoSQL 是一项相对较新的技术。

尽管如此,NoSQL 数据库已经站稳脚跟,并且越来越多地用于关键任务应用程序。


本节课中,我们一起学习了 NoSQL 数据库。我们明确了 NoSQL 代表“不仅仅是 SQL”,了解了其灵活的、非关系型的设计特点。我们详细探讨了四种主要的 NoSQL 数据库类型:键值存储、文档型、列式和图数据库,并分析了它们各自的适用场景。最后,我们总结了 NoSQL 在处理海量多样化数据、扩展性和敏捷性方面的核心优势,以及它与传统关系型数据库在架构、成本、事务和成熟度方面的关键区别。

060:数据集市、数据湖、ETL与数据管道 🗂️➡️🔄

在本节课中,我们将深入学习数据仓库、数据集市和数据湖的核心概念,并探讨如何通过ETL过程和数据管道将原始数据转化为可供分析使用的有价值信息。


数据仓库:企业的统一数据源 🏢

在课程的前期,我们探讨了数据库、数据仓库和大数据存储。本节中,我们将更深入地研究数据仓库。

数据仓库就像一个多功能存储库,服务于不同的用例。数据进入仓库时,已经为特定目的进行了建模和结构化,这意味着它已准备好进行分析。当组织拥有来自运营系统的大量数据,并需要随时可用于报告和分析时,通常会选择使用数据仓库。

数据仓库作为单一事实来源,存储经过清洗、整合和分类的当前及历史数据。它是一个支持运营和绩效分析的多功能工具。


数据集市:面向特定业务的数据子集 📊

数据集市是数据仓库的一个子部分,专门为特定的业务功能、目的或用户群体构建。其核心思想是在利益相关者需要时,为他们提供最相关的数据。例如,销售或财务团队访问数据以生成季度报告和预测。

由于数据集市为数据仓库的特定受限区域提供分析能力,因此它提供了独立的安全性和性能。数据集市最重要的作用是支持特定业务的报告和分析


数据湖:存储原始数据的广阔水域 🌊

数据湖是一个存储库,可以以其原生格式存储大量结构化、半结构化和非结构化数据,并通过元数据进行分类和标记。

因此,数据仓库存储的是为特定需求处理过的数据,而数据湖则是原始数据的汇集池,其中每个数据元素都被赋予唯一标识符,并打上元数据标签以备后用。

如果您持续生成或访问大量数据,但又不想局限于特定或预定义的用例,那么数据湖是一个合适的选择。与数据仓库不同,数据湖会保留所有源数据,不做任何排除,并且可以包含所有类型的数据源和数据类型。数据湖有时也用作数据仓库的暂存区。数据湖最重要的作用在于预测性和高级分析


ETL过程:从数据中提取价值的核心 🔄

现在,我们来到从数据中获取价值的核心过程:提取、转换和加载,即ETL。ETL是将原始数据转换为可供分析使用的数据的过程。

这是一个自动化过程,您需要:

  1. 从已识别的来源收集原始数据(提取)。
  2. 清理、标准化这些数据,并将其转换为适合组织上下文的可用格式(转换)。
  3. 将其加载到数据存储库中(加载)。

虽然ETL是一个通用过程,但实际工作在使用、效用和复杂性上可能大不相同。

以下是ETL过程的三个关键步骤:

  • 提取:从源位置收集数据以进行转换。数据提取可以通过批处理(在预定时间间隔将大量数据块从源移动到目标系统)或流处理(实时从源提取数据,并在传输过程中进行转换)完成。

    • 批处理工具示例:StitchBlendo
    • 流处理工具示例:Apache SamzaApache StormApache Kafka
  • 转换:执行规则和函数,将原始数据转换为可用于分析的数据。例如:

    • 使所有源数据的日期格式和度量单位保持一致。
    • 删除重复数据。
    • 过滤掉不需要的数据。
    • 丰富数据(例如,将全名拆分为名、中间名和姓)。
    • 建立跨表的关键关系。
    • 应用业务规则和数据验证。
  • 加载:将处理后的数据传输到目标系统或数据存储库。加载类型包括:

    • 初始加载:填充存储库中的所有数据。
    • 增量加载:根据需要定期应用持续的更新和修改。
    • 完全刷新:擦除一个或多个表的内容,并重新加载新数据。
    • 加载验证:包括检查数据是否存在缺失值或空值。

由于此过程步骤的重要性,密切关注加载失败并确保有正确的恢复机制至关重要。ETL历来用于大规模的批处理工作负载。然而,随着流式ETL工具的出现,它们也越来越多地用于实时流式事件数据。


数据管道:数据的完整旅程 🚀

ETL和数据管道这两个术语经常互换使用。虽然两者都将数据从源移动到目的地,但数据管道是一个更广泛的术语,它涵盖了将数据从一个系统移动到另一个系统的整个旅程,而ETL是其中的一个子集。

数据管道可以针对批处理、流数据以及批处理和流数据的组合进行架构。对于流数据,数据处理或转换以连续流的形式发生,这对于需要不断更新的数据(例如来自传感器的交通监控数据)特别有用。数据管道是一个高性能系统,支持长时间运行的批处理查询和较小的交互式查询。

数据管道的目标通常是数据湖,尽管数据也可能被加载到不同的目标目的地,例如另一个应用程序或可视化工具。

目前有多种数据管道解决方案可用,其中最流行的是 Apache BeamDataflow


总结 📝

本节课中,我们一起学习了数据管理的几个关键组件:

  • 数据仓库作为整合、清洗后的数据的中央存储库,用于报告和分析。
  • 数据集市作为数据仓库的特定业务子集,提供针对性的数据访问。
  • 数据湖作为存储所有类型原始数据的灵活存储库,支持探索性分析。
  • ETL过程是将原始数据转化为可用信息的标准化三步流程。
  • 数据管道是涵盖数据移动全过程的更广泛框架,ETL是其中的核心环节。

理解这些概念及其相互关系,是构建有效数据分析基础设施的基础。

061:大数据基础 🚀

在本节课中,我们将要学习大数据的基本概念。我们将了解什么是大数据,以及描述其核心特征的“5V”模型。通过理解这些概念,你将能够认识到大数据在现代世界中的普遍性和重要性。


在这个数字化的世界里,每个人都留下了痕迹,从我们的出行习惯到锻炼和娱乐活动。

我们日常交互的、数量日益增长的联网设备,记录了大量关于我们的数据。

甚至有一个专门的术语来描述它:大数据。安永(Ernst & Young)提供了以下定义。

大数据指的是由人、工具和机器产生的动态、海量且多样化的数据集合。

它需要新颖、创新且可扩展的技术来收集、存储和分析所获取的海量数据,以驱动与消费者、风险、利润、绩效、生产力管理和提升股东价值相关的实时商业洞察。

对于大数据并没有一个统一的定义,但在不同的定义中存在一些共同的要素。

例如:速度(Velocity)、体量(Volume)、多样性(Variety)、真实性(Veracity)和价值(Value)

这些就是大数据的 “5V” 特征。


上一节我们介绍了大数据的“5V”模型,本节中我们来详细看看每一个“V”的具体含义。

速度(Velocity) 指的是数据积累的速度;数据正以极快的速度生成,这个过程永不停止。

近实时或实时的流处理、本地和基于云的技术可以非常快速地处理信息。

体量(Volume) 指的是数据的规模或存储数据量的增长。

驱动数据体量增长的因素包括数据源的增加、更高分辨率的传感器以及可扩展的基础设施。

多样性(Variety) 指的是数据的多样性。

结构化数据 能整齐地放入行、列和关系型数据库中,而非结构化数据 则没有预定义的组织方式,例如推文、博客文章、图片、数字和视频。

多样性也反映了数据来自不同的来源:机器、人员和流程,既有组织内部的,也有外部的。

驱动数据多样性的因素包括移动技术、社交媒体、可穿戴技术、地理技术、视频等等。

真实性(Veracity) 指的是数据的质量和来源,以及其与事实和准确性的符合程度。

属性包括一致性、完整性、完整性和明确性。

驱动因素包括成本和对海量数据可追溯性的需求。关于数字时代数据准确性的争论非常激烈:信息是真实的还是虚假的?

价值(Value) 指的是我们将数据转化为价值的能力和需求。价值不仅仅是利润。

它可能具有医疗或社会效益,以及客户、员工或个人满意度。

人们投入时间去理解大数据的主要原因就是为了从中提取价值


理解了每个“V”的定义后,让我们通过一些实例来看看它们在实际中是如何体现的。

以下是“5V”特征的一些具体例子:

  • 速度:每分钟,都有数小时的视频被上传到YouTube,这就在不断生成数据。试想一下,数据在几小时、几天和几年内积累的速度有多快。
  • 体量:世界人口约为70亿,其中绝大多数人现在都在使用数字设备,如手机、台式机和笔记本电脑、可穿戴设备等。这些设备每天生成、捕获和存储大约2.5万亿亿字节的数据,这相当于1000万张蓝光DVD的容量。
  • 多样性:让我们想想不同类型的数据:文本、图片、电影、声音、来自可穿戴设备的健康数据,以及来自物联网设备的各种不同类型的数据。
  • 真实性:80%的数据被认为是非结构化的,我们必须设计方法来产生可靠和准确的洞察;数据必须被分类、分析和可视化。
  • 价值:数据科学家从大数据中提取洞察,并应对这些海量数据集带来的挑战。最终目标是将原始数据转化为对个人、企业或社会有意义的价值


面对如此庞大和复杂的数据,传统的分析工具往往力不从心。接下来,我们看看数据科学家是如何应对这些挑战的。

如今,数据科学家从大数据中提取洞察,并应对这些海量数据集带来的挑战。

所收集数据的规模意味着使用传统的数据分析工具是不可行的。

然而,利用分布式计算能力的替代工具可以克服这个问题。

Apache SparkHadoop 及其生态系统这样的工具,提供了跨分布式计算资源提取、加载、分析和处理数据的方法,从而提供新的洞察和知识。

这为组织提供了更多与其客户连接的方式,并丰富了他们提供的服务。

所以,下次当你戴上智能手表、解锁智能手机或追踪你的锻炼时,请记住:你的数据正在开始一段旅程,它可能通过大数据分析环游世界,然后再回到你身边。


本节课中我们一起学习了大数据的基础知识。我们探讨了安永对大数据的定义,并深入理解了描述其核心特征的“5V”模型:速度、体量、多样性、真实性和价值。我们还通过实例看到了这些特征在现实世界中的体现,并了解了数据科学家如何使用如 Apache Spark 和 Hadoop 等工具来处理海量数据并从中提取价值。理解这些基础概念是迈入数据分析世界的重要一步。

062:大数据处理工具 🛠️

在本节课中,我们将学习三种开源大数据处理技术:Apache Hadoop、Apache Hive 和 Apache Spark。我们将了解它们各自的功能、特点以及在大数据分析中扮演的角色。


大数据处理技术概述

大数据处理技术提供了处理大规模结构化、半结构化和非结构化数据集的方法,以便从大数据中提取价值。

在之前的视频中,我们讨论过 NoSQL 数据库和数据湖等技术。本节中,我们将重点介绍三种开源技术及其在大数据分析中的作用。

以下是三种核心工具:

  • Apache Hadoop:一个工具集合,提供大数据的分布式存储和处理。
  • Apache Hive:构建在 Hadoop 之上的数据仓库,用于数据查询和分析。
  • Apache Spark:一个分布式数据分析框架,旨在实时执行复杂的数据分析。

Apache Hadoop:分布式存储与处理的基石

上一节我们概述了三种工具,本节中我们来看看 Apache Hadoop 的具体架构和优势。

Hadoop 是一个基于 Java 的开源框架,允许在计算机集群组成的分布式系统中,对大型数据集进行分布式存储和处理。在 Hadoop 分布式系统中,一台单独的计算机称为一个节点,而节点的集合则构成一个集群

Hadoop 可以从单个节点扩展到任意数量的节点,每个节点都提供本地存储和计算能力。它为存储数据提供了一个可靠、可扩展且经济高效的解决方案,并且对数据格式没有要求。

使用 Hadoop,你可以整合新兴的数据格式(如流媒体音频、视频、社交媒体情绪和点击流数据),以及传统数据仓库中不常使用的结构化、半结构化和非结构化数据。

Hadoop 的主要优势包括:

  • 为所有利益相关者提供近乎实时的服务访问
  • 优化和简化企业数据仓库成本:通过整合整个组织的数据,并将“冷数据”(不频繁使用的数据)迁移到基于 Hadoop 的系统。

Hadoop 分布式文件系统

Hadoop 的四个主要组件之一是 Hadoop 分布式文件系统。这是一个为大数据设计的存储系统,运行在通过网络连接的多台商用硬件上。

HDFS 通过将文件分区存储到多个节点上,提供了可扩展且可靠的大数据存储。它将大文件分割并存储在多台计算机上,允许并行访问。因此,计算可以在存储数据的每个节点上并行运行。它还会在不同的节点上复制文件块以防止数据丢失,使其具备容错性

让我们通过一个例子来理解。假设有一个包含全美国电话号码的文件。姓氏以 A 开头的人的电话号码可能存储在服务器 1 上,以 B 开头的存储在服务器 2 上,依此类推。在 Hadoop 中,这个电话簿的各个部分会分布存储在集群中。要重建整个电话簿,你的程序需要从集群中的每台服务器获取数据块。

默认情况下,HDFS 还会将这些较小的数据块复制到另外两台服务器上,确保当一台服务器故障时数据仍然可用。

除了更高的可用性,HDFS 还带来以下好处:

  • 更好的可扩展性:允许 Hadoop 集群将工作分解成更小的块,并在集群中的所有服务器上运行这些任务。
  • 数据本地性:将计算过程移动到数据所在的节点附近。这在处理大型数据集时至关重要,因为它能最大限度地减少网络拥塞并提高吞吐量。

使用 HDFS 的其他好处还包括:

  • 强大的硬件故障恢复能力:HDFS 专为检测故障和自动恢复而构建。
  • 支持流数据访问:HDFS 支持高数据吞吐率。
  • 容纳大型数据集:HDFS 可以扩展到单个集群中的数百个节点或计算机。
  • 可移植性:HDFS 可在多个硬件平台上移植,并与各种底层操作系统兼容。

Apache Hive:基于 Hadoop 的数据仓库

了解了 Hadoop 的存储基础后,我们来看看构建在其之上的数据查询工具 Apache Hive。

Hive 是一个开源数据仓库软件,用于读取、写入和管理直接存储在 HDFS 或其他数据存储系统(如 Apache HBase)中的大型数据集文件。

由于 Hadoop 是为长时间顺序扫描设计的,而 Hive 基于 Hadoop,因此其查询具有很高的延迟。这意味着 Hive 不太适合需要极快响应时间的应用程序。

Hive 也不适合通常涉及大量写操作的事务处理。它更适用于数据仓库任务,如 ETL、报告和数据分析,并且包含支持通过 SQL 轻松访问数据的工具。


Apache Spark:实时处理与复杂分析引擎

上一节我们介绍了适用于批处理查询的 Hive,本节中我们来看看专为速度和实时处理设计的 Apache Spark。

Spark 是一个通用的数据处理引擎,旨在为广泛的应用程序提取和处理海量数据,包括交互式分析、流处理、机器学习、数据集成和 ETL。

它利用内存处理来显著提高计算速度,只有在内存受限时才将数据溢出到磁盘。

Spark 支持多种主流编程语言接口,如 Java、Scala、Python、R 和 SQL。它可以使用其独立的集群技术运行,也可以在其他基础设施(如 Hadoop)之上运行。它能够访问多种数据源(包括 HDFS 和 Hive)中的数据,使其具有高度的通用性。

快速处理流数据并实时执行复杂分析是 Apache Spark 的关键用例。


课程总结

在本节课中,我们一起学习了三种核心的大数据处理开源工具:

  1. Apache Hadoop:提供了分布式存储和处理的底层框架,核心是容错的 HDFS。
  2. Apache Hive:构建在 Hadoop 之上的数据仓库,允许使用 SQL 进行查询,适用于高延迟的批处理任务。
  3. Apache Spark:一个利用内存计算的数据处理引擎,专为低延迟、实时处理和复杂分析而设计,能处理流数据和批量数据。

理解这些工具的特性和适用场景,是构建有效大数据分析解决方案的基础。

063:识别用于分析的数据 📊

在本节课中,我们将学习数据分析流程中的一个关键步骤:如何识别和确定分析所需的数据。我们将了解从明确信息需求、制定收集计划到选择收集方法的完整过程,并探讨数据质量、治理与隐私等重要考量因素。


理解问题与目标

上一节我们讨论了如何定义问题和期望的成果。现在,你已经清楚现状与目标,并拥有定义明确的衡量指标。你知道要测量什么以及如何测量。

接下来的步骤是为你的具体用例识别所需的数据。

确定所需信息

识别数据的过程始于确定你想要收集的信息。在此步骤中,你需要决定所需的具体信息以及这些数据的可能来源。你的目标决定了这些问题的答案。

我们以一个产品公司为例,该公司希望根据最喜爱其产品的年龄段来创建有针对性的营销活动。他们的目标是设计最能吸引该细分群体的推广方式,并鼓励他们进一步影响其朋友和同龄人购买这些产品。

基于这个用例,你将识别出的一些明显信息包括:

  • 客户档案
  • 购买历史
  • 地理位置
  • 年龄
  • 教育程度
  • 职业
  • 收入
  • 婚姻状况

为了确保你对该细分群体有更深入的了解,你可能还会决定收集该群体的客户投诉数据,以了解他们遇到的问题类型。因为这可能会阻碍他们推荐你的产品。

为了了解他们对问题解决的满意度,你可以收集他们客户服务调查的评分。

更进一步,你可能希望了解这些客户在社交媒体上如何谈论你的产品,以及有多少他们的联系人在这些讨论中与他们互动。例如,他们的帖子获得的点赞、分享和评论数量。

制定数据收集计划

识别信息后,下一步是制定数据收集计划。你需要为已识别的数据建立一个收集时间框架。你需要的某些数据可能需要持续收集,而另一些则需要在特定时间段内收集。

例如,收集网站访问者数据可能需要实时更新数字。但如果你正在跟踪特定事件的数据,则收集数据有明确的开始和结束日期。

在此步骤中,你还可以定义需要多少数据才能进行可信的分析。数据量是由细分群体定义的吗?例如,是 21 至 30 岁年龄段的所有客户,还是该年龄段内 10 万名客户的数据集。

你还可以利用此步骤来定义依赖关系、风险、缓解计划以及与你的项目相关的其他几个因素。该计划的目的是为执行建立所需的清晰度。

确定数据收集方法

制定计划后,流程的第三步是确定你的数据收集方法。在此步骤中,你将确定收集所需数据的方法。

你将定义如何从已识别的数据源(如内部系统、社交媒体网站或第三方数据提供商)收集数据。你的方法将取决于数据类型、你需要数据的时间框架以及数据量。

一旦你的计划和数据收集方法最终确定,你就可以实施数据收集策略并开始收集数据。在实施过程中,你需要根据实际情况不断更新你的计划,因为条件会随着计划的落地而演变。

数据质量、治理与隐私考量

你识别的数据、数据来源以及你用于收集数据的实践,都会对质量、安全性和隐私产生影响。这些都不是一次性的考虑因素,而是在数据分析流程的整个生命周期中都相关。

以下是需要考虑的关键方面:

数据质量
在不考虑数据如何衡量质量指标的情况下,使用来自不同来源的数据可能导致失败。为了可靠,数据需要无错误、准确、完整、相关且可访问。你需要定义质量特征、指标和检查点,以确保你的分析将基于高质量的数据。

数据治理
你还需要注意与数据治理相关的问题,例如安全、法规和合规性。数据治理政策和程序涉及数据的可用性、完整性和可用性。不合规的处罚可能高达数百万美元,不仅会损害你研究结果的可信度,还会损害你组织的信誉。

数据隐私
你收集的数据需要满足保密性、使用许可和遵守强制性法规的要求。需要计划好检查、验证和可审计的追踪记录。对用于分析的数据失去信任可能会损害流程,导致可疑的研究结果并招致处罚。


总结

在本节课中,我们一起学习了识别分析数据的关键步骤。我们了解到,这个过程始于根据业务目标确定所需信息,接着需要制定详细的收集计划和时间框架,然后选择合适的数据收集方法。最后,我们强调了在整个过程中持续关注数据质量、遵守数据治理政策以及保护数据隐私的极端重要性。正确执行这一步骤,将确保你能够从多个角度审视问题,并使你的研究发现可信且可靠。

064:数据来源 📊

在本节课中,我们将要学习数据分析中一个基础但至关重要的概念:数据来源。理解数据从何而来,以及如何区分不同类型的数据,是进行有效分析的第一步。

数据来源可以是组织内部的,也可以是外部的。同时,根据获取方式,数据可以分为一手数据二手数据第三方数据。接下来,我们通过几个例子来具体理解这些概念。


一手数据、二手数据与第三方数据

一手数据指的是你直接从源头获取的信息。
这可以来自内部来源,例如组织的客户关系管理(CRM)系统、人力资源(HR)系统或工作流应用程序中的数据。
它也包括你通过调查、访谈、讨论、观察和焦点小组直接收集的数据。

二手数据指的是从现有来源检索到的信息,例如外部数据库、研究文章、出版物、培训材料、互联网搜索或作为公开数据提供的财务记录。
这也包括通过外部机构进行的调查、访谈、讨论、观察和焦点小组所收集的数据。

第三方数据是你从数据聚合商处购买的数据。这些聚合商从各种来源收集数据,并将其整合成综合数据集,其目的纯粹是为了销售数据。


主要的数据来源类型

上一节我们介绍了数据的分类,本节中我们来看看数据具体可以从哪些渠道获取。以下是常见的数据来源:

数据库
数据库可以是一手、二手和第三方数据的来源。
大多数组织都有用于管理其流程、工作流和客户的内部应用程序。
外部数据库通常需要订阅或购买才能使用。

云端
大量企业已经或正在将业务迁移到云端。
云端正日益成为获取实时信息和按需洞察的数据来源。

互联网
互联网是公开可用数据的来源,可供公司和个人免费或商业使用。
互联网是公共领域中丰富的数据来源,包括教科书、政府记录、可供公众消费的文章等。

社交媒体
诸如 Facebook、Twitter、Google、YouTube 和 Instagram 等社交媒体网站和互动平台,正越来越多地被用于获取用户数据和观点。
企业利用这些数据源来获取关于现有和潜在客户的定量和定性洞察。

物联网与传感器
由可穿戴设备、智能建筑、智慧城市、智能手机、医疗设备甚至家用电器产生的传感器数据,是一个被广泛使用的数据来源。

数据交换
数据交换是第三方数据的一个来源,涉及数据提供者和数据消费者之间自愿共享数据。
个人、组织和政府都可以同时是数据提供者和数据消费者。
交换的数据可能来自商业应用程序、传感器设备、社交媒体活动、位置数据或消费者行为数据。

调查
调查通过向特定人群分发问卷来收集信息。
例如,衡量现有客户对产品升级版的兴趣和消费意愿。
调查可以是基于网络的,也可以是纸质的。
人口普查数据也是收集家庭数据(如财富和收入)或人口数据的常用来源。

访谈
访谈是收集定性数据的来源,例如参与者的意见和经验。
例如,为理解客服专员日常面临的挑战而进行的访谈。
访谈可以通过电话、网络或面对面进行。

观察研究
观察研究包括在特定环境中或执行特定任务时监测参与者。
例如,观察用户浏览电子商务网站,以评估他们查找产品和完成购买的难易程度。

来自调查、访谈和观察研究的数据,都可能作为一手、二手或第三方数据存在。


总结与展望

本节课中,我们一起学习了数据的不同来源及其分类。数据来源从未像今天这样动态和多样,并且还在持续演变。

将你的一手数据与二手及第三方数据源相结合,可以帮助你以新的、有意义的方式探索问题和解决方案。理解这些来源是构建可靠数据分析的基石。

065:如何收集与导入数据

在本节课中,我们将学习从不同数据源收集数据的方法与工具,以及如何将数据导入到各类数据仓库中。课程涵盖的数据源包括数据库、网络、传感器数据、数据交换平台等。


🔍 数据收集方法与工具

上一节我们探讨了各种数据源,本节中我们来看看从这些数据源收集数据的具体方法与工具。

以下是几种主要的数据收集方法:

  • SQL(结构化查询语言):这是一种用于从关系型数据库中提取信息的查询语言。SQL 提供简单的命令来指定需要从数据库的哪个表中提取什么数据,例如对匹配值进行分组、规定查询结果的显示顺序以及限制返回结果的数量等。其核心命令格式可概括为:
    SELECT [列名] FROM [表名] WHERE [条件];
    
  • 非关系型数据库查询工具:非关系型数据库可以使用 SQL 或类 SQL 工具进行查询。一些数据库也拥有自己的专用查询工具,例如 Cassandra 的 CQL 和 Neo4j 的 GraphQL。
  • 应用程序编程接口(API):API 被广泛用于从各种数据源提取数据。需要数据的应用程序调用 API 来访问包含数据的端点,这些端点可以是数据库、网络服务或数据市场。API 也常用于数据验证,例如验证邮政编码。
  • 网络爬取:网络爬取(或称屏幕抓取、网络采集)用于根据定义的参数从网页下载特定数据。它可以提取文本、联系信息、图像、视频、播客和产品条目等数据。
  • RSS 订阅:RSS 订阅通常用于从在线论坛和新闻网站等数据持续更新的来源捕获最新数据。
  • 数据流:数据流是聚合来自仪器、物联网设备、应用程序以及汽车 GPS 等来源的持续数据流的常用方式。数据流和订阅也用于从社交媒体网站和互动平台提取数据。
  • 数据交换平台:数据交换平台允许数据提供者和消费者之间交换数据。这些平台有定义良好的交换标准、协议和格式,不仅促进数据交换,还确保安全性和治理,提供数据许可工作流、个人信息的去标识化与保护、法律框架和隔离的分析环境。流行的平台包括 AWS Data Exchange、Crunchbase、Loomy 和 Snowflake。
  • 其他专业数据源:针对特定数据需求,如营销趋势和广告支出,可以借助其他数据源。例如,Forrester 和 Business Insider 等研究公司提供可靠数据;Gartner 和 Forrester 等研究和咨询公司是战略与运营指导的广泛信任来源。同样,在用户行为数据、移动和网络使用情况、市场调查和人口统计研究领域也有许多值得信赖的机构。

📥 数据导入与存储

在从各种数据源识别和收集数据之后,需要将其加载或导入到数据仓库中,才能进行后续的整理、挖掘和分析。导入过程涉及合并不同来源的数据,以提供统一的视图和单一接口,便于查询和操作数据。根据数据类型、数据量和目标仓库的类型,可能需要不同的工具和方法。

以下是针对不同数据类型的存储方案:

  • 关系型数据库:用于存储具有明确定义模式的结构化数据。如果使用关系型数据库作为目标系统,则只能存储结构化数据,例如来自 OLTP 系统、电子表格、在线表单、传感器、网络和 Web 日志的数据。结构化数据也可以存储在 NoSQL 数据库中。
  • 半结构化数据:指具有一定组织属性但没有严格模式的数据,例如来自电子邮件、XML、ZIP 文件、二进制可执行文件以及 TCP/IP 协议的数据。半结构化数据可以存储在 NoSQL 集群中。XML 和 JSON 常用于存储和交换半结构化数据,JSON 也是 Web 服务的首选数据类型。
  • 非结构化数据:指没有固定结构、无法组织成模式的数据,例如来自网页、社交媒体订阅、图像、视频、文档、媒体日志和调查的数据。NoSQL 数据库和数据湖为存储和处理大量非结构化数据提供了良好选择。数据湖可以容纳所有数据类型和模式。

ETL 工具和数据管道提供了自动化功能,以促进数据导入过程。诸如 Talend 和 Informatica 等工具,以及 Python 和 R 等编程语言及其相关库,都被广泛用于导入数据。


✅ 课程总结

本节课中,我们一起学习了从数据库、网络、API、数据流等多种来源收集数据的关键方法与工具,并了解了如何根据数据的结构化程度(结构化、半结构化、非结构化),将其导入到关系型数据库、NoSQL 数据库或数据湖等合适的数据仓库中,为后续的数据分析工作做好准备。

066:什么是数据整理?🧹

在本节课中,我们将要学习数据整理的核心概念、流程及其重要性。数据整理是数据分析中至关重要的一步,它确保原始数据被转化为可信、可用的形式,为后续的深入分析奠定基础。


数据整理,也称为数据清洗,是一个迭代过程,它包含数据探索、转换、验证,并使其可用于可信且有意义的分析。

它涵盖了一系列任务,旨在为明确定义的目的准备原始数据。此阶段的原始数据是指通过数据存储库中的各种数据源收集而来的数据。

数据整理涵盖了为分析准备数据所涉及的一系列任务。通常,它是一个包含四个步骤的过程:发现转换验证发布

发现阶段 🔍

发现阶段,也称为探索阶段,旨在结合你的具体用例来更好地理解数据。其目标是明确如何最好地为你手头的数据进行清理、结构化、组织和映射,以满足分析需求。

转换阶段 🔄

转换阶段构成了数据整理过程的主体,它涉及你为转换数据而执行的任务,例如数据的结构化规范化反规范化清理丰富

以下是转换阶段的主要任务类型:

1. 结构化
此任务包括改变数据形式和模式的操作。输入的数据可能格式各异。例如,你可能有一些来自关系数据库的数据和一些来自 Web API 的数据。为了合并它们,你需要改变数据的形式或模式。这种改变可能简单到改变记录中字段的顺序,也可能复杂到将字段组合成复杂的结构。

JOIN(连接)和 UNION(联合)是用于合并一个或多个表数据的最常见的结构化转换。它们合并数据的方式不同:

  • JOIN 合并列:当两个表连接时,第一个源表的列与第二个源表的列在同一行中组合。因此,结果表中的每一行都包含来自两个表的列。
  • UNION 合并行:第一个源表的数据行与第二个源表的数据行合并到一个表中。结果表中的每一行都来自某一个源表。

2. 规范化与反规范化
转换也可以包括数据的规范化和反规范化。

  • 规范化侧重于清理数据库中未使用的数据,并减少冗余和不一致性。例如,来自事务系统的数据,由于持续进行大量的插入、更新和删除操作,通常是高度规范化的。
  • 反规范化用于将来自多个表的数据合并到一个表中,以便更快地进行查询。例如,来自事务系统的规范化数据通常在运行报告和分析查询之前进行反规范化。

3. 清理
清理任务是修复数据中的不规则之处,以产生可信且准确的分析。不准确、缺失或不完整的数据可能会扭曲你的分析结果,因此需要加以考虑。数据也可能存在偏差、相关字段有空值或存在异常值。

例如,你可能想了解某款产品销售的客户人口统计信息,但你收到的数据没有记录性别字段。这时,你既需要寻找这个数据点并将其与现有数据集合并,也可能需要删除或不考虑缺少此字段的记录。我们将在本课程后续部分探讨更多数据清理的例子。

4. 丰富数据
丰富数据是第四种转换类型。当你审视现有数据,并考虑可以添加哪些额外的数据点以使你的分析更有意义时,你就是在考虑丰富数据。

例如,在一个信息分散在多个系统的大型组织中,你可能需要用其他系统甚至公共数据集中的信息来丰富某个系统提供的数据集。

考虑这样一个场景:你向企业销售 IT 外设,并想分析过去五年客户的购买模式。你拥有记录了客户信息和购买历史的客户主表和交易表。如果用一个可能作为公共数据集的企业绩效数据来补充你的数据集,对于理解影响其购买决策的因素将非常有价值。

插入元数据也能丰富数据。例如,从客户反馈日志中计算情感得分、从度假村位置收集基于地理位置的天气数据以分析入住趋势,或者为博客文章捕获发布时间和标签。

验证阶段 ✅

在转换之后,数据整理的下一个阶段是验证。在此阶段,你需要检查经过结构化、规范化、清理和丰富后的数据质量。

验证规则指的是用于验证数据一致性、质量和安全性的重复性编程步骤。

发布阶段 📤

这引出了数据整理过程的第四阶段——发布。发布涉及为下游项目需求交付整理后的数据输出。

发布的内容是输入数据集的转换和验证版本,以及关于数据的元数据。

文档记录的重要性 📝

最后,必须注意记录你将原始数据转换为可用于分析的数据所采取的步骤和考虑因素的重要性。数据整理的所有阶段本质上都是迭代的。为了能够复现这些步骤并重新审视执行这些步骤时的考量,记录所有的考虑和行动至关重要。


本节课中,我们一起学习了数据整理的完整流程。我们了解到,数据整理是一个包含发现转换验证发布四个阶段的迭代过程,其核心目标是将原始数据转化为高质量、可用于分析的数据集。记住,详尽的文档记录是确保过程可复现、结果可信的关键。掌握这些基础知识,将为后续的数据分析工作打下坚实的基础。

067:数据整理工具 🛠️

在本节课中,我们将学习数据整理过程中常用的一些软件和工具。数据整理是数据分析的关键步骤,旨在将原始、杂乱的数据转换为干净、可用的格式。我们将逐一介绍这些工具的特点和适用场景。

上一节我们介绍了数据整理的基本概念,本节中我们来看看具体有哪些工具可以帮助我们完成这项工作。

电子表格软件 📊

最基础的数据整理工具是电子表格软件,例如 Microsoft Excel 和 Google Sheets。

这类软件内置了丰富的功能和公式,可以帮助你识别数据问题、清理和转换数据。此外,它们还提供插件或功能,允许你从多种不同类型的源导入数据,并根据需要进行清理和转换。

以下是两个典型的增强功能:

  • Microsoft Power Query:用于 Excel,提供强大的数据获取和转换功能。
  • Google Sheets 查询函数:用于 Google Sheets,支持类似 SQL 的查询操作。

开源工具:OpenRefine 🔓

OpenRefine 是一个开源工具,允许你以多种格式(如 TSV、CSV、XLS、XML、JSON)导入和导出数据。

使用 OpenRefine,你可以清理数据、将其从一种格式转换为另一种格式,并通过 Web 服务和外部数据扩展数据集。OpenRefine 易于学习和使用,它提供基于菜单的操作,这意味着你无需记忆命令或语法。

智能云服务:Google Data Prep ☁️

Google Data Prep 是一种智能云数据服务,允许你以可视化方式探索、清理和准备结构化和非结构化数据以进行分析。

它是一个完全托管的服务,这意味着你无需安装或管理软件或基础设施。Data Prep 极其易用,你的每一个编辑操作都会获得关于理想下一步的建议。Data Prep 可以自动检测数据模式、数据类型和异常。

IBM 平台工具:Watson Studio Refinery 🤖

通过 IBM Watson Studio 提供的 Watson Studio Refinery,允许你使用内置操作来发现、清理和转换数据。

它将大量原始数据转换为可供分析使用的优质信息。Data Refinery 提供了将数据导出到一系列数据源的灵活性。它能自动检测数据类型和分类,并自动执行适用的数据治理策略。

协作型云服务:Trifacta Wrangler 👥

Trifacta Wrangler 是一种基于云的交互式服务,用于清理和转换数据。它能处理混乱的真实世界数据,并将其清理和重新排列成数据表,然后可以导出到 Excel、Tableau 和 R 等工具。

该工具以其协作功能而闻名,允许多个团队成员同时工作。

编程语言:Python 🐍

Python 拥有庞大的库和包集合,提供了强大的数据操作能力。让我们看看其中几个重要的库。

以下是几个核心的数据处理库:

  • Jupyter Notebook:一个开源的 Web 应用程序,广泛用于数据清理和转换、统计建模以及数据可视化。
  • NumPy:是 Python 提供的最基础的包(import numpy as np)。它快速、灵活、可互操作且易于使用。它为大型多维数组和矩阵提供支持,并提供高级数学函数来操作这些数组。
  • Pandas:专为快速简便的数据分析操作而设计(import pandas as pd)。它允许通过简单的一行命令执行复杂操作,例如合并、连接和转换大量数据。使用 Pandas,可以防止因来自不同源的数据未对齐而导致的常见错误。

编程语言:R 📈

R 也提供了一系列专门为整理混乱数据而创建的库和包,例如 Dplyr、Data Table 和 Jsonlite。

使用这些库,你可以调查、操作和分析数据。

以下是几个核心的 R 包:

  • Dplyr:一个用于数据整理的强大库(library(dplyr))。它具有精确而直接的语法。
  • Data Table:帮助你快速聚合大型数据集(library(data.table))。
  • Jsonlite:一个强大的 JSON 解析工具,非常适合与 Web API 交互(library(jsonlite))。

如何选择工具? 🤔

数据整理工具具有不同的能力和维度。你选择最适合需求的工具将取决于特定于你的用例、基础设施和团队的因素。

以下是需要考虑的关键因素:

  • 支持的数据大小
  • 支持的数据结构
  • 清理和转换能力
  • 基础设施需求
  • 易用性和学习成本

本节课中我们一起学习了多种数据整理工具,从简单的电子表格到强大的编程语言库。每种工具都有其优势和适用场景,理解它们的特点将帮助你在实际工作中根据数据规模、团队技能和项目需求做出合适的选择。掌握这些工具是成为一名高效数据分析师的重要基础。

068:数据清洗 📊

在本节课中,我们将要学习数据清洗的核心概念、重要性以及标准工作流程。数据清洗是确保数据质量、获得可靠分析结果的关键步骤。


根据高德纳(Gartner)关于数据质量的报告,低质量的数据会削弱组织的竞争力,并破坏关键业务目标。

缺失、不一致或不正确的数据可能导致错误的结论,进而引发无效的决策。在商业世界中,这可能代价高昂。

从不同来源获取的数据集可能存在多种问题,包括:缺失值不准确的数据重复项错误或缺失的分隔符不一致的记录以及参数不足

在某些情况下,可以借助数据整理工具和脚本手动或自动纠正数据。但如果数据无法修复,则必须将其从数据集中移除。

尽管“数据清洗”和“数据整理”这两个术语有时可以互换使用,但必须记住,数据清洗只是整个数据整理过程的一个子集。

数据清洗在数据整理工作流的转换阶段构成了非常重要且不可或缺的一部分。


典型的数据清洗工作流程

一个典型的数据清洗工作流程包括:检查清洗验证

检查

数据清洗工作流程的第一步是检测数据集中可能存在的不同类型的问题和错误。

您可以使用脚本和工具来定义特定的规则和约束,并根据这些规则和约束来验证您的数据。

您也可以使用数据剖析和数据可视化工具进行检查。

数据剖析帮助您检查源数据,以理解数据的结构、内容和相互关系。它能揭示异常和数据质量问题。

例如,空白或空值、重复数据,或者某个字段的值是否落在预期范围内。

使用统计方法可视化数据可以帮助您发现异常值。例如,绘制人口统计数据集中平均收入的图表可以帮助您发现异常值。


清洗

上一节我们介绍了如何检查数据,本节中我们来看看如何进行实际的数据清洗。您应用于清洗数据集的技术将取决于具体用例和遇到的问题类型。

以下是几种更常见的数据问题及其处理方法:

  • 缺失值:处理缺失值非常重要,因为它们可能导致意外或有偏差的结果。您可以选择过滤掉具有缺失值的记录,或者,如果该信息对您的用例至关重要,则设法寻找来源补充该信息。第三种方法是插补,即基于统计值计算缺失值。您选择的行动方案需要以最适合您的用例为基础。
    • 公式示例均值插补:用该字段所有非缺失值的平均值填充缺失值。
  • 重复数据:数据集中重复的数据点需要被移除。
  • 无关数据:不符合您用例上下文的数据可被视为无关数据。例如,如果您正在分析某个人群分段的总体健康状况,他们的联系电话可能对您不相关。
  • 数据类型转换:清洗可能涉及数据类型转换。这是为了确保字段中的值以该字段的数据类型存储。例如,数字存储为数值数据类型,日期存储为日期数据类型。
    • 代码示例(Python pandas):df[‘column_name’] = pd.to_numeric(df[‘column_name’])
  • 标准化:您可能还需要清洗数据以使其标准化。例如,对于字符串,您可能希望所有值都是小写。同样,日期格式和度量单位也需要标准化。
    • 代码示例(Python):df[‘column_name’] = df[‘column_name’].str.lower()
  • 语法错误:例如,字符串开头或结尾的空格或多余空格是需要纠正的语法错误。这也包括修复拼写错误或格式。例如,在某些记录中,州名以全称(如 New York)输入,而在另一些记录中以缩写(如 NY)输入。
  • 异常值:数据中也可能存在异常值,即与数据集中其他观测值差异极大的值。异常值可能正确也可能不正确。例如,当选民数据库中的年龄字段值为 5 时,您知道这是不正确的数据,需要纠正。现在,考虑一组年收入在 10 万到 20 万美元之间的人,除了那个年收入 100 万美元的人。虽然这个数据点并非不正确,但它是一个异常值,需要审视。根据您的用例,您可能需要决定包含此数据是否会以不利于您用例的方式扭曲结果。

验证

这使我们进入数据清洗工作流程的下一步:验证

在此步骤中,您检查结果,以确定数据清洗操作所实现的有效性和准确性。

您需要重新检查数据,以确保在您进行更正后,适用于数据的规则和约束仍然成立。



文档记录

最后,重要的是要注意,作为数据清洗操作一部分进行的所有更改都需要被记录在案。

不仅要记录更改,还要记录进行这些更改的原因以及当前存储数据的质量。报告数据的“健康”程度是一个非常关键的步骤。


总结

本节课中我们一起学习了数据清洗的完整流程。我们了解到,数据清洗是数据整理的关键环节,旨在解决数据集中存在的缺失值、重复项、不一致、异常值等问题。标准工作流程包括检查清洗验证三个阶段,并且所有操作都必须有完善的文档记录。高质量的数据清洗是获得准确、可靠数据分析结果的基石。

069:数据准备与可靠性的观点 🛠️📊

在本节课中,我们将学习数据专业人士如何分享他们在数据准备与可靠性方面的实践经验。我们将了解数据收集、清理和准备在数据分析工作中的比重,以及确保数据可靠性的关键步骤。


数据准备工作的比重 📈

上一节我们介绍了数据分析的基本流程,本节中我们来看看数据专业人士在实际工作中,用于数据收集、清理和准备的时间占比。

一位数据科学家表示,其工作中相当大的一部分涉及为分析而进行的数据收集、准备和清理。尽管在有优秀数据工程团队的公司中,这类工作会相对减少,但任何与数据密切相关的角色,如数据分析师或机器学习工程师,都必须熟悉数据来源。没有数据集是完美的,总会存在妥协或小错误,因此花大量时间理解生成数据的基础数据及其潜在问题至关重要。

一位注册会计师指出,其工作涉及大量财务报表、账户活动和流程控制的分析。数据收集部分可能相对简单,只要会计信息存在于总账系统或中央存储库中。实际上,确保数据准确、完整(例如,拥有完整的12个月财务报表数据)的准备工作约占工作的30%。这为后续深入分析奠定了基础。


确保数据可靠性的步骤 ✅

了解了数据准备的比重后,我们接下来看看数据专业人士为确保数据可靠性所采取的具体步骤。

以下是确保数据可靠性的两个核心方法:

  1. 运行摘要统计:对数据中的各个列运行摘要统计(如最小值、平均值、中位数、最大值),并确保结果符合现实逻辑。例如,如果“每月网站访问量”这一列出现负值,则表明数据不可靠。
  2. 执行逻辑检查:在深入交易细节之前,进行高层面的逻辑检查。例如,总体收入理应增长,但如果数据显示急剧下降,则应首先检查数据源是否正确、查询周期是否准确、总账科目是否抓取无误。首先解决这些基本的数据完整性问题。

一旦确认数据可靠,便可以开始深入审查,并基于数据分析形成关于财务绩效的结论。


本节课中,我们一起学习了数据准备在数据分析工作中的重要比重,以及通过摘要统计逻辑检查来确保数据可靠性的关键步骤。可靠的数据是进行所有有效分析的基础。

070:统计分析概述 📊

在本节课中,我们将要学习统计分析的基础知识,了解它与数据分析,特别是数据挖掘的关系。我们将从统计学的基本定义开始,逐步深入到描述性统计和推断性统计的核心概念。


在理解统计分析、它与数据分析以及数据挖掘的关系之前,我们首先需要审视什么是统计学。

统计学是数学的一个分支,处理数值或定量数据的收集、分析、解释和呈现。它无处不在,无论是谈论平均收入、平均年龄还是最高薪职业,这些都涉及统计学。

如今,统计学正被应用于各行各业,以基于数据做出决策。例如,研究人员使用统计学分析疫苗生产数据以确保安全性和有效性;公司使用统计学来深入了解客户需求,从而减少客户流失。


上一节我们介绍了统计学的定义和应用,本节中我们来看看什么是统计分析。

统计分析是将统计方法应用于数据样本,以发展对该数据所代表内容的理解。它包括收集和审查一组项目中的每个数据样本,这些样本可以从总体中抽取。

在统计学中,样本是从总体中抽取的代表性选择。而总体是指一个离散的人群或事物集合,它们至少有一个共同特征,以便进行数据收集和分析。

例如,在某个用例中,总体可能是某个州所有拥有驾驶执照的人,而从这个总体中抽取的样本(即总体的一个子集)可能是年龄超过 50 岁的男性驾驶员。

统计方法主要用于确保数据被正确解释,并且明显的关系是有意义的,而不仅仅是偶然发生的。


当我们从样本中收集数据时,可以运行两种不同类型的统计:描述性统计用于总结样本信息,推断性统计用于对更广泛的总体进行推断或概括。

描述性统计使您能够以有意义的方式呈现数据,从而简化数据的解释。数据使用汇总图表、表格和图形进行描述,而不试图从抽取样本的总体中得出结论。其目标是使原始数据更容易理解和可视化,而不对任何已做出的假设下结论。

例如,我们想要描述一个特定班级 25 名学生的英语考试成绩。我们记录所有学生的考试成绩,计算汇总统计数据,并生成图表。

以下是描述性统计分析的一些常见度量指标:

  • 集中趋势:定位数据样本的中心。常见的度量指标包括均值中位数众数。这些指标告诉您数据集中大多数值落在哪里。

    • 均值:数学平均值。在上述例子中,25 名学生的平均分是所有 25 名学生分数的总和除以 25(学生人数)。公式:均值 = 总和 / 数量
    • 中位数:将数据集从小到大排序后,位于中间位置的值。对于 25 个值,中位数是第 13 个值(左右各有 12 个值)。中位数不受异常值影响。
    • 众数:数据集中出现频率最高的值。例如,如果这 25 名学生中最常见的分数是 72%,那么这就是该数据集的众数。
  • 离散程度:衡量数据集的变异性。常见的统计离散度量指标是方差标准差极差

    • 方差:衡量数据点偏离中心(即均值)的程度,反映了值的分布情况。变异性越低,数据集中的值越一致;变异性越高,数据点差异越大,极端值出现的可能性越高。
    • 标准差:告诉你数据围绕均值聚集的紧密程度。公式:标准差 = 方差的平方根
    • 极差:数据集中最大值与最小值之间的距离。
  • 偏度:衡量数值分布是围绕中心值对称还是向左或向右偏斜。偏斜的数据会影响哪些类型的分析是有效的。

这些是一些基本且最常用的描述性统计工具,但还有其他工具,例如使用相关性和散点图来评估配对数据的关系。


上一节我们探讨了如何描述数据,本节中我们转向推断性统计,看看如何从样本推断总体。

推断性统计从样本中获取数据,对抽取样本的更大总体进行推断。使用推断性统计的方法,你可以得出将样本结果应用于整个总体的概括性结论。

以下是推断性统计的一些常见方法:

  • 假设检验:例如,可以通过比较对照组的结果来研究疫苗的有效性。假设检验可以告诉你,在对照组中观察到的疫苗有效性是否也可能存在于总体中。
  • 置信区间:结合不确定性和抽样误差,创建一个实际总体值可能落入的数值范围。
  • 回归分析:包含假设检验,有助于确定在样本数据中观察到的关系是否真实存在于总体中,而不仅仅是在样本中。

有多种软件包可用于执行统计数据分析,例如 SASSPSSStata

统计学通过提供数据挖掘所需的度量和方法论,并帮助识别随机噪声与重要发现之间的差异,构成了数据挖掘的核心。

数据挖掘(我们将在本课程中了解更多)和统计学作为数据分析技术,都有助于做出更好的决策。


本节课中我们一起学习了统计分析的基础。我们首先定义了统计学及其应用,然后区分了描述性统计(用于总结和呈现数据)和推断性统计(用于从样本推断总体)。我们探讨了集中趋势、离散程度和偏度等关键描述性度量,以及假设检验、置信区间和回归分析等推断性方法。最后,我们了解到统计学是数据挖掘的核心,两者共同支持基于数据的决策。

071:什么是数据挖掘?🔍

在本节课中,我们将要学习数据挖掘的核心概念、应用场景以及常用的技术方法。数据挖掘是从数据中提取知识的关键过程,它结合了多种技术来发现数据中的模式、趋势和关联。


什么是数据挖掘?💎

数据挖掘是从数据中提取知识的过程,它是数据分析过程的核心。数据挖掘是一个跨学科领域,涉及模式识别技术、统计分析和数学方法的应用。其目标是识别数据中的相关性、发现模式和变化、理解趋势并预测概率。

在数据分析的语境中,你会经常听到“模式”和“趋势”,因此我们首先需要理解这些概念。


模式与趋势 📈

模式识别是指在数据中发现规律性或共性的过程。例如,考虑一个组织内应用程序的登录日志数据,它包含用户名、登录时间戳、每次登录会话的持续时间以及执行的活动等信息。当我们分析这些数据以深入了解用户的习惯或行为时,例如一天中最多用户倾向于登录的时间、通常在应用程序中登录时间最长的用户角色,或者工作流应用程序中正在使用的模块,我们就是在通过手动或工具检查数据,以揭示隐藏在数据中的模式。

趋势则是一组数据随时间变化的一般倾向。例如,全球变暖。在短期内,比如逐年来看,温度可能保持不变或上下波动几度,但全球总体温度随着时间的推移持续上升,这使得全球变暖成为一种趋势。


数据挖掘的应用领域 🌐

数据挖掘在各行各业和学科中都有应用,以下是几个例子:

  • 客户分析:分析客户行为、需求和可支配收入,以提供有针对性的营销活动。
  • 金融风控:金融机构跟踪客户交易以发现异常行为,并使用数据挖掘模型标记欺诈交易。
  • 医疗健康:使用统计模型预测患者患特定健康状况的可能性,并优先安排治疗。
  • 教育评估:评估学生的表现数据以预测其成就水平,并集中精力在需要的地方提供支持。
  • 公共安全与物流:帮助调查机构在犯罪可能性较高的地区部署警力,并根据需求预测调整供应和物流。

主要的数据挖掘技术 🛠️

有多种技术可用于检测模式并为发现构建准确的模型,无论是描述性、诊断性、预测性还是规范性建模。以下是几种最常用的技术:

  • 分类:一种将属性分类到目标类别的技术。例如,根据客户的收入水平将其分为低、中、高消费群体。
    • 公式/代码示例if (income > 100000) category = "高消费"; else if (income > 50000) category = "中消费"; else category = "低消费";
  • 聚类:与分类类似,但涉及将数据分组到簇中,以便将其视为群体进行处理。例如,根据地理区域对客户进行聚类。
  • 异常值检测:一种帮助发现数据中不正常或意外模式的技术。例如,信用卡使用量的突然激增可能标志着潜在的滥用。
  • 关联规则挖掘:一种帮助建立两个数据事件之间关系的技术。例如,购买笔记本电脑经常伴随着购买散热垫。
  • 序列模式:追踪按顺序发生的一系列事件的技术。例如,追踪客户从登录在线商店到退出的整个购物路径。
  • 亲和性分组:一种用于发现关系中同时发生情况的技术。该技术广泛应用于在线商店,通过根据购买同一商品的其他人的购买历史向人们推荐产品,来进行交叉销售和向上销售。
  • 决策树:帮助以树形结构构建分类模型,每个分支代表一个可能的发生情况。该技术有助于清晰理解输入和输出之间的关系。
  • 回归:一种帮助识别两个变量之间关系性质的技术,这种关系可能是因果关系或相关关系。例如,基于位置和覆盖面积等因素,回归模型可用于预测房屋的价值。
    • 公式示例房价 = β₀ + β₁ * 面积 + β₂ * 地段评分 + ...

总结 📝

本节课中,我们一起学习了数据挖掘的基础知识。我们了解到,数据挖掘本质上帮助我们从噪声中分离出真实信息,使企业能够将精力集中在相关的事务上。它通过一系列技术,如分类、聚类、回归等,从数据中提取有价值的模式和见解,为决策提供支持。掌握这些概念是成为一名数据分析师的重要一步。

072:数据挖掘常用工具 🛠️

在本节课中,我们将学习数据挖掘领域一些常用的软件和工具,包括电子表格、R语言、Python、IBM SPSS Statistics、IBM Watson Studio 以及 SAS。

电子表格 📊

电子表格,例如 Microsoft Excel 和 Google Sheets,常用于执行基础的数据挖掘任务。电子表格可用于存放从其他系统导出的数据,格式易于访问和阅读。

你可以使用数据透视表来展示数据的特定方面,这在需要筛选和分析海量数据时至关重要。它们也使比较不同数据集变得相对容易。

Excel 提供了多种插件,例如 Excel 数据挖掘客户端Excel MinerKnowledge Miner for Excel,这些插件允许你执行常见的挖掘任务,如分类、回归、关联规则、聚类和模型构建。

Google Sheets 也有一系列可用于分析和挖掘的插件,例如文本分析、文本挖掘和 Google Analytics。

R 语言 📈

R 是统计学家和数据挖掘者用于执行统计建模和计算的最广泛使用的语言之一。R 内置了数百个专门为数据挖掘操作构建的库,例如回归、分类、数据聚类、关联规则挖掘、文本挖掘、异常值检测和社交网络分析。

一些流行的 R 包包括 tmtwitterRtm 包为 R 中的文本挖掘应用提供了一个框架,提供了文本挖掘功能。twitterR 包则提供了一个挖掘推文的框架。

RStudio 是一个广泛使用的开源集成开发环境,用于处理 R 编程语言。

Python 语言 🐍

PandasNumPy 这样的 Python 库常用于数据挖掘。

Pandas 是一个用于处理数据结构和分析的开源模块。它可能是 Python 中最流行的数据分析库之一。它允许你以任何格式上传数据,并提供了一个简单的平台来组织、排序和操作这些数据。

使用 Pandas,你可以执行基本的数值计算,如均值、中位数、众数和极差,计算统计数据,回答关于数据相关性和数据分布的问题,以可视化和定量的方式探索数据,并借助其他 Python 库(如 Matplotlib)实现数据可视化。

NumPy 是 Python 中用于数学计算和数据准备的工具。NumPy 提供了一系列用于数据挖掘的内置函数和能力。

Jupyter Notebooks 已成为数据科学家和数据分析师使用 Python 进行数据挖掘和统计分析时的首选工具。

IBM SPSS Statistics 📊

SPSS 代表 Statistical Package for the Social Sciences。虽然其名称暗示了最初在社会科学领域的用途,但它现在广泛用于高级分析、文本分析、趋势分析、假设验证以及将业务问题转化为数据科学解决方案。

SPSS 是闭源软件,需要许可证才能使用。SPSS 拥有易于使用的界面,对于复杂任务只需最少的编码。它包含高效的数据管理工具,并因其深入的分析能力和准确的数据结果而广受欢迎。

IBM Watson Studio ☁️

包含在 IBM Cloud Pak for Data 中的 IBM Watson Studio,利用了一系列开源工具(如 Jupyter Notebooks),并通过闭源的 IBM 工具进行了扩展,使其成为一个强大的数据分析和数据科学环境。

它可以通过公共云、私有云上的网页浏览器以及桌面应用程序使用。Watson Studio 使团队成员能够在项目上进行协作,项目范围可以从简单的探索性分析到构建机器学习和 AI 模型。它还包括 SPSS Modeler flows,使你能够快速为业务数据开发预测模型。

SAS Enterprise Miner 🔍

SAS Enterprise Miner 是一个用于数据挖掘的综合性图形化工作台。它提供了强大的交互式数据探索能力,使用户能够识别数据内部的关系。

SAS 可以管理来自各种来源的信息,挖掘和转换数据,并分析统计数据。它为技术背景较弱的用户提供了图形用户界面。

使用 SAS,你可以利用一系列可用的建模技术识别数据中的模式,探索数据中的关系和异常,分析大数据,并验证数据分析过程中发现的可靠性。

SAS 因其语法而非常易于使用,也易于调试。它能够处理大型数据库,并为用户提供高安全性。

总结 📝

本节课中,我们一起学习了几种当今可用的数据挖掘工具。选择最适合你需求的工具,将取决于该工具支持的数据规模和结构、提供的功能、数据可视化能力、基础设施需求、易用性和学习曲线。

通常,结合使用多种数据挖掘工具来满足所有需求是相当常见的做法。

073:沟通与分享数据分析结果概述 📊

在本节课中,我们将学习如何有效地沟通和分享数据分析的发现。数据分析过程始于理解待解决的问题和期望达成的目标,终于以能够影响决策的方式呈现分析结果。数据项目通常是跨部门协作的成果,涉及具备多领域技能的人员,其发现最终会融入更广泛的业务计划中。沟通的成功与否,取决于他人能否理解并信任你的见解,从而采取进一步行动。

理解你的受众 👥

上一节我们介绍了沟通在数据分析中的重要性,本节中我们来看看如何为沟通做准备。作为数据分析师,你需要通过清晰的可视化数据和结构化的叙述来讲述数据故事。在开始沟通之前,你需要重新与你的受众建立联系。

以下是开始前需要问自己的几个关键问题:

  • 我的受众是谁?
  • 什么对他们重要?
  • 什么能帮助他们信任我?

你的受众通常是一个多元化的群体,他们代表不同的业务职能,在组织中扮演运营或战略角色,受问题影响的程度也各不相同。

构建你的演示内容 🏗️

理解了受众之后,下一步就是围绕他们已有的信息水平来构建你的演示内容。你需要决定哪些信息以及多少信息对于帮助受众更好地理解你的发现是至关重要的。

以下是构建内容的核心原则:

  • 避免信息过载:演示不是数据倾倒。仅包含解决业务问题所必需的信息。过多信息会让受众难以理解你的核心观点。
  • 建立共同起点:通过向受众展示你对业务问题的理解来开始你的演示。这有助于赢得他们的注意并建立初步信任。
  • 使用业务语言:使用你所在组织的业务领域语言,是建立你与受众之间联系的另一个重要因素。

组织叙事与建立可信度 📝

设计沟通的下一步,是为实现最大影响力而构建和组织你的演示。你需要引用所收集的数据,并建立其可信度。

以下是组织叙事和建立可信度的步骤:

  • 揭示数据黑箱:对于受众而言,作为你一切沟通基础的数据就像一个黑箱。你必须解释数据来源、假设和验证过程。
  • 坦诚关键假设:不要掩盖分析过程中做出的任何关键假设。
  • 逻辑分类信息:根据你掌握的信息(例如定性和定量信息)将其组织成逻辑类别。
  • 选择叙事方法:有意识地选择自上而下或自下而上的叙事方法。两者都可能有效,具体取决于你的受众和使用场景,但需保持方法的一致性。

选择沟通格式与可视化 📈

确定哪种沟通格式对你的受众最有用至关重要。他们需要带走一份执行摘要、一份事实清单还是一份完整报告?受众将如何使用你呈现的信息,这应决定你选择的格式。

见解必须以能激发行动的方式解释。如果受众没有领会到见解的重要性或对其效用不确信,那么该见解就无法驱动任何价值。

以下是关于可视化的要点:

  • 可视化胜过文字:一段100字的论述,其创造清晰心理图像的效果通常不如一幅视觉图表。
  • 用图表讲故事:数据可视化、图形和图表是通过图形化描绘事实和数字来讲述故事的绝佳方式。
  • 展示模式与结论:无论是展示比较、关系、分布还是构成,你都有工具可以帮助你展示关于假设的模式和结论。

总结 📋

本节课中我们一起学习了有效沟通数据分析结果的核心要素。数据通过其讲述的故事产生价值。你的受众必须能够信任你、理解你并与你的发现和见解产生共鸣。通过建立发现的可信度在叙事中呈现数据通过视觉印象加以支持,你可以帮助你的受众获得有价值的见解,从而推动决策和行动。

074:数据分析中的叙事视角 📖

在本节课中,我们将聆听数据专业人士分享叙事在数据分析师工作中的角色与重要性。通过他们的观点,你将理解为何讲好数据故事是数据分析过程中不可或缺的一环。


叙事在数据分析中的核心作用

上一节我们探讨了数据分析的基本流程,本节中我们来看看如何通过叙事让数据结果产生更大影响。多位数据专家强调了叙事能力的至关重要性。

叙事在数据分析师的工作中作用重大,其重要性怎么强调都不为过。精通数据叙事能力非常关键。人类天生通过故事来理解世界。因此,如果你想说服任何人依据数据采取行动,首要任务就是讲述一个清晰、简洁且引人入胜的故事。

对于数据分析师而言,在处理任何数据集时构建一个故事,也能帮助自己更好地理解底层数据集及其运作方式。

在讲述一个清晰、连贯、简单的故事,与确保传达数据中可能存在的所有复杂性之间,总需要取得平衡。找到这种平衡可能颇具挑战性,但确实至关重要。


沟通:从数据到价值的关键桥梁

理解了叙事的重要性后,我们来看看它如何成为沟通数据价值的桥梁。无论你的分析多么出色,如果无法有效传达,其价值将无法实现。

无论你发现了多少或多么精彩的信息,如果找不到方法将其传达给你的受众——无论是消费者、总监还是高管级别的人员——那么这些信息就毫无用处。

你必须找到沟通的方法。通常,最好的方式是通过可视化或讲故事,让他们理解这些信息如何能发挥作用。

可以说,叙事是一项必不可少的技能。它就像交付过程中的“最后一公里”。许多人可以通过短期培训掌握技术方面,然而,从数据中提取价值并进行沟通的能力却非常稀缺。

考虑到长期职业发展,懂得如何用数据讲述一个引人入胜的故事非常关键。


让数据产生共鸣:叙事的力量

仅仅展示数字是不够的,本节我们将探讨如何通过叙事建立情感连接,使你的呈现真正打动受众。

叙事对数据分析绝对至关重要。这是你实际传达信息的方式。每个人都可以展示数字,但如果没有一个故事围绕其中,没有一个令人信服的行动理由,那么你呈现的内容最终将无法引起受众的共鸣。

斯坦福大学进行过一项研究,让人们进行提案展示。在这些提案中,他们既展示了简单的关键绩效指标、数字和统计数据,同时也讲述了一个故事。

事后测试听众记住了每场演示中的哪些内容,结果发现,是那些故事让他们印象深刻。故事中当然仍包含事实和数字,但正是通过故事,你才能将观点深入人心。

与故事、理解、数据建立情感连接,才是促使人们采取你希望和需要他们采取的行动的真正方式。


课程总结

本节课中,我们一起学习了叙事在数据分析中的核心作用。我们了解到,叙事不仅是向他人传达数据见解的关键技能,也是分析师自身理解数据的重要工具。有效的叙事需要在简洁明了与呈现数据复杂性之间找到平衡,并通过建立情感连接,使数据结果产生共鸣并驱动行动。掌握数据讲故事的能力,是数据分析师从执行技术分析迈向创造实际价值的关键一步。

075:数据可视化入门 📊

在本节课中,我们将学习数据可视化的基本概念、目的以及如何选择合适的图表类型来有效传达信息。我们还将了解仪表板的作用及其在业务分析中的应用。


数据可视化是一门通过使用图形、图表和地图等视觉元素来传达信息的学科。其目标是使信息易于理解、解释和记忆。想象一下,你需要查看数千行数据来得出结论,而将其与总结相同数据发现的可视化表示进行比较。使用数据可视化,你可以提供隐藏在数据中的关系、趋势和模式的摘要,这些信息如果仅从数据转储中解读,即使不是不可能,也会非常困难。

为了使数据可视化具有价值,你必须选择最能有效地向受众传达你的发现的视觉化方式。为此,你需要从问自己一些问题开始。

  • 我想建立什么关系?
  • 我是否想比较一个整体中各子部分的相对比例? 例如,不同产品线在公司总收入中的贡献。
  • 我是否想比较多个值? 例如,过去三年售出的产品数量和产生的收入。
  • 或者,我是否想分析单个值随时间的变化? 在这个例子中,可能意味着某一特定产品在过去三年中的销售情况如何变化。
  • 我需要让受众看到两个变量之间的相关性吗? 例如,天气条件与滑雪胜地预订量之间的相关性。
  • 我想检测数据中的异常吗? 例如,查找可能扭曲研究结果的值和数据。

“我想回答什么问题”不仅仅是数据可视化设计和过程中的一个总体性问题。对于你可视化的每一个数据集和信息,你都需要能够为你的受众回答这个问题。你还需要考虑可视化是否需要是静态的还是交互式的。例如,交互式可视化可以允许你更改值并实时查看对相关变量的影响。因此,请考虑受众的关键收获、他们的信息需求以及他们可能提出的问题,然后规划能够清晰且有力地传达你信息的可视化方案。

上一节我们介绍了选择合适可视化方案前需要思考的问题,本节中我们来看看一些基本的图表类型示例。

以下是你可以用于可视化数据的一些基本图表类型示例:

  • 条形图 非常适合比较相关的数据集或整体的各个部分。例如,在此条形图中,你可以看到10个不同国家的人口数量以及它们之间的比较。
    • 公式/代码示例图表类型 = 条形图,用于比较分类数据。
  • 柱状图 并排比较数值,可以非常有效地显示随时间的变化。例如,显示你网站的页面浏览量和用户会话时间如何逐月变化。
    • 注意:尽管除了方向之外相似,但条形图和柱状图并不总是可以互换使用。例如,柱状图可能更适合显示负值和正值。
  • 饼图 显示一个实体分解为其子部分的情况,以及子部分之间的比例关系。饼图的每一部分代表一个静态值或类别,类别的总和等于100%。
    • 示例:在一个包含社交媒体、原生广告、付费影响者和现场活动四个营销渠道的营销活动中,你可以看到每个渠道产生的潜在客户总数。
  • 折线图 显示趋势。它们非常适合显示数据值如何随连续变量变化。例如,你的产品或多种产品的销售额如何随时间变化,其中时间是连续变量。折线图可用于理解数据中的趋势、模式和变化,也可用于比较具有多个系列的不同但相关的数据集。
    • 公式/代码示例图表类型 = 折线图,用于显示随时间变化的趋势。

数据可视化也可用于构建仪表板。仪表板将来自多个数据源的报告和可视化内容组织并显示在单个图形界面中。你可以使用仪表板来监控日常进度或业务功能甚至特定流程的整体健康状况。

仪表板可以呈现运营数据和分析数据。例如,你可以有一个营销仪表板,从中实时监控当前营销活动的覆盖范围、产生的查询和销售转化情况。作为同一仪表板的一部分,你还可以看到此活动的转化率与过去一些成功运行的活动的转化率相比如何。

仪表板是一个很好的工具,可以呈现整体情况的概览,同时也允许你深入查看每个参数的下一级信息。仪表板易于普通用户理解,使团队之间的协作变得容易,并允许你使用仪表板随时生成报告。你几乎可以立即看到数据和指标变化的结果,这可以帮助你在进行中从多个角度评估情况,而无需重新开始规划。


本节课中我们一起学习了数据可视化的核心价值在于清晰传达信息。我们探讨了如何通过提问来选择合适的图表类型,如条形图、柱状图、饼图和折线图,并了解了仪表板如何整合多源数据以提供实时、全面的业务洞察。记住,有效的可视化始于明确的信息目标和受众需求。

076:数据可视化与仪表盘软件介绍

在本节课中,我们将学习一些最常用的数据可视化软件和工具。这些工具包括电子表格、Jupyter Notebook 和 Python 库、RStudio 和 R Shiny、IBM Cognos Analytics、Tableau 以及 Microsoft Power BI。其中一些是端到端的数据分析解决方案,另一些则专门用于数据可视化,涵盖了从免费开源工具到商业解决方案的广泛选择。


📈 电子表格:Excel 与 Google Sheets

电子表格,例如 Microsoft Excel 和 Google Sheets,可能是最常用于创建数据集图形表示的软件。

电子表格易于学习,并且有大量在线文档和视频教程可供参考。Excel 提供了多种图表类型,从基本的条形图、折线图、饼图和数据透视表,到更高级的选项,如散点图、趋势线、甘特图、瀑布图和组合图。使用组合图,你可以将多种图表类型结合在一起。

Excel 还会根据你的数据集,推荐最佳的视觉呈现方式。为了使图表更具表现力,你可以添加图表标题、更改元素颜色以及为数据添加标签。

Google Sheets 也提供类似的图表类型用于可视化,尽管 Excel 比 Google Sheets 拥有更多基于公式的内置选项。与 Excel 一样,Google Sheets 可以帮助你选择合适的可视化方式。你只需高亮显示想要可视化的数据并点击图表按钮,就会获得一系列最适合你数据的推荐图表。

当底层数据发生变化时,Excel 和 Google Sheets 中的图表和报告都会自动更新。在需要多用户协作的场景下,Google Sheets 通常比 Excel 更受青睐。


🐍 Python 与 Jupyter Notebook

上一节我们介绍了基础的电子表格工具,本节中我们来看看更灵活的可编程工具。Jupyter Notebook 是一个开源的 Web 应用程序,为探索数据和创建可视化提供了绝佳的方式。你不需要是 Python 专家也能使用 Jupyter Notebook。

Python 提供了大量用于数据可视化的库,以下是其中几个核心库:

  • Matplotlib:这是一个广泛使用的 Python 数据可视化库。它提供不同类型的 2D 和 3D 绘图,并具有以多种不同方式创建绘图的灵活性。使用 Matplotlib,你只需几行代码就能创建高质量的交互式图形和图表。作为一个开源工具,它拥有庞大的社区支持和跨平台兼容性。
  • Bokeh:Bokeh 提供交互式图表,以其在处理大型或流式数据集时的高性能交互性而闻名。Bokeh 在应用交互、布局和不同样式选项以实现可视化方面提供了灵活性。它还可以转换使用其他 Python 库(如 Matplotlib、Seaborn 和 ggplot)编写的可视化。
  • Dash:Dash 是一个用于创建基于 Web 的交互式可视化的 Python 框架。使用 Dash,你可以用 Python 代码构建高度交互的 Web 应用程序。虽然了解 HTML 和 JavaScript 会有所帮助,但这并非必需。Dash 易于维护,支持跨平台且适配移动端。

📊 R 语言与 RStudio

除了 Python,R 语言也是数据科学领域的重要工具。使用 RStudio,你可以创建从基础到高级的各种可视化。

以下是 RStudio 支持的可视化类型:

  • 基础可视化:直方图、条形图、折线图、箱线图、散点图。
  • 高级可视化:热力图、马赛克图、3D 图形、相关图。

Shiny 是一个 R 语言包,可帮助你构建交互式 Web 应用程序。这些应用程序可以作为一个独立的应用程序托管在网页上。它们能无缝显示 R 对象,如图表和表格,并且可以设置为实时应用,供任何人访问。你也可以使用 Shiny 构建仪表盘。Shiny 易于使用的特性使其在数据专业人士中广受欢迎。


🏢 商业智能 (BI) 平台

前面介绍的工具更偏向于分析和编程,接下来我们看看功能更集成、面向业务用户的商业智能平台。

IBM Cognos Analytics

IBM Cognos Analytics 是一个端到端的分析解决方案。Cognos 提供的一些可视化功能包括:

  • 导入自定义可视化。
  • 提供时间序列数据建模和基于相应可视化中呈现的数据进行预测的预测功能
  • 根据你的数据推荐可视化方案。
  • 条件格式设置,允许你查看数据分布并突出显示异常数据点。例如,突出显示超过特定阈值的高销售额和低销售额。

Cognos 以其卓越的可视化效果以及利用其地理空间能力将数据叠加到物理世界而闻名。

Tableau

Tableau 是一家生产交互式数据可视化产品的软件公司。使用 Tableau 产品,你可以通过拖拽手势,以仪表盘和工作表的形式创建交互式图形和图表。

Tableau 还提供了以“故事”形式发布结果的选项。你可以在 Tableau 中导入 R 和 Python 脚本,并利用其远优于其他语言的可视化功能。Tableau 的可视化功能易于使用且直观。

Tableau 兼容多种数据源,包括 Excel 文件、文本文件、关系数据库以及云数据库源,如 Google Analytics 和 Amazon Redshift。

Microsoft Power BI

Power BI 是微软提供的一项基于云的业务分析服务,使你能够创建报告和仪表盘。它是一个强大而灵活的工具,以其速度、效率以及易于使用的拖放界面而闻名。

Power BI 兼容多种数据源,包括 Excel、SQL Server 和基于云的数据存储库,这使其成为数据专业人士的绝佳选择。

Power BI 提供了安全地协作和共享自定义仪表盘及交互式报告的能力,甚至在移动设备上也可以。Power BI 的仪表盘由单个页面上的许多可视化元素组成,帮助你讲述数据故事。这些被称为“磁贴”的可视化元素被固定到仪表盘上。仪表盘是交互式的,这意味着一个磁贴的变化会影响其他磁贴。


🤔 如何选择工具?

在决定使用哪种工具时,你需要考虑易用性以及可视化的目的,结合可用工具及其提供的可视化能力进行权衡。请记住:只要你能想象出来,你就能创建出来。


📝 课程总结

在本节课中,我们一起学习了多种主流的数据可视化与仪表盘软件。我们从最基础的电子表格(Excel, Google Sheets)开始,了解了它们便捷的图表功能。接着,我们探索了更灵活的可编程环境,包括 Python 的 Jupyter Notebook 及其核心可视化库(Matplotlib, Bokeh, Dash),以及 R 语言的 RStudio 和 Shiny 包。最后,我们介绍了功能强大的商业智能平台:IBM Cognos Analytics、Tableau 和 Microsoft Power BI,它们提供了端到端的分析解决方案和卓越的交互式仪表盘构建能力。理解这些工具的特点将帮助你在实际工作中根据具体需求选择最合适的可视化方案。

077:数据专家的可视化工具观点 🛠️

在本节课中,我们将了解几位数据专家在日常工作中最依赖的可视化工具及其原因。通过他们的分享,你可以了解到不同工具的特点和适用场景,为选择适合自己的工具提供参考。


上一节我们介绍了数据可视化的重要性,本节中我们来看看专业人士在实际工作中如何使用这些工具。

一位专家表示,他日常最依赖的可视化工具是 Cognos Analytics

他选择这个工具有几个原因。首先,它能让他快速导入电子表格或连接数据库,并对数据进行可视化。无论是他自己决定要查看哪些字段,还是借助其 AI 助手来探索新数据集中的潜在价值,都非常便捷。

此外,他还可以利用其报告工具进行更复杂或更深入的分析,并构建和安排报告的分发。例如,如果希望销售团队每周一早上都能收到销售渠道或销售机会报告,只需设置一次,系统便可在每周日晚上自动发送。

更重要的是,该工具可以整合多个数据源,并帮助用户建立数据关联,最终将所有信息呈现在一个高度交互的单一仪表板上。用户可以进行动态筛选和排序,并轻松与组织内其他成员共享,避免了每个人都重复构建相同视图的麻烦。


接下来,另一位专家分享了她最常用的工具。

在可视化工具方面,她最依赖的是 Looker。这是一个数据可视化工具,构建在她公司内部数据库之上。

她提到,Looker 与她过去使用过的 Tableau 类似,都非常易于使用。这类工具(如 Looker 和 Tableau)的最大优点在于,能让组织内的每个人,无论是否是数据专业人士,都能轻松查看自己的数据,并进行基本的聚合或排序操作。


除了商业智能工具,编程语言在探索性数据分析中也扮演着关键角色。

一位专家指出,他进行探索性数据分析时非常依赖 R 语言。近年来,他深刻体会到使用 R 进行基础数据分析和可视化的高效性,尤其是使用 tidyverse 这一系列软件包。这些包能帮助用户轻松加载数据、在不同层级进行聚合,并快速实现可视化。


对于许多用户而言,一些广为人知的工具因其易用性和丰富的资源而成为首选。

TableauPower BI 是显而易见的选择。它们易于上手,且非常实用。

随着越来越多的公司和用户开始使用这些工具,其内置的模板和库也日益丰富。


最后,一位专家强调了基础工具在数据准备阶段的重要性。

他会说,最常用的可视化工具可能就是 Excel。在深入分析之前,他会利用 Excel 的条件格式和映射规则等功能来检查数据,确保其清洁、合理,并为后续分析做好充分准备。


本节课中我们一起学习了多位数据专家对可视化工具的看法。我们了解到,工具的选择取决于具体需求,从强大的商业智能平台(如 Cognos Analytics、Looker、Tableau、Power BI)到灵活的编程语言(如 R),再到基础的数据准备工具(如 Excel),各有其用武之地。掌握这些工具的特点,将帮助你在数据分析工作中更有效地探索和展示数据。

078:数据分析领域的职业机会 📊

在本节课中,我们将探讨数据分析领域的广阔职业前景。我们将了解不同行业对数据分析师的需求,分析主要的职业发展路径,并讨论如何规划你的职业生涯。


数据分析师的职位空缺遍布工业界、政府和学术界。每个行业,无论是银行金融、保险、医疗保健、零售还是信息技术,都需要熟练的数据分析师。这些职位在大型企业和初创公司中同样受到追捧。

根据《福布斯》的数据,全球大数据分析市场在2018年达到373.4亿美元,预计在2019年至2027年间将以12.3% 的复合年增长率增长,到2027年达到1050.8亿美元。目前,市场对熟练数据分析师的需求远大于供给,这意味着公司愿意支付更高的薪酬来聘请优秀的数据分析师。

为了理解向你开放的职业道路,我们将广泛地把数据分析相关角色分为两大类:数据分析专家角色领域专家角色


数据分析专家职业路径 🛤️

数据分析专家角色适合那些希望专注于技术层面并在其职能领域内成长的分析师。在这条路径上,你可以从助理或初级数据分析师开始职业生涯,逐步晋升为分析师、高级分析师、首席分析师和首席分析师。

这些角色之间的界限、晋升所需的经验年限以及需要积累的经验性质,可能因行业、组织规模和团队规模而异。

以下是不同团队规模下的典型发展模式:

  • 在较小的团队中,你可能会在短时间内获得数据分析所有环节的经验,从数据收集一直到将发现结果可视化并呈现给利益相关者。
  • 在较大的团队和组织中,角色通常根据活动进行划分。这意味着在进入下一个阶段之前,你可能会在流程的某个特定阶段积累经验。这有助于你在进入下一环节前,先磨练好当前环节的技能。

在你的职业发展过程中,从助理数据分析师成长为首席或首席数据分析师,你需要持续提升技术、统计和分析能力,从基础水平达到专家水平。你需要展示自己有能力使用更广泛的工具和平台,处理数据分析流程的不同方面,以及应对多样化的用例。

在技术技能方面,你可能从只掌握一种查询工具和编程语言、一种数据仓库或有限的几种可视化工具开始。随着经验的积累,你需要学习并展示自己能够使用越来越多的工具、语言、数据仓库和新技术。

你的沟通技巧、演示技巧、利益相关者管理技巧和项目管理技巧都需要逐步磨练和提升。

作为首席或首席分析师,你可能还需要负责在团队中建立流程,为团队应使用的软件和工具提出建议,提升团队技能,并扩展团队以纳入更多人才。在一些组织中,这些职责可能由经理级别的人员承担,他们通过晋升来管理数据分析师团队。


领域专家(职能分析师)职业路径 🎯

领域专家,也称为职能分析师,是在特定领域(如人力资源、医疗保健、销售、财务、社交媒体或数字营销)获得专长并被视作该领域权威的分析师。他们可能不是技术能力最强的人。这些角色的头衔包括人力资源分析师、市场分析师、销售分析师、医疗保健分析师或社交媒体分析师。


数据分析赋能型职位 🚀

此外,还有数据分析赋能型职位。这些角色包括项目经理、市场经理和人力资源经理等。在这些工作中,数据分析技能能带来更高的效率和效果。随着越来越多的组织依赖数据做决策,相当一部分数据分析师职位空缺都属于数据分析赋能型。


横向发展与技能拓展 🔄

作为一名数据分析师,你也有机会探索和学习新技能,从而进入其他数据专业领域,如数据工程或数据科学。

以下是两个可能的横向发展示例:

  • 转向数据工程:如果你从初级数据分析师起步,并且非常喜欢使用数据湖和大数据仓库,你可以进一步获取这些技术的专业知识,将职业生涯发展为大数据工程师。
  • 转向业务分析:如果业务方面更让你兴奋,你可以类似地探索所需技能,横向转入业务分析或商业智能分析领域。

总结与展望 🌟

虽然数据分析师的职业前景非常广阔,但好消息是,你有大量资源可以帮助你成长。要想在数据分析师的旅程中取得成功,你需要做的就是抓住你想要追求的机会或出现在你面前的机会,并在此过程中不断学习。

本节课中,我们一起学习了数据分析领域的职业机会。我们了解到市场需求旺盛,职业路径主要分为技术专家和领域专家两条主线,并且数据分析技能可以赋能多种传统职位。最后,我们还探讨了向数据工程或业务分析等相邻领域横向发展的可能性。记住,持续学习和抓住机会是职业成长的关键。

079:数据专业人士的入行视角 👩‍💻👨‍💻

在本节课中,我们将聆听几位数据专业人士分享他们如何进入这个领域的经历。他们的故事揭示了进入数据分析行业的多种路径和所需的核心技能。


从解决公司需求开始

上一节我们介绍了课程背景,本节中我们来看看第一位专业人士的经历。他通过发现并解决公司内部的数据需求,从而创造了一个全新的职位。

我目前担任的数据专业人士职位,在我上任之前并不存在。我意识到公司需要一种比现有流程更快、更高效的数据提供方式。原本的流程需要前往信息系统部门,他们需要开会讨论需求,最终产出的结果却常常无法令人满意。但如果你想调整,又必须重新排队,经历整个流程。因此,为了满足公司在两周内提供报告的需求,我搭建了一个公司数据库,使其能够访问更多信息。现在,我们有了分析师来满足公司这一未被满足的需求。

他的经历表明,识别业务痛点并主动用技术方案(如搭建数据库)去解决,是进入数据领域的一条有效途径。


学术背景的延伸与转变

接下来,我们看看学术背景如何引导人们走向数据专业。这位专业人士的经历展示了从经济学到数据科学的自然演变。

我进入数据专业领域纯属偶然。当时我正在伊利诺伊大学厄巴纳-香槟分校攻读经济学博士学位,我的一位同事建议,再攻读一个统计学硕士学位会是非常有价值的加分项。于是,我也进入了伊利诺伊大学的统计学项目。但一旦开始学习,我就被深深吸引,可以说再也回不去了。换句话说,我最初成为经济学家的目标,实际上演变成了一个充满数据建模、分析、信息收集、沟通、可视化的职业,当然,所有这一切的基础都是数据驱动的问题解决

她的故事强调了统计学作为数据分析基石的重要性,以及跨学科技能融合的价值。


机遇与技能的结合

现在,我们转向另一位因偶然机会进入行业的数据分析师。她的经历突出了市场需求与个人技能匹配的重要性。

我进入数据分析师角色是在一家金融数据公司,实际上也很偶然。那时,我的公司开始在中国大陆招聘股票数据分析师,我非常幸运地加入了团队,因为他们正在寻找具备金融分析技能的人,而这正是我能带来的。之后,我的团队开始招聘具备Python、R 和 SQL 等技术技能的人才。

她的经历说明了,在金融等特定领域,领域知识(如金融分析)技术工具(如Python、R、SQL) 的结合极具竞争力。


对数字与故事的热爱

有些人对数据的热情是与生俱来的。下面这位专业人士的故事就源于对数字和其背后故事的热爱。

我一直热爱数字。当你与数字打交道足够多时,它们就开始讲述故事。观察这些数字并解读其故事的能力深深吸引着我。因此,一直拥有这种对数字的热爱,我总是被数据分析所吸引。无论是 Excel 表格、QuickBooks,还是任何能帮助我们获取所需信息的数据集,尤其是在金融行业,当我们查看损益表、资产负债表,或一家公司收购另一家公司时会发生什么,我们总是在分析那些数据,来解读公司的过去与未来。

他的分享揭示了数据分析的核心魅力之一:从数据中洞察并讲述故事,从而驱动商业决策。


通过系统教育直接入行

最后,我们来看一条更为直接的路径:通过攻读相关学位项目进入数据科学领域。

我目前的数据科学家职位是研究生毕业直接获得的,我攻读的是数据科学硕士学位。在攻读研究生之前,我曾担任过数据分析师和分析经理。

这条路径表明,系统的高等教育(如数据科学硕士) 是进入数据科学这类更偏重建模和算法的高级岗位的常见途径。


总结

本节课中,我们一起学习了五位数据专业人士进入行业的多样经历。他们的故事涵盖了从解决内部需求、学术转型、把握市场机遇、凭借热情驱动,到接受系统教育等多种路径。无论起点如何,成功的数据专业人士都普遍具备问题解决能力、技术技能(如SQL、Python)、统计学基础、领域知识以及将数据转化为洞察的沟通能力。希望这些视角能帮助你找到适合自己的数据分析之路。

080:雇主在数据分析师身上看重什么?👔

在本节课中,我们将聆听数据专业人士的分享,了解雇主在招聘数据分析师时最看重哪些素质和技能。通过他们的视角,我们可以更清晰地规划自己的职业发展路径。


概述:雇主的核心诉求

多位数据领域的专家指出,雇主对数据分析师的期望远不止于技术能力。他们寻求的是具备诚信、清晰沟通能力、数字敏感度、持续学习意愿以及强大问题解决能力的综合型人才。


诚信至上:数据准确性的基石 🧭

上一节我们概述了雇主的多元诉求,本节中我们首先来看看被反复强调的首要品质:诚信。

一位招聘经理分享了一个经典的面试问题:“如果必须二选一,你是选择按时交付,还是确保答案正确?” 他始终在寻找会回答“我必须确保信息准确无误”的候选人。

核心观点:错过截止日期,其危害远小于公司基于错误信息做出数百万美元的决策,或因报告不准确而导致他人失业。因此,诚信远比单纯守时更重要。


清晰沟通:让分析产生价值 💬

仅仅拥有出色的分析能力是不够的。如果无法将复杂的发现清晰地传达给外部利益相关者,那么分析的价值将大打折扣。

因此,清晰沟通的能力是雇主高度寻求的技能。你需要能够将数据洞察转化为易于理解的故事和行动建议。


技术能力与思维模式

除了软技能,雇主对技术硬实力和特定的思维模式也有明确要求。以下是他们普遍关注的几个方面:

1. 数字敏感度与统计知识
雇主显然会寻找对数字敏感的分析师。这包括理解复杂分析、掌握假设检验(如A/B测试) 的能力,并能解读测试结果及其业务含义。

2. 核心工具技能
随着数据量的增长,强大的SQL技能正变得越来越重要。它是查询和处理数据的基石。

3. 成长型思维与快速学习能力
数据分析行业变化迅速,因此雇主看重候选人的成长型思维和学习的意愿。这体现在能否快速掌握新的编程语言(如Python或R)或工具(如R Studio)。

4. 超越期望的主动性
一位雇主提到,他们寻找的是注重细节且有些“超额完成”特质的人。这类人不满足于只完成眼前的任务,他们渴望走得更远,拥有更高的抱负。

5. 跳出框架思考与解决问题
雇主需要能跳出框架思考的人才。如果指令是“做A、B、C”,优秀的分析师不仅会完成,还会进一步思考,提供替代方案。当遇到问题时,他们不会停滞不前,而是会主动排查故障,并提出可能的解决方案。


动态适应与“懂数据” 🤔

在快速变化的工作环境中,静态的技能组合是不够的。雇主还特别看重以下几项动态能力:

1. “懂数据”的能力
“懂数据”意味着多层含义:能从容应对各种格式的数据;能思考为了解决手头的问题,需要什么样的数据。这项技能至关重要。

2. 解决问题的能力
解决问题是另一项关键技能。当问题摆在面前时,数据分析师应知道如何利用手头任何格式的数据来攻克它,进行分析并呈现能够解决问题的洞察。

3. 动态适应性
分析师需要非常动态和适应性强。如果突然面对一个与以往截然不同的数据集,他们必须能够快速适应这种变化。

4. 快速掌握技术技能
这指的是快速学习新工具或范式的能力。例如,在一个环境中使用一种SQL范式,在另一个环境中能迅速切换到另一种;或者从熟悉的Python快速上手R Studio。


总结:优秀数据分析师的画像 🎯

本节课中,我们一起学习了雇主眼中优秀数据分析师应具备的素质。总结如下:

  • 品质基础诚信是立身之本,确保数据准确性高于一切。
  • 价值传递清晰的沟通能力是将分析转化为商业价值的关键桥梁。
  • 硬核实力:需要具备数字敏感度强大的SQL技能以及编程能力(如Python)。
  • 思维模式:拥有成长型思维注重细节、具备主动性并能跳出框架思考解决问题
  • 动态能力:能够快速“懂数据”解决问题适应变化快速学习新技能。

成为一名受雇主青睐的数据分析师,是一个技术能力、业务思维与个人品质共同发展的过程。希望本讲内容能为你指明努力的方向。

081:数据分析的多种入门路径 🛣️

在本节课中,我们将探讨进入数据分析领域的多种途径。无论您是否拥有相关学术学位,都有机会开启数据分析师的职业生涯。我们将分析不同背景的学习者如何规划学习路径,并成功进入或转行至这一领域。


学术学位路径 🎓

最直接的入门路径之一是获得相关学术学位。拥有数据分析、统计学、计算机科学、管理信息系统或信息技术管理等领域的学位,能为您提供一个坚实的起点和显著优势。

在线培训项目路径 💻

如果您没有相关学术学位,可以选择参加在线培训项目来获取所需的知识和技能。以下是主要的在线学习平台及其特点:

  • 平台示例:Coursera、edX、Udacity 等。
  • 课程形式:这些平台提供由世界顶尖领域专家设计和讲授的、包含多门课程的综合专项课程。
  • 学习内容:课程涵盖数据分析师所需的技术技能、职能技能和软技能,例如统计学电子表格SQLPython数据可视化问题解决叙事呈现等。
  • 实践价值:课程通常包含实践作业和项目,让您体验知识和技能在真实世界中的应用,这些项目甚至可以成为您作品集的一部分。

因此,即使没有学术资质,通过这些课程的学习,您也能获得入门级机会,并随着经验积累不断成长。


转行进入路径 🔄

上一节我们介绍了通过学位或在线课程直接入门的路径。本节中,我们来看看如果您已在其他行业工作数年,希望转行进入数据分析领域,应如何规划。

数据分析领域广阔,成功的转行需要周密的计划。首先,建议您深入研究目标岗位所需的知识技能、现有的工作机会以及职业发展前景。

您可以利用在线资源、论坛和人际网络,与业内人士交流,获取对真实工作场景的洞察。

根据您当前的工作背景,可以考虑以下两种转行策略:

  • 从非技术岗位转行:如果您目前从事非技术工作,可以考虑走领域专家职能分析师的路径。例如,如果您在销售部门,可以从定位并培养自己成为销售分析师开始。您拥有行业经验优势,再补充学习统计学编程等其他领域技能即可。
  • 从技术岗位转行:如果您已有技术背景,您将能更快掌握数据分析师角色所需的工具和软件。同时,您很可能对所在领域或行业有深刻理解。至于问题解决、项目管理、沟通和叙事呈现等其他技能,您可能已在现有工作中有所应用。您可以通过培训、在线课程、实践社区和论坛来进一步提升这些技能。

总结与展望 ✨

本节课中,我们一起学习了进入数据分析领域的多种路径:无论是通过学术学位打下基础,还是借助在线课程获取技能并积累项目经验,亦或是从其他岗位成功转行,关键在于保持好奇心和持续学习的态度。

数据分析是一个快速发展的领域。只要您充满好奇、乐于学习新事物并对这个领域感到兴奋,您就能够开辟前进的道路,而无需过分担忧自己可能缺少的所谓“正式资质”。

082:数据专业人员的职业选择 👩‍💻👨‍💻

在本节课中,我们将聆听从业的数据专业人士谈论该领域内可用的各种职业选择。数据领域提供了多样化的职业路径,适合不同兴趣和技能背景的人士。

如今,整个与数据相关的职业领域也变得非常丰富多彩且充满活力。它一直在不断发展,并为任何希望进入数据专业领域的人提供了广泛的选择范围。

以下是数据领域内一些主要的职业路径:

  • 数据分析师:这是许多人的起点。
  • 数据科学家:可以通过提升技能,从数据分析师成长为数据科学家。
  • 统计学家:这是另一种基础角色。
  • 数据工程师:可以进一步在数据处理的特定方向上专精,成为数据工程师。
  • 商业智能分析师/专家:也可以从商业智能分析师开始,然后转向数据工程师。

换句话说,你可以选择数据分析师 -> 数据科学家的路径,或者商业智能分析师 -> 数据工程师的路径。这些是数据专业领域内两条并行的职业轨道。

此外,你还可以走向另一个方向,成为机器学习工程师人工智能工程师等。因此,对于对数据领域感兴趣的人来说,存在许多这样的角色。

上一节我们概述了数据领域的整体职业图景,本节中我们来看看数据分析师常见的几种具体发展方向。

以下是数据分析师可选择的几种常见职业路径:

  • 转向数据科学或机器学习工程:深入钻研机器学习和工程领域,成为专注于机器学习建模的数据科学家机器学习工程师
  • 深入业务与战略:更深入地了解所在业务,为高层公司战略提供信息支持。这个角色非常重要且有趣,近年来也发生了很大演变。
  • 成为管理者:开始担任人员管理者,管理其他数据分析师,并负责筛选和确定工作的优先级。因为在组织中,能用数据回答的问题总是比能回答问题的人多。数据经理的角色在确保最重要的工作得以完成方面非常关键且有趣。

除了上述技术或管理路径,数据分析技能在许多传统行业中也有广泛应用。

以下是一些同样需要数据分析能力的广泛职业领域:

  • 簿记员
  • 会计师
  • 注册会计师
  • 股票经纪人或政府/大公司的财务分析师
  • 房地产经纪人

许多人都是优秀的数据分析师。但要从事这类工作,你必须真正喜欢数字,并且非常注重细节。如果这不是你的特点,或者数字不能让你感到兴奋,那么数据分析师可能并不适合你。

本节课中,我们一起学习了数据专业领域的多样化职业选择。我们从宏观的职业图景开始,了解了从数据分析师、数据科学家到数据工程师和商业智能专家的不同路径。接着,我们探讨了数据分析师常见的几种发展方向,包括深入技术、聚焦业务战略或转向管理。最后,我们也看到数据分析技能在会计、金融、房地产等众多传统行业中也极具价值。关键在于找到与个人兴趣和技能相匹配的路径。

083:给未来数据分析师的建议 💡

概述

在本节课中,我们将聆听数据专业人士给未来数据分析师的建议。这些建议涵盖了学习路径、技能发展、职业规划以及如何将日常经验转化为专业优势。


给未来数据分析师的建议

上一节我们介绍了课程背景,本节中我们来看看专业人士分享的具体建议。

持续学习,保持耐心

一位专业人士建议,要保持学习,不要气馁。关于分析学的知识浩如烟海,一个人终其一生也无法学完。因此,不要试图一次性掌握所有知识,而是应该循序渐进。

核心建议:确保每周、每月、每年都在持续学习新东西。这种持续学习的态度将对你的职业生涯大有裨益。

构建“T”型知识结构

我职业生涯中得到的一条非常有用的建议是,将你的职业生涯视为一个大写的字母“T”。

公式知识结构 = 广泛的知识面(T的顶部) + 精深的专业技能(T的底部)

T的顶部代表你应该在多个不同领域拥有广泛的知识,尽管这些知识不一定需要非常深入。你至少应该对A/B测试、机器学习、数据可视化、SQL、Python、R等有所了解。

而T的底部则意味着你应该至少在一个领域进行深入、严谨的学习。在我刚才提到的领域中,应该有一个是你真正深入理解并精通的。

善用每一份经历

要利用你拥有的每一份工作经历来积累优势。这意味着你可以从任何事情中学到东西。

以下是你可以思考和实践的方向:

  • 查看家庭预算或询问父母是否可以看看家庭账本。
  • 如果你在快餐店工作,可以观察客流量、营业额等数字,并与经理探讨这些数字的含义以及接下来的计划。

准备你的案例

当你与潜在雇主交谈时,准备好你的案例。这些案例不一定非得是工作经验,也可以是你的生活经验。

核心思路:告诉我你在个人生活或职业中是如何运用分析思维的,以及这与我们正在做的工作有何关联。这将会极大地帮助你。

建立专业作品集

我给未来数据科学家的一个建议是,建立一个能展示你数据科学或数据分析技能的专业作品集。

你可以通过以下方式来实现:

  • 在线寻找有趣的数据集并进行分析。
  • 在你的工作中寻找机会,即使你目前的工作不是数据分析师。寻找可以处理数字的机会,这自然会引导你积累起优秀的作品集或成功的数据分析项目案例。

追随你的热情

我给未来数据分析师的建议是追随你的热情。找一份能满足你需求并在工作中给你带来快乐的工作。

没有比每天早晨醒来都讨厌去上班更糟糕的事情了。数据分析师职位遍布各个行业和部门,有非常多的选择。没有必要仅仅为了有一份工作而接受它。找到真正能激发你热情、让你每天早晨有动力起床的事情。


总结

本节课中,我们一起学习了数据专业人士给未来数据分析师的宝贵建议。我们了解到,成功的路径包括持续学习、构建T型知识结构、从所有经历中学习、准备好展示个人能力的案例、积极建立专业作品集,以及最重要的——追随你的热情来选择职业。这些建议为踏入数据分析领域提供了清晰而实用的行动指南。

084:女性数据专业人士的观点 👩‍💻

在本节课中,我们将聆听几位女性数据专业人士分享她们在该领域的亲身经历,以及她们对有志进入此领域的女性所提出的建议。


直面刻板印象 💪

上一节我们介绍了本视频的主题,本节中我们来看看第一位专业人士如何应对职场中的刻板印象。

作为一名数据科学领域的女性,我仍然会遇到“这是男性工作”的刻板印象。我曾走进会议室,看到人们脸上露出失望或困惑的表情。我将此视为一个证明他们错误的机会。这不仅仅是男性的工作。这份工作属于那些有洞察力、有能力、有动力完成任务的人。只要你拥有这些技能,那么无论你是谁,都没有理由不能做到你决心要做的事。无论你是男性还是女性,无论你是白人还是黑人,你都有机会通过你产出的工作来证明人们的错误。

勇于表达与展现自我 🗣️

了解了如何应对偏见后,我们来看看在团队中如何有效发声。

我想说,这可能会很艰难,但你必须找到自己的声音,并且不要害怕使用它。很多时候,作为女性,我们无法找到自己的声音,或者不敢大声说出来,我们害怕如果我们发声,人们会如何对待我们。但你要知道,更重要的是你被听到、被看见——不是靠大声或犯错,而是如果你有数据支持,如果你有好的内容和想法要说,不要害怕举手,让人们知道你是一个思考者,并且你能完成工作。因为这将对你未来的发展至关重要。真正取得进步的唯一途径就是驱动力,而如果你太安静,人们就不知道你有这种驱动力。所以,如果你只是安静地在角落里工作,很多时候人们是看不到的。因此,要大声说出来,确保你的声音被听到,确保你被看作一个懂得如何在数据科学领域成长和做出贡献的女性。

持续提升技能与行业现状 📈

除了勇于表达,持续学习以增强自身实力同样关键。

当我刚开始时,我的班级里(尤其是在研究生院)大部分是男性。但现在我看到,数据团队,包括数据科学和数据工程团队,也充满了许多女性。因此,我建议女性继续提升技能。这样,如果她们对编程、数据和解决问题的职业道路感兴趣,她们就应该继续构建自己的技术技能组合。以便她们能够在数据专业人士的领域中尽可能有力地展现自己。

总结与核心建议 ✨

最后,我们来总结一下本节的核心观点与建议。

以下是给所有女性的核心建议:

  • 不要自我设限:不要让性别成为你的借口。依然要全力以赴,投入工作,向世界展示你惊人的才华。
  • 职业无性别:没有哪个角色是专门为特定性别预留的。
  • 追随你的热情:如果你有幸从事一份你真正热爱的职业,那就勇敢地去追求它。

本节课中,我们一起学习了女性数据专业人士如何克服刻板印象、在职场中勇敢发声、通过持续学习来增强竞争力,并最终强调了热情与能力才是职业发展的核心。希望这些观点能为所有有志于进入数据领域的女性带来启发和力量。

posted @ 2026-03-26 08:50  布客飞龙II  阅读(0)  评论(0)    收藏  举报