IBM-数据科学-I-笔记-全-

IBM 数据科学 I 笔记(全)

001:数据科学的本质 🔍

在本节课中,我们将要学习数据科学的基本定义、核心过程及其在现代社会中的重要性。我们将通过多位专家的视角,理解数据科学如何从数据中提取洞察,并驱动决策。


数据科学是一个过程,而非一个事件。它是利用数据来理解不同事物、理解世界的过程。

对我而言,数据科学是当你拥有一个问题的模型或假设,并试图用你的数据去验证这些假设或模型的时候。

数据科学是一门艺术,常常揭示隐藏在数据背后的洞察与趋势。它是你将数据转化为故事的时刻,即利用叙事来生成见解,并凭借这些见解为公司或机构做出战略选择。

数据科学是一个关于过程系统的领域,旨在从各种形式的数据中提取信息,无论这些数据是非结构化的还是结构化的。

数据科学是对数据的研究,正如生物科学是对生物学的研究,物理科学是对物理反应的研究。数据是真实的,数据具有真实的属性,如果我们要处理数据,就需要研究它。

数据科学涉及数据科学。这个定义或名称出现在80年代和90年代,当时一些教授在研究统计学课程,他们认为将其称为“数据科学”会更好。

但数据科学究竟是什么?我认为数据科学是个人尝试使用数据,为他们正在探索的问题寻找答案。简而言之,它更侧重于数据而非科学。如果你拥有数据、拥有好奇心,并且你在处理数据、操作数据、探索数据,那么这种通过分析数据、试图从中获取答案的实践本身就是数据科学。

数据科学在今天之所以重要,是因为我们拥有海量数据。过去我们曾担忧数据不足,现在我们却面临数据洪流。过去我们没有足够的算法,现在我们拥有算法。过去软件昂贵,现在它是开源且免费的。过去我们无法存储大量数据,现在只需极低的成本,我们就能获得海量数据集。

因此,处理数据的工具、数据的可获得性、以及存储和分析数据的能力,现在都变得廉价、可用且无处不在。时机已经成熟,现在正是成为数据科学家的最佳时代。


本节课中,我们一起学习了数据科学的本质。我们了解到数据科学是一个通过数据验证假设、揭示洞察并支持决策的持续过程。它结合了数据处理、分析和叙事技巧,并且得益于当今数据、算法和计算资源的普及,其重要性日益凸显。

002:数据科学基础原理

在本节课中,我们将学习数据科学的基础原理,了解其核心组成部分、工作流程以及它如何为组织创造价值。


每个人对数据科学的定义可能略有不同。但大多数人认同,数据分析是其重要的组成部分。

数据分析本身并非新事物。真正新颖的是,如今我们可以从极其多样化的来源获取海量数据。

这些来源包括日志文件、电子邮件、社交媒体、销售数据、患者信息档案、体育表现数据、传感器数据、监控摄像头等等。

在数据量空前增长的同时,我们也拥有了进行有效分析、揭示新知识所需的计算能力。

数据科学可以帮助组织理解其运营环境、分析现有问题,并揭示那些先前隐藏的机遇。


上一节我们提到了数据科学的价值,本节中我们来看看数据科学家如何通过数据分析为组织增加知识。

数据科学家通过调查数据来进行分析,探索如何最好地利用数据为业务提供价值。

那么,数据科学的过程是怎样的?许多组织会运用数据科学来聚焦于一个具体问题。因此,明确组织希望解答的问题是至关重要的。

以下是数据科学流程的第一步,也是最关键的一步:

  • 明确问题:这个步骤定义了整个数据科学项目的走向。

优秀的数据科学家是充满好奇心的人,他们会通过提问来澄清业务需求。


明确了问题之后,接下来的问题自然就是:我们需要什么数据来解决这个问题?

以下是数据科学家在数据准备阶段需要考虑的核心问题:

  • 数据需求:解决这个问题需要哪些数据?
  • 数据来源:这些数据将从哪里来?

数据科学家可以分析来自多个来源的结构化和非结构化数据。根据问题的性质,他们可以选择不同的方式来分析数据。


上一节我们讨论了数据收集,本节中我们来看看数据分析的核心环节。

使用多种模型来探索数据,可以揭示出其中的模式、原型和异常值。有时,这会证实组织的猜测;但有时,它会带来全新的知识,引导组织采取新的方法。


当数据揭示了其洞察后,数据科学家的角色就转变为故事讲述者,负责将结果传达给项目相关方。

数据科学家可以利用强大的数据可视化工具,帮助相关方理解结果的性质以及建议采取的行动。


数据科学正在改变我们的工作方式,改变我们使用数据的方式,也改变我们看待世界的方法。


本节课总结

在本节课中,我们一起学习了数据科学的基础原理。我们了解到,数据科学的核心在于利用现代计算能力分析海量、多样的数据。其标准流程始于明确业务问题,进而确定数据需求与来源,接着通过模型进行数据分析与探索以揭示洞察,最后将结果有效传达给决策者。数据科学通过这一系列步骤,为组织创造价值并推动变革。

003:数据科学的多元路径 🧭

概述

在本节课中,我们将通过多位从业者的亲身经历,了解数据科学作为一个新兴领域,其从业者背景的多样性与职业路径的多元性。你将看到,数据科学家并非都来自单一的学科背景,他们的入门故事各不相同。


数据科学:一个新兴的领域

数据科学在我成长的那个年代并不真正存在。我从未在醒来时说,我长大后想成为一名数据科学家。不,它不存在。我长大后并不知道自己会从事数据科学工作,因为当时并没有“数据科学”这个领域。

我认为它非常新。数据科学直到2009年或2011年左右才出现,是由像DJ Patil或Andrew Gelman这样的人创造了这个术语。在那之前,只有统计学。而我当时并不想成为统计学家,我想进入商业领域。后来我发现数据科学要有趣得多。


多元的起点:从统计学开始

上一节我们了解到数据科学是一个年轻的领域。本节中,我们来看看不同人是如何接触到它的。我的起点是统计学,我就是这样开始的。

在我人生的不同阶段,我曾想成为歌手,然后是医生。后来我意识到自己擅长数学,所以我选择了一个专注于定量分析的领域。从那时起,我确实想与数据打交道,但不一定是今天所知的“数据科学”。

我第一次接触数据科学是在我作为机械工程专业学生的第一年,在一家战略咨询公司。他们使用数据科学来做决策,这就是我与数据科学的第一次接触。


职业转折:需求催生的路径

有时,职业道路并非预先规划,而是由现实需求塑造的。以下是几位从业者因各种契机进入数据科学领域的故事。

  • 解决复杂问题:我曾遇到一个需要解决的复杂问题,而我们当时常用的方法无法解决它。
  • 经济环境的影响:我在经济危机后最糟糕的时候获得了数学学位,当时你必须“有用”才能找到工作。所以我去读了一个统计学学位,然后做了足够多被称为“数据科学”的工作,以至于我突然就成为了一名数据科学家。
  • 从商业到分析:我的本科学位是商科,主修政治、哲学和经济学。然后我在纽约大学斯特恩商学院攻读了商业分析硕士学位。
  • 实践中发现:当我本科毕业加入第一家公司时,发现他们正在为零售制造商分析电子销售点数据。我们所做的就是数据科学,但我们直到很久以后才开始使用这个术语。事实上,大约四五年前我们才开始称之为分析和数据科学。

跨界与融合:当工程遇见数据

数据科学不仅吸引着数学和商业背景的人,也深深植根于传统工程领域。所有工程师都在与数据打交道。

我认为,数据科学在我生活中的常规应用始于交通研究。我开始建立大型模型,试图预测街道交通流量,确定拥堵情况、温室气体排放或尾气排放。这就是我的起点。

当我在多伦多大学读研究生时,我开始建立这些模型,开始处理非常大的数据集,例如查看来自50万次出行的15万户家庭样本。我指的是90年代中期,这在当时被认为是非常大的数据集,但以今天的标准则不然。我就是这样开始并持续工作的。

后来我转到麦吉尔大学,担任交通工程学教授,并建立了涉及数据和分析的更大模型。所以,是的,交通研究将我引向了数据科学。


总结

本节课中,我们一起学习了数据科学家职业路径的多样性。我们看到,有人从统计学和数学出发,有人因商业需求而转型,还有人从工程实践自然融合进来。关键点在于:

  1. 领域新:数据科学是21世纪初才正式出现的跨学科领域。
  2. 路径多:进入该领域的背景包括但不限于统计学数学商科工程学等。
  3. 核心驱动:无论是为了解决实际问题、适应就业市场,还是出于学术研究兴趣,对数据的兴趣解决问题的能力是共同的驱动力。

这告诉我们,数据科学的大门向拥有不同技能和背景的人敞开。

004:给新晋数据科学家的建议 💡

在本节课中,我们将学习一位资深从业者给新晋数据科学家的核心建议。这些建议涵盖了从内在心态到外在技能的关键方面,旨在帮助初学者明确方向并建立扎实的基础。

核心特质:好奇心、判断力与论证能力

上一节我们探讨了数据科学的定义,本节中我们来看看成为一名数据科学家需要具备哪些核心特质。演讲者强调了三点至关重要的个人特质。

以下是三项核心特质及其作用:

  1. 保持好奇

    • 好奇心是绝对的必要条件。如果没有好奇心,你将不知道如何处理数据。
  2. 具备判断力

    • 判断力意味着对事物有先入为主的看法。如果没有这些初步想法,你将不知道从何处开始分析。
  3. 善于论证

    • 论证能力是指能够提出并辩护一个观点。这至少让你有一个起点,然后你可以从数据中学习,并修正你的假设。你可能会从错误的地方开始,但数据会帮助你学习。这个过程允许你进行学习:你可能最初相信A,但数据让你认识到B。

公式化描述学习过程 = 采取坚定立场 -> 用数据验证 -> 修正假设

技能与平台:分析工具是次要的

在确立了核心心态后,我们来看看所需的技能。数据科学家需要对分析平台、软件或计算平台感到舒适并保持灵活,但这是第二位的。最重要的仍然是好奇心和采取立场的能力。

最终关键:讲述故事的能力

完成分析并得到答案后,数据科学家需要的最后一项关键能力是讲述故事。

一旦你完成了分析,得到了数据表格,你必须能够从中讲述一个精彩的故事。如果你不能讲出好故事,你的发现将被隐藏、被埋没,无人知晓。你能否脱颖而出,很大程度上依赖于你讲述精彩故事的能力。

行动起点:找到你的竞争优势

明确了内在特质和外在技能后,我们来看看具体的行动起点。这个起点是识别你的竞争优势。

你需要思考:你想成为任何领域的数据科学家,还是特定领域的数据科学家?例如,如果你想在IT公司或互联网公司做数据科学家,你需要一套不同的技能;如果你想在健康产业做数据科学家,则需要另一套技能。

以下是确定起点的步骤:

  1. 首先,弄清楚你的兴趣和竞争优势所在

    • 你的竞争优势不一定是分析技能,而是你在某个生活领域超出常人的理解力。可能是电影、零售、健康,也可能是计算机。
  2. 然后,开始获取分析技能

    • 一旦弄清楚你的专长领域,就开始学习分析技能。学习哪些平台和工具,这些工具将针对你感兴趣的行业。
  3. 最后,应用技能并展示成果

    • 当你对工具有一定熟练度后,下一步就是将你的技能应用于实际问题,然后告诉世界你能用它做什么。

本节课中我们一起学习了给新晋数据科学家的完整建议路径:从培养好奇心、判断力、论证能力这些核心心态出发,到掌握必要的分析工具,最终获得讲述数据故事的关键能力。行动上,应从识别自身竞争优势和兴趣领域开始,再针对性学习技能并付诸实践。这条路径为初学者提供了清晰的发展框架。

005:数据科学家的日常 👨‍💻

在本节课中,我们将通过几位数据科学家的真实工作案例,了解数据科学家如何运用技能解决实际问题。你将看到,数据科学不仅仅是复杂的算法,更是理解问题、寻找关联并提供简洁有效解决方案的过程。


从复杂问题到简单方案

上一节我们探讨了数据科学家的技能组合,本节我们来看看他们如何将这些技能应用于实际工作。一位数据科学家曾在一个大型组织中构建推荐引擎。

他需要与各类工程师协作,并处理问题的不同部分。这个项目是他最满意的成果之一,因为他最终提出了一个非常简单的解决方案。这个方案易于理解,无论是高管还是工程师和开发人员都能明白。最终,这个简单方案的效率与那些他本可以花费大量时间构建的复杂方案一样高效

这个案例表明,优秀的数据科学工作通常追求清晰与高效,而非不必要的复杂。


预测藻类爆发:跨学科合作

数据科学常常需要与特定领域的专业知识结合。接下来我们看一个环境科学领域的例子。

在大学期间,我们遇到了一个难题:需要预测藻类水华。这些藻类水华会导致水体毒性上升,给水处理公司带来麻烦。仅凭我们的化学工程背景知识无法进行预测。

因此,我们使用了人工神经网络来预测这些水华再次发生的时间,从而帮助水处理公司更好地应对此问题。

以下是解决此类预测问题的通用思路:

# 伪代码示例:使用机器学习模型进行预测
收集历史环境数据与水华发生记录 -> 训练预测模型(如神经网络) -> 验证模型准确性 -> 部署模型进行未来预测

分析公共交通投诉数据

数据科学家的工作常常始于一个模糊的请求。多伦多的公共交通由多伦多公交委员会(TTC)运营,它是北美地区最大的交通管理机构之一。

有一天,TTC联系我说他们遇到了一个问题。他们拥有投诉数据,希望进行分析,并需要我的帮助。我欣然同意。

我首先询问他们有多少投诉数据。他们回答说“有一些”,也许是五十万条。于是,我们开始了工作。

我拿到数据并开始分析。TTC在数据保存方面做得很好,部分数据是表格形式,另一部分则是非结构化数据

  • 表格数据包括:投诉到达时间、接收人、投诉类型、是否解决、责任方。
  • 非结构化数据主要是往来的电子邮件和传真内容。

想象一下,翻阅五十万封邮件往来并试图从中找到答案。我着手处理,首先想弄清楚:人们为什么会投诉?是否存在某种模式?是否在某些日子投诉量更大?


发现关键洞察:天气与投诉的关联

我以各种格式分析数据,但长达一个月左右的时间里,始终无法找到投诉量在某些日子升高、在另一些日子降低的推动因素。

直到有一天,我在多伦多下公交车时仍在思考这个问题。我下车时没看地面,一脚踩进了一个水坑,一只脚湿到了脚踝,另一只脚却是干的。这让我非常恼火。

就在我走回去的时候,我突然想到:等等,今天下了场突如其来的雨,我毫无准备,所以才会弄湿。极端天气与TTC收到的投诉类型之间是否存在关联?

我立刻前往加拿大环境部的网站,获取了关于降雨、降水、风速等数据。在那里,我发现了非常有趣的现象。

投诉量最高的前10天,恰恰是天气恶劣的日子:突如其来的降雨、气温骤降、大量降雪、大风天。


呈现分析结果:好消息与坏消息

我带着发现回到TTC高管面前,告诉他们:“我有一个好消息和一个坏消息。”

  • 好消息是:我知道了为什么人们会在某些日子投诉激增,我找到了原因。
  • 坏消息是:对此你们无能为力。

这个结论虽然简单,却揭示了数据之外的真实世界关联,为TTC理解用户行为提供了关键视角。


本节总结

本节课中,我们一起学习了数据科学家在日常工作中的三个真实案例:

  1. 构建推荐引擎:追求简洁、高效且易于理解的解决方案。
  2. 预测环境问题:运用人工神经网络等工具,解决跨学科的实际挑战。
  3. 分析投诉数据:通过结合外部数据(天气),从海量结构化与非结构化数据中发现不明显的核心洞察。

这些案例表明,数据科学的核心在于解决问题。它需要技术技能、坚持不懈的好奇心,以及将数据与现实世界现象联系起来的创造力。最终的目标是提供清晰的见解,无论这些见解是带来可行动的方案,还是仅仅是对现象的理解。

006:传统问题与数据科学解决方案 🚀

在本节课中,我们将探讨组织如何利用海量数据,通过数据科学为传统问题寻找创新且最优的解决方案。我们将通过三个不同领域的实例,了解数据科学从发现问题到实施策略的全过程。


组织能够以日益增多的方式,利用如今几乎无限量的可用数据。然而,所有组织最终运用数据科学的目的是一致的:为现有问题发现最优解决方案。

上一节我们了解了数据科学的广泛应用潜力,本节中我们来看看数据科学如何具体解决传统难题。以下是三个数据科学为老问题提供创新解决方案的实例。

交通运输领域的革新 🚕

在交通运输领域,Uber通过收集实时用户数据,来发现可用司机数量、判断是否需要更多司机,以及是否应启动动态定价以吸引更多司机。Uber利用数据,旨在以乘客愿意支付的成本,在正确的时间和地点配置正确数量的司机。

在另一项与交通相关的数据科学应用中,多伦多交通委员会在解决交通流量这一老问题上取得了巨大进展。他们运用数据科学工具和分析,重构了城市内及周边的交通流。以下是他们采取的具体步骤:

  • 收集数据以更好地理解有轨电车运营并识别需要干预的区域。
  • 分析客户投诉数据。
  • 利用探测数据更好地了解主干道的交通性能。
  • 组建专门团队,以更好地利用大数据进行运营规划和评估。

通过专注于高峰时段的疏导并识别最拥堵的路线,通勤者每月因交通拥堵损失的时间从2010年的4.75小时,降至2014年中的3小时。

应对环境挑战 🌊

面对环境问题,数据科学也能发挥积极作用。

淡水湖满足了人类和生态的多种需求,例如提供饮用水和生产食物。但全球各地的湖泊都受到有害蓝藻水华日益频发的威胁。

为了解决这个长期存在的难题,有许多项目和正在进行的研究。在美国,一个由从缅因州到南卡罗来纳州多个研究中心的科学家组成的团队,正在开发和部署高科技工具来探索东海岸湖泊中的蓝藻。以下是他们采用的方法:

  • 使用机器人船、浮标和配备摄像头的无人机。
  • 在检测到蓝藻的湖泊中测量物理、化学和生物数据。
  • 收集与湖泊及有害水华发展相关的大量数据。

该项目同时也在构建新的算法模型来评估研究结果。收集到的信息将有助于更好地预测蓝藻水华发生的时间和地点,从而能够采取主动措施来保护娱乐湖泊和饮用水源湖泊的公众健康。

这种跨学科的训练,为下一代科学家使用恰当的现代化数据科学工具解决社会问题做好了准备。

数据科学的通用路径 🔄

从上述案例可以看出,要获得更好的解决方案,需要经历一个系统的过程。这需要收集大量数据,进行清理和准备,然后对其进行分析,以获得为当今企业开发更优解决方案所需的洞察。

那么,如何获得一个高效且更优的解决方案呢?以下是关键的步骤:

  • 识别问题:必须明确问题并对其建立清晰的理解。
  • 收集数据:为分析收集数据。
  • 选择工具:识别需要使用的正确工具。
  • 制定策略:制定数据策略。

案例研究也有助于定制潜在的解决方案。一旦这些条件具备且可用数据被提取出来,你就可以开发一个机器学习模型。一个组织需要时间来完善其运用数据科学的数据策略最佳实践,但其带来的效益是值得的。


本节课中,我们一起学习了数据科学如何通过系统性的数据收集、分析和建模,为交通、环境等领域的传统问题提供创新且高效的解决方案。关键在于明确问题、收集数据、选用合适工具并制定策略,最终通过持续优化获得显著效益。

007:数据科学主题与算法 📊

在本节课中,我们将学习数据科学中的几个核心主题与算法。我们将探讨数据科学家常用的技术、数据结构类型,并通过一个日常生活的例子来深入理解回归分析这一基础概念。


数据科学家偏爱的主题与算法 🧠

上一节我们介绍了数据科学的广泛领域,本节中我们来看看数据科学家们个人偏好的具体主题与算法。

以下是几位数据科学家分享他们特别感兴趣的主题:

  • 回归分析:回归分析是帮助理解数据的基础概念之一。
  • 数据可视化:数据可视化是向不熟悉数据科学的人传递信息的关键要素。
  • 人工神经网络:对神经网络充满热情,因为我们可以向自然学习很多。当我们尝试模仿大脑时,可以将这种生物行为应用于算法。
  • R语言数据可视化:热衷于使用R进行数据可视化。
  • 最近邻算法:这是最简单的算法之一,但很多时候它能比一些过度复杂的算法获得更好的结果。当然,它也可能出现过拟合。

结构化与非结构化数据 📁

理解了常用算法后,我们需要认识处理不同类型数据的方法。数据主要分为两类:结构化数据和非结构化数据。

以下是两者的关键区别:

  • 结构化数据:类似于表格数据,格式如Microsoft Excel。数据按行和列组织。
  • 非结构化数据:主要来自网络,不是表格形式,没有行和列的结构。它可能是文本、视频或音频。处理这类数据需要更复杂的算法来提取信息。实际上,我们经常花费大量时间和精力从非结构化数据中提取出一些结构,然后再进行分析。

简单来说:如果你的数据能整齐地放入表格、行和列中,那就是结构化数据。如果你在处理网络日志或试图从海量网页中获取信息,那就是非结构化数据,提取信息需要更多努力。


回归分析:一个简单的解释 🚖

在众多算法中,回归分析是统计学和机器学习的基石。有成千上万的书籍和讲座讲述回归,但它们常常陷入数据、模型和统计分布中,让解释变得复杂。

让我们忘掉那些复杂的术语,用最简单的方式解释回归。

如果你曾乘坐出租车,你就已经理解了回归。原理如下:

  1. 你坐进出租车的那一刻,计价器上显示一个固定金额,例如 $2.50。无论车是否移动或你是否下车,只要你上了车,你就需要支付这个基础费用。这是一个常数
  2. 当车开始行驶后,每行驶一定距离(如每100米),车费就会增加一定金额。因此,在基础费用之上,你支付的金额与距离存在一种关系。
  3. 如果车没有移动,比如遇到交通堵塞,那么每增加一分钟,你也需要支付更多费用。所以,时间增加,车费也会增加。

在整个过程中,你已经支付了一个基础车费(常数),同时车费还随着距离时间的增加而增加。

这就是回归分析。回归分析告诉你基础车费(常数)是多少,以及时间与车费、距离与车费之间的关系。在只知道人们行驶了多远、支付了多少钱的情况下,回归分析可以计算出那个你原本不知道的常数($2.50),并计算出车费与距离、车费与时间之间的关系。

用公式可以简要表示为:
总车费 = 基础车费 + a × 距离 + b × 时间
其中,基础车费是常数,ab 是回归系数,表示距离和时间对车费的贡献率。


总结 ✨

本节课中我们一起学习了数据科学中的几个关键主题。我们了解了数据科学家们青睐的算法,如回归分析、数据可视化和神经网络。我们区分了结构化数据与非结构化数据的不同处理方式。最后,我们通过乘坐出租车的日常例子,深入浅出地理解了回归分析的核心思想——发现变量之间的相互关系并确定一个基础常数。

掌握这些基础概念和算法,是迈向数据科学实践的重要第一步。

008:数据科学中的云计算 ☁️

在本节课中,我们将要学习云计算在数据科学中的核心作用。云计算如何帮助数据科学家突破本地硬件限制,实现高效的数据存储、处理与协作。


云计算对数据科学家而言至关重要。它允许你将数据和信息上传至云端,即一个中央存储系统。这使你能够绕过所用计算机和系统的物理限制,并利用先进机器的分析和存储能力,而这些机器不一定是你自己或你公司的设备。

云计算不仅允许你将大量数据存储在例如加利福尼亚州或内华达州的服务器上,还允许你部署非常先进的计算算法,并利用不属于你的机器进行高性能计算。

可以这样理解:你有一些信息无法本地存储,于是将其发送到存储空间(我们称之为云端)。你需要使用的算法本地没有,但在云端这些算法是可用的。因此,你可以在非常大的数据集上部署这些算法,即使你自己的系统、机器或计算环境原本无法支持这样做。所以,云计算非常出色。

云计算的另一个优势是,它允许多个实体同时处理相同的数据。你可以与在德国的同事、印度的另一个团队以及加纳的另一个团队共同处理同一份数据。他们能够协同工作,是因为信息、算法、工具、答案和结果等所需的一切,都集中在一个我们称之为云端的地方。因此,云计算非常出色。


上一节我们介绍了云计算的基本概念,本节中我们来看看云计算带来的具体优势。

使用云计算使你能够即时访问开源技术,例如 Apache Spark,而无需在本地安装和配置它们。

使用云计算还能让你访问最新的工具和库,无需担心维护和更新问题。

云计算随时随地可用,跨越所有时区。你可以从笔记本电脑、平板电脑甚至手机上使用基于云的技术,这使得协作比以往任何时候都更容易。

多个协作者或团队可以同时访问数据,共同致力于产出解决方案。


以下是云计算平台的一些具体示例:

一些大型科技公司提供云平台,让你可以在预构建的环境中熟悉基于云的技术。IBM 提供 IBM Cloud,亚马逊提供 Amazon Web Services (AWS),谷歌提供 Google Cloud Platform

IBM 还通过 Skills Network Labs (SN Labs) 为学习者提供服务。注册 IBM 开发者技能网络上的任何学习门户后,你便可以访问如 Jupyter NotebooksSpark 集群 等工具,从而创建自己的数据科学项目并开发解决方案。


随着实践和熟悉,你将发现云计算如何显著提升数据科学家的工作效率。


本节课中我们一起学习了云计算在数据科学中的关键作用。它通过提供可扩展的存储、强大的计算资源和便捷的协作环境,帮助数据科学家克服本地限制,更高效地处理数据和开发解决方案。掌握云平台的使用是现代数据科学家的重要技能。

009:大数据基础架构 🏗️

在本节课中,我们将要学习大数据的基础概念及其核心特征。我们将了解大数据如何定义,以及它为何在当今数字世界中至关重要。

在这个数字世界中,每个人都留下了痕迹,从我们的出行习惯到锻炼和娱乐活动。我们日常交互的联网设备数量不断增加,记录了大量关于我们的数据。

甚至有一个专门的术语来描述它:大数据。安永(Ernst & Young)提供了以下定义:大数据指的是由人、工具和机器产生的动态、海量且多样化的数据。它需要新颖、创新且可扩展的技术来收集、存储和分析处理所收集的海量数据,以获取与消费者、风险、利润、绩效、生产力管理和提升股东价值相关的实时商业洞察。

对于大数据并没有一个统一的定义,但在不同的定义中存在一些共同的要素。

大数据的5V特征 📊

这些要素通常被称为大数据的 5V 特征。

速度(Velocity)⚡

速度指的是数据积累的速率。数据正以极快的速度生成,这个过程永不停歇。近实时或实时的流处理技术,以及本地和基于云的技术,可以非常快速地处理信息。

容量(Volume)💾

容量指的是数据的规模或存储数据量的增长。驱动容量增长的因素包括数据源的增加、更高分辨率的传感器以及可扩展的基础设施。

多样性(Variety)🎭

多样性指的是数据的多样性。结构化数据可以整齐地放入行和列以及关系型数据库中,而非结构化数据则没有预定义的组织方式,例如推文、博客文章、图片、数字和视频。多样性也反映了数据来自不同的来源,包括机器、人员和流程,既有组织内部的,也有外部的。驱动因素包括移动技术、社交媒体、可穿戴技术、地理技术、视频等等。

真实性(Veracity)✅

真实性指的是数据的质量和来源,以及其与事实和准确性的符合程度。属性包括一致性、完整性、完整性和模糊性。驱动因素包括成本和对海量数据可追溯性的需求。在数字时代,关于数据准确性的争论非常激烈:信息是真实的还是虚假的?

价值(Value)💰

价值指的是我们将数据转化为价值的能力和需求。价值不仅仅是利润,它还可能具有医疗或社会效益,以及客户、员工或个人满意度。人们投入时间理解大数据的主要原因正是为了从中获取价值。

5V特征实例解析 🔍

上一节我们介绍了大数据的5V特征,本节中我们来看看这些特征在现实中的具体例子。

以下是每个V特征对应的实例:

  • 速度:每分钟都有数小时的视频被上传到YouTube,这些都在生成数据。试想一下,数据在数小时、数天和数年内积累的速度有多快。
  • 容量:世界人口约70亿,其中绝大多数人现在都在使用数字设备,如手机、台式机和笔记本电脑、可穿戴设备等。这些设备每天生成、捕获和存储大约2.5万亿字节的数据,相当于1000万张蓝光DVD。
  • 多样性:让我们想想不同类型的数据:文本、图片、电影、声音、来自可穿戴设备的健康数据,以及来自物联网设备的各种不同类型的数据。
  • 真实性:80%的数据被认为是非结构化的,我们必须设计方法来产生可靠和准确的洞察。数据必须被分类、分析和可视化。
  • 价值:数据科学家从大数据中获取洞察,并应对这些海量数据集带来的挑战。所收集数据的规模意味着使用传统的数据分析工具是不可行的。

大数据处理工具与技术 🛠️

上一节我们看到了大数据特征的具体表现,本节中我们来看看处理这些海量数据所需的工具和技术。

如今的数据科学家从大数据中获取洞察,并应对这些海量数据集带来的挑战。所收集数据的规模意味着使用传统的数据分析工具是不可行的。然而,利用分布式计算能力的替代工具可以克服这个问题。例如,Apache SparkHadoop及其生态系统提供了跨分布式计算资源提取、加载、分析和处理数据的方法,从而提供新的洞察和知识。

这为组织提供了更多与其客户连接的方式,并丰富了他们提供的服务。

总结 📝

本节课中我们一起学习了大数据的基础架构。我们了解到,在数字世界中,我们的行为不断产生海量、多样、高速的数据,即大数据。我们深入探讨了定义大数据的五个核心特征:速度(Velocity)容量(Volume)多样性(Variety)真实性(Veracity)价值(Value)。通过实例,我们看到了这些特征在现实中的体现。最后,我们认识到处理如此规模的数据需要像 Apache SparkHadoop 这样的分布式计算工具。所以,下次当你戴上智能手表、解锁智能手机或追踪锻炼数据时,请记住,你的数据可能正在开启一段通过大数据分析环游世界并最终回馈于你的旅程。

010:Hadoop生态系统 🗂️

在本节课中,我们将要学习大数据处理的核心架构——Hadoop生态系统。我们将了解它如何解决传统计算在处理海量数据时遇到的瓶颈,以及它如何通过分布式计算模型实现高效的数据处理。


传统计算与大数据处理的差异

传统的数据处理方式是将数据移动到计算机中,然后运行程序进行处理。

公式表示:

传统处理:数据 → 计算机 → 程序运行 → 结果

然而,当数据量变得非常庞大时,这种集中式处理方式会遇到性能瓶颈。

上一节我们介绍了传统计算的局限性,本节中我们来看看谷歌是如何解决这个问题的。


MapReduce:分布式计算的核心思想

拉里·佩奇和谢尔盖·布林提出了一个非常简单的解决方案:他们将数据切片,分布到数千台计算机上,并复制每个数据片段。

代码描述其过程:

# 1. 数据切片与分布
data_slices = split_data(large_dataset)
distribute_to_cluster(data_slices)

# 2. 发送相同程序到所有计算机
send_program_to_all_nodes(program)

# 3. 各节点处理本地数据
results = []
for node in cluster:
    result = node.run_program_on_local_slice()
    results.append(result)

# 4. 汇总与规约结果
final_result = sort_and_reduce(results)

这个过程包含两个主要阶段:

  • Map(映射)阶段:每个计算机对本地数据片段运行程序,进行初步处理。
  • Reduce(归约)阶段:将各节点的结果收集、排序,并进行汇总处理。

这个简单的概念使得处理超大规模数据集和多种复杂问题成为可能。


Hadoop生态系统的诞生与线性扩展优势

雅虎公司聘请了道格·卡丁,他基于谷歌的大数据架构开发了一个开源实现,这就是Hadoop

Hadoop生态系统的一个重要优势是线性扩展

公式表示:

性能 ∝ 服务器数量
处理数据量 ∝ 服务器数量

这意味着,服务器数量增加一倍,处理性能和数据承载能力也相应增加一倍。这为所有主要社交媒体公司突破了数据处理瓶颈。

如今,大数据生态系统中已有成百上千家公司参与其中。


数据科学的构成与演进

数据科学的许多组成部分其实已经存在数十年。

以下是其核心基础领域:

  • 概率与统计
  • 代数与线性代数
  • 编程
  • 数据库

过去,我们受限于计算能力,通常只能通过采样数据来检验假设。现在,凭借强大的计算能力,我们可以应用机器学习等新技术,直接在海量数据集中寻找模式。

模式转变:

从:假设检验 → 到:模式发现(进而可能生成假设)

这种从“验证假设”到“发现模式”的转变,有时会让传统统计学家感到不适,但它是分析社交媒体等超大规模数据集的必要方法。


决策科学与数据科学的兴起

我们看到,计算机科学、概率统计、数学等传统领域正融合在一起,形成了所谓的“决策科学”或“数据科学”。

例如,纽约大学斯特恩商学院因为同时拥有强大的统计学系、运营管理系和信息系统系,恰好具备了涵盖计算机科学到运筹学的广泛能力,从而能够很好地拥抱这一趋势。

数据科学这个术语在大约五年前还鲜为人知。通过搜索引擎的趋势分析可以看到,它在近几年出现了爆发式增长,这与七八年前“大数据”一词的流行轨迹相似。

数据科学的具体定义仍在演变中。我们清楚它的组成部分,但它本身仍在不断变化和成长。例如,近三年,深度学习(一种多层神经网络技术)被加入了数据科学的工具箱。

神经网络技术其实已有二三十年历史,但早期应用有限。如今,多伦多大学等机构的研究推动了多层神经网络的发展,这项技术正被谷歌、Facebook等公司广泛应用,并迅速扩展。


本节课中我们一起学习了Hadoop生态系统如何通过MapReduce模型实现大数据的分布式处理,了解了数据科学如何融合传统学科并持续演进,以及决策科学在商业分析中的兴起。我们看到了计算能力的提升如何催生了从假设检验到模式发现的分析范式转变。

011:大数据驱动数字化转型 📊➡️🚀

在本节课中,我们将要学习数字化转型如何影响商业运营,以及大数据和数据科学在其中扮演的核心驱动角色。我们将通过具体案例,理解数字化转型不仅是技术的应用,更是组织与文化的深刻变革。


数字化转型影响商业运营,它更新现有的流程与操作,并创造新的流程以利用新技术带来的益处。

这种数字化变革将数字技术整合到组织的所有领域,从根本上改变了组织的运作方式以及其为客户创造价值的方式。这是一场由数据科学,特别是大数据驱动的组织与文化变革。



海量数据的可用性以及分析这些数据带来的竞争优势,已引发了许多行业的数字化转型。例如,Netflix从一家邮寄DVD租赁公司转型为全球领先的视频流媒体提供商。




休斯顿火箭队(NBA球队)利用头顶摄像机收集的数据来分析最高效的战术,而Lathanza(应为“Lathanza”或指代某公司,原文可能有误,保留原词)则通过分析客户数据来改善其服务。我们周围的所有组织都在发生根本性的改变。



上一节我们了解了数字化转型的普遍影响,本节中我们来看一个具体案例,了解大数据如何不仅在一个组织内,甚至在整个行业中触发数字化转型。

在2018年,美国职业篮球协会(NBA)的休斯顿火箭队利用大数据提升了比赛水平。火箭队是首批安装视频追踪系统的四支NBA球队之一,该系统从比赛中采集原始数据。他们分析视频追踪数据,研究哪些战术能提供最佳的得分机会,并有了一个惊人的发现。


数据分析揭示,提供最佳高分机会的投篮是:两分线内的扣篮三分线外的远投,而不是两分线内的长距离两分投篮。这一发现彻底改变了球队的比赛策略,他们开始尝试更多的三分球。在2017-18赛季,火箭队投中了比NBA历史上任何其他球队都多的三分球,这也是他们赢得比任何对手都多比赛的一个重要原因。

在篮球领域,大数据改变了球队争取胜利的方式,从而变革了这项运动的打法。


数字化转型不仅仅是现有流程的数字化复制。

通过对业务运作方式的深入分析,组织能够发现如何改进其流程和操作,并收获将数据科学整合到工作流中的益处。


大多数组织意识到,数字化转型将要求他们对数据、员工和客户的态度进行根本性改变,并将影响组织文化。

数字化转型影响组织的方方面面,因此为确保成功,需要由最高层的决策者来推动。

首席执行官的支持对数字化转型过程至关重要,首席信息官和新兴的首席数据官的角色支持也同样重要。但他们也需要获得控制预算、人事决策和日常优先事项的高管们的支持。

这是一个全组织的过程,必须获得所有人的支持才能成功。毫无疑问,处理这一过程中出现的所有问题需要新的思维方式,但数字化转型是现在和未来取得成功的方式。



总结

本节课中我们一起学习了数字化转型的核心概念。我们了解到,数字化转型是由大数据和分析驱动的深刻变革,它不仅仅是技术的升级,更是组织流程、文化和战略的全面重塑。通过休斯顿火箭队的案例,我们看到了数据分析如何直接改变竞争策略并带来成功。最后,我们认识到成功的数字化转型需要自上而下的全力支持以及全组织的参与。

012:大数据时代的数据科学技能

在本节课中,我们将跟随诺曼·怀特教授的分享,了解在当今大数据环境下,数据科学家需要掌握的核心技能与实践环境。课程将重点介绍一个基于云端和标准化工具的教学案例,展示如何高效地进行数据科学教育与研究。


我是诺曼·怀特,是斯特恩商学院信息运营与管理科学系的临床教员。我在斯特恩商学院已经工作了很长时间,几乎从大学毕业后就来到这里。我是一个对技术充满热情的人,喜欢在业余时间钻研技术。

目前,我是斯特恩研究计算中心的主任。我们拥有一个私有云平台,运行着多种不同的系统。许多需要特定硬件和软件的教员或博士生会来找我们。我们会为他们启动并配置虚拟机,提供帮助和建议。斯特恩商学院几乎所有的数据科学家及其博士生都在大量使用我们的设施。

我本科攻读的是应用物理学。在读本科期间,我选修了许多经济学课程,因此最终决定去商学院深造。那是在计算机发展的早期阶段,我对计算机产生了浓厚兴趣。于是我来到了当时位于市中心的纽约大学商学院(即现在的斯特恩商学院)。那里有一个小型计算机中心,我决定在那里学习两件事:一是学习编程(我在大学只上过一门编程课),二是学习盲打。我从未真正学会盲打,或许曾经会过,但现在又回到了“二指禅”的打字方式。不过,我成为了一名自学成才的程序员。后来,我在IBM参加了许多课程,因为在我攻读经济学和统计学博士学位期间,最终成为了该计算机中心的主任。

1973年,学院成立了一个名为“计算机应用与信息系统”的系,我是该系的首批教员之一。自那以后,我一直在这里工作。


我的典型周一通常是这样的:我大约在上午11点到达学校。在家时我已经处理过邮件,到校后,我周一有两节课。下午6点,我有一门“基于Web系统的设计与开发”课程。下午2点,我有一门“数据处理”课程。这门课程完全基于 Python Notebooks 进行教学。

我们首先从Unix和Linux的基础知识开始,让学生熟悉这些环境。然后我们会学习一些Python编程、正则表达式、大量的关系型数据库知识,以及Python的Pandas库。Pandas就像是Python中的Excel,它允许你在Python中进行数学和统计计算。最后,课程会以大数据技术收尾,正如你们可能知道的,我是这项技术的倡导者。

学生们每周都有作业。我将他们分成小组,并且他们需要在学期末完成一个大型项目。他们确实做出了一些非常酷的东西。

是的,事实上,整个课程都使用 Jupyter Notebooks 进行教学。每个学生在亚马逊云服务上都拥有自己的虚拟机。我们预先配置好所有机器,他们获得一个标准镜像,其中包含了课程的所有材料。这些材料要么已经加载在镜像中,要么在Jupyter Notebook里提供了下载或更新服务器所需软件的命令。

因此,每个人都在完全相同的环境中学习。无论他们使用的是Mac、Windows电脑,或者电脑型号有多旧,都没有关系。每个人都能完成课程中的所有任务。


🎯 核心技能与环境总结

本节课中,我们一起学习了在大数据时代进行数据科学工作的关键要素:

  1. 技术基础:掌握Unix/Linux操作环境是起点。
  2. 编程与工具Python 是核心语言,配合 Pandas 库进行数据分析,并使用 Jupyter Notebooks 作为交互式开发环境。
  3. 数据管理:需要理解关系型数据库和正则表达式等数据处理技术。
  4. 云端实践:利用云平台(如 Amazon Web Services)提供标准化、可扩展的计算环境,确保协作与学习的一致性。
  5. 项目驱动学习:通过团队合作和期末项目,将技能应用于解决实际问题。

这种结合了标准化工具、云端基础设施和项目实践的教学方法,为培养符合大数据时代要求的数据科学家提供了有效路径。

013:数据科学家访谈 🎙️

在本节课中,我们将通过一位纽约大学数据科学家的访谈,了解数据科学家的背景要求、数据科学的兴起原因以及“大数据”的核心概念。访谈内容将帮助我们理解数据科学领域的现状与未来趋势。


背景要求:计算思维是关键 🧠

上一节我们探讨了数据科学的定义,本节中我们来看看成为一名数据科学家需要具备哪些基础背景。

每个人都至少懂一点编程。他们都有一些编程背景,至少懂一点。其中一些人编程经验丰富。

以下是访谈中提到的几种典型背景:

  • 一些人拥有计算机科学硕士学位。
  • 一些人曾是来自技术领域的MBA学生,并且每天编程。
  • 另一些人可能只是在大学里上过一门编程课,那可能是四、五年前的事了。

但至少他们都具备计算思维。我认为这是他们最需要的东西。


领域的兴起:需求与工具的革新 📈

了解了从业者的背景后,我们自然会问:为什么数据科学会突然变得如此重要?

数据科学和商业分析在过去的四、五年里已成为非常热门的学科。我们有了新工具和新方法,并且拥有了海量数据,传统技术根本无法有效存储和处理这些数据。我认为消息已经传开了。

我认为,起初是公司和雇主们理解了这种需求,尤其是在某些特定领域。我记得三年前和一家大银行谈论大数据时,银行里只有一个小团队,其中一个人做了一点尝试,搭建了一个小集群。现在,同一家银行拥有五、六个主要的大数据集群,他们正在将所有信用卡数据存入其中,并运用各种数据科学技术对这些数据进行全方位、多角度的深入分析。

两年前,或者可能是去年,我们本科的“数据处理”课程只有28名学生。今年,这门课有140名学生。这意味着家长们也开始了解到这个领域,因为我们明白,对于支付高昂学费的本科生家长来说,他们会告诉自己的子女应该成为会计师,或者进入金融服务或市场营销领域,因为那里赚钱。现在他们得到的信息是,也许应该在高中多上一些STEM(科学、技术、工程、数学)课程,为进入数据科学或分析扮演越来越重要角色的领域做好准备。


核心概念:什么是“大数据”? 💾

随着数据科学兴起,“大数据”成为一个核心术语。那么,如何定义它呢?

这取决于你是谁。我对大数据有自己的定义。

我的定义是:数据量足够大、具有足够体积和速度,以至于无法用传统数据库系统处理的数据。

我们的一些统计学家认为,大数据是无法装进U盘的数据。但对我来说,大数据始于谷歌。当时谷歌试图解决他们的网页排名算法问题,拉里·佩奇和谢尔盖·布林想要找出方法。当时没有任何现成技术,他们试图存储世界上所有的网页,但没有技术能做到这一点。于是他们开发了这种方法,后来被Hadoop借鉴。这就是所有大型大数据集群的起源。

但大数据现在已经扩展到如何进行分析的领域。出现了用于处理这些极其庞大数据集的新分析技术和统计技术。

我们可能稍后会在这里讨论深度学习。


总结 ✨

本节课中,我们一起学习了数据科学家的典型背景、数据科学领域近年兴起的原因,以及“大数据”的核心定义。关键点在于,计算思维是基础,而领域的爆发源于数据量的激增、新工具的出现以及市场需求的觉醒。理解“大数据”不仅关乎其规模,更在于它催生了全新的处理和分析范式。

014:核心概念辨析

在本节课中,我们将学习数据科学领域中几个容易混淆的核心概念。我们将逐一辨析大数据、数据挖掘、机器学习、深度学习、人工神经网络以及数据科学与人工智能之间的关系,帮助你清晰地理解它们各自的定义、特点与区别。


🗃️ 大数据

在数据科学领域,许多术语经常被互换使用。首先,我们来探讨最常见的一个:大数据。

大数据指的是那些体量巨大、生成迅速且类型多样的数据集,它们超出了传统分析方法(例如使用关系型数据库进行的分析)的处理能力。

分布式网络中强大计算能力的并行发展,以及数据分析新工具和技术的出现,意味着组织现在有能力分析这些海量数据集。新的知识和洞见正变得对所有人可用。大数据通常用5个“V”来描述:速度、体量、多样性、真实性和价值


🔍 数据挖掘

上一节我们介绍了大数据,本节中我们来看看如何从数据中发现价值,即数据挖掘。

数据挖掘是自动搜索和分析数据,以发现先前未揭示模式的过程。它涉及对数据进行预处理,将其准备并转换为合适的格式。完成此步骤后,便可以使用各种工具和技术(从简单的数据可视化工具到机器学习和统计模型)来挖掘和提取洞见与模式。

以下是数据挖掘的关键步骤:

  • 数据预处理:准备和转换数据。
  • 模式挖掘:使用工具和技术提取洞见。
  • 结果应用:将发现的模式用于决策。


🤖 机器学习

理解了如何从数据中挖掘模式后,我们来看一个能让计算机从数据中“学习”并自主决策的技术:机器学习。

机器学习是人工智能的一个子集,它使用计算机算法分析数据,并根据学习到的内容(而非显式编程)做出智能决策。

机器学习算法使用大型数据集进行训练,它们从示例中学习,不遵循基于规则的算法。机器学习使得机器能够自主解决问题,并利用提供的数据做出准确的预测。

其核心思想可以概括为:
模型 = 算法 + 数据
模型通过训练数据学习规律,并对新数据做出预测或决策。


🧠 深度学习

机器学习已经非常强大,而深度学习是其一个更专业的子集,它模拟人脑的工作方式。

深度学习是机器学习的一个专门子集,它使用分层的神经网络来模拟人类的决策过程。

深度学习算法能够标记和分类信息,并识别模式。它使得人工智能系统能够在工作中持续学习,并通过判断决策是否正确来提高结果的质量和准确性。


⚙️ 人工神经网络

深度学习的能力源于其基础架构:人工神经网络。

人工神经网络(通常简称为神经网络)的灵感来源于生物神经网络,尽管其工作方式有很大不同。在人工智能中,神经网络是由称为“神经元”的小型计算单元组成的集合,这些单元接收输入数据,并随着时间的推移学习做出决策。

神经网络通常是深度分层的,这也是深度学习算法随着数据集体量增加而效率更高的原因。相比之下,其他机器学习算法可能会随着数据增加而达到性能瓶颈。


🧩 数据科学与人工智能

现在你已经对几个关键人工智能概念之间的区别有了广泛的理解,还有一个重要的区分需要理解,那就是人工智能与数据科学之间的区别。

数据科学是从大量异构数据中提取知识和洞见的过程与方法。它是一个跨学科领域,涉及数学、统计分析、数据可视化、机器学习等。它使我们能够处理信息、从海量数据中看到模式、发现意义,并利用它来做出推动业务的决策。

数据科学可以使用许多人工智能技术从数据中获取洞见,例如,它可以使用机器学习算法甚至深度学习模型来从数据中提取意义并得出推论。

人工智能和数据科学之间存在一些交互,但两者并非子集关系。相反,数据科学是一个广义术语,涵盖了整个数据处理方法论;而人工智能则包含了让计算机学习如何解决问题和做出智能决策的一切技术。人工智能和数据科学都可能涉及使用大数据,即体量显著巨大的数据。


📝 总结

本节课中我们一起学习了数据科学领域的几个核心概念。我们明确了大数据指的是海量、高速、多样的数据集;数据挖掘是从中自动发现模式的过程;机器学习是让计算机从数据中学习并决策的算法;深度学习是使用神经网络的机器学习子集;人工神经网络是模拟生物神经元的计算模型。最后,我们辨析了数据科学(涵盖从数据中提取洞见的全过程)与人工智能(使机器具备智能决策能力)这两个广泛领域的关系与区别。理解这些概念是进一步深入学习数据科学和人工智能的重要基础。

015:神经网络与深度学习 🧠💻

概述

在本节课中,我们将要学习神经网络与深度学习的基本概念。我们将了解神经网络如何模仿人脑神经元的工作方式,探讨其历史发展、面临的挑战,以及深度学习如何通过强大的计算能力解决这些问题。我们还将看到深度学习在图像识别、语音处理等领域的实际应用。


神经网络:模仿人脑的尝试

上一节我们讨论了数据分析的不同方法,本节中我们来看看一种受生物学启发的计算模型。神经网络是计算机科学尝试模仿真实神经元以及我们大脑实际运作方式的产物。

大约二三十年前,一个神经网络会接收一些输入。这些输入会被馈送到不同的处理节点,节点会对它们进行某种转换、聚合或其他操作,然后数据可能会进入另一层节点。最终,会产生一些输出。我记得曾训练一个神经网络来识别手写数字等东西。

所以,神经网络试图使用计算机程序来模仿神经元,模仿我们的大脑如何使用神经元来处理信息。它模仿大脑、神经元、突触,并构建这些可以被训练的复杂网络。一个神经网络从一些输入和输出开始,你不断输入这些数据,试图找出哪些转换能得到这些输出。你一遍又一遍地重复这个过程,使得这个网络能够收敛。这些输入经过转换最终会得到那些输出。


神经网络的历史与挑战

然而,神经网络面临一个问题。尽管理论存在,并且它们在小问题上确实有效,比如识别手写数字等,但它们的计算量非常大。因此,它们一度不再流行。我大约在15年前就不再教授它们了。


深度学习的兴起

然后,突然间我们开始听到“深度学习”这个词。我听到“深度学习”这个术语时,心想这到底是什么?它似乎能做很多了不起的事情。我谷歌了一下。

本质上,深度学习就是“打了兴奋剂的神经网络”。他们所做的,就是构建了更多层的神经网络,并使用了海量的计算能力来解决它们。就在这次采访前,我遇到营销系的一位年轻教员,她的研究部分基于深度学习。因此,她需要一台配备图形处理单元的计算机,因为进行神经网络所需的所有数学计算,涉及大量的矩阵和线性代数运算。


深度学习的强大能力与应用

但它们现在的能力已经相当强大。我们现在拥有的神经网络和深度学习可以识别语音、识别人脸。我敢保证,美国国家安全局在神经网络方面投入了大量工作。

目前,作为研究计算主任,我在我们南部的数据中心有一小批机器。我上周去那里,看到成堆成堆的戴尔纸箱,侧面都印着GPU标志。GPU是图形处理单元。这所大学里只有一个应用需要200台服务器,每台都配备图形处理单元,而每个图形处理单元的处理能力大约相当于600个核心。这意味着数万个处理核心,我敢保证,这是用于深度学习的。

其中一些最早的应用是语音识别。杨立昆在纽约大学教授深度学习课程,同时也是Facebook的数据科学家。他带着一个笔记本走进教室,笔记本很厚,看起来有点奇怪,因为它里面装了几个图形处理单元。然后他会请全班同学开始对着它说话,在他上课的时候,它就会进行训练。他会训练一个神经网络来识别语音。

以下是深度学习目前能够处理的一些传统任务:

  • 识别语音
  • 识别人脸和图像
  • 对图像进行分类

几乎所有神经网络过去只能在小规模任务上处理的事情,现在它们都能处理非常、非常庞大的任务。它能自行学会区分猫和狗以及不同种类的物体,不需要被明确教导。它只是学习。这就是为什么称之为深度学习。

如果你听到它是如何识别语音和生成语音的,听起来就像一个婴儿在学习说话。你会觉得,天哪,突然之间,一台笨机器在和你说话,并且学会了如何说话。这很酷。


学习深度学习的先决条件

你需要学习一些线性代数。这方面的很多内容都基于矩阵和线性代数。因此,你需要知道如何进行线性代数变换。不过,另一方面,现在有很多现成的软件包可以进行深度学习,它们会为你完成所有线性代数运算。但你应该对底层发生的事情有所了解。

特别是,深度学习需要非常强大的计算能力。这不是你随便在个人笔记本上就能轻松完成的事情,当然你可以用它来尝试和体验。但如果你真想认真地进行深度学习,你必须拥有一些特殊的计算资源。


总结

本节课中,我们一起学习了神经网络与深度学习。我们了解到神经网络如何模仿人脑结构,经历了从计算瓶颈到借助强大算力(如GPU)复兴成为深度学习的过程。我们看到深度学习在语音和图像识别等领域取得了突破性进展,能够从数据中自行学习特征。同时,我们也认识到深入理解其背后的线性代数原理以及拥有强大计算资源对于进行严肃的深度学习研究至关重要。

016:机器学习应用场景 🧠

在本节课中,我们将探讨机器学习在现实世界中的几个关键应用场景。我们将了解分类、聚类分析和预测分析等核心概念,并特别关注它们在金融科技(Fintech)领域的具体应用,如推荐系统和欺诈检测。


分类与推荐系统

上一节我们介绍了机器学习的基本概念,本节中我们来看看它的一个主要应用:分类。分类技术是许多系统的基础,其中推荐系统尤为突出。

推荐系统通过分析用户的历史行为(例如观看记录或关注列表),预测并推荐用户可能感兴趣的新内容或关联项目。

以下是推荐系统运作的一个简化逻辑:

# 伪代码示例:基于用户历史进行推荐
if 用户看过节目A:
    推荐 与节目A相似的节目B
elif 用户关注了人物X:
    推荐 与人物X相关的人物Y

聚类分析与市场研究

除了分类,聚类分析是机器学习的另一个重要领域。它试图从数据中发现内在的分组结构。

一个经典的历史应用是“购物篮分析”,即分析哪些商品倾向于被一起购买。过去这在计算上非常困难,但现在借助机器学习技术可以轻松实现。

预测分析与技术工具

预测分析是机器学习的一个重要分支,它使用新的技术来预测未来事件,其中一些方法(如决策树、贝叶斯分析)与传统统计学思路不同。

这些技术的优势在于,如今在R等软件包中,使用者无需精通算法实现的所有细节,但必须理解其核心思想与应用权衡。

以下是需要理解的关键权衡:

  • 精确率 vs. 召回率:在模型评估中需要平衡的指标。
  • 过采样与过拟合问题:数据处理不当会导致模型在训练数据上表现完美,但在新数据上表现糟糕。

因此,数据科学从业者或许不必深究每种技术的数学细节,但必须清楚不同选择带来的利弊。

机器学习在金融科技中的应用

了解了这些基础概念后,我们来看看它们在金融科技领域的两大具体应用。

应用一:个性化推荐

在金融科技领域,推荐系统的逻辑与Netflix或Facebook类似,但推荐对象变成了金融产品或投资思路。

例如,如果一个投资专业人士研究了某个投资想法,系统可以基于机器学习模型,推荐其查看资产类别、公司类型或投资策略相似的其他投资想法。

应用二:实时欺诈检测

另一个至关重要,尤其在零售银行领域广泛应用的是欺诈检测。

其核心是一个实时机器学习问题:系统必须从所有历史交易数据中学习并构建模型。当一笔新的信用卡交易发生时,系统需立即进行计算和判断。

以下是其决策流程:

  1. 模型基于历史数据学习正常与欺诈交易的模式。
  2. 当新交易产生时,模型快速计算其特征。
  3. 系统输出判断:交易正常或存在欺诈风险。
  4. 高风险交易将被路由至人工审核团队进行进一步检查。

本节课中我们一起学习了机器学习的几个核心应用场景。我们从基础的分类和推荐系统出发,探讨了聚类分析在市场研究中的作用,并理解了预测分析中的关键权衡。最后,我们深入了解了这些技术如何在金融科技领域驱动个性化推荐和实时的欺诈检测系统。掌握这些应用场景,有助于我们理解机器学习如何解决现实世界中的复杂问题。

017:数据科学拯救生命案例 🩺🌪️

在本节课中,我们将学习数据科学如何通过分析海量数据,在医疗健康和灾害预警等关键领域产生巨大影响,甚至拯救生命。

概述:数据科学的影响力

运用数据科学技术来理解和分析当今可用的庞大数据集,对人类生活产生了巨大影响。

它能够提供有针对性的信息,帮助医疗保健专业人员为患者提供最佳治疗,或帮助预测自然灾害,使人们能够提前做好准备,此外还有许多其他应用。

数据科学在医疗健康领域的应用

上一节我们了解了数据科学的广泛影响力,本节中我们来看看它在医疗健康领域的具体应用。

在医疗保健领域,数据科学家利用从数据挖掘数据建模统计学机器学习中发展出的预测分析技术,为患者寻找最佳治疗方案。这类预测分析会检查疾病的所有已知因素。

以下是预测分析在医疗中的关键作用:

  • 它检查包括基因标记、相关病症和环境因素在内的所有疾病相关因素。
  • 然后,它会推荐合适的检查、可行的试验以及建议的治疗方案。

每位医生都拥有通过自身学习、兴趣和经验积累的知识库。

而使用预测分析的数据科学系统能确保所有医生也能获取关于疾病的最新信息,以及为特定患者量身定制的检查和治疗计划。借助这类系统,每位医生都能获取相同的知识,从而能够持续提供最佳选择,改善患者的治疗结果。

案例分析:克服医疗信息壁垒

为了更具体地说明,我们来看一个案例。

例如,波士顿咨询集团与医疗诊断公司行业协会AVM DX进行的一项研究,调查了为患有特定癌症和特定基因标记的患者采用可能挽救生命的诊断测试所面临的障碍。研究发现,患者能否获得特定测试的最大影响因素是其肿瘤科医生,而该医生可能知道也可能不知道这项测试及其与基因标记的关系。

通过数据科学工具提供额外信息,可以让医生了解到对特定患者最有帮助的检查和治疗方法。

数据挖掘与医疗研究

除了直接辅助诊疗,数据科学还为医学研究开辟了新途径。

探索其他数据挖掘方式的机会很多,例如从电子病历中挖掘数据用于不同类型的医学研究。像芝加哥郊区的北岸大学医疗系统这样的机构,作为电子病历系统实施的领导者,现在也提供数据挖掘方面的指导。

它是美国第一家因住院和门诊护理的电子病历部署达到最高水平而获奖的医疗保健提供商。这项卓越的工作产生了大量可用于创新分析研究的匿名化数据。

开发更复杂的大数据分析能力,有助于医疗保健组织在数据科学的推动下,从基本的描述性分析迈向预测性洞察。

数据科学在灾害预警领域的应用

在了解了数据科学如何改善医疗后,我们再来看看它在另一个关乎生命的领域——灾害预警中的应用。

在防灾准备领域,利用数据科学工具拯救生命的能力已发展多年。预测分析工具的使用正在不断改进,并以多种方式提供新的数据分析,比以往任何时候都更快地向人群发出危险警报。

预测自然灾害

高质量的大型数据集可用于预测多种类型的自然灾害,这对成千上万人的生死至关重要。借助数据科学,可以预测地震、飓风和龙卷风、洪水以及火山喷发。

创新数据来源:社交媒体

预测的准确性离不开多元化的数据。近期,英国华威大学的研究利用社交媒体内容(如照片和关键词)来追踪洪水、飓风和其他天气事件的发展。当这些数据与科学家和气象站记录的信息相结合时,可用于改进对局部天气事件的预测。

数据科学教育的重要性

鉴于这些知识的实际效益至关重要,学校开始将这类数据科学教育纳入课程。例如,芝加哥大学格雷厄姆学院就开设了威胁与响应管理科学硕士课程。

总结

本节课中,我们一起学习了数据科学在现实世界中的强大应用。数据科学工具使组织能够分析来自广泛不同来源的海量数据,并以允许数据科学家获得新知识的方式呈现这些信息,在某些情况下,能够拯救数百人的生命。

018:企业数据科学实施路径 📊

在本节课中,我们将学习企业如何有效实施数据科学。核心在于理解数据是驱动一切分析和改进的基础,并探讨从数据收集到团队构建的关键步骤。


对企业而言,他们深知一个道理:如果无法衡量某事物,就无法改进它。

如果无法衡量成本,就无法降低成本。如果无法衡量利润,就无法增加利润。

因此,公司要做的第一件事就是开始记录信息,开始捕获数据。

以下是企业启动数据科学实践的首要步骤:

开始捕获数据
公司需要开始捕获关于成本、收入等各方面的数据。例如,区分劳动力成本和材料成本,计算销售单件产品的成本与总成本。

接着分析收入来源,例如,你80%的收入是来自20%的客户,还是相反。

所以,首要任务是开始捕获数据。一旦拥有数据,就可以对其应用算法和分析。

因此,第一件要做的事就是捕获数据。如果你尚未开始捕获,现在就开始。如果你已在捕获,请将其归档。

不要因为认为不再需要而覆盖旧数据。数据永远不会过时,即使是一百年或两百年前的数据,它对你的公司和成功仍然具有相关性。

所以,要保存数据,捕获它,归档它。

确保没有任何数据被浪费,确保数据的一致性,以便二十年后有人试图理解这些数据时也能做到。因此,需要建立完善的文档。

现在就行动。从创业之初就落实数据归档的最佳实践。如果你已经在经营企业但尚未这样做,请立即开始。

开始衡量事物
太多公司长达十年都未能妥善衡量事物,然后才决定需要数据科学。

公司内部的数据科学价值,完全取决于所收集数据的质量。在任何分析中,“垃圾进,垃圾出”都是一条铁律。

如果某事物未被衡量,就很难改进或改变它。所以,第一步就是衡量。

如果公司已有现有数据,那么应该开始查看并清理这些数据。如果没有现有数据,那么就需要开始收集。


上一节我们讨论了数据收集与衡量,这是所有分析的基础。接下来,我们看看如何组建团队来运用这些数据。

我认为,寻找热爱数据科学工作的团队,第一步是让员工对数据科学产生兴趣,因为如果公司内部没有兴趣,就不会有参与感。

公司应该记住,关键是拥有一个团队。

所以,不是一名数据科学家,而是一个团队,团队中的每个成员在数据科学的不同领域各有所长。


总结
本节课中,我们一起学习了企业实施数据科学的核心路径。我们首先明确了衡量是改进的前提这一基本原则,并详细阐述了从捕获数据归档数据开始衡量的关键起步步骤。最后,我们探讨了构建一个在数据科学各领域有专长的团队的重要性,这是将数据转化为价值的关键。记住,没有高质量的数据,就没有有效的数据科学实践。

019:数据科学应用领域 🎯

在本节课中,我们将要学习数据科学和大数据在商业及日常生活中的具体应用。我们将通过实际案例,了解数据科学如何改变企业运营、提升竞争力,并深入影响消费者的数字生活。


数据科学对商业的深远影响

数据科学和大数据正在对商业产生不可否认的影响,改变着日常运营、财务分析,尤其是与客户的互动方式。企业显然可以从数据科学提供的洞察中获得巨大价值,但有时很难确切地看到其具体方式。因此,让我们来看一些例子。


消费者的数据生成

在大数据时代,几乎每个人每天都在生成大量数据,而自己往往并未察觉。这种数字痕迹揭示了我们在线生活的模式。

如果你曾在亚马逊这类网站上搜索或购买过产品,你会注意到它开始向你推荐与你搜索相关的商品。这种被称为推荐引擎的系统,是数据科学的一个常见应用。像亚马逊、Netflix和Spotify这样的公司,使用算法根据客户偏好和历史行为来做出具体推荐。

其核心逻辑可以简化为一个公式:
推荐 = f(用户历史行为, 物品特征, 上下文信息)

苹果设备上的Siri等个人助手,利用数据科学来回答用户可能提出的无数问题。

谷歌观察你在网络世界中的每一个举动、你的在线购物习惯和社交媒体活动。然后,它分析这些数据,根据从你的设备和当前位置收集的信息,为你推荐餐厅、酒吧、商店和其他景点。

像Fitbits、苹果手表和安卓手表这样的可穿戴设备,将你的活动水平、睡眠模式和心率等信息,添加到你生成的数据中。


数据科学如何影响商业运营

现在我们已经了解了消费者如何生成数据,接下来让我们看看数据科学如何影响商业。

2011年,麦肯锡公司曾指出,数据科学将成为竞争的关键基础,支撑着新一轮的生产力、增长和创新浪潮。

2013年,UPS宣布在其新的路线导航系统中使用来自客户、司机和车辆的数据,旨在节省时间、金钱和燃料。

此类举措印证了数据科学将从根本上改变企业竞争和运营方式的论断。


企业如何获得竞争优势

企业如何获得竞争优势?让我们以Netflix为例。

Netflix收集并分析了来自数百万用户的海量数据,包括人们在一天中的什么时间观看哪些节目、何时暂停、回放和快进,以及他们搜索了哪些节目的导演和演员。

通过分析用户对某些导演和表演人才的偏好,并发现人们喜欢的组合,Netflix甚至可以在拍摄开始前就确信某个节目会大受欢迎。

以下是Netflix决策过程的关键数据点:

  • 用户对特定导演(如大卫·芬奇)作品的观看历史。
  • 由特定演员(如罗宾·怀特)主演的电影的受欢迎程度。
  • 原版剧集(如英版《纸牌屋》)的成功数据。

将这些因素与剧集早期版本的成功数据相结合,就能预测出热门作品。例如,Netflix知道许多用户观看过大卫·芬奇的作品,也知道罗宾·怀特主演的电影一直表现良好,同时英版《纸牌屋》非常成功。数据还显示,喜欢芬奇作品的大量用户也喜欢怀特。所有这些信息综合起来表明,购买该剧集版权对公司来说将是一笔不错的投资。事实证明他们是正确的,该剧取得了巨大成功。

多亏了数据科学,Netflix在人们知道自己想要什么之前,就已经知道了。


总结

本节课中,我们一起学习了数据科学在现实世界中的广泛应用。我们看到,从消费者的在线推荐、个人助手到企业的路线优化和内容创作决策,数据科学通过分析海量数据来提取洞察,正在深刻改变商业竞争格局和我们的日常生活。其核心在于利用算法和模型,将原始数据转化为可指导行动的宝贵信息。

020:如何成为一名数据科学家 🧑‍🔬

在本节课中,我们将探讨成为一名数据科学家所需的核心技能、学习路径以及该职业在行业中的定位。我们将拆解专家观点,为初学者提供清晰、可行的指导。


一名真正的数据科学家,尤其是高端数据科学家,通常拥有博士学位。他们通常来自物理学或统计学背景。他们必须具备计算机科学背景、数学背景,并且需要了解数据库、统计学、概率论等相关知识。

然而,如果你希望加入一个数据科学团队,我认为你首先需要掌握的技能是至少懂得如何编程。你需要具备一些计算思维,因此必须学习过编程课程。

你需要掌握一些代数知识,至少到解析几何,最好还包括一些微积分。同时,需要一些基础的概率论和统计学知识。我的意思是,你必须真正理解统计推断、不同的统计分布以及数据库。

一个最容易入门的领域是关系型数据库,它存储了我们的大量数据。人们可以先学会走再学会跑,至少要先理解计算机、数据库以及我们如何存储数据。如果你理解了关系型数据库,那么即使在不完全理解底层原理的情况下,如今你也可以将大数据集群当作一个大型关系数据库来使用。你并不需要真正理解整个 MapReduce 编程模型。

但是,随着你在这个领域不断深入,你就需要掌握大量的计算机科学理论和统计学知识,当然还有概率论。真正高端的数据科学家、拥有博士学位的数据科学家,正是在这些领域的交叉点上开展工作。

我主要通过自学来学习。我认为如今每个人都是如此。我完全是自学了 Hadoop。我阅读了一些文章,观看了一些视频。虽然我是一个构建者,一个喜欢动手摸索的人。所以当我真正想弄清楚如何做某件事时,我就会去动手构建它。

例如,我听说了一个术语“Beowulf 集群”。我查了一下,发现它不过是一堆通过 TCP/IP 网络连接在一起的计算机。这很简单。于是我们从花旗银行获得了一笔资助,构建了一个由五台机器组成的集群。我意识到,哦,这就是 Hadoop。因此,我在大学里拥有了最早的 Hadoop 集群之一。它虽然很小,但我们的许多研究人员都非常喜欢它,因为他们可以以快 40 到 50 倍的速度运行程序。

所以,我认为学习的方法之一就是动手实践,你必须去实践。

现在,这些在线学习平台,特别是有了像 IPython、Jupyter Notebooks 以及 Zeppelin 这样的工具,意味着你可以真正参与这些课程,即时动手操作,观察、感受并尝试它们。到那时,你才开始真正理解到底发生了什么。

在所有这些问题中,动力是关键。如何保持人们的学习动力?我认为大数据大学采用的徽章系统是方法之一,它旨在激励人们持续学习。但这取决于个人意愿。他们必须理解自己的目标是什么。

数据科学部门在组织中的定位,很可能不应隶属于首席信息官。许多公司现任的首席信息官来自会计或金融背景,他们对数据科学可能并不了解。数据科学必须源自研究部门。

因此,你会发现数据科学家主要存在于那些拥有研究议程的公司中,例如制药、金融以及任何科技公司。看看我们的项目,我们甚至留不住一些拥有博士学位的数据科学家,他们现在去了 Facebook、LinkedIn、Uber、Lyft。因为市场对博士级别的数据科学家需求巨大,他们能获得丰厚的报酬,并且处理的问题非常酷,例如如何调度 Uber 车辆,这涉及到海量的数据。


核心技能要求 📚

上一节我们了解了数据科学家的典型背景,本节中我们来看看成为一名数据科学家需要掌握哪些具体技能。以下是关键的知识领域:

  • 编程能力:至少掌握一门编程语言,具备计算思维。公式可表示为:数据科学家 ≈ 编程能力 + 领域知识
  • 数学基础:包括代数、解析几何、微积分。
  • 概率与统计:理解基础概率论、统计推断和常见统计分布。
  • 数据库知识:从关系型数据库入手,理解数据存储与管理。

推荐的学习路径 🛤️

掌握了核心技能要求后,我们来看看如何有效地获取这些技能。以下是可行的学习步骤:

  1. 从基础开始:首先学习编程和关系型数据库,这是“学会走路”的阶段。
  2. 利用现代工具:通过 IPython、Jupyter Notebook 等交互式平台进行实践,即时看到结果。
  3. 动手实践:像搭建一个“Beowulf 集群”一样,通过项目来深化理解。关键方法是:学习 = 理论 + 构建
  4. 参与在线课程:利用提供激励体系(如徽章)的在线平台保持学习动力。

职业定位与发展 💼

了解了学习路径,我们最后来探讨数据科学家在行业中的位置和发展前景。

  • 部门归属:数据科学团队更适合隶属于研究部门,而非传统的IT部门。
  • 行业分布:主要存在于制药、金融、科技等有强烈研究需求的行业。
  • 市场需求:高端数据科学家(尤其是博士)需求旺盛,薪资丰厚,常处理如网约车调度等海量数据挑战。

总结

本节课中我们一起学习了成为一名数据科学家的完整蓝图。我们明确了需要掌握的编程、数学、统计与数据库等核心技能,强调了动手实践和利用交互式工具学习的重要性,并了解了数据科学家在研究驱动型行业中的高需求与职业定位。记住,学习之旅始于基础,成于实践。

021:数据科学人才招聘指南 🧑‍💼

在本节课中,我们将探讨企业如何组建数据科学团队以及招聘数据科学家时应关注的核心素质。我们将从技能要求、个人特质以及团队构建策略等多个角度进行分析。


当公司为数据科学团队招聘人员时,无论是数据科学家还是分析师,其倾向往往是寻找一个掌握所有技能的“全能型”人才:他们需要具备领域专业知识,擅长分析结构化和非结构化数据,拥有出色的展示和叙事能力。综合这些要求,你会发现这几乎是在寻找一个“独角兽”,而找到这种人才的概率非常低。

我认为,真正需要做的是在现有的申请人池中,寻找与公司文化DNA最契合的人。因为分析技能是可以教授的,任何人只要投入时间和努力都能学会。但真正重要的是,候选人是否对你所从事的业务充满热情。一个人可能在零售领域是优秀的数据科学家,但对IT相关公司或处理海量网络日志数据的工作却可能毫无兴趣。反之,如果某人对网络日志或健康数据充满热情,那么他将能为团队带来更高的生产力。


招聘时应优先考虑的特质

以下是招聘数据科学家时,应优先考察的几个关键特质:

  1. 好奇心:这个人是否对事物充满好奇?不仅是对数据科学,而是对周围的一切,比如房间为什么这样布置,书架上有什么书。他们需要对视野内的一切事物都保有一定程度的好奇心。
  2. 幽默感:从事这项工作需要保持轻松的心态。如果一个人过于严肃,可能会无法看到问题中轻松的一面。
  3. 叙事能力:即发现故事、讲述故事的能力。
  4. 技术技能:这是最后才考虑的一点。如果候选人具备了好奇心、幽默感和叙事能力,并且展现出一定的技术潜力,我就会录用他们。因为技术可以培训,但好奇心、讲故事的能力和幽默感却很难教会。

我认为招聘数据科学家没有硬性规定,需要具体情况具体分析。但必须包含一些技术成分:候选人应能处理并操作数据,并能清晰地传达他们在数据中的发现。通常,没人真正关心R平方值或置信区间,因此你必须能够引入这些概念并以引人入胜的方式进行解释。此外,还需要找到善于沟通的人,因为数据科学通常较新,担任此角色的人需要建立关系并跨部门协作。


上一节我们讨论了核心的个人特质,本节中我们来看看具体的技能要求。如果数据科学家拥有良好的数学和统计学背景,他们就需要考虑解决问题的能力和分析能力。数据科学必须擅长分析问题。

被招聘的人应该热爱“玩转”数据,并且知道如何进行数据可视化,具备分析性思维。当公司招聘数据科学团队成员时,他们需要首先明确这个人将承担什么角色。在公司开始招聘前,他们需要理解自己对数据科学团队的期望,然后据此进行招聘。

随着数据科学团队的成长,他们需要明确是更需要工程师、架构师、可视化设计师,还是仅仅需要更多能够处理大型矩阵的人才。


技术技能平台选择

从技能角度来看,让我们聚焦于技术技能。首先需要确定你想要采用哪种技术平台。

  • 结构化数据环境:如果你想在结构化数据环境(例如市场研究)中工作,所需的技能与想在大数据环境中工作的人略有不同。在传统的市场研究结构化数据环境中,你的技能应包括一些统计知识、基础统计算法知识,可能还有一些机器学习算法。这些都是你需要掌握的工具。
  • 大数据环境:如果你想从事大数据工作,则涉及另一个方面:存储数据的能力。你需要从存储海量数据的专业知识开始,然后寻找能够实现这一点的平台。下一步是能够处理海量数据,最后一步是将算法应用于这些大型数据集。这是一个三步过程,但最重要的是,它始于你希望进入哪个领域和行业。

就平台而言:

  • 如果你想在传统的预测分析环境中工作,且不涉及大数据,那么 RSASPython 将是你的工具。
  • 如果你主要处理非结构化数据,那么 PythonR 更合适。
  • 如果你处理大数据,那么 HadoopSpark 将是你工作的环境。

因此,一切都取决于你想在哪里发展以及什么样的工作能激发你的热情,然后你再选择相应的工具。


除了技术技能,数据科学的第二个方面是沟通能力,我称之为“讲故事”的技能。这意味着在你完成分析后,能否从中讲述一个精彩的故事。如果你有一个非常大的表格,能否将其综合并呈现得更具吸引力,使其在屏幕上或文档中能够“自己说话”,让读者一目了然。

因此,无论是口头、演示还是文档,清晰呈现你发现的能力与技术技能同等重要。当你有一个伟大的见解并展示结果时,想象一下你正在山上开车,有一个急转弯,你看不到转弯后的景象。当你转过弯后,突然看到一个巨大的山谷出现在眼前,那种“我原来不知道这个”的惊叹感。当你很好地呈现并沟通了你的伟大发现时,人们就会产生这种感觉。因为他们没有预料到,也不了解,然后会产生一种“我现在知道了,而我之前不知道”的巨大喜悦感,这能赋予他们力量,给他们灵感去思考如何运用这个新见解。这是一种巨大的快乐感,而你作为数据科学家,能够与你的客户分享它,因为你促成了这一切。


本节课中,我们一起学习了企业招聘数据科学家时的核心考量。我们了解到,寻找“全能型”人才并不可行,应更关注候选人的好奇心、幽默感和沟通能力等内在特质。技术技能虽然重要,但可以通过培训获得。同时,选择技术平台和技能发展方向需与目标行业和领域紧密结合。最后,将复杂的数据发现转化为引人入胜的“故事”是数据科学家不可或缺的关键能力。

022:数据科学职业发展 📈

在本节课中,我们将探讨数据科学领域的职业发展前景、市场需求以及进入该领域所需的技能和准备。

物联网的出现和分布式计算的进步带来了海量数据以及分析这些数据的技术能力。既然我们能够提取有价值的见解和新知识,就需要了解如何塑造这些数据,以聚焦于如何处理数据以及数据能为我们做什么。数据科学应运而生。

上一节我们介绍了数据科学的兴起背景,本节中我们来看看数据科学职业的市场需求。

LinkedIn、Glassdoor、Indeed和Dice等公司追踪的就业趋势显示,自2016年以来,数据科学职业已上升为最有前途的工作榜首。到2020年,它仍然是排名前三的职业选择之一。Dice指出,招聘职位来自各行各业,而不仅仅是科技行业。

Global Industry Analysts Incorporated预测,到2025年,数据科学平台市场将增长至3148亿美元,复合年增长率为38.2%。麦肯锡全球研究所在2018年曾警告数据和分析领域将出现巨大的人才短缺。2019年1月,研究分析师Brandon Purcell表示,随着组织越来越依赖数据驱动的洞察,对数据科学家的需求只会增长。

我们现在正处于这个时期,招聘人员发现很难满足对优秀数据科学家日益增长的需求。

那么,是什么激励人们进入数据科学职业领域呢?

以下是几个关键动机:

  • 数据科学几乎适用于任何学科。
  • 如果你具备处理数据的才能和意愿,享受编码,学习数学和统计学没有困难,并且擅长讲故事,那么你当然可以在数据科学领域取得成功。

对于大多数人来说,这意味着需要获取额外的工具和技能,并持续学习该领域的新工具和技术。

由斯坦福计算与数学计算研究所发起的“数据科学领域的女性”倡议,致力于激励和教育全球的数据科学家,无论性别,并支持该领域的女性。

当你寻求数据科学职业时,需要确保你的技能组合与你目标职位相匹配。你可以根据你想进入的具体领域来定制你的技能组合,通过众多优秀的在线培训资源之一来补充缺失的技能。这样,你将为一段迷人且回报丰厚的职业生涯做好准备。

因此,现在正是进入这个领域的时候,因为有如此多样化的选择和使其成为现实的教育资源。

本节课中我们一起学习了数据科学职业的市场需求、从业动机以及进入该领域所需的准备。数据科学是一个充满机遇且快速发展的领域,通过针对性地学习和技能培养,你可以开启一段有价值的职业生涯。

023:高中生与数据科学职业

在本节课中,我们将探讨高中生如何为未来的数据科学职业做准备。我们将介绍一系列具体的学习建议和思维培养方法,帮助你从现在开始积累相关技能与经验。


🧠 核心学习路径

上一节我们了解了数据科学的广泛背景,本节中我们来看看具体的学习步骤。以下是构建数据科学基础的核心路径:

  1. 学习编程
  2. 学习一些数学知识
  3. 学习一门概率论课程
  4. 学习一点统计学

🛠️ 实践与探索

掌握了基础知识后,关键在于动手实践。以下是开始实践的建议:

  • 动手创造:编写程序,构建系统。这里的“构建”不仅指物理实体,也包括构建计算机系统、统计系统等。
  • 在尝试中学习:当你尝试完成某个项目时,自然会发现自己需要哪些工具。例如,你可能会问:“内积是什么意思?我该怎么计算?” 这时你就可以有针对性地去学习它。

🚀 长期优势

通过早期学习和实践,你将在未来获得显著优势:

  • 大学阶段的飞跃:进入大学时,你将比许多其他同学拥有更扎实的基础和更丰富的经验。
  • 职业发展的加速:大学毕业时,你的优势将更加明显,这将有助于你获得理想的职业发展和薪酬。
  • 获得乐趣:这个过程本身也充满乐趣。

🎯 给高中生的具体建议

如果你是一名高中生并对数据科学感兴趣,以下是一些具体的行动指南:

  • 熟悉数据库:开始学习 SQL
  • 接触计算机科学:如果学校有相关课程,建议选修。这是成为数据科学家的重要组成部分。
  • 培养创造力与好奇心:可以通过侦探游戏、寻宝游戏等活动来锻炼。这种好奇心对你日后成为数据科学家至关重要,它能确保你在日常生活中保持探索精神。
  • 鼓励实验精神:类似于科学展览,鼓励你通过科学方法提出问题并寻找答案。只不过,数据科学是用数据集而非“醋火山”模型来进行实验和学习。
  • 关注现实数据:例如,在选举季,新闻中会有许多关于民意调查和结果的数据。这是一个很好的切入点,可以讨论调查者如何预测选举结果,从而开启关于数据科学的对话。

💡 鼓励与展望

我们鼓励对数据科学感兴趣的人坚持追求,因为:

  • 这是一个伟大的职业,未来需求巨大。
  • 数据科学家是全球企业高度重视的专业人才,能够帮助公司更高效、更智能地成长和发展。市场永远需要这样的人才。

✨ 给数学学习者的信心

我理解你的感受,因为我过去也并非顶尖的数学学生。事实上,许多成功且知名的数据科学家也有类似经历。

学校的算术和数学不一定是每个人的强项。但是,当你将数学与实际问题结合时,情况就不同了。这些不再是与你毫无关联的假设数字和题目。当你与问题产生联系时,运用数学来理解它会突然变得容易得多。了解谁会从你的数学分析中受益,这是一件非常棒的事情。


本节课总结:我们一起学习了高中生迈向数据科学职业的路径,包括学习编程、数学和统计基础,强调动手实践和项目驱动学习的重要性。我们还探讨了培养好奇心与实验精神的方法,并鼓励大家将数学知识与现实问题结合,从而更有效地学习和成长。数据科学是一个充满乐趣且前景广阔的职业领域,现在开始准备将为你的未来奠定坚实基础。

posted @ 2026-03-26 08:53  布客飞龙II  阅读(6)  评论(0)    收藏  举报