DLAI-每个人的人工智能笔记-全-
DLAI 每个人的人工智能笔记(全)
001:课程介绍


欢迎来到《AI for everyone》。人工智能正在改变我们的工作和生活方式。这门非技术性课程将教你如何驾驭人工智能的崛起。无论你是想了解流行语背后的真相,还是希望自己使用人工智能——无论是个人用途,还是在公司或其他组织中——本课程都将教你方法。如果你想了解人工智能如何影响社会以及如何应对,你也将从本课程中学到。在第一周,我们将从破除炒作开始,为你提供一个关于人工智能真实面貌的现实视角。让我们开始吧。
概述
在本节课中,我们将要学习人工智能的基本概念、其创造价值的方式、不同类型的人工智能(如狭义AI与通用AI),以及本课程的整体结构。我们还将探讨机器学习作为核心驱动技术的作用。
人工智能的价值与影响
许多专家一致认为,人工智能将创造巨大的价值。例如,麦肯锡全球研究所的一项研究表明,到2033年,人工智能每年将创造13万亿至22万亿美元的额外价值。在这13至22万亿美元中,预计有3至4万亿美元将来自所谓的生成式人工智能。这是一种相对较新的人工智能技术,能够生成高质量的文本、图像和音频等内容。
但更大一部分价值将来自其他形式的人工智能。例如,本课程将更侧重于监督学习等其他更成熟的人工智能技术。人工智能已经在软件行业创造了巨大的价值,而麦肯锡研究指出,未来将创造的很多价值存在于软件行业之外。例如,在零售、旅游、交通、汽车、材料、制造等行业。我很难想象在未来几年内,有哪个行业不会受到人工智能的巨大影响。
人工智能的类型:从狭义AI到通用AI
目前围绕人工智能有很多兴奋点,但也存在大量不必要的炒作。原因之一是人工智能实际上包含两个独立的概念。
我们今天看到的大部分价值来自人工狭义智能。这些AI只做一件事,例如智能音箱、自动驾驶汽车、网络搜索AI,或应用于农业、工厂的AI。这些类型的AI是“一招鲜”。但当你找到合适的应用场景时,它可以变得极具价值。
随着生成式人工智能的兴起,像ChatGPT这样的工具,我们开始看到功能更通用的AI。例如,ChatGPT可以充当文案编辑、头脑风暴伙伴、文本总结器,并协助完成许多其他任务。这些模型是一个令人兴奋的发展,进一步扩展了我们目前能用AI做的事情。
此外,人工智能也指AGI的概念,即人工通用智能。其目标是构建能够完成人类所能做的任何智力任务的AI,甚至可能是超级智能,完成比任何人能做的更多的事情。我在人工狭义智能和生成式人工智能方面看到了巨大的进步,感觉AI研究正在向AGI缓慢地迈出婴儿般的步伐,这令人兴奋。
但现实地看,我们距离AGI或人工通用智能仍然非常遥远。不幸的是,在极具价值的狭义AI和生成式AI方面取得的快速进展,导致人们得出结论认为人工智能整体进步巨大(这确实是真的),但这反过来又导致人们错误地认为我们可能也即将实现AGI,从而引发了一些关于邪恶的有知觉的机器人即将接管人类的过度夸大和不必要的恐惧。
我认为AGI是一个令人兴奋的研究目标。但在我们实现它之前,还需要多项技术突破,这可能需要数十年,甚至数百年。我希望如此,但我不确定我们是否能在有生之年看到它。但鉴于AGI距离我们还很遥远,我认为没有必要为此过度焦虑。
本周学习内容
在本周,你将学习人工智能能做什么,以及如何将其应用于你的问题。在本课程中,你还将看到一些案例研究,了解这些“一招鲜”的狭义AI如何被用于构建真正有价值的应用,如智能音箱和自动驾驶汽车。
具体来说,在本周你将学习:
- 什么是人工智能。你可能听说过机器学习,下一个视频将教你什么是机器学习。
- 什么是数据,以及哪些类型的数据有价值,哪些类型的数据没有价值。
- 是什么让一家公司成为人工智能公司或AI优先公司,以便你或许可以开始思考如何提升你公司或其他组织使用AI的能力。
- 同样重要的是,你还将在本周学习机器学习能做什么和不能做什么。在我们的社会中,报纸和研究论文往往只谈论机器学习和AI的成功案例,我们几乎看不到任何失败的故事,因为它们报道起来不那么有趣。但为了让你对人工智能和机器学习能做什么和不能做什么有一个现实的看法,我认为让你看到成功和失败的例子都很重要,这样你才能更准确地判断你可能应该或不应该尝试将这些技术用于哪些方面。
最后,机器学习近期的崛起很大程度上是由深度学习(有时也称为神经网络)的兴起推动的。在本周最后两个可选视频中,你也可以看到对深度学习的直观解释,以便你更好地理解它们能做什么,特别是对于一组狭义的AI任务。
这就是你本周要学习的内容。到本周末,你将了解AI技术以及它们能做什么和不能做什么。
课程整体结构
在介绍了第一周的内容后,让我们来看看整个课程的结构安排。
第二周,你将学习这些AI技术如何被用于构建有价值的项目。你将了解构建一个AI项目是什么感觉,以及你应该做什么来确保你选择的项目在技术上可行,并且对你、你的业务或其他组织有价值。
第三周,在学习了构建AI项目需要什么之后,你将学习如何在你的公司中构建AI。特别是,如果你希望采取措施让你的公司擅长AI,你将看到AI转型手册,并学习如何构建AI团队以及复杂的AI产品。
第四周,也是最后一周,人工智能正在对社会产生巨大影响。你将学习AI系统如何可能存在偏见,以及如何减少或消除这些偏见。你还将了解人工智能如何影响发展中经济体,以及人工智能如何影响就业,从而能够更好地为你自己和你的组织驾驭这次AI崛起。

在这为期四周的课程结束时,在对AI技术的理解以及帮助你或你的公司或其他组织驾驭AI崛起的能力方面,你将比大多数大公司的CEO更有见识、更有资格。因此,我希望在这门课程之后,你也能在他人应对这些问题时提供领导力。

总结与过渡
本节课中,我们一起学习了人工智能的概述、其创造价值的潜力、不同类型AI(ANI vs. AGI)的区别,以及本课程的教学大纲。我们明确了当前AI发展的重点在于解决特定任务的狭义AI和生成式AI,而通用人工智能仍是一个长远目标。
现在,驱动近期人工智能崛起的一项主要技术是机器学习。但是,什么是机器学习呢?让我们在下一个视频中一探究竟。
002:机器学习 🧠

在本节课中,我们将要学习人工智能(AI)的核心驱动力——机器学习。我们将了解什么是机器学习,以及它如何通过学习输入到输出的映射关系来工作。课程结束时,你将能够开始思考如何将机器学习应用到你的公司或行业中。
什么是机器学习?
AI的崛起很大程度上是由一个名为“机器学习”的AI子领域驱动的。机器学习中最常用的类型是一种学习从输入(A)到输出(B)映射关系的AI,这被称为监督学习。
监督学习实例
以下是监督学习在不同场景中的应用实例:
- 垃圾邮件过滤:输入(A)是一封电子邮件,期望的输出(B)是判断该邮件是否为垃圾邮件(是/否)。这是构建垃圾邮件过滤器的核心AI技术。
- 语音识别:输入(A)是一段音频剪辑,AI的任务是输出(B)对应的文本转录。
- 机器翻译:输入(A)是英语,期望的输出(B)是另一种语言,如中文或西班牙语。
- 在线广告:这是目前可能最具盈利性的监督学习应用。大型在线广告平台的AI会输入关于广告的信息和关于你的信息,并尝试预测你是否会点击该广告。通过向你展示你最可能点击的广告,这带来了巨大的经济效益。
- 自动驾驶汽车:其中一个关键的AI组件是输入图像和来自雷达或其他传感器的信息,输出其他汽车的位置,以便自动驾驶汽车能够避开它们。
- 制造业视觉检测:输入(A)是刚制造出的产品(如手机)的图片,期望的输出(B)是判断产品是否存在划痕或其他缺陷。这有助于制造商减少或预防产品缺陷。
生成式AI与监督学习
监督学习也是生成式AI系统(如ChatGPT等聊天机器人)的核心。这些系统通过从互联网下载的大量文本中学习来工作。当给定几个词作为输入时,模型可以预测接下来的词。这些被称为大语言模型(LLM) 的模型,通过反复预测下一个应该输出的词来生成新文本。
鉴于LLM受到的广泛关注,让我们在下一部分更详细地看看它们是如何工作的。
大语言模型如何工作?
大语言模型是通过使用监督学习训练一个模型来反复预测下一个词而构建的。
例如,如果一个AI系统在互联网上读到这样一个句子:“我最喜欢的饮料是珍珠奶茶”,那么这个句子会被转化为许多A到B的数据点供模型学习。
具体来说,给定这个句子,我们现在有一个数据点:输入短语“我最喜欢的饮料”,模型需要预测下一个词。在这个例子中,正确答案是“是”。接着,输入“我最喜欢的饮料是”,模型需要预测下一个词,正确答案是“珍珠”,依此类推,直到用完句子中的所有词。
因此,这一个句子被转化为多个输入(A)和输出(B),让模型学习:给定几个词作为输入,下一个词是什么?当你用大量数据(例如数千亿甚至上万亿个词)训练一个非常大的AI系统时,你就会得到一个像ChatGPT这样的大语言模型。给定一段初始文本(称为提示),它非常擅长生成一些额外的词作为回应。
这里的描述省略了一些技术细节,例如模型如何学会遵循指令而不仅仅是预测在互联网上找到的下一个词,以及开发者如何降低模型生成不当输出(如表现出偏见或有害指令)的可能性。如果你感兴趣,可以在课程《面向所有人的生成式AI》中了解更多细节。但其核心仍然是这项技术:它使用监督学习从大量数据中学习,以预测下一个词是什么。
监督学习为何现在兴起?
监督学习的概念已经存在了几十年,但它在最近几年才真正兴起。这是为什么呢?
当朋友们问我这个问题时,我会画一张图给他们看。现在我也想向你展示这张图,你也可以用它来回答别人提出的同样问题。
假设横轴代表你为某项任务拥有的数据量。例如,对于语音识别,这可能就是你拥有的音频数据和转录文本的数量。在许多行业中,由于互联网和计算机的兴起,过去许多以纸张形式记录的信息现在被数字化了,因此我们能够获取的数据量在过去几十年里确实大幅增长。
假设纵轴代表AI系统的性能。事实证明,如果你使用传统的AI系统,其性能增长曲线是这样的:随着你喂给它更多数据,性能会有所提升,但超过某个点后,提升就不那么明显了。就好像你的语音识别系统不会因为数据更多而准确度大幅提升,或者你的在线广告系统在展示最相关广告方面也不会因为数据更多而准确度大幅提升。
AI最近真正兴起的原因在于神经网络和深度学习的崛起。我们将在后面的视频中更精确地定义这些术语,现在不必过于担心它们的含义。使用现代AI(即神经网络和深度学习)时,我们看到的情况是:如果你训练一个小型神经网络,其性能曲线大致如此,随着数据增多,性能会在更长时间内持续提升。如果你训练一个稍大的神经网络(例如中型网络),性能曲线可能像那样。如果你训练一个非常大的神经网络,性能似乎就能持续变得更好。对于语音识别、在线广告、自动驾驶等应用来说,拥有高性能、高准确度的系统非常重要。这使得这些AI系统变得更好,也让相关产品对用户更具吸引力,对公司更具价值。
图表带来的启示
这张图带来了几个启示。如果你想达到最佳性能水平,你需要两样东西:
- 拥有大量数据确实很有帮助。这就是为什么你有时会听到“大数据”的说法——拥有更多数据几乎总是有益的。
- 你需要能够训练一个非常大的神经网络。因此,快速计算机(包括摩尔定律)的兴起,以及专用处理器(如图形处理器单元或GPU,我们将在后面的视频中更多提及)的兴起,使得许多公司(不仅仅是大型科技公司)能够基于足够大量的数据训练大型神经网络,从而获得非常好的性能并驱动商业价值。
事实上,正是这种规模化——增加数据量和模型大小——对于最近在训练生成式AI系统(包括我们刚刚讨论的大语言模型)方面取得突破至关重要。
总结

本节课中,我们一起学习了AI中最重要的概念——机器学习,特别是监督学习,它意味着从A到B或从输入到输出的映射。使其真正有效工作的关键是数据。在下一个视频中,让我们来看看什么是数据,你可能已经拥有哪些数据,以及如何考虑将这些数据输入到AI系统中。让我们继续观看下一个视频。
003:什么是数据 📊

在本节课中,我们将要学习人工智能(AI)系统中的核心要素——数据。我们将探讨数据的本质、如何获取数据、常见的误解以及数据的类型,帮助你建立对数据在AI中作用的基本理解。
你可能听说过数据对于构建AI系统非常重要,但数据究竟是什么?
让我们来看一个例子。这是一个数据表,我们也称之为数据集。如果你试图为买卖房屋定价,你可能会收集一个像这样的数据集。它可以只是一个电子表格,比如一个Excel表格。其中一列是房屋的面积(以平方英尺或平方米为单位),第二列是房屋的价格。
因此,如果你想构建一个AI系统或机器学习系统来帮助你为房屋定价或判断价格是否合理,你可能会决定将房屋面积定义为 A,将房屋价格定义为 B,并让AI系统学习这个从A到B的输入-输出映射。
现在,如果不仅仅根据面积定价,你可能会说,让我们也收集这间房屋的卧室数量数据。在这种情况下,A 可以是前两列(面积和卧室数),而 B 仍然是房屋价格。
所以,给定一个数据表或数据集,实际上是由你根据业务用例来决定什么是 A 和什么是 B。
数据通常是你业务所特有的。这是一个房地产中介在尝试为房屋定价时可能拥有的数据示例。由你来决定什么是A和B,以及如何选择这些定义,使其对你的业务有价值。
作为另一个例子,如果你有特定的预算,并想决定你能负担多大的房子,那么你可能会决定输入 A 是某人的花费金额,而 B 只是房屋的面积(平方英尺)。这将是一个完全不同的A和B选择,它告诉你,在给定预算下,你应该寻找多大面积的房子。
以下是另一个数据集的例子。假设你想构建一个AI系统来识别图片中的猫。你可能会收集一个数据集,其中输入 A 是一组不同的图像,输出 B 是标签,标明第一张图是猫,第二张不是,第三张是,第四张不是。然后让AI系统输入图片A,输出B(是猫或不是猫),这样你就可以在你的照片流或移动应用上标记所有猫的图片。
在机器学习传统中,实际上有很多关于猫的例子。我想这始于我领导谷歌大脑团队时,我们发布了一个有些“臭名昭著”的谷歌猫结果,当时一个AI系统通过观看YouTube视频学会了检测猫。自那以后,在谈论机器学习时,使用猫作为贯穿始终的例子就成了一种传统。
数据很重要,但你如何获取数据呢?
以下是几种获取数据的主要方式:
1. 手动标注
例如,你可能收集一组像上面那样的图片,然后自己或请他人浏览这些图片并为每张图片贴上标签。通过手动标注每张图像,你现在就拥有了一个用于构建猫检测器的数据集。实际上,你需要的不止四张图片,可能需要成千上万张。手动标注是一种经过验证的、可靠的获取数据集(包含A和B)的方法。
2. 观察用户行为或其他行为
例如,假设你运营一个在线销售商品的网站。你可以观察用户是否购买你的产品。仅仅通过购买或不购买的行为,你就能收集到类似这样的数据:存储用户ID、用户访问网站的时间、你向用户展示的产品价格以及他们是否购买。因此,仅仅通过使用你的网站,用户就能为你生成这些数据。
我们也可以观察其他事物的行为,比如机器。如果你在工厂运行一台大型机器,并想预测机器是否即将发生故障,那么通过观察机器的行为,你可以记录像这样的数据集:机器ID、机器温度、机器内部压力,以及机器是否发生故障。如果你的应用是预防性维护,你可以选择这些作为输入 A,选择那个作为输出 B,来尝试判断机器是否即将故障。
3. 从网站下载或从合作伙伴处获取
得益于开放的互联网,你可以免费下载大量数据集,范围从计算机视觉或图像数据集,到自动驾驶汽车数据集、语音识别数据集、医学影像数据集等等。如果你的应用需要某种类型的数据,直接从网上下载(注意许可和版权)可能是一个很好的开始方式。最后,如果你与合作伙伴合作,比如与一家工厂合作,他们可能已经收集了大量关于机器、温度、压力以及机器是否故障的数据,并可以交给你。
数据很重要,但它也有些被过度炒作,有时会被误用。让我向你描述两种最常见的误用或错误的思考方式。
上一节我们介绍了获取数据的方法,本节中我们来看看关于数据的常见误区。
误区一:先囤积数据,再考虑AI
当我与一些大公司的高管交谈时,他们中有些人实际上对我说:“嘿,吴恩达,给我三年时间来建立我的IT团队,我们正在收集大量数据,三年后我将拥有完美的数据,然后我们再做AI。” 事实证明,这是一个非常糟糕的策略。相反,我建议每家公司,一旦开始收集一些数据,就立即开始将其展示或提供给AI团队。因为通常AI团队可以给你的IT团队反馈,告诉他们应该收集什么类型的数据,以及应该继续构建什么类型的IT基础设施。
误区二:认为只要有数据,AI就能创造价值
不幸的是,我看到一些CEO在新闻中读到数据的重要性,然后说:“嘿,我有这么多数据。AI团队肯定能让它变得有价值。” 不幸的是,这并不总是奏效。更多数据通常比更少数据好,但我不会想当然地认为,仅仅因为你拥有许多TB或GB的数据,AI团队就一定能使其变得有价值。所以我的建议是,不要只是把数据扔给AI团队,就假设它会变得有价值。
事实上,在一个极端案例中,我看到一家公司收购了一系列其他医疗公司,其论点是假设它们的数据会非常有价值。据我所知,几年过去了,工程师们还没有弄清楚如何利用所有这些数据来真正创造价值。所以有时有效,有时无效。我不会过度投资于仅仅为了数据而获取数据,除非你也让AI团队看一看,因为他们可以帮助指导你思考哪些数据实际上最有价值。
最后,数据是混乱的。你可能听说过“垃圾进,垃圾出”这句话。如果你有糟糕的数据,AI将学到不准确的东西。
以下是数据问题的一些例子。假设你有这个关于房屋面积、卧室数量和价格的数据集。你可能有错误的标签或错误的数据。例如,这栋房子可能不会只卖1美元。数据也可能有缺失值,比如我们这里有一堆未知值。因此,你的AI团队需要弄清楚如何清理数据,或如何处理这些错误标签和/或缺失值。
此外,数据也有多种类型。例如,有时你会听到图像、音频和文本,这些是人类很容易解释的数据类型。这有一个术语,称为非结构化数据。有一些特定的AI技术可以处理图像来识别猫,处理音频来识别语音,或处理文本来理解电子邮件。
然后,还有像右边这样的数据集,这是结构化数据的一个例子。这基本上意味着存在于大型电子表格中的数据。处理非结构化数据的技术与处理结构化数据的技术略有不同。今天的生成式AI主要用于生成非结构化数据,如文本、图像和音频,而不是结构化数据。相比之下,监督学习对这两种类型的数据(非结构化数据和结构化数据)都能很好地工作。

在本节课中,我们一起学习了什么是数据。你看到了如何获取数据,例如通过手动标注、观察行为和下载。你也了解了如何不误用数据,例如,不要过度投资于IT基础设施,寄希望于它将来对AI有用,但实际上却没有验证它是否真的对你想构建的AI应用有用。最后,你看到了数据是混乱的,但一个好的AI团队将能够帮助你处理所有这些问题。
现在,AI有一个复杂的术语体系,人们经常抛出诸如AI、机器学习、数据科学等术语。在下一个视频中,我想与你分享这些术语的实际含义,以便你能够自信而准确地与他人讨论这些概念。让我们继续下一个视频。
004:人工智能术语解析 🧠

在本节课中,我们将要学习人工智能领域中的几个核心术语:机器学习、数据科学、神经网络与深度学习。理解这些概念是您与他人讨论AI以及思考如何将其应用于业务的基础。
概述
您可能听说过诸如机器学习、数据科学、神经网络或深度学习等术语。这些术语具体指什么?本视频将解析AI中最重要的概念术语,以便您能就此与他人交流,并开始思考如何将这些技术应用于您的业务。
机器学习与数据科学
上一节我们介绍了课程目标,本节中我们来看看两个核心概念:机器学习与数据科学。
假设您有如下所示的房屋数据,包含房屋面积、卧室数量、浴室数量、是否新装修以及价格。
| 面积 | 卧室 | 浴室 | 新装修 | 价格 |
|---|---|---|---|---|
| ... | ... | ... | ... | ... |
如果您想构建一个移动应用来帮助人们评估房价,那么这些属性(面积、卧室数等)就是输入A,而价格则是输出B。这便是一个机器学习系统。具体来说,它是一种学习从输入A到输出B映射关系的机器学习系统。
机器学习通常会产生一个持续运行的AI系统。这是一款软件,可以在任何时间自动输入房屋属性A,并输出价格B。如果您有一个为成千上万甚至数百万用户服务的AI系统,那通常就是一个机器学习系统。
相比之下,您可能还想做另一件事:让一个团队分析您的数据集以获得洞察。以下是团队可能得出的结论示例:
- 您是否知道,在面积相似的情况下,三居室的房屋比两居室的房屋价格高得多?
- 您是否知道,新装修的房屋有15%的溢价?
这些洞察可以帮助您做出商业决策,例如:在面积相似的情况下,为了最大化价值,您应该建造两居室还是三居室的房屋?或者,投资装修房屋以期提高售价是否值得?这些都是数据科学项目的例子。数据科学项目的输出是一系列洞察,可帮助您做出商业决策。
这两个术语——机器学习和数据科学——之间的界限实际上有些模糊,即使在当今业界,这些术语的使用也不完全一致。但这里给出的可能是最常用的定义。不过,您会发现并非所有人都严格遵守这些定义。
为了更正式地定义这两个概念:
- 机器学习是让计算机无需明确编程即可学习的研究领域。这是Arthur Samuel几十年前提出的定义。一个机器学习项目通常会产生一个软件,给定输入A即可输出B。
- 数据科学是从数据中提取知识和洞察的科学。因此,数据科学项目的输出通常是一份演示文稿,用于向高管总结结论以采取商业行动,或向产品团队总结结论以决定如何改进网站。
让我举一个在线广告行业中机器学习与数据科学的例子。如今,大型广告平台都拥有人工智能,能快速判断您最可能点击哪个广告。这是一个机器学习系统。它输入关于您和广告的信息,输出您是否会点击。这些系统全天候运行,是为公司带来广告收入的机器学习系统。
相比之下,我也参与过在线广告行业的数据科学项目。例如,数据分析可能显示旅游业购买的广告不多,但如果派遣更多销售人员向旅游公司推销广告,可以说服他们使用更多广告。这就是一个数据科学项目的例子,其结论是让销售团队花更多时间联系旅游业。
因此,即使在同一个公司,您也可能有不同的机器学习和数据科学项目,两者都可能非常有价值。
深度学习与神经网络
上一节我们区分了机器学习与数据科学,本节中我们来看看当前最强大的机器学习工具:深度学习与神经网络。
您也听说过深度学习。那么什么是深度学习?假设您想预测房价。您有一个输入,告诉您房屋的面积、卧室和浴室数量以及是否新装修。给定这个输入A,要输出价格B,最有效的方法之一就是将其输入到这里这个东西中。
中间这个大家伙被称为神经网络,有时也称为人工神经网络,以区别于您大脑中的神经网络。人脑由神经元组成。因此,当我们说人工神经网络时,只是为了强调这不是生物大脑,而是一个软件。人工神经网络的作用是接收这四项输入A,然后输出B,即房屋的估计价格。
在本周稍后的可选视频中,我将向您展示更多关于人工神经网络的内容。但简而言之,当我们在纸上绘制人工神经网络的图示时,它与大脑有一个非常松散的类比。这些小圆圈被称为人工神经元或简称神经元,它们也相互传递信息。这个大的人工神经网络只是一个庞大的数学方程,它告诉系统给定输入A,如何计算价格B。如果这里看起来有很多细节,请不要担心,我们稍后会详细讨论。
但关键要点是:神经网络是一种非常有效的技术,用于学习从A到B或从输入到输出的映射。如今,神经网络和深度学习这两个术语几乎可以互换使用,它们本质上指的是同一事物。几十年前,这类软件被称为神经网络,但近年来我们发现“深度学习”听起来更酷,因此这个术语最近流行起来。
那么,神经网络或人工神经网络与大脑有什么关系呢?事实证明,几乎没什么关系。神经网络最初受到大脑的启发,但其工作原理的细节几乎与生物大脑的工作方式完全无关。因此,我今天非常谨慎地对待人工神经网络和生物大脑之间的任何类比,尽管存在一些松散的灵感来源。
术语关系总结
本节课中我们一起学习了机器学习、数据科学和深度学习的核心概念。现在我们来总结一下这些术语之间的关系。
AI拥有许多不同的工具。在本视频中,您了解了什么是机器学习和数据科学,以及什么是深度学习和神经网络。您可能还会在媒体上听到其他流行词,如生成式AI、无监督学习、强化学习、大语言模型、规划、知识图谱等。您不需要知道所有这些其他术语的含义,它们只是让计算机智能行动的其他工具。
如果我们要绘制一个维恩图来展示所有这些概念如何组合在一起,它可能看起来像这样:


AI是让计算机智能行事的庞大工具集。在AI中,最大的子集是机器学习的工具,但AI确实还有其他非机器学习的工具,例如底部列出的一些流行词。在机器学习中,目前最重要的部分是神经网络或深度学习,这是一套非常强大的工具,用于执行监督学习或A到B的映射以及其他一些任务。但也存在其他非深度学习的机器学习工具。
那么数据科学如何融入这幅图景呢?术语的使用存在不一致性。有些人会告诉您数据科学是AI的一个子集,有些人会告诉您AI是数据科学的一个子集。这取决于您问谁。但我想说,数据科学可能是所有这些工具的一个交叉子集,它使用了许多来自AI、机器学习和深度学习的工具,但也拥有一些独立的工具,用于解决推动商业洞察的一系列重要问题。
总结
在本视频中,您了解了什么是机器学习、什么是数据科学以及什么是深度学习和神经网络。我希望这能让您了解使用AI时最常见和最重要的术语,并且您可以开始思考如何将这些技术应用到您的公司。
现在,一家公司擅长AI意味着什么?让我们在下一个视频中讨论。
005:4_人工智能公司的核心要素 🏢

在本节课中,我们将探讨是什么让一家公司擅长运用人工智能,以及你的公司如何能成为人工智能领域的佼佼者。我们将借鉴互联网时代的经验,并了解构建优秀人工智能公司的核心要素与系统化转型路径。
从互联网时代汲取的教训
上一节我们提到了借鉴互联网发展经验的重要性。本节中,我们来看看一个具体的例子:为什么仅仅拥有一个网站,并不能让一家传统商场变成一家真正的互联网公司。
一个真正的互联网公司,其核心在于充分利用互联网技术所赋予的优势。以下是互联网公司通常会做好的几件事:
- 进行广泛的A/B测试:互联网公司可以轻松地同时上线两个不同版本的网页,快速测试哪个版本效果更好,从而加速学习过程。
- 拥有极短的迭代周期:得益于技术特性,互联网公司可以每周甚至每天发布新产品或更新。
- 推动决策权下放:决策权从CEO下放到工程师、产品经理等一线专业人员手中,因为他们最了解技术、产品和用户。
这些做法使得互联网公司能够充分发挥互联网的潜力。那么,对于人工智能时代,情况又是怎样的呢?
定义优秀的人工智能公司
与互联网时代类似,仅仅在业务中引入几个神经网络或深度学习算法,并不能自动将一家公司转变为人工智能公司。
一家优秀的人工智能公司,其关键在于系统性地做好那些人工智能技术使之成为可能的事情。以下是这类公司的几个核心特征:
- 擅长战略数据获取:许多领先的科技公司会推出不直接盈利的免费产品,其战略目的就是为了获取数据,并在其他业务中实现数据变现。
- 建立统一的数据仓库:将分散在不同部门数据库中的数据整合到一个统一的数据仓库中,便于工程师连接数据点、发现规律。当然,这需要在遵守隐私法规(如欧洲的GDPR)的前提下进行。
- 敏锐识别自动化机会:善于发现业务流程中可以通过监督学习算法实现“从A到B映射”的环节,从而用自动化替代人工任务。
- 设立新角色与新分工:例如设立机器学习工程师等新职位,并采用新的团队任务分工方式。
因此,让公司擅长人工智能,意味着要从公司架构上进行调整,以充分发挥人工智能的优势。
人工智能转型路线图
对于一家公司而言,成为人工智能领域的强者需要一个过程。十年前,谷歌、百度等公司也并非像今天这样是人工智能巨头。成为人工智能强企并非神秘魔法,而是有一套系统的方法。
以下是我推荐给希望有效运用人工智能的公司的五步人工智能转型路线图:
- 执行试点项目以获取动力:先开展几个小型人工智能项目,切身感受人工智能能做什么、不能做什么,以及运作一个人工智能项目是怎样的体验。这可以由内部团队或外包团队完成。
- 建立内部人工智能团队并提供广泛培训:在试点项目后,需要组建内部的人工智能团队,并为工程师、经理、部门领导和高管提供广泛的人工智能思维培训。
- 制定人工智能战略:在对人工智能有更深入的理解后,为公司制定全面的人工智能发展战略。
- 发展内部与外部沟通:确保所有利益相关者,包括员工、客户和投资者,都理解并认同公司拥抱人工智能发展的方向。
人工智能已经在软件行业创造了巨大价值,并将持续如此。如果你能帮助你的公司掌握人工智能,它也有望在软件行业之外创造巨大价值。

总结与展望
本节课中,我们一起学习了优秀人工智能公司的核心特征,并简要了解了帮助企业转型的系统化路线图。在后续课程中,我们将对这个路线图进行更深入的探讨。
进行人工智能项目(如路线图中的试点项目)的一个挑战在于,准确理解人工智能的能力边界。在下一个视频中,我将通过具体示例向大家展示人工智能能做什么和不能做什么,以帮助你为公司更有效地选择人工智能项目。
006:机器学习的能力与局限 🧠

在本节课中,我们将探讨机器学习在实践中的能力与局限。我们将通过具体例子,帮助你建立对人工智能可行项目的直觉判断,避免选择那些当前技术无法实现的目标。
上一节我们了解了人工智能的广泛应用。本节中,我们来看看如何判断一个任务是否适合用机器学习来解决。
一个不完美但实用的经验法则是:任何你可以在“一秒思考”内完成的任务,现在或不久的将来都可能通过监督学习实现自动化。这里的“一秒思考”指的是人类能快速、直观完成的任务。
以下是几个符合“一秒思考”法则的例子:
- 自动驾驶中识别其他车辆的位置:人类驾驶员可以瞬间完成。
- 判断手机屏幕是否有划痕:看一眼就能得出结论。
- 语音转录:听懂并转述一句话不需要长时间的思考。
然而,这个法则也有其局限性。与之相对,有些事情是当前人工智能难以做到的。
一个典型的局限案例:预测股价 📉
现在,让我们深入分析一个机器学习难以胜任的任务:仅根据某只股票的历史价格,来准确预测其未来的价格。
假设我们的任务是:
- 输入 A:股票近期的价格。
- 输出 B:预测未来某个时间点(例如一个月后)的价格。
如果我们尝试应用机器学习,一个简单的算法可能会尝试用一条直线来拟合数据。但问题在于,股票过去的价格对未来价格的预测能力非常弱。未来的股价受太多随机因素影响,这使得准确预测变得极其困难。
公式表示: 假设我们试图用线性回归拟合:未来价格 ≈ w * 历史价格 + b。但由于股价波动本质上是随机的,这个模型的预测误差会非常大,导致 w 和 b 的值极不稳定,预测结果不可靠。
因此,仅基于单一历史价格序列的预测项目,目前来看是不可行的。不过,如果有其他复杂且难以获取的数据(如合法的网络流量或客流量数据来估算公司销售额),结合历史价格,算法或许能具备一定的预测能力。但这仍然无法完全克服股市内在的随机性。
判断项目可行性的经验法则 ⚖️
为了帮助你快速筛选可行与不可行的项目,这里有两个关于机器学习问题可行性的经验法则。
以下是两个关键考量因素:
- 概念的简单性:学习一个“简单概念”更可能成功。“简单概念”没有严格定义,但通常指那些人类只需极短时间(如一秒或几秒)思考就能得出结论的任务。例如,识别图像中的汽车是相对简单的概念;而构思预测公司销量的巧妙信号则复杂得多。
- 数据的丰富性:如果你拥有大量可用数据,机器学习问题更可能可行。这里的“数据”指的是输入A和期望的输出B的配对集合。例如,要训练一个检测手机划痕的系统,你需要成千上万张带有“有划痕”或“无划痕”标签的手机图片。数据越多,构建准确系统的可能性就越高。

人工智能是新时代的电力,正在变革各行各业,但它并非魔法,无法做到世间万物。希望本视频能帮助你初步形成对人工智能能做什么、不能做什么的直觉,从而提高你为团队选择可行且有价值项目的成功率。
为了帮助你继续深化这种直觉,我将在下一个视频中展示更多关于人工智能能与不能做的例子。让我们进入下一讲。
007:机器学习能力与局限的更多示例 🧠

在本节课中,我们将通过更多具体示例,深入探讨机器学习的能力与局限。理解AI能做什么和不能做什么,对于选择有价值的项目至关重要。通过分析成功与失败的案例,我们可以更快地培养出对AI项目可行性的直觉。
自动驾驶中的AI能力 🚗
上一节我们讨论了识别AI能力边界的重要性,本节中我们来看看更多具体例子。首先,让我们以构建自动驾驶汽车为例。
AI目前可以很好地完成一项任务:识别汽车前方的物体。具体来说,系统可以输入一张汽车前方的图片(可能结合摄像头、雷达或激光雷达等传感器数据),然后输出其他车辆的位置信息。
- 输入A:汽车前方的图片,以及雷达等其他传感器读数。
- 输出B:其他车辆的位置。
目前,自动驾驶行业已经掌握了如何收集足够的数据,并拥有相当好的算法来相当可靠地完成这项任务。因此,识别其他车辆的位置是当今AI能够做到的事情。
自动驾驶中的AI局限 🛑
然而,有些事情是当今AI无法做到,或者至少非常难以做到的。例如,根据人类的姿势或手势判断其意图。
设想一些场景:一名建筑工人伸出手要求你的汽车停下;一个搭便车的人挥手示意车辆靠边;一名自行车骑手举起左手表示要左转。如果你试图构建一个系统来学习从A到B的映射:
- 输入A:一段人类向你的汽车做手势的短视频。
- 输出B:这个人想要表达的意图。
这在今天是非常困难的。原因主要有两点:
- 数据多样性极大:人们向你做手势的方式极其繁多。想象所有可能用于表示“减速”、“通行”或“停止”的手势,其变化方式非常多。因此,很难收集到足够的数据,涵盖成千上万人以各种不同方式做手势的情况,以捕捉人类手势的丰富性。
- 安全要求极高:这是一个安全关键型应用。我们需要AI能极其准确地判断,建筑工人是让你停下还是让你通过。这种高精度要求使得构建AI系统更加困难。
因此,即使你能收集到1万张其他汽车的照片,许多团队都能构建出具备基本车辆检测能力的AI系统。相比之下,即使你收集了1万人向你的汽车挥手的图片或视频,以目前的技术,要构建一个能从手势中识别人类意图、并达到安全驾驶所需高精度的AI系统,仍然非常困难。这就是为什么当今许多自动驾驶团队具备检测其他车辆的组件,并依赖该技术来安全驾驶,但很少有团队试图完全依靠AI系统来识别人类手势的巨大多样性,并仅凭此来安全地绕开行人。
医疗诊断中的AI示例 🏥
让我们再看一个例子。假设你想构建一个AI系统,通过查看X光图像来诊断肺炎。

以下是AI可以做到的事情:
- 输入A:胸部X光图像。
- 输出B:诊断结果(患者是否患有肺炎)。
以下是AI难以做到的事情:仅凭医学教科书章节中解释肺炎的10张图片来诊断肺炎。人类可以通过查看少量图像(也许只有几十张)并阅读医学教科书中的几段文字,就开始形成概念。但如果你只有10张图片和几段解释肺炎及胸部X光表现的文本,目前还不知道如何将其表述为一个AI问题(即定义什么是A,什么是B),也不知道如何编写软件来解决它。相比之下,一位年轻的医生通过阅读医学教科书和查看可能几十张图像就能学得很好,但目前的AI系统还无法做到这一点。
机器学习的优势与局限总结 📊
综上所述,以下是机器学习的一些优势和弱点:
机器学习在以下情况往往表现良好:
- 当你试图学习一个简单的概念(例如,一个你可以在不到一秒的思考时间内完成的任务)。
- 当有大量数据可用时。
机器学习在以下情况往往表现不佳:
- 当你试图从少量数据中学习一个复杂的概念时。
AI另一个未被充分认识的弱点是:当处理的数据类型与其在数据集中见过的数据不同时,其表现往往会变差。让我用一个例子来解释。
假设你构建了一个监督学习系统,使用A到B的映射来学习从类似下图的图像中诊断肺炎。这些是质量相当高的胸部X光图像。

但现在,假设你将这个AI系统应用到一个不同的医院或医疗中心,那里的X光技师可能总是让患者以某种角度躺着,或者图像中存在一些伪影(如图中的细小划痕或其他放置在患者身上的物体)。


如果AI系统是从左侧(来自高质量医疗中心)的数据中学习的,而你将其应用到生成右侧图像的医疗中心,那么它的性能也会相当差。一个优秀的AI团队能够缓解或减少其中一些问题,但做到这一点并不容易。这是AI实际上比人类弱得多的一个方面。如果一个人类从左侧的图像中学习,他们更有可能适应右侧那样的图像,因为他们能判断出患者只是以一个角度躺着。但AI系统在泛化或处理此类新型数据时,可能远不如人类医生稳健。
培养直觉与展望 🔮
我希望这些例子能帮助你磨练关于AI能做什么和不能做什么的直觉。如果你觉得它与不能做的界限仍然模糊,请不要担心,这完全正常。事实上,即使是今天,我也不能立即审视一个项目就断定其是否可行,通常仍然需要数周的技术评估才能形成坚定的判断。
但我希望这些例子至少能帮助你开始想象,在你的公司里有哪些事情可能是可行的,值得进一步探索。
本节课中,我们一起学习了更多关于机器学习能力与局限的具体示例,包括在自动驾驶和医疗诊断中的应用。我们总结了机器学习在简单概念与大数据下表现良好,而在复杂概念、小数据或数据分布变化时面临挑战。理解这些边界是有效规划和实施AI项目的关键。
008:深度学习的非技术性解释(第一部分)🎯

在本节课中,我们将学习深度学习与神经网络的基本概念。我们将通过一个简单的需求预测例子,来理解神经网络如何工作,以及它如何自动从数据中学习复杂的模式。
在人工智能领域,“深度学习”和“神经网络”这两个术语几乎可以互换使用。尽管它们在机器学习中表现出色,但也常常伴随着一些炒作和神秘色彩。本视频旨在揭开深度学习的神秘面纱,让你真正理解深度学习和神经网络是什么。
让我们用一个需求预测的例子来说明。假设你经营一个销售T恤的网站,你想知道基于不同的定价,你预计能卖出多少件T恤。
你可能会创建类似下图的数据:T恤价格越高,需求量越低。因此,你可以用一条直线来拟合这些数据,表明随着价格上涨,需求下降。然而,需求永远不会低于0。所以,你可能会说,需求在某个价格点之后会趋近于0,超过这个点,几乎没有人会购买任何T恤。

事实证明,这条蓝线可能是你能构建的最简单的神经网络。你有一个输入:价格A,你希望它输出:预估需求量B。
在神经网络中,你会这样绘制:价格被输入到这个圆形的东西里,而这个圆形的东西输出预估的需求量。在人工智能术语中,这个圆形的东西被称为一个神经元,有时也称为人工神经元。它的全部工作就是计算我在左边绘制的这条蓝色曲线。
这可能是最简单的神经网络,只有一个输入价格并输出预估需求的人工神经元。
如果你把这个橙色的圆圈,也就是人工神经元,想象成一块乐高积木,那么神经网络就是:如果你拿很多这样的乐高积木,把它们堆叠在一起,直到你得到一个由这些神经元组成的强大网络。
上一节我们看了一个最简单的单神经元网络,本节中我们来看看一个更复杂的例子。
假设你不仅知道T恤的价格,还知道顾客需要支付的运费。也许你在某一周的营销投入有多有少。此外,你还可以选择用厚实、昂贵的高支棉或更便宜、更轻薄的材质来制作T恤。这些是你认为会影响T恤需求的一些因素。
让我们看看一个更复杂的神经网络可能是什么样子。
你知道你的顾客非常关心可负担性。假设我们有一个神经元(我用蓝色绘制),它的工作是估算T恤的可负担性。因为可负担性主要是T恤价格和运费的函数。
第二个会影响T恤需求的因素是知名度,即消费者对你销售这款T恤的知晓程度。影响知名度的主要因素将是你的营销投入。所以,让我在这里绘制第二个人工神经元,它输入你的营销预算,输出消费者对你的T恤的知晓程度。
最后,产品的感知质量也会影响需求。感知质量会受到营销的影响(如果营销试图说服人们这是一件高质量的T恤),有时价格也会影响感知质量。因此,我将在这里绘制第三个人工神经元,它输入价格、营销和材质,并尝试估算你的T恤的感知质量。
最终,当这三个蓝色神经元已经计算出可负担性、消费者知名度和感知质量后,你可以在这里再添加一个神经元,它以上述三个因素作为输入,并输出需求量。
这就是一个神经网络,它的工作是学习如何从这四个输入(即输入A)映射到输出B(需求量)。因此,它学习这种输入到输出,或A到B的映射关系。
这是一个相当小的神经网络,只有四个人工神经元。实际上,今天使用的神经网络要大得多,轻松拥有数千、数万甚至更多的神经元。
现在,关于这个描述,还有一个最后的细节需要澄清。
在描述神经网络的方式中,看起来好像你必须自己弄清楚关键因素是“可负担性”、“知名度”和“感知质量”。但使用神经网络的一个美妙之处在于:要训练一个神经网络(换句话说,就是使用神经网络构建一个机器学习系统),你只需要给它输入A和输出B,它就能自己弄清楚中间的所有事情。
所以,要构建一个神经网络,你需要做的就是给它提供大量数据。输入A,并有一个看起来像这样的神经网络(几个蓝色神经元连接到一个黄色的输出神经元),然后你还需要提供带有需求B的数据。软件的任务就是弄清楚这些蓝色神经元应该计算什么,以便它能完全自动地学习从输入A到输出B的最准确的映射函数。
事实证明,如果你提供足够的数据并训练一个足够大的神经网络,它可以在从输入A映射到输出B方面做得非常出色。
总结来说,神经网络是一组人工神经元,每个神经元都计算一个相对简单的函数。但当你像堆叠乐高积木一样将足够多的神经元堆叠在一起时,它们就能计算极其复杂的函数,为你提供从输入A到输出B的非常准确的映射。


在本视频中,你看到了一个将神经网络应用于需求预测的例子。让我们进入下一个视频,看看一个将神经网络应用于人脸识别的更复杂例子。😊
009:深度学习非技术性解释(第二部分)

在本节课中,我们将继续探索深度学习的工作原理,特别是神经网络如何识别图像中的内容,例如进行人脸识别。我们将通过一个具体的例子,了解计算机如何“看到”并理解图片。
在上一节中,我们了解了神经网络如何应用于需求预测。本节中,我们来看看一个更复杂的应用:人脸识别。
计算机如何“看”图片
假设你想构建一个系统,通过像素来识别人。软件如何看着这张图片并判断出图中人物的身份呢?
为了理解计算机如何看待图片,让我们放大一个小方块区域。当你和我看到一只人眼时,计算机看到的却是一个由像素亮度值组成的网格。这个网格告诉计算机图像中每个像素的亮度。
- 如果是一张黑白或灰度图像,每个像素对应一个数字,表示该像素的亮度。
- 如果是一张彩色图像,每个像素实际上对应三个数字,分别表示该像素中红色、绿色和蓝色的亮度。
因此,神经网络的任务就是以大量这样的数字作为输入,并输出图片中人物的姓名。
神经网络的输入与输出
在上一节的例子中,神经网络以四个数字(价格、运费、营销额、布料材质)作为输入,并输出需求预测。在这个人脸识别的例子中,神经网络需要输入多得多的数字,它们对应着这张图片所有像素的亮度值。
如果这张图片的分辨率是1000像素 x 1000像素,那么就有100万个像素。
- 对于黑白或灰度图像,神经网络需要输入100万个数字,对应图像中所有100万个像素的亮度。
- 对于彩色图像,则需要输入300万个数字,对应这100万个像素中每个像素的红、绿、蓝三个通道的值。
与之前类似,网络中会有许多人工神经元计算各种数值。你无需操心这些神经元具体应该计算什么,神经网络会自行学习。
神经网络的学习过程

通常,当你给神经网络输入一张图像时,网络前部的神经元会学习检测图片中的边缘。

稍后一些的神经元会学习检测物体的组成部分,例如眼睛、鼻子、脸颊的形状和嘴巴的形状。
再往后,更靠右的神经元会学习检测不同形状的人脸。
最终,网络会将所有这些信息整合起来,输出图像中人物的身份。神经网络的神奇之处在于,你无需担心中间层在做什么。你只需要提供大量带有正确身份标签的图片数据(A作为输入,B作为正确输出),学习算法就会自行找出中间每个神经元应该计算的内容。
总结
恭喜你完成本周的所有视频学习。现在你已经了解了机器学习和数据科学的基本工作原理。在接下来的课程中,你将学习如何构建自己的机器学习或数据科学项目。期待下周与你再见。
010:课程介绍 🎯

在本节课中,我们将要学习如何将人工智能技术应用于实际项目。无论你是在自家车库进行个人项目,还是在大型公司内推动与企业战略相符的举措,理解AI项目的执行流程都至关重要。
上一周我们介绍了人工智能和机器学习技术的基础知识。本节中,我们来看看如何将这些技术付诸实践。
本周学习目标 📋
以下是本周课程将涵盖的三个核心部分:
- AI项目的工作流程:与筹办生日派对有一系列可预测的步骤(如确定宾客名单、寻找场地、订购蛋糕)类似,AI项目也有一套可遵循的流程。你将学习这个标准的工作流,并感受参与AI项目是怎样的体验。
- 如何选择AI项目:面对众多可能性,如何筛选出有潜力的方向?本周你将学习一个用于头脑风暴和筛选潜在优质项目的框架。这个框架适用于个人、小团队或大型公司的项目发起。
- 如何组织数据与团队:项目的成功执行离不开良好的组织。你将学习如何为AI项目组织和准备数据,以及如何组建团队(团队规模可以小到仅你一人,也可以是大公司的专业团队)。
到本周末,你将了解构建一个AI项目的整体感受与方法,并可能开始与朋友一起探索一些有前景的创意进行尝试。
让我们继续观看下一个视频,深入探索这些内容。

本节课中我们一起学习了第2周的核心目标:理解AI项目从构思到执行的全过程,包括其标准工作流、项目筛选框架以及数据与团队的组织方法。掌握这些是开启任何AI实践的第一步。
011:10_机器学习项目工作流程


在本节课中,我们将要学习构建一个机器学习项目的标准工作流程。我们将通过两个具体的例子——语音识别和自动驾驶汽车——来详细说明每个步骤,确保初学者能够清晰地理解整个过程。
机器学习算法能够学习从输入到输出,或者说从A到B的映射关系。那么,如何构建一个机器学习项目呢?本节视频将介绍机器学习项目的工作流程。
概述:三步核心流程 🎯
一个典型的机器学习项目主要包含三个核心步骤:收集数据、训练模型和部署模型。在整个过程中,团队通常需要进行多次迭代,以优化模型性能。接下来,我们将通过一个运行示例来详细讲解这些步骤。

运行示例:语音识别系统 🗣️
为了便于理解,我们将以构建一个类似亚马逊Echo的语音唤醒词(例如“Alexa”)识别系统作为贯穿始终的例子。

第一步:收集数据
构建任何机器学习系统的第一步都是收集数据。对于语音识别系统,这意味着你需要录制大量的音频片段。
以下是数据收集的具体内容:
- 录制许多人说“Alexa”这个词的音频。
- 同时,也需要录制人们说其他各种词语(例如“hello”)的音频作为对比数据。
第二步:训练模型
在收集到足够的数据后,下一步是训练模型。这一步的目标是使用机器学习算法,学习从输入音频到输出文本的映射关系。
这个过程可以表示为公式:f(A) = B,其中:
- A 是输入的音频片段。
- B 是模型预测出的文本(例如“Alexa”或“hello”)。
当AI团队开始训练模型时,第一次尝试的结果通常不会很理想。因此,团队需要迭代多次,不断调整算法和参数,直到模型的性能达到令人满意的水平。
第三步:部署与维护模型
当模型训练得足够好之后,第三步就是将其部署到实际产品中,例如集成到智能音箱里,并分发给测试用户或广大用户。
然而,部署后往往会遇到新问题。例如,如果你的模型主要基于美式口音训练,当产品在英国使用时,可能会难以准确识别英式口音的用户指令。
这时,就需要进入维护和更新阶段。你可以收集这些新情况下的数据(如英式口音的“Alexa”),并用这些新数据来更新模型,使其性能不断提升。
总结:语音识别项目流程
上一节我们介绍了机器学习项目的三个核心步骤。在语音识别的例子中,我们具体应用了它们。现在,让我们用一个不同的项目来巩固理解。
另一个案例:自动驾驶汽车 🚗
现在,让我们看看这三个步骤如何应用于构建自动驾驶汽车的一个关键组件:车辆检测系统。这个系统的目标是识别前方图像中其他车辆的位置。
第一步:收集数据(应用于自动驾驶)
构建车辆检测系统的第一步同样是收集数据。这里需要的数据是成对的“输入-输出”。
以下是需要收集的数据类型:
- 输入A:汽车前方拍摄的大量图片。
- 输出B:每张图片中,其他车辆的精确位置(通常用矩形框标注)。
在实践中,工程师会使用专门的软件工具来精确地绘制这些标注框。
第二步:训练模型(应用于自动驾驶)
有了标注好的数据,就可以开始训练模型了。模型的任务是学习从图片(A)到车辆位置框(B)的映射。
和之前一样,初始训练的模型效果通常不佳。例如,模型可能无法准确定位车辆。只有通过多次迭代优化,模型才能逐渐学会准确地检测出车辆。
第三步:部署与维护(应用于自动驾驶)
最后一步是将训练好的模型部署到自动驾驶汽车中进行测试。安全必须是首要考虑因素,因此测试必须在可控的安全环境下进行。
部署后,系统可能会遇到训练数据中未出现过的新情况,例如某种特定型号的高尔夫球车。这时,就可以收集这些新场景的数据,并用它们来维护和更新模型,使车辆检测能力变得越来越强。

课程总结 📝
本节课中,我们一起学习了构建机器学习项目的关键工作流程。我们通过语音识别和自动驾驶两个案例,详细阐述了每个步骤:

- 收集数据:获取带有标注的输入-输出对。
- 训练模型:使用算法学习
A -> B的映射关系,此过程需要多次迭代。 - 部署与维护模型:将模型投入实际使用,并根据反馈的新数据持续优化模型。
这个“收集-训练-部署”的循环是大多数机器学习项目的核心。下一节视频,我们将探讨数据科学项目的工作流程有何异同。
012:数据科学项目工作流程


在本节课中,我们将学习数据科学项目的工作流程。与机器学习项目不同,数据科学项目的输出通常是一系列可执行的见解。这些见解可能会促使你改变现有的做法。因此,数据科学项目拥有与机器学习项目不同的工作流程。让我们来看看数据科学项目的具体步骤。
数据科学项目示例:优化销售漏斗
作为贯穿始终的示例,假设你想优化一个销售漏斗。比如,你运营一个销售咖啡杯的电子商务网站。用户从你这里购买咖啡杯通常需要遵循一系列步骤:首先访问你的网站,浏览不同的咖啡杯;然后进入产品页面;接着将商品加入购物车,进入购物车页面;最后完成结账。如果你想优化这个销售漏斗,确保尽可能多的人完成所有这些步骤,你该如何利用数据科学来解决这个问题呢?
让我们看看数据科学项目的关键步骤。
第一步:收集数据
在我们看到的这类网站上,你可能拥有一个数据库,记录着不同用户访问不同网页的时间。在这个简单的例子中,我假设你可以通过查看用户计算机的地址(称为IP地址)并判断其来源国家,来识别用户来自哪里。但在实践中,你通常可以获得比用户国籍更多的数据。
第二步:分析数据
你的数据科学团队可能对影响销售漏斗性能的因素有很多想法。例如,他们可能认为海外客户被国际运费吓退,导致很多人进入结账页面但最终没有完成购买。如果这是真的,你可能会考虑是否将部分运费成本计入产品实际价格中。或者,你的数据科学团队可能注意到每当节假日时数据会出现波动。也许节假日期间购物的人更多,因为要买礼物;也可能更少,因为人们待在家里,而不是有时从工作电脑上购物。在某些国家,一天中的特定时段也可能出现波动。例如,在实行午休(siesta)的国家,下午休息时段在线购物者可能减少,从而导致销售额下降。他们可能会建议你在午休时段减少广告支出,因为那时上网购物的人更少。
一个好的数据科学团队会有很多想法,因此他们会尝试很多想法,或者说进行多次迭代,以获得有价值的见解。
第三步:提出假设与行动建议
最终,数据科学团队会将这些见解提炼成数量较少的假设,说明可能存在的问题,以及数量较少的行动建议,例如将运费成本纳入产品成本,而不是在结账时将其作为单独项目列出。
当你采纳其中一些建议并将这些更改部署到你的网站后,随着用户因你的广告策略或结账流程改变而产生不同的行为,你开始获得新的数据。然后,你的数据科学团队可以继续收集数据,并定期重新分析新数据,看看是否能随着时间的推移提出更好的假设或行动方案。
因此,数据科学项目的关键步骤是:收集数据 -> 分析数据 -> 提出假设和行动建议,然后持续获取新数据并定期重新分析。
应用框架:优化生产线
现在,让我们将这个框架应用到一个新问题上:优化生产线。我们将在下一页幻灯片上同样使用这三个步骤。
假设你运营一家工厂,每月生产数千个咖啡杯用于销售,你想优化这条生产线。以下是制造咖啡杯的关键步骤:
- 混合黏土:确保加入适量的水。
- 塑形:将黏土塑造成杯子形状。
- 上釉:添加着色和保护层。
- 烧制:将杯子加热,我们称之为窑炉烧制。
- 检查:检查杯子是否有裂缝,确保质量合格后再发货给客户。
制造业中的一个常见问题是优化生产线的良品率,确保尽可能少地生产出有缺陷的咖啡杯,因为这些杯子必须被丢弃,导致时间和材料浪费。
第一步:收集数据
数据科学项目的第一步是什么?我希望你还记得上一张幻灯片的内容,第一步是收集数据。例如,你可以保存关于不同批次混合黏土的数据,比如黏土供应商是谁、混合了多长时间,或者黏土中的湿度是多少、加了多少水。你也可以收集关于所制造的不同批次杯子的数据,比如该批次的湿度是多少、窑炉温度是多少、在窑炉中烧制了多长时间。
第二步:分析数据
在获得所有这些数据后,你会要求数据科学团队分析数据。和之前一样,他们会进行多次迭代以获得有价值的见解。例如,他们可能发现,每当湿度过低且窑炉温度过高时,杯子就容易开裂。或者他们可能发现,由于下午气温较高,你需要根据一天中的时间调整湿度和温度。

第三步:提出假设与行动建议
基于数据科学团队的见解,你会获得关于如何改变生产线操作以提高生产力的假设和行动建议。当你部署这些更改后,你将获得新的数据,可以定期重新分析,从而持续优化生产线的性能。
总结
本节课中,我们一起学习了数据科学项目的关键步骤:收集数据、分析数据、提出假设和行动建议。在本视频和上一个视频中,你看到了一些机器学习和数据科学项目的例子。事实证明,机器学习和数据科学正在影响几乎每一个工作岗位。在下一个视频中,我想向你展示这些理念如何影响许多岗位职能,其中可能包括你的岗位,当然也包括你许多同事的岗位。让我们继续观看下一个视频。
013:每个职能部门都需要学习数据应用


在本节课中,我们将探讨数据如何改变各个职能部门的工作方式。无论你从事招聘、销售、市场营销、制造还是农业,数据都在重塑你的工作。过去几十年,社会数字化进程加速,纸质调查问卷被数字形式取代,医生的手写记录也越来越多地转为电子档案。这种数据的普及意味着,数据科学或机器学习等工具很可能为你的工作带来帮助。接下来,我们将逐一审视不同职能部门,讨论数据科学和机器学习如何影响这些工作。
销售部门的数据应用
上一节我们介绍了数据科学如何优化销售漏斗。本节中我们来看看机器学习在销售中的具体应用。
销售人员通常有一份潜在客户名单,需要联系他们以促成交易。机器学习可以帮助你对这些潜在客户进行优先级排序。例如,系统可能建议你优先联系大公司的首席执行官,而不是小公司的实习生。这种自动化的线索排序能显著提升销售人员的工作效率。
以下是机器学习在销售中的一个应用示例:
- 自动线索排序:算法根据潜在客户的规模、职位、互动历史等数据,预测其成交可能性,并自动排序,让销售人员优先跟进高价值线索。
制造部门的数据应用
我们已经了解数据科学如何帮助优化生产线。现在,让我们看看机器学习能做什么。
许多制造流程的最后一步是最终检验。目前,成百上千的工人依靠肉眼检查产品(如咖啡杯)是否有划痕或凹痕。机器学习可以改变这一现状。
通过输入像这样的数据集,机器学习模型可以学会自动判断一个咖啡杯是否合格:
# 伪代码示例:使用图像识别模型进行缺陷检测
if model.predict(coffee_mug_image) == "defective":
send_to_rework()
else:
send_to_packaging()
通过自动发现划痕或凹痕,这项技术既能降低劳动力成本,也能提高工厂的产品质量。我认为,这种自动化的视觉检测技术将对制造业产生重大影响。
人力资源(招聘)部门的数据应用
招聘流程通常有一套可预测的步骤:发送邮件、电话沟通、现场面试、发放录用通知等。与优化销售漏斗类似,数据科学也可以用来优化招聘漏斗。
事实上,许多招聘机构已经在这样做了。例如,如果数据分析发现很少有人能从电话筛选阶段进入现场面试阶段,那么你可能需要反思:是进入电话筛选阶段的人太多,还是筛选标准过于严格,应该让更多人进入现场面试。
以下是数据科学和机器学习在招聘中的应用:
- 优化招聘漏斗:通过分析各环节转化率数据,定位瓶颈,优化招聘流程。
- 自动简历筛选:机器学习开始应用于自动筛选大量简历,以决定联系哪些候选人。但这引发了重要的伦理问题,例如必须确保AI软件不会产生不良偏见,并公平对待所有人。在本课程的最后一章,你将了解更多关于AI公平与伦理的问题。
市场营销部门的数据应用
在市场营销中,优化网站表现的常见方法是A/B测试。例如,同时上线两个版本的网站:A版本使用红色按钮,B版本使用绿色按钮,然后测量哪个版本能带来更多的用户点击。

基于这类数据,数据科学团队可以帮助你获得洞察,并提出优化网站的假设或行动建议。

那么机器学习在营销中如何应用呢?如今,许多网站会提供个性化的产品推荐,向你展示你最可能想购买的商品,这实际上显著提升了网站的销售额。
例如,一个服装网站在分析我的购物行为后,可能会只向我推荐蓝色衬衫,因为这是我唯一会买的类型。当然,其他顾客可能会收到更多样、更有趣的推荐。目前,这种个性化的产品推荐驱动了许多大型电商网站很大比例的销售额。
农业部门的数据应用
最后,让我们看一个完全不同领域的例子。假设你从事农业,可能是一个大型工业化农场的农场主。


数据科学如何提供帮助?如今,农民已经在使用数据科学进行作物分析。通过收集土壤条件、天气状况、市场上不同作物的价格等数据,数据科学团队可以提出建议,指导种什么、何时种,从而在保持农场土壤状况的同时提高产量。这类数据科学正在并将继续在农业中扮演越来越重要的角色。
再来看看机器学习的例子。我认为农业最令人兴奋的变化之一是精准农业。
下图是我在农场用手机拍摄的,右上角是一株棉花,中间显示的是杂草。

借助机器学习,我们开始看到一些产品能进入农场,拍摄这样的图片,然后以非常精确的方式只对杂草喷洒除草剂。这样既能清除杂草,又无需过量使用除草剂。这类机器学习技术既帮助农民提高了作物产量,也有助于保护环境。
总结

本节课中我们一起学习了数据、数据科学和机器学习如何影响从销售、招聘、市场营销到制造、农业等众多职能部门的工作。数据驱动的洞察和自动化工具正在提升效率、优化决策并创造新的可能性。
看起来AI有很多事情可以做,但如何实际选择一个有前景的项目来开展呢?我们将在下一个视频中讨论这个问题。
014:如何选择人工智能项目 第1部分 🎯

在本节课中,我们将学习如何为你的业务构思和筛选有价值的人工智能项目。我们将介绍一个实用的头脑风暴框架,帮助你找到既在技术上可行,又能为业务创造价值的项目。
如果你想要尝试一个人工智能项目,如何选择一个值得投入的项目呢?不要指望一个想法会在一夜之间出现。有时确实如此,但有时也需要几天甚至几周才能想出一个值得追求的想法。在本视频中,你将看到一个用于构思潜在人工智能项目的框架。
假设你想为你的业务构建一个人工智能项目。你已经知道人工智能并非无所不能。因此,存在一个特定集合的事情是人工智能能够完成的,让我们用一个圆圈来表示这个集合。同时,也存在一个特定集合的事情对你的业务是有价值的。让我们用第二个圆圈来表示这个集合。
你的目标是尝试选择位于这两个集合交集处的项目,即选择那些既可行(可以用人工智能完成)又对你的业务有价值的项目。人工智能专家通常能很好地判断左边集合(AI能做什么)的边界,而你的业务领域专家(如销售、市场营销或农业等)则能更好地判断什么对你的业务真正有价值。
因此,在构思人工智能能做且对业务有价值的项目时,我通常会组建一个团队,包括既懂人工智能又懂业务领域的专家,让他们一起头脑风暴,共同找出位于这两个集合交集处的项目。我们有时也称之为跨职能团队,即一个同时包含人工智能专家和领域专家(业务专家)的团队。
在构思项目时,有一个我与许多公司合作时发现非常有用的框架。以下是你可以让团队用来构思项目的三个原则或思路。
首先,尽管有很多新闻报道关于人工智能自动化取代工作,这是一个需要解决的重要社会问题,但在思考具体的人工智能项目时,我发现思考自动化任务比思考自动化工作更有用。
以呼叫中心运营为例。呼叫中心里有很多任务,包括接听电话、回复邮件、执行特定操作(如应客户要求处理退款)等。员工在呼叫中心执行的所有这些任务中,可能有一个任务(如呼叫路由或邮件路由)特别适合用机器学习实现自动化。通过审视这群员工执行的所有任务,并选择其中一个,可以帮助你在近期选择出最具成效的自动化项目。
让我们看另一个例子,放射科医生的工作。有很多报道称人工智能可能自动化放射科医生的工作。但放射科医生实际上做很多事情:他们阅读X光片(这很重要),但他们也参与继续教育、与其他医生会诊、指导年轻医生,有些人还直接与患者沟通。因此,通过审视放射科医生所做的所有这些任务,你可能会识别出其中一项(例如,用AI辅助或自动化阅读X光片),从而选择出最具成效的项目来推进。
所以,我们建议的方法是:审视你的业务,思考人们执行的任务,看看是否能识别出其中一项或几项,可能可以通过机器学习实现自动化。
当我与大型公司的CEO会面,为公司构思人工智能项目时,我经常问的另一个问题是:业务价值的主要驱动因素是什么?有时,寻找人工智能或数据科学解决方案来增强这些驱动因素会非常有价值。
最后,第三个有时能引出有价值项目想法的问题是:你业务中的主要痛点是什么?其中一些可能无法用AI解决,但通过理解业务中的主要痛点,可以为构思人工智能项目提供一个有用的起点。
关于构思人工智能项目,我还有最后一条建议:即使没有大数据,即使没有海量数据,你仍然可以取得进展。请不要误解,拥有更多数据几乎总是有益的(除了可能需要支付更多存储或网络带宽费用来传输和处理数据)。我本人也喜欢拥有大量数据。数据确实使一些业务(如网络搜索)具有防御性。网络搜索是一个长尾业务,意味着存在大量非常罕见的搜索查询。因此,了解人们在搜索所有这些罕见查询时点击了什么,确实有助于领先的搜索引擎提供更好的搜索体验。
所以,大数据很棒,当你能够获取时。但我认为大数据有时也被过度炒作。即使只有少量数据,你通常仍然可以取得进展。
这里有一个例子。假设你正在为咖啡杯构建一个自动视觉检测系统,你想自动检测出右边的咖啡杯是有缺陷的。如果你有一百万张好咖啡杯和坏咖啡杯的图片,那当然很好,可以为你的AI系统提供这么多示例。但我希望你没有生产出一百万个有缺陷的咖啡杯,因为那意味着要扔掉的东西非常昂贵。
所以,有时仅用100张图片,或者10张,有时甚至可能少至10张,你就可以启动一个机器学习项目。你需要的数据量非常依赖于具体问题,与人工智能工程师或专家交流可以帮助你获得更好的判断。
有些问题可能需要一万张图片都不够,确实需要大数据才能获得良好性能。但我的建议是,不要仅仅因为一开始没有大量数据就放弃。即使只有一个小数据集,你通常仍然可以取得进展。

在本视频中,你看到了一个头脑风暴框架,并设定了尝试构思项目的标准,这些项目有望既可以用人工智能实现,又对你的业务有价值。
现在,在构思出项目列表之后,如何从中选择一个或少数几个来真正投入并开展工作呢?让我们在下一个视频中讨论这个问题。
本节课总结:我们一起学习了如何为业务构思人工智能项目。核心方法是寻找AI可行性与业务价值的交集,并组建跨职能团队进行头脑风暴。我们介绍了三个实用的构思切入点:自动化具体任务、增强业务价值驱动因素以及解决业务痛点。最后,我们了解到项目启动不一定需要大数据,从小数据开始往往也能取得进展。
015:项目尽职调查与构建决策 🧐

在本节课中,我们将学习如何对一个潜在的人工智能项目进行深入的可行性评估,并探讨是自行构建还是购买解决方案的决策框架。
也许你有很多关于人工智能项目的想法,但在决定投入一个项目之前,如何确保这是一个真正有价值的项目?对于可能只需几天的快速项目,或许可以直接尝试。但有些人工智能项目可能需要数月才能完成。在本视频中,我将带你了解我用来复核一个项目是否值得投入数月精力的过程。
在投入一个大型人工智能项目之前,我通常会对其进行尽职调查。尽职调查在法律领域有特定含义,但非正式地说,它意味着你需要花时间确保你所期望的事情是真实的。
你已经了解到,最好的人工智能项目是那些既可行又有价值的项目。我们真正希望选择的是这两个集合交集处的项目。
因此,为了确保项目可行,我通常会进行技术尽职调查。为了确保项目有价值,我通常会进行商业尽职调查。让我详细介绍一下这两个步骤。
技术尽职调查 🔧
技术尽职调查是确保你希望构建的人工智能系统确实可行、确实可以完成的过程。
以下是技术尽职调查需要回答的几个关键问题:
- 性能可行性:与人工智能专家讨论,了解人工智能系统是否真的能达到期望的性能水平。例如,如果你希望构建一个准确率达到 95% 的语音系统,咨询人工智能专家或阅读行业文献可以帮助你判断这是否可行。
- 数据需求:达到设计性能水平需要多少数据?你是否有办法获取这些数据?
- 工程时间线:尝试估算构建你想要的系统需要多长时间,以及需要多少人手。
商业尽职调查 📈
除了技术尽职调查,我通常还会进行商业尽职调查,以确保你设想的项目确实对业务有价值。
许多人工智能项目通过降低成本(例如自动化某些任务或提高系统效率)或增加收入(例如推动更多人在购物车中结账)来创造价值。你也可能正在构建一个AI系统来帮助你推出新产品或新业务线。
商业尽职调查是仔细思考的过程:对于你正在构建的人工智能系统(例如准确率为 95% 的语音识别系统或准确率为 99.9% 的视觉检测系统),它是否能帮助你实现商业目标?无论你的商业目标是改善现有业务,还是在公司内创造全新的业务。
在进行商业尽职调查时,我通常会建立电子表格财务模型来定量估算价值,例如估算实际能节省多少美元,或对收入增长的合理假设进行建模,从而在投入数月精力之前,分析项目的经济效益。
道德尽职调查 ⚖️
尽管幻灯片上没有明确列出,但我希望你也考虑进行第三种尽职调查:道德尽职调查。我认为人工智能可以做很多事情,甚至能赚很多钱,但未必能让社会变得更好。因此,除了技术和商业尽职调查,我希望你也进行道德尽职调查,确保你所做的事情实际上是在让人类和社会变得更好。我们将在本课程的最后一周更详细地讨论这一点。
构建还是购买?🤔
在规划人工智能项目时,你还必须决定:是自行构建还是购买解决方案?这是IT世界中的一个经典问题,我们在人工智能领域也面临同样的问题。
例如,如今几乎没有公司会自己制造电脑,他们购买别人的电脑;也几乎没有公司会自己制造Wi-Fi路由器,只是购买商用路由器。
那么,机器学习和数据科学项目呢?机器学习项目可以在内部完成,也可以外包。我见过这两种模式都成功应用。有时,如果你外包一个机器学习项目,可以更快地获得人才并更快地启动项目。当然,最终建立自己的内部人工智能团队并在内部完成这些项目也很好。下周我们详细讨论人工智能转型手册时,你会听到更多关于这方面的内容。
与机器学习项目不同,数据科学项目更常见的是在内部完成。外包并非不可能,但根据我的观察,数据科学项目通常与你的业务紧密相连,需要非常深入的日常业务知识才能完成最好的数据科学项目。因此,从比例上看,我看到的内部数据科学项目多于机器学习项目。
最后,在每个行业中,有些东西会成为行业标准,你应该避免构建这些。对于“构建还是购买”这个问题,一个常见的答案是:构建那些对你来说非常专业化、完全定制化,或者能让你建立独特防御优势的东西。但对于那些将成为行业标准的东西,可能其他公司会构建,对你来说,直接购买比内部构建更高效。
我的一个团队有一个非常诗意的说法:“不要在火车前面冲刺”。这意味着,如果这是一列在铁轨上运行的火车,你不想成为那个试图在火车前面越跑越快的人或工程师。火车就是行业标准的解决方案。因此,如果有一家公司(可能是初创公司、大公司或开源项目)正在构建一个行业标准的解决方案,那么你可能要避免试图越跑越快以保持领先,因为尽管短期内你可能跑得更快,但最终火车会追上并碾压试图在火车前面冲刺的人。所以,当存在一个正在构建的行业标准解决方案的巨大力量时,你最好拥抱行业标准或拥抱别人的平台,而不是试图在内部完成所有事情。
我们都生活在一个资源有限的世界里:时间有限、数据有限、工程资源有限。因此,我希望你能将这些资源集中到那些对你公司最独特、能产生最大影响的项目上。
总结 📝

本节课中,我们一起学习了如何通过技术尽职调查和商业尽职调查来评估人工智能项目的可行性与价值。我们了解到,技术尽职调查关注性能、数据和工程可行性,而商业尽职调查则通过财务模型量化项目价值。此外,我们还引入了道德尽职调查的重要性,以确保项目对社会有益。最后,我们探讨了“构建还是购买”的决策框架,强调应将有限资源投入到能为公司创造独特优势的项目上,而非与行业标准解决方案竞争。
通过技术尽职调查和商业尽职调查的过程,我希望你能开始识别出对你的业务有潜在价值或前景的项目。如果项目是一个重大的承诺,可能需要数月才能完成,那么在投入项目之前花几周时间进行此类尽职调查对我来说并不罕见。
现在,假设你已经找到了一些有前景的项目,你如何与人工智能团队合作,如何与人工智能团队协作来完成这些项目?让我们在下一个视频中讨论这个问题。
016:15_与人工智能团队协作


概述 📋
在本节课中,我们将学习如何与人工智能团队协作,以成功执行一个AI项目。我们将了解AI团队如何看待数据,以及你如何通过提供清晰的验收标准和数据来帮助他们。即使你目前没有AI团队,我们也会探讨如何开始尝试。
如何与AI团队协作 🤝
假设你找到了一个令人兴奋的项目并希望执行,你如何与AI团队在此项目上协作?本节视频将教你AI团队如何思考数据,从而了解你如何与他们互动以帮助项目成功。
这里有一个前提需要注意:如果你有一个好想法但没有AI团队,或者无法接触到任何AI工程师怎么办?幸运的是,在今天的世界里,如果你自己或者能鼓励一些工程背景的朋友参加一两个关于机器学习或深度学习的在线课程,这通常能赋予他们足够的知识来开始尝试,并对这类项目做出合理的初步努力。
首先,如果你能为项目指定一个验收标准,这将极大地帮助你的AI团队。我在自动化视觉检测领域做过很多工作,因此我将在接下来的几张幻灯片中使用它作为贯穿始终的例子。
假设你的目标是检测咖啡杯的缺陷,准确率至少达到95%。这就可以作为你项目的验收标准。
理解准确率与测试集 📊
但是,95%的准确率如何衡量?AI团队需要的东西之一就是一个用于衡量准确率的数据集。数据就是一组像这样的图片,连同标签(即期望的输出B)一起,表明前两个咖啡杯是完好的,第三个是有缺陷的。
作为验收标准规范的一部分,你应该确保AI团队拥有一个可以衡量性能的数据集,这样他们才能知道自己是否达到了95%的准确率。这个数据集的正式术语称为测试集。
测试集可能不需要太大,对于这个例子,也许1000张图片就足够了。但如果你咨询AI专家,他们可以给你更好的建议,告诉你测试集需要多大才能评估是否达到了95%的准确率。
AI系统的一个新颖之处在于,其性能通常以统计方式指定。因此,我们通常不要求一个AI系统完美地完成某事,而是希望它达到某个百分比准确率,就像这里的例子一样。因此,在指定验收标准时,请考虑你的标准是否需要以统计方式指定,即平均表现如何,或者它必须在多大比例的时间内给出正确答案。
深入理解数据集:训练集与测试集 🧠
让我们更深入地探讨测试集的概念。这是AI团队思考数据的方式:他们将数据分为两个主要数据集。
第一个称为训练集,第二个称为测试集(我们已经讨论过一些)。训练集就是一组图片及其标签,显示每张图片中的咖啡杯是完好的还是有缺陷的。因此,训练集提供了输入A(咖啡杯的图片)和期望输出B(完好或有缺陷)的示例。
给定这个训练集,机器学习算法要做的事情就是学习。换句话说,计算或找出从A到B的某种映射关系,这样你就得到了一个软件,它可以接收输入A,并尝试找出适当的输出B。因此,训练集是机器学习软件的输入,让它能够找出这个A到B的映射关系。
AI团队将使用的第二个数据集是测试集。正如你所见,这是另一组与训练集不同的图像,同样附有提供的标签。AI团队评估其学习算法性能的方法是:将测试集中的图像输入AI软件,并查看AI软件的输出。
例如,如果在这三张测试集图像上,AI软件的输出是:这张“完好”,这张“完好”,这张也是“完好”,那么我们会说它在三个例子中答对了两个,因此准确率是66.7%。
在图中,训练集和测试集都只有三张图片。实际上,这两个数据集当然都要大得多。你会发现对于大多数问题,训练集比测试集大得多。你可以与AI工程师交流,了解他们针对特定问题需要多少数据。
最后,由于技术原因,一些AI团队需要的不仅仅是一个,而是两个不同的测试集。如果你听到AI团队谈论开发集、验证集,那就是他们使用的第二个测试集。他们需要两个测试集的原因相当技术性,超出了本课程的范围。但如果AI团队要求你提供两个不同的测试集,尝试提供给他们是相当合理的。

避免期望100%准确率的陷阱 ⚠️
在结束本视频之前,我想敦促你避免一个陷阱:期望你的AI软件达到100%的准确率。
我的意思是这样的:假设这是你的测试集,你已经在幻灯片上见过,但让我向这个测试集添加更多示例。
以下是AI软件可能无法达到100%准确率的一些原因:
- 技术限制:尽管今天的机器学习技术非常强大,但仍然存在局限性,它们并非无所不能。你可能正在处理一个即使对当今的机器学习技术来说也非常困难的问题。
- 数据不足:如果你没有足够的数据,特别是没有足够的训练数据供AI软件学习,可能很难达到非常高的准确率。
- 数据混乱:数据有时可能被错误标记。例如,这里的绿色咖啡杯在我看来完全没问题,所以将其标记为“缺陷”看起来是一个不正确的标签,这会损害你的AI软件的性能。
- 数据模糊性:数据也可能具有模糊性。例如,看起来这个咖啡杯上有一个小划痕,而且划痕很小。也许我们会认为它仍然是完好的,但也许这实际上应该算作缺陷,甚至不同的专家可能对这个特定的咖啡杯是否完好、是否应该通过检测步骤存在分歧。
其中一些问题可以得到改善。例如,如果你没有足够的数据,也许可以尝试收集更多数据,更多的数据通常会有所帮助。或者你也可以尝试清理错误标记的数据,或者尝试让你的领域专家就这些模糊的标签达成更好的共识。因此,有办法尝试让情况变得更好。
但是,许多AI系统即使没有达到100%的准确率,也具有巨大的价值。因此,我建议你与AI工程师讨论,尝试实现一个合理的准确率水平,然后找到一个既能通过技术尽职调查,又能通过商业尽职调查的方案,而不必强求100%的准确率。
总结 🎉
恭喜你完成本周的所有视频!你现在了解了构建一个AI项目的感觉和所需的条件。希望你已经开始头脑风暴并探索一些想法。
还有一个可选视频,描述了AI团队使用的一些技术工具,如果你愿意可以观看。无论如何,我期待下周见到你,届时你将学习AI项目如何融入更大公司的背景中。期待下周与你相见!
😊


017:人工智能团队的技术工具(可选)🔧

概述
在本节课程中,我们将了解人工智能团队在构建系统时常用的一些技术工具和术语。掌握这些基础知识,将帮助你更好地理解AI工程师的工作内容,并能在他们讨论技术时跟上节奏。
开源工具与框架
上一节我们介绍了AI团队的工作流程,本节中我们来看看他们具体使用的技术工具。当今的AI领域非常开放,许多团队会共享想法和代码。这极大地推动了整个领域的进步。
以下是几个最常用的开源机器学习工具或框架:
- PyTorch:一个广泛使用的深度学习框架,以其灵活性和动态计算图而闻名。
- TensorFlow:由Google开发,是另一个主流的机器学习框架,适用于研究和生产。
- Hugging Face:以其
transformers库闻名,提供了大量预训练的自然语言处理模型。 - PaddlePaddle:百度开发的深度学习平台。
- R:一种主要用于统计计算和图形的编程语言和环境。


此外,许多重要的AI技术突破会公开发布在 arXiv.org 这样的学术预印本网站上,供全球研究者自由获取。


代码共享平台:GitHub
除了具体的工具,代码共享也是AI开源生态的关键。GitHub 已成为AI乃至整个软件行业开源代码的事实上的存储库。

通过使用适当许可的开源软件,团队可以避免从零开始构建一切,从而大大加快开发速度。例如,如果你在GitHub上搜索人脸识别软件,可能会找到包含详细描述和可用代码的项目页面。当然,在使用任何开源代码前,务必仔细检查其许可证。
虽然GitHub是一个为工程师构建的技术网站,但任何人都可以自由浏览,查看人们在线发布了哪些类型的AI软件。
硬件:CPU与GPU
在技术讨论中,你还会经常听到AI工程师谈论CPU和GPU。以下是这些术语的含义:
- CPU:代表中央处理单元,是你计算机(无论是台式机、笔记本电脑还是云服务器)中的主要处理器,由英特尔、AMD等公司制造。它负责计算机中的大量通用计算。
- GPU:代表图形处理单元。历史上,GPU是为处理图像(如视频游戏图形)而设计的。但人们后来发现,这种为图形处理设计的硬件,对于构建和训练非常大的神经网络或深度学习算法异常强大。
随着需要构建越来越大的神经网络系统,AI社区对计算能力的需求永无止境。GPU恰好完美契合了训练大型神经网络所需的高强度并行计算类型。因此,GPU在深度学习的兴起中扮演了重要角色。英伟达是主要的GPU制造商,但高通、谷歌(制造TPU)等公司也越来越多地制造专门用于加速大型神经网络的专用硬件。
部署方式:云、本地与边缘
最后,你可能会听到关于部署方式的讨论:云部署、本地部署和边缘部署。
- 云部署:指租用云计算服务(如亚马逊AWS、微软Azure、谷歌GCP)来运行你的计算任务。公式可以简单理解为:
你的应用 + 云服务提供商的基础设施。 - 本地部署:指购买自己的计算服务器,并在公司内部本地运行服务。
详细探讨这两种方案的优缺点超出了本节范围,但总体趋势是很多应用正在向云部署迁移。你可以在网上找到许多讨论云与本地部署利弊的文章。
还有一个重要的术语是边缘部署。在某些场景下,例如构建自动驾驶汽车时,没有足够的时间将数据发送到云端服务器处理后再将指令传回汽车。因此,计算必须在数据产生的地方即时完成,比如汽车内部的计算机上。这就叫边缘部署——将处理器放在数据收集点,以便快速处理数据并做出决策,无需通过互联网将数据传输到别处处理。
你家中的一些智能音箱也是边缘部署的例子(并非全部任务),部分语音识别任务是由内置在音箱本地的处理器完成的。边缘部署的主要优势是降低系统响应时间并减少需要在网络上传输的数据量。关于边缘、云和本地部署的更多利弊,你也可以在线搜索了解更多。

总结
本节课中,我们一起学习了人工智能团队常用的一些核心技术工具和概念。我们介绍了主流的开源框架(如PyTorch、TensorFlow)、代码共享平台GitHub、关键硬件CPU与GPU的区别,以及不同的系统部署方式(云、本地、边缘)。希望当你再听到AI工程师提及这些工具时,能对他们所谈论的内容有更清晰的认识。我们下周再见!
018:第3周 课程介绍


欢迎回来。在前两周,我们学习了什么是人工智能以及如何构建一个人工智能项目。本周,我们将审视已经讨论过的项目,并探讨项目如何融入公司的整体背景中——无论是营利性公司、非营利组织,还是政府实体。为了具体起见,我将以公司为例进行讲解,但其中的原则同样适用于任何类型的组织。
如果你觉得本周听到的一些内容听起来像是CEO层面的讨论,请不要感到畏惧。实际上,了解这些对每个人都有用,它能帮助你推动公司或组织利用人工智能进行改进。一个公司要精通人工智能,可能需要两到三年的时间,这不仅仅是完成一个项目,而是要持续开展一系列有价值的人工智能项目,从而变得高效得多。我希望本周能帮助你描绘一个组织在较长时间内可以实现的人工智能愿景,同时在本周结束时,为你提供可以立即采取的具体步骤。
那么,让我们开始吧。以下是本周你将学习的主题:
首先,我们将探讨复杂人工智能产品的案例研究。与上周看到的单一机器学习或数据科学模块不同,本周你将看到多个模块如何协同工作,构建出更复杂的人工智能产品,例如智能音箱或自动驾驶汽车。
其次,你将了解人工智能团队中的主要角色。如果你考虑在公司组建一个可能拥有数十甚至数百人的大型人工智能团队,这些人将负责哪些工作?我们将开始描绘构建人工智能团队的路线图。
第三,你将学习人工智能转型手册,了解如何帮助你的公司精通人工智能。这不仅仅是做一两个有价值的项目,而是要让整个公司都擅长运用人工智能,从而变得更有成效、更有价值。
最后,尽管其中一些步骤可能需要数年时间才能完成,我们将在本周视频结束时,为你提供具体的建议,告诉你如何立即迈出第一步,在公司内启动人工智能建设。
除了这些主要主题,我们最后还会有几个可选视频,带你概览主要的人工智能应用领域和技术。


因此,我希望通过本周的学习,你能对如何帮助公司利用人工智能有一个清晰的愿景,并掌握可以立即采取的第一步行动。让我们进入下一个视频,开始详细学习。
019:智能音箱

概述
在本节课中,我们将通过一个具体的案例——智能音箱,来学习如何构建一个复杂的AI产品。我们将了解,一个看似简单的语音指令背后,需要多个AI组件协同工作,形成一个处理“流水线”。
智能音箱的工作原理
上一节我们介绍了复杂AI产品的概念,本节中我们来看看一个具体的例子:智能音箱。当你对智能音箱说“嘿,设备,讲个笑话”时,它需要经过一系列步骤来理解并执行你的命令。
以下是处理该命令所需的四个核心步骤:
-
触发词检测
智能音箱持续监听环境声音,并使用一个机器学习算法来检测特定的“唤醒词”(例如“嘿,设备”)。这个算法的本质是一个从音频到判断的映射:输入:音频片段 -> 输出:是否听到唤醒词(是/否)。一旦检测到唤醒词,系统就会被激活。 -
语音识别
在听到唤醒词后,系统会立即开始处理接下来的音频。另一个机器学习算法会将“讲个笑话”这段语音转换成对应的文本。这同样是另一个A到B的映射:输入:唤醒词之后的音频 -> 输出:文本转录(例如“Tell me a joke”)。 -
意图识别
得到文本后,系统需要理解用户的真实意图。智能音箱通常支持一组有限的命令,例如“讲笑话”、“报时”、“播放音乐”等。意图识别组件会分析文本,判断用户想要执行哪一类命令。这又是一个A到B的映射:输入:文本转录 -> 输出:意图类别(例如“讲笑话”)。一个设计良好的系统应该能理解同一意图的不同表达方式,比如“你知道什么好笑话吗?”或“说点有趣的”。 -
命令执行
一旦确定用户意图是“讲笑话”,就会触发由软件工程师预先编写好的专门程序。这个程序会从笑话库中随机选择一个笑话,并通过音箱播放出来,从而完成命令的执行。
处理更复杂的命令
理解了基本流程后,我们来看一个更复杂的例子:“嘿,设备,设置一个10分钟的计时器”。这个命令的处理流程与之前类似,但增加了一个关键环节。
处理这个命令的步骤如下:
- 触发词检测:检测“嘿,设备”。
- 语音识别:将“设置一个10分钟的计时器”转换为文本。
- 意图识别:识别出用户的意图是“设置计时器”。
- 参数提取:这是新增的关键步骤。系统需要从文本中提取出具体的参数——“10分钟”这个时长信息。
- 命令执行:一个专门的软件组件会接收“设置计时器”的意图和“10分钟”的参数,并启动一个相应时长的计时器。
智能音箱的能力与挑战
目前,智能音箱能够执行许多功能,例如播放音乐、调节音量、打电话、查询天气、单位换算等。执行这些命令的关键步骤依然是:触发词检测、语音识别、意图识别,最后调用专门的程序来执行。
然而,构建这样一个产品也面临挑战:

- 开发工作量:若要支持20种不同功能,就需要软件工程团队编写20个专门的执行程序。这是一项庞大的工程。
- 用户认知:智能音箱能做的事情很多,但并非无所不能。用户很难完全记住所有可用的命令。因此,智能音箱公司需要投入大量资源进行用户教育,明确告知用户产品的功能边界。
尽管如此,通过语音来操控设备,已经为许多人的生活带来了极大的便利。
总结
本节课中,我们一起学习了构建智能音箱这类复杂AI产品的基本原理。我们了解到,它并非依赖单一的算法,而是由触发词检测、语音识别、意图识别和命令执行等多个AI与软件组件构成的“流水线”协同工作。这个过程帮助我们初步理解了在大型公司中,如何通过多个团队分工合作来开发复杂的AI系统。
020:自动驾驶汽车


在本节课中,我们将要学习自动驾驶汽车的工作原理。这是一个将多个AI组件组合起来构建复杂系统的绝佳案例。我们将通过一个简化的描述,帮助你理解这些组件是如何协同工作的。
🚗 自动驾驶汽车的关键步骤
自动驾驶汽车通过整合多种传感器和AI算法来决定如何驾驶。以下是其决策过程的关键步骤。
汽车会接收来自各种传感器的输入,例如汽车前方、侧面和后方的图像,以及雷达或激光雷达的读数。
给定这些图像和其他传感器输入后,汽车需要检测其他车辆。它需要识别出其他汽车的位置。
汽车还需要检测行人的位置,因为我们需要避开其他车辆和行人。
车辆检测和行人检测都可以通过机器学习来完成,使用输入-输出映射。算法以图片、雷达和激光雷达传感器数据作为输入,并输出其他汽车和行人的位置。
最后,在知道了其他汽车和行人的位置后,可以将这些信息输入到一个专门的软件模块中,这个模块称为运动规划软件。它的职责是规划汽车的运动路径,使汽车能够在避免碰撞的同时向目的地前进。
一旦为汽车规划好了运动路径,就可以将其转化为具体的转向盘角度、油门和刹车指令。这样就能控制汽车以期望的角度和速度移动。
🔍 深入理解三个关键步骤
上一节我们介绍了自动驾驶的三个核心步骤。本节中,我们来看看车辆检测、行人检测和运动规划这三个步骤的更多细节。

车辆检测
车辆检测使用监督学习。你已经见过学习算法如何输入类似下图的图片,并输出检测到的汽车。

对于大多数自动驾驶汽车,不仅使用前置摄像头,也经常使用向左、向右以及向后的摄像头,以便检测汽车周围各个方向的车辆。这通常不仅使用摄像头,还结合其他传感器,如雷达和激光雷达。
行人检测
行人检测使用与车辆检测非常相似的传感器类型和技术。自动驾驶汽车可以检测行人。
运动规划

我简要提到了运动规划步骤。它具体是什么呢?以下是一个例子。
假设你正在驾驶汽车,前方有一辆浅蓝色的汽车。运动规划软件的工作就是告诉你应该沿着图中红色的路径行驶,以便跟随道路并避免事故。
运动规划软件的工作是输出路径以及你应该驾驶汽车的速度,以便跟随道路。速度的设置应确保你不会撞到其他车辆,同时也能在这条路上以合理的速度行驶。
这是另一个例子。如果有一辆灰色汽车停在道路右侧,你想要超越这辆停着的车。

那么运动规划软件的工作就是规划出一条像这样的路径,让你稍微向左偏转,安全地超越停着的汽车。
🧩 真实自动驾驶系统的更多细节
到目前为止,我们给出了一个主要由这三个组件组成的、相当简化的自动驾驶描述。现在,让我们更详细地看看一个真实的自动驾驶汽车可能如何工作。
下图展示了我们目前描述的过程:输入图像、雷达和激光雷达传感器读数,进行车辆和行人检测,然后将结果输入运动规划模块,以帮助你选择路径和速度。

在一个真实的自动驾驶汽车中,通常不仅仅使用摄像头、雷达和激光雷达。如今大多数自动驾驶汽车还会使用GPS来感知位置,以及加速度计(有时称为IMU,包含加速度计和陀螺仪),还有地图。
因为我们知道汽车更可能出现在道路上,行人更可能出现在人行道上(尽管他们有时也会在道路上)。所有这些通常都是额外的信息,被输入到检测汽车、行人以及其他物体的模块中。
为了安全驾驶,不仅需要检测汽车和行人,还需要知道这些汽车和行人未来会去哪里。因此,自动驾驶汽车的另一个常见组件是轨迹预测。这是另一个AI组件,它不仅告诉你发现了哪些汽车和行人,还预测他们在接下来几秒钟内可能去往哪里,这样即使他们在移动,你也能避开他们。
安全驾驶需要的不仅仅是避开其他汽车和行人。你还需要知道车道在哪里,因此可能需要检测车道标记。如果有交通灯,你还需要识别交通灯的位置以及它显示的是红色、黄色还是绿色信号。有时还有其他障碍物,比如意外的交通锥,或者可能有一群鹅走在你的车前,这些也需要被检测到,以便你的汽车能够避开这些障碍物。
在一个大型的自动驾驶汽车团队中,让一个团队或几个人专门负责上图中用红色框出的每个模块,并不罕见。正是通过构建所有这些组件并将它们组合在一起,才能构建出一辆自动驾驶汽车。

📝 总结
本节课中我们一起学习了自动驾驶汽车的工作原理。我们从一个简化的三组件模型(车辆检测、行人检测、运动规划)开始,逐步深入到更复杂的真实系统,其中包含了GPS、地图、轨迹预测、车道和交通灯检测等多个模块。这个案例清晰地展示了如何将多个独立的AI组件整合成一个复杂的、能够执行实际任务的系统管道。正如智能音箱的例子一样,构建复杂的AI产品通常需要一个团队来负责各个不同的组件。
在下一个视频中,我们将探讨大型AI团队中的关键角色。如果你目前是个人或小型AI团队,这也没关系。但我希望你能对在遥远的未来构建一个大型AI团队可能是什么样子有一个愿景。
021:人工智能团队典型角色解析 🧑💻


在本节课中,我们将要学习构建复杂人工智能产品所需的大型AI团队中,各种典型的角色与职责。即使你目前所在的团队规模很小,了解这些分工也能帮助你理解AI项目可能涉及的不同工作类型。
概述
在前两节视频中,我们看到一些AI产品可能需要庞大的AI团队来构建,有时甚至超过100名工程师。本节我们将解析这样一个大型AI团队中典型的角色和职责,以便你更好地理解构建复杂AI产品所需的工作类型。
需要说明的是,由于AI领域发展迅速,职位名称和职责尚未完全标准化,不同公司之间可能存在差异。但本节将为你介绍许多公司中常见的职位定义,为你未来组建或理解AI团队打下基础。
核心角色解析
以下是构建AI产品时常见的几种核心角色。
软件工程师
许多AI团队中都包含软件工程师。例如,为智能音箱编写执行讲笑话、设置定时器或回答天气问题的专用软件,就是传统的软件工程任务。再比如,确保自动驾驶汽车的软件可靠且不会崩溃,也属于软件工程范畴。因此,AI团队中通常有相当大比例(有时超过50%)的成员是软件工程师。
机器学习工程师
机器学习工程师负责编写实现A到B映射的软件,或构建产品所需的其他机器学习算法。他们的工作可能包括:收集汽车图片和位置数据、训练神经网络或深度学习算法,并通过迭代优化确保学习算法输出准确的结果。
机器学习研究员
机器学习研究员的典型职责是推动机器学习(以及更广泛的AI)领域的技术前沿。由于该领域仍在快速发展,许多公司(无论是营利还是非营利机构)都设有研究员职位,负责拓展技术边界。部分研究员会发表论文,但也有许多公司的研究员更专注于研究本身,而非论文发表。
应用机器学习科学家
这是一个介于机器学习工程师和研究员之间的职位。应用机器学习科学家通常负责从学术或研究文献中寻找最先进的技术,并探索如何将这些技术适配到当前面临的问题中。例如,如何将最前沿的唤醒词检测算法应用到智能音箱产品中。
数据科学家
目前,行业中有许多数据科学家,但其角色定义尚不明确,且含义仍在演变。我认为,数据科学家的主要职责之一是分析数据、提供洞察,并向管理团队进行汇报,以帮助推动业务决策。如今,也有数据科学家从事更接近前面提到的机器学习工程师的工作,这一职位的含义仍在不断发展。
数据工程师
随着大数据的兴起,数据工程师的角色越来越重要。他们的主要职责是帮助组织数据,确保数据以易于访问、安全且经济高效的方式存储。为什么存储数据会成为一项重要工作?在某些公司,数据量已经变得非常庞大,管理这些数据本身就需要大量工作。
为了让你对数据规模有更直观的感受,我们来了解一下计算机科学中的数据单位:
- 1 MB(兆字节):相当于一首典型的MP3歌曲文件大小(约5 MB)。
- 1 GB(千兆字节) = 1000 MB:相当于一部在线流媒体的一小时电影大小。
- 1 TB(太字节) = 100万 MB。
- 1 PB(拍字节) = 10亿 MB。
例如,一辆自动驾驶汽车每分钟运行都可能收集数GB的信息,相当于每分钟生成足以存储多部电影的数据量。因此,保存数天、数周甚至数年的运行数据,就需要专业的数据工程工作。当数据规模达到TB甚至PB级别时,确保数据易于访问、安全且经济高效地存储就变得极具挑战性,这也正是数据工程师日益重要的原因。
AI产品经理
最后,你还会听到AI产品经理这个职位。他们的工作是帮助决定构建什么产品,即找出既可行又有价值的方向。传统产品经理的职责本就包括决定产品方向,而AI产品经理则需要在AI时代完成这一任务,他们需要掌握新的技能,根据当前AI技术的能力与局限来判断什么是可行且有价值的。
从小团队起步
需要再次强调的是,以上角色定义并非一成不变,不同公司的用法可能有所不同。但我希望这能让你对构建复杂AI产品所需的不同工作类型,以及相关职位的演变方向有一个大致的了解。
最后,我想重申,你完全可以从一个小团队开始。你并不需要10个人来完成大多数AI项目。无论是只有一名软件工程师与你合作,还是只有一名机器学习工程师、一名数据科学家,甚至只有你自己——只要你或与你合作的工程师上过一些关于机器学习、深度学习或数据科学的在线课程,这通常就足以让你或你们两人开始着手处理一些较小规模的数据、得出一些结论,或者开始训练一些机器学习模型来启动项目。
因此,尽管本节描绘了一个大型AI团队的愿景,但即使你的AI团队很小,甚至只有你自己,我仍然鼓励你开始行动,探索你能开展的项目。
总结
本节课我们一起学习了大型AI团队中各种典型角色的职责,包括软件工程师、机器学习工程师、机器学习研究员、应用机器学习科学家、数据科学家、数据工程师和AI产品经理。理解这些分工有助于我们把握构建AI产品所需的完整工作流。同时,我们认识到完全可以从一个小团队甚至个人开始AI项目的探索。


本节视频展示了AI团队可能的样子。但在一个更大的公司中,AI团队并非孤立存在。那么,AI团队如何融入更大的公司,并帮助整个公司擅长AI呢?你可能记得在第一周课程中,我们简要提到了“AI转型手册”,它是帮助一家公司(也许是一家大公司)在AI领域变得出色的路线图。现在,你已经了解了什么是AI、如何开展AI项目,甚至AI团队和公司如何完成项目,接下来让我们回到“AI转型手册”,更深入地探讨其中的各个步骤,以便理解如何帮助一家公司在几年内变得擅长AI,并在此过程中变得更有价值和更高效。
让我们在下一个视频中继续学习“AI转型手册”。😊
022:21_人工智能转型指南 第1部分


在本节课中,我们将学习如何帮助您的公司成为擅长人工智能的公司。课程内容基于我在领导谷歌大脑团队和百度人工智能团队时的经验,这两个团队分别是帮助谷歌和百度在深度学习人工智能领域取得领先地位的核心力量。我将分享一份人工智能转型指南的细节,帮助您理解公司转型所需的关键步骤。
概述
人工智能转型是一个系统性的过程。本节课程将重点介绍转型指南的前三个步骤:执行试点项目以获取动力、建立内部人工智能团队以及提供广泛的人工智能培训。理解这些步骤对于公司内的每一位成员都至关重要,因为它有助于您的工作不仅影响个别项目,还可能对公司整体产生更大的影响。
第一步:执行试点项目以获取动力 🚀
上一节我们介绍了课程的整体目标,本节中我们来看看如何迈出转型的第一步。如果希望公司能在人工智能领域获得动力,选择初始项目时最重要的考虑因素是确保其成功,而非一定是价值最高的项目。
例如,在我领导谷歌大脑团队时,深度学习仍备受质疑。我的第一个内部客户是谷歌的语音识别团队。虽然语音识别很有用,但对公司利润而言,它不如网络搜索或在线广告重要。然而,通过帮助语音团队取得成功,我们开始获得动力。其他团队看到语音团队的成功后,也开始对人工智能产生信心并希望与我们合作。
以下是选择初始项目时的关键考虑因素:
- 选择成功概率高的项目:即使它可能不是最终能为公司带来最大价值的项目,首要目标是获得动力。
- 展示短期成效:最好选择能在6到12个月内显示出进展的项目,以便快速启动良性循环。
- 考虑外包选项:如果公司内部尚无大型人工智能团队,将最初的一两个试点项目部分或全部外包,可能是获取专业知识和快速建立动力的明智之举。
第二步:建立内部人工智能团队 👥
在通过试点项目获得初步动力后,公司需要建立自己的内部团队来长期执行可能多达数十个人工智能项目。许多公司的组织结构是CEO下设多个业务单元。
对于大多数公司,我建议建立一个集中化的人工智能团队。然后,以矩阵组织的形式,将团队中的人才分配到不同的业务单元,以支持它们的工作。
为什么需要集中化的AI团队?
以礼品卡业务单元为例。该业务单元的领导者可能非常擅长礼品卡业务,但除非他/她精通人工智能并知道如何组建、保留和管理人工智能团队,否则很难自行招聘和管理人工智能人才。因此,找一个能负责全公司统一招聘和保留标准的人工智能团队领导者,成功率会高得多。
集中化的人工智能团队还有其他职责:
- 构建公司级平台:如果有对全公司有用的软件平台、工具或数据基础设施,单个业务单元可能没有资源或动力去构建这些能支持整个公司的平台。集中化的人工智能团队可以帮助构建这些公司级工具或平台。
- 汇报关系:这个新的人工智能部门可以隶属于首席技术官、首席信息官、首席数据官、首席数字官,或者一位新的首席人工智能官。首席人工智能官这一角色正变得越来越常见。
最后一项建议是,在起步阶段,公司或CEO应为人工智能部门提供启动资金,而不是要求该部门从业务单元获取资金。在初始投资和起步期之后,人工智能部门需要向业务单元证明其创造的价值,但初期由高层注入资金通常能帮助您更快地获得初始动力。
第三步:提供广泛的人工智能培训 📚
上一节我们讨论了团队建设,本节中我们来看看如何提升团队的整体能力。要让公司擅长人工智能,不仅需要工程师懂人工智能,还需要公司多个层级的员工理解人工智能如何与他们的角色互动。
以下是针对不同人群的培训建议:
- 高管和高级业务领导者:他们需要学习人工智能能为企业做什么,至少了解人工智能战略的基础知识,并掌握足够的知识以做出资源分配决策。这类培训可能通过大约4小时的内容就能传达很多关键信息(尽管小时数并非衡量学习效果的好指标)。
- 负责人工智能项目的部门领导者:他们需要了解如何设定项目方向、进行技术和业务尽职调查、在部门层面做出资源分配决策,以及如何跟踪和监控人工智能项目的进展。这类培训可能需要至少12小时。
- 现有工程师队伍:许多公司从外部招聘人工智能人才,但培训现有工程师掌握人工智能技能同样重要且影响深远。让软件工程师成为专业的人工智能工程师需要时间,可能需要计划至少100小时的培训。许多公司提供培训,帮助工程师学习构建和部署人工智能软件、收集和管理数据,并有效地执行具体的人工智能项目。
当今世界人工智能工程师严重短缺,因此内部培训是许多公司构建内部人工智能能力的关键部分。
关于如何完成这些培训,得益于在线数字内容的兴起,包括在线课程、书籍、YouTube视频和博客文章,网上有大量关于这些主题的优秀内容。一个好的CEO应该与专家合作,策划这类内容并激励团队完成学习活动,而不是去创建内容,后者成本要高得多。

总结

本节课中,我们一起学习了人工智能转型指南的前三个核心步骤。通过执行试点项目获取动力、建立集中化的内部人工智能团队,以及为不同层级的员工提供广泛的人工智能培训,您的公司将能够开始获得显著的发展势头,从而变得更高效、更有价值。
从更宏观的角度看,人工智能还会影响公司战略以及如何协调投资者、员工、客户等不同利益相关者与公司转型的关系。让我们进入下一个视频,继续探讨人工智能战略。
023:人工智能转型指南 第2部分


在本节课中,我们将深入学习人工智能转型指南的后两个步骤:制定AI战略以及进行内外部沟通。我们将探讨如何利用AI为你的企业创造长期、可持续的竞争优势。
在上一个视频中,我们学习了如何通过试点项目为内部AI团队积累动能并提供广泛的AI培训。
但如果你希望你的企业不仅能在短期内利用AI获得动力,更能长期成为一个极具价值甚至难以被撼动的业务,你该怎么做?让我们来谈谈AI战略,以及对于某些公司而言同样重要的、与AI相关的内外部沟通。
回顾一下,这是人工智能转型的五步指南。在本视频中,我们将更深入地探讨最后两个步骤。
制定AI战略
人工智能转型指南的第四步是制定AI战略。我希望对你而言,这意味着利用AI为你所在的特定行业领域创造优势。
这个指南中一个不同寻常的部分是,制定AI战略是第四步,而非第一步。当我与许多高管分享这一点时,一个常见的请求或反馈是:能否将战略设为第一步?因为他们认为应该先确定公司战略,然后寻找资源,最后执行战略。
但我发现,那些在尝试AI、了解构建AI项目的感觉之前,就试图在第一步定义战略的公司,最终往往会制定出有时非常学术化、有时不切实际的战略。
例如,我曾见过一些CEO将报纸头条复制粘贴到战略中。当他们读到数据很重要时,就说“我的战略是专注于收集大量数据”。但对于你的公司而言,这些数据可能并不有价值,也可能并非你公司的好战略。
因此,我倾向于建议公司先开始其他步骤:执行试点项目、开始组建一个小团队、提供一些培训。只有在理解了AI以及它如何应用于你的业务之后,再制定战略。我认为这比在公司(特别是高管团队)对AI能为你的行业做什么、不能做什么有更深入的了解之前,就试图制定AI战略,效果会好得多。
此外,你可以考虑设计一个与AI的良性循环相一致的策略。让我用一个网络搜索的例子来说明。
网络搜索之所以是一个非常稳固的业务(意味着新进入者很难与现有的、大型的网络搜索引擎竞争),原因之一如下:
如果一个公司有更好的产品(哪怕只是稍好一点),那么这个网络搜索引擎就能获得更多用户。拥有更多用户意味着你可以收集更多数据,因为你可以观察到不同用户在搜索不同术语时点击了什么。这些数据可以被输入到AI引擎中,以生产出更好的产品。
这意味着,拥有稍好产品的公司最终会获得更多用户,进而获得更多数据,并利用现代AI技术创造的这种联系,打造出更好的产品。这使得新进入者很难打破这个自我强化的正向反馈循环,即AI的良性循环。
幸运的是,进入新垂直领域的小团队也可以利用这个AI良性循环。我认为,今天很难再打造一个新的网络搜索引擎来与谷歌、百度、必应或雅虎竞争。
但如果你正在进入一个新的垂直领域、一个新的应用领域,那里还没有根深蒂固的现有企业,那么你或许可以制定一个战略,让你成为利用这个良性循环的人。
让我用一个例子来说明。有一家名为Blue River的公司被约翰迪尔以超过3亿美元收购。Blue River利用AI制造农业技术设备。
他们制造的机器可以被拖拉机牵引。在广阔的农田里,这台机器会拍摄作物的照片,分辨哪些是作物,哪些是杂草,并使用精准AI技术只割除杂草,而不伤害作物。
Blue River的创始人在斯坦福大学上我的课时就开始了这个项目。他们最初只是用个人相机,跑到许多农场,在农田里拍摄了大量作物照片。他们开始收集卷心菜及其周围杂草的图片。
一旦他们有了足够的数据(开始时数据量很小),他们就可以训练一个基础产品。坦率地说,第一个产品并不出色,因为它是在少量数据上训练的,但它足以开始说服一些农民(用户)开始使用他们的产品,将这台机器挂在拖拉机后面,开始为农民除草。
一旦这台机器在农场里运行,通过拍摄卷心菜和除草的过程,他们自然就获得了越来越多的数据。在接下来的几年里,他们得以进入这个正向反馈循环:更多数据 → 更好的产品 → 说服更多农民使用 → 收集更多数据。
经过几年这样的良性循环,他们能够积累巨大的数据资产,这使得他们的业务相当稳固。事实上,在被收购时,我确信他们拥有的田间卷心菜图片数据资产,甚至比大型科技公司拥有的还要多。这使得他们的业务即使对拥有大量网络搜索数据的大型科技公司来说,也相对稳固,因为这些大公司并没有像这家公司那样多的田间卷心菜图片。
还有一个建议:很多人认为一些大型科技公司在AI方面更强大,我认为这是事实。一些大型科技公司确实非常擅长AI。
但这并不意味着你需要或应该试图在通用AI领域与这些大型科技公司竞争,因为很多AI需要针对你的行业进行专业化或垂直化。因此,对大多数公司而言,最好的选择是构建针对你所在行业的专业化AI,并在你的应用领域做好AI工作,而不是试图或觉得需要在各个领域与大型科技公司在AI上全面竞争,这对大多数公司来说并不现实。
AI战略的其他要素
我们将生活在一个由AI驱动的世界,正确的战略可以帮助你的公司更有效地应对这些变化。
你还应该考虑制定数据战略。领先的AI公司非常擅长战略性数据获取。例如,一些面向消费者的大型AI公司会推出免费电子邮件服务、免费照片分享服务或许多其他不直接盈利的免费服务,这些服务允许他们以各种方式收集数据,从而更多地了解你,以便为你提供更相关的广告,并以此方式将数据货币化,这与产品的直接货币化方式截然不同。
获取数据的方式因行业垂直领域而异。但我曾参与过一些感觉像是多年棋局的竞争,我和其他公司竞争对手在进行多年的博弈,看谁能获取最具战略意义的数据资产。
你也可以考虑构建统一的数据仓库。如果你有50个不同的数据仓库,分别由50位不同的副总裁控制,那么AI工程师或AI软件几乎不可能整合所有这些数据来发现关联。
例如,如果制造部门的数据仓库与客户投诉的数据仓库完全分开,AI工程师如何整合这些数据,以找出制造过程中可能导致两个月后客户投诉手机故障的原因?因此,许多领先的AI公司投入了大量前期努力,将数据整合到一个单一的数据仓库中,因为这增加了工程师或软件能够发现关联和模式的可能性,例如,今天制造过程中的高温如何导致未来两个月后出现设备故障并引发客户投诉,从而让你可以回头改进制造流程。这在多个行业中有很多例子。
你还可以利用AI在网络效应和平台优势明显的行业中创造赢家通吃的局面,AI可以成为一个巨大的加速器。
例如,以今天的网约车业务为例,像Uber、Lyft、滴滴和Grab这样的公司似乎拥有相对稳固的业务,因为它们是连接司机和乘客的平台,新进入者很难同时积累大量的司机群体和乘客群体。
像Facebook这样的社交媒体平台也非常稳固,因为它们具有强大的网络效应:一个平台上有大量用户会使其对其他用户更具吸引力,因此新进入者很难打入。
如果你所在的业务具有这类赢家通吃或赢家占优的动态,那么如果AI能帮助你更快地增长(例如,加速用户获取),这可能转化为你的公司在该业务垂直领域取得成功的更大机会。
战略因公司、行业和具体情况而异,因此很难给出完全适用于每家公司的战略建议。但我希望这些原则能为你提供一个思考框架,帮助你思考对于你的公司而言,AI战略可能包含哪些关键要素。
现在,AI也可以融入更传统的战略框架。例如,迈克尔·波特多年前曾写过关于低成本和高价值战略的文章。如果你的公司采用低成本战略,那么或许可以利用AI来降低业务成本。如果你的公司采用高价值战略,以更高的成本提供真正非常有价值的产品,那么你可能会利用AI来专注于提高产品的价值。因此,AI能力也可以帮助增强更广泛的企业战略中的现有要素。
最后,在你构建这些有价值且稳固的业务时,我希望你也只构建那些能让人们生活得更好的业务。AI是超能力,是你可以用来打造伟大AI公司的强大工具。因此,我希望无论你做什么,都只以让人类更美好的方式进行。
进行内外部沟通
人工智能转型指南的最后一步是进行内外部沟通。AI可以改变一家公司及其产品,与相关利益方进行适当沟通非常重要。
例如,这可能包括投资者关系,以确保你的投资者能够恰当地将你的公司评估为一家AI公司。投资者关系也可能包括政府关系。例如,AI正在进入医疗保健这个高度监管的行业,因为政府有保护患者的正当需求。
因此,为了让AI影响这些高度监管的行业,我认为公司有必要与政府沟通,并通过公私合作伙伴关系与他们协作,以确保AI解决方案能够为人们带来其所能带来的益处,同时确保政府能够保护消费者和患者。这对于医疗保健、自动驾驶汽车、金融以及许多其他AI行业垂直领域都是如此。
如果你的产品发生变化,那么消费者或用户教育将很重要。在当今世界,AI人才非常稀缺,因此,如果你能够展示一些初步的成功,这将真正有助于人才招聘。
最后,内部沟通也很重要。如果你正在对公司进行转型,那么公司内部许多人可能会对AI产生担忧(有些是合理的,有些则不那么理性)。适当的内部沟通可以安抚人心,这只会有所帮助。
通过这五个步骤,我希望你能对如何帮助一家公司擅长AI有一个愿景。我希望你喜欢这两个关于人工智能转型指南的视频。我见过许多公司通过拥抱并擅长AI而变得更有价值、更高效。我希望这些想法能帮助你迈出第一步,帮助你的公司擅长AI。


话虽如此,我也见过许多公司在尝试在整个企业实施AI时遇到的常见陷阱。让我们在下一个视频中看看其中一些常见陷阱,希望你能避免它们。让我们进入下一个视频。
本节课总结:在本节课中,我们一起学习了人工智能转型指南的后两个核心步骤。首先,我们探讨了为何应在积累初步AI经验后再制定AI战略,以及如何利用AI的良性循环(更好产品 → 更多用户 → 更多数据 → 更好产品)构建稳固的业务优势。其次,我们强调了与投资者、政府、用户及内部员工进行有效沟通的重要性,以确保AI转型的顺利实施。
024:应避免的人工智能陷阱 🚧

在本节课中,我们将学习在为公司构建人工智能项目时应避免的五个常见陷阱,以及相应的正确做法。理解这些要点能帮助你更有效地启动和管理AI项目,避免走弯路。
上一节我们探讨了AI项目的潜力,本节中我们来看看在实践过程中需要警惕哪些误区。
陷阱一:不要期望AI解决所有问题 ❌
你已经知道AI能做很多事情,但AI同样有很多无法做到的事情。正确的做法是,对AI能做什么、不能做什么保持现实的态度,充分考虑技术、数据和工程资源的限制。这就是为什么我认为,除了商业尽职调查,技术尽职调查对于选择可行且有价值的AI项目同样重要。
陷阱二:不要只依赖少数机器学习工程师 ❌
不要仅仅雇佣两三个机器学习工程师,并完全指望他们为你的公司想出应用场景。机器学习工程师是稀缺资源。正确的做法是,将工程人才与商业人才配对,跨职能协作来寻找可行且有价值的项目。通常,正是机器学习人才与商业人才的结合,才能选出最有价值和最可行的项目。
陷阱三:不要期望AI项目首次尝试就能成功 ❌
正如你已经看到的,AI开发通常是一个迭代过程。因此,你应该为此做好计划,将其视为一个需要多次尝试才能成功的迭代过程。
陷阱四:不要期望传统规划流程能直接套用 ❌
不要期望传统的规划流程无需修改就能直接应用。相反,你应该与AI团队合作,建立有意义的时间线估算、里程碑和关键绩效指标(KPI)。与AI项目相关的时间线估算、里程碑和KPI类型,与非AI项目相关的同类事物有所不同。因此,希望与一些了解AI的个人合作,能帮助你找到更好的AI项目规划方法。
陷阱五:不要认为必须先有超级明星AI工程师 ❌
最后,不要认为在拥有超级明星AI工程师之前你什么都做不了。相反,要持续建设团队,并利用现有的团队开始行动。要认识到,当今世界上有许多AI工程师,包括许多主要从在线课程学习、也能出色完成工作的工程师。

构建有价值且可行的项目。如果你能避免这些AI陷阱,相比许多其他公司,你已经领先一步。最重要的是开始行动。你的第二个AI项目会比第一个更好,第三个会比第二个更好。因此,最重要的是开始行动,并尝试你的第一个AI项目。
在本周的最后一个视频中,我想与你分享一些在AI领域可以采取的具体第一步。让我们进入下一个视频。😊
本节课总结:我们一起学习了构建公司AI项目时应避免的五个关键陷阱,包括对AI能力的不切实际期望、过度依赖单一角色、忽视迭代开发、套用传统管理流程以及等待“完美”团队。核心在于保持务实、促进协作、接受迭代、定制化管理并立即行动。
025:迈出人工智能实践第一步 🚀

在本节课中,我们将学习如何将人工智能理论知识转化为实际行动。课程将提供具体的步骤建议,帮助个人或公司开启AI之旅。
概述
本周,我们了解了构建智能音箱或自动驾驶汽车等复杂AI产品的过程。我们学习了大型AI团队的职责,以及如何组建这样的团队,并看到了帮助优秀公司转型为优秀AI公司的行动指南。这些内容可能看起来有些艰巨,因为其中一些可能需要两到三年的时间来执行。但请记住,更重要的是能够迈出第一步。事实上,通过参加本课程,您已经迈出了出色的第一步。因此,我希望在本课程之后,您能同样出色地迈出第二步。
具体行动建议
在本视频中,我想与您分享一些具体的建议,帮助您或您的公司朝着AI方向迈出下一步。
以下是您可以采取的一些初步步骤。
寻找学习伙伴
与其独自探索,不如考虑在公司内部或外部寻找朋友一起学习AI。这可以意味着邀请他们与您一起学习本课程,或者在您学完后与他们分享,或者组建一个阅读小组,结合本课程所学,共同阅读一些关于AI的书籍或其他材料。
启动小型项目
如果您有工程师朋友,还可以开始进行项目头脑风暴。项目没有大小之分,从小处着手并取得成功,远比目标过大而无法实现要好。许多项目仅靠您自己或与一位朋友合作即可完成。如果您和/或朋友参加了机器学习在线课程,所获得的知识足以让您启动许多潜在非常有价值的AI项目。
公司层面的举措
在公司层面,除了提供内部培训以培养内部人才外,您还可以雇佣一些机器学习或数据科学人员来提供帮助。当您准备好扩大规模时,也可以尝试让公司雇佣或任命一位AI领导者,例如AI副总裁或首席AI官。但在雇佣少数机器学习或数据科学人员以更快启动项目之前,您可能不需要非常资深的AI领导者。
推动公司转型
最后,我曾与许多公司的CEO和董事会讨论过AI转型。如果您希望您的公司擅长AI,您也可以考虑尝试与您的CEO讨论执行AI转型的可能性。我认为,向您的CEO或董事会提出的关键问题是:如果公司擅长AI,其价值或效率是否会大幅提升?如果您和他们认为答案是肯定的,那么这可能是公司尝试执行AI转型的一个充分理由。

这份清单上的不同项目执行难度各不相同,但我希望您能从力所能及的事情开始,然后在此基础上逐步发展您的AI事业。
总结与展望
在本节课中,我们一起学习了如何迈出人工智能实践的第一步。我们探讨了从寻找学习伙伴、启动小型项目,到在公司层面引入人才和推动转型的具体路径。记住,行动胜于空谈,从小处着手并持续积累是关键。
我已经看到许多人,包括技术人员和非技术人员,帮助他们的公司了解并开始有效使用AI。看完这些视频后,您现在也拥有了具体的工具来做同样的事情。因此,我希望您能利用这些工具,帮助您的公司、您自己以及他人。
最后,本周我们还有两个可选视频,内容分别是主要AI应用领域概览以及主要AI技术概览。如果您曾想知道“计算机视觉”和“自然语言处理”这些术语的含义,或者什么是“强化学习”或“无监督学习”,请观看这些视频,因为我们将在接下来的两个视频中向您介绍这些应用领域和技术。我们将这些视频设为可选,是因为它们的技术性稍强一些,但在观看之后,您将能够更好地与AI工程师沟通。因此,我希望您能看一看。
无论如何,感谢您观看本周的所有视频,期待在下周的课程中与您再见。
026:主要人工智能应用领域概览

📖 概述
在本节课中,我们将概览人工智能在当今世界成功应用的几个主要领域。我们将了解AI如何处理图像、视频、语言、语音等多种类型的数据,并探讨这些技术如何可能激发你未来项目的灵感。
🖼️ 计算机视觉应用
上一节我们介绍了AI应用的广泛性,本节中我们来看看它在计算机视觉领域的具体表现。深度学习的主要成功之一体现在计算机视觉上。
以下是计算机视觉的一些关键应用类型:
- 图像分类与物体识别:这项技术接收一张图片作为输入,并告诉我们图片中包含什么。例如,识别出这是一只猫。AI算法不仅能识别猫,还能识别特定类型的花朵或食物。其核心是接收图片输入并将其分类为某种物体类型。该技术正被用于各种应用。
- 人脸识别:这是图像分类中一个备受关注的具体类型。当今的人脸识别系统工作原理如下:用户注册一张或多张面部照片,向AI展示自己的样貌。当给定一张新图像时,AI系统会判断这是否为同一人,从而决定是否应解锁门禁、手机或笔记本电脑等设备。当然,我们希望人脸识别仅以尊重个人隐私的方式使用。
- 物体检测:与仅对物体进行分类或识别不同,物体检测旨在判断物体是否出现以及出现在何处。例如,在构建自动驾驶汽车时,AI系统可以接收一张图片作为输入,不仅能判断是否有汽车或行人,还能标出它们在图中的具体位置。物体检测算法也可以对一张图片说“否”,即未发现任何汽车或行人。因此,它不是给整张图片贴标签,而是告诉我们图片中不同物体的位置及其类型。
- 图像分割:这项技术更进一步。给定一张图片,图像分割算法会输出结果,不仅告诉我们汽车和行人在哪里,还会指明每一个像素是属于汽车、行人还是其他部分。它不会仅仅在检测到的物体周围画矩形框,而是精确勾勒出物体的边界。例如,在阅读X光片时,图像分割算法可以观察X光扫描图或人体其他图像,并精确分割出肝脏、心脏或骨骼的位置。
- 视频与追踪:计算机视觉也能处理视频,其中一个应用是追踪。在这个例子中,算法不仅检测视频中的跑步者,还会追踪他们在随时间推移中的移动轨迹。红色方框下方的小尾巴显示了算法如何在几秒的视频中追踪不同跑步者的移动。追踪视频中人物及其他移动物体的能力,有助于计算机判断物体的运动方向。例如,如果你使用摄像机追踪野生动物(比如飞鸟),追踪算法也能帮助追踪单个鸟类在视频帧间的飞行轨迹。
这些是计算机视觉的一些主要领域,其中某些或许对你的项目有用。
📝 自然语言处理应用
上一节我们探讨了AI如何“看”世界,本节中我们来看看AI如何“理解”和“生成”人类语言。AI,特别是深度学习,在自然语言处理领域也取得了巨大进展。自然语言处理(NLP)指的是AI理解自然语言,即你我用于交流的语言。
以下是几种主要的NLP应用:
- 文本分类:AI的任务是接收一段文本(如电子邮件)作为输入,并告诉我们该文本的类别。例如,判断是垃圾邮件还是非垃圾邮件。也有网站接收产品描述作为输入,例如“我有一部二手手机出售”,然后自动判断产品应列在哪个类别下(如手机或电子产品)。或者,如果你写“我有一件新T恤出售”,它会自动将其列在服装类别下。
- 情感识别:这是一种备受关注的文本分类。例如,情感识别算法可以接收一条餐厅评论作为输入,如“食物很好”,并自动尝试判断这条评论可能获得几颗星。“食物很好”是一条相当好的评论,也许是四星(满分五星)。而如果有人写“服务糟透了”,那么情感识别算法应能判断这大概对应一星评价。
- 信息检索:网络搜索或许是信息检索最著名的例子,你输入文本查询,希望AI帮你找到相关文档。许多公司也有内部信息检索系统,其界面可帮助你在公司内部文档集中搜索相关内容。
- 命名实体识别:这是另一项自然语言处理技术。举例说明,假设你有这样一个句子,你想找出其中所有的人名。那么,“伊丽莎白女王二世”是一个人,“保罗·麦卡特尼爵士”也是一个人。在句子“伊丽莎白女王二世在白金汉宫授予保罗·麦卡特尼爵士音乐服务勋章”中,命名实体识别系统可以找出所有像这样的人名。如果你想找出句子中所有的地点名称,命名实体识别系统也能做到。它还能自动提取公司名称、电话号码、国家名称等。因此,如果你有一个大型文档集,想自动找出所有公司名称、或共同出现的公司名称、或所有人名,命名实体识别系统就是你可以使用的工具。
- 机器翻译:这是另一个主要的AI应用领域。例如,如果你看到日语句子“AI あらゆる分野”,机器翻译系统可以接收它并输出翻译“AI for everyone”。
本页幻灯片上的四个项目——文本分类、信息检索、命名实体识别和机器翻译——是NLP的四大类有用应用。
🔊 语音处理应用
上一节我们了解了AI如何处理文本,本节中我们来看看AI如何处理音频数据,特别是语音。现代AI,特别是深度学习,也彻底改变了软件处理音频数据(如语音)的方式。
语音在计算机中如何表示?这是一位朋友说“machine learning”这个短语的音频波形图。这里的X轴是时间,垂直轴是麦克风记录的内容。这段录音记录的是空气压力的微小、快速变化,你的耳朵和大脑将其解释为声音。这个图表显示了随时间(水平轴)变化,空气压力如何因某人说“machine learning”一词而发生非常快速的变化。
以下是语音处理的主要应用:
- 语音识别(语音转文本):该问题是接收如上图所示的输入,并判断某人说了什么词。语音识别近期的进展主要归功于深度学习。
- 触发词/唤醒词检测:这是语音识别的一种特定类型。你在之前的视频中看到过,AI系统检测诸如“Alexa”、“Hey Google”或“Hey Siri”这样的触发词或唤醒词。
- 说话人识别:这是一个专门的语音问题,其任务是聆听某人说话并判断说话者的身份。正如人脸识别通过拍照来验证你的身份,说话人识别也可以通过听你说话来帮助验证身份。
- 语音合成(文本转语音):这也获得了大量关注。文本转语音是输入一个文本句子并将其转换为音频文件的问题。有趣的是,文本转语音常缩写为TTS,但我不常看到语音转文本缩写为STT。
举一个简单的例子,我们取句子“The quick brown fox jumps over the lazy dog”。这是一个NLP人员常用的有趣句子,因为它包含了从A到Z的每一个字母。如果你将这个句子输入TTS系统,你可能会得到像这样的音频输出。大多数TTS系统的声音正变得越来越自然,越来越像人声。
🎨 生成式AI应用
课程中我已多次提到生成式AI。生成式AI是一类能够生成高质量媒体内容(特别是文本、图像或音频)的AI系统。
让我们更详细地看看生成式AI的这些应用:
- 文本生成:大型语言模型非常擅长文本生成任务,包括从零开始创作内容、撰写摘要、文案编辑(即修改语法、提高清晰度等)以及聊天。例如,你可以给其中一个模型一个指令,如“为一系列巧克力冰淇淋建议有趣且有创意的名字”,模型就会生成一些有创意的听起来不错的名称。请注意,这里的输入文本被称为提示词,编写提示词以生成你想要的输出,正成为许多工作中一项有用的技能。我发现,将大型语言模型作为头脑风暴伙伴能提高我的工作效率。如果你能有效地编写提示词,或许你会发现它在工作或个人生活中也是一个有用的工具。事实上,我认为大型语言模型现在已经发展到这样一个阶段:几乎所有的知识工作者都可以通过在日常工作流程中学习和使用它们,至少获得一点生产力提升。
- 图像生成:生成式AI也能从零开始创建新图像。像Midjourney、DALL-E、Adobe Firefly和Stable Diffusion这样的软件,通过从互联网上的数百万张图像中学习,已经学会了如何根据文本描述生成图像。因此,使用其中一个图像生成模型,你可以输入一个示例提示词,如“一个紫色友好的机器人正在吃冰淇淋”,模型就会为你生成一张与提示词匹配的高质量图像。
- 音频生成:之前,我们看到了语音合成模型如何将文本转换为语音音频。同样存在像Suno、Stable Audio或Meta's AudioCraft这样的软件,它们可以根据文本提示生成音乐和音效。因此,通过编写如“鼓点独奏,140 BPM(每分钟节拍数)”这样的提示词,你可以使用音乐生成模型来创建一段音频。
因此,生成式AI能够创建多种类型的内容。这正在影响许多行业领域,我们将在下周了解更多关于AI(包括生成式AI)对工作的影响。
🤖 机器人技术应用
AI也应用于机器人技术的许多领域,你已经在自动驾驶汽车中看到了一个例子。
在机器人技术中,术语“感知”指的是根据你拥有的传感器(无论是摄像头、雷达还是激光雷达)来弄清楚周围世界有什么。右侧显示的是一辆自动驾驶汽车的3D激光扫描(或激光雷达扫描),以及这辆位于中间的自动驾驶汽车在其附近检测到的其他车辆。

“运动规划”指的是为你的机器人找到一条要遵循的路径。因此,如果你的汽车想要左转,运动规划器可能会规划一条路径以及汽车沿那条路径左转的速度。
最后,“控制”指的是向电机发送命令,例如你的方向盘电机以及油门和刹车电机,以便让汽车平稳地遵循你想要的路径。
本节课我们主要关注机器人技术的软件和AI方面。当然,为机器人构建硬件也有很多重要的工作,但AI在感知、运动规划和控制方面的大量工作都集中在软件而非机器人硬件上。

📊 结构化数据上的机器学习
除了这些主要应用领域,机器学习也被非常广泛地使用。你在本视频中看到的例子主要与非结构化数据有关,如图像、音频和文本。机器学习至少同样多地应用于结构化数据,这意味着这些数据表格,其中一些你在之前的视频中见过。

但是,由于非结构化数据(如图像)对人类来说非常容易理解,当我们谈论一个能识别猫的AI系统时,任何人都能很容易地理解和产生共鸣,因此大众媒体倾向于更多地报道AI在非结构化数据上的进展,而不是在结构化数据上的进展。结构化数据也往往更针对单个公司,因此人们更难撰写或理解相关内容。但是,与AI在非结构化数据上一样,AI在结构化数据上(或机器学习在结构化数据上)今天也在创造巨大的经济价值。
🎯 总结
我希望这次对AI应用领域的概览,能让你感受到当今AI成功应用的广泛数据类型。也许这甚至会启发你思考,其中一些应用领域如何可能对你自己未来的项目有用。
到目前为止,我们花最多时间讨论的一项AI技术是监督学习。这意味着从带有标签的数据中学习输入到输出(或A到B)的映射,你向AI系统提供A和B。但这并不是唯一的AI技术。事实上,“监督学习”这个词几乎引出了一个问题:什么是无监督学习?或者你可能也从新闻媒体的文章中听说过强化学习。那么,这些其他技术是什么?在下一个视频(本周最后一个可选视频)中,我们将概览AI技术,我希望通过那个视频,你或许能看到这些其他AI技术以及监督学习是否可能对你的项目也有用。
027:主要人工智能技术概览

概述
在本节课中,我们将学习监督学习之外的其他几种重要人工智能技术。我们将逐一介绍无监督学习、迁移学习、强化学习、生成对抗网络和知识图谱,了解它们的基本概念、工作原理和应用场景。
无监督学习:发现数据中的模式
上一节我们介绍了监督学习,它是一种从A到B映射的学习方法。本节中我们来看看无监督学习。
目前存在许多人工智能和机器学习技术。虽然监督学习(即学习A到B的映射)是当今最有价值的技术,但还有许多其他技术值得了解。
无监督学习最著名的例子是聚类分析。以下是一个例子。
假设你经营一家专门销售薯片的杂货店,你收集了不同客户的数据,记录了单个客户购买的薯片包数以及他们为每包薯片支付的平均价格。你销售一些低端的便宜薯片,也销售一些高端的价格较贵的薯片包。不同的顾客在一次典型的购物中可能会购买不同数量的薯片包。
给定这样的数据,聚类算法会说你的数据中似乎有两个集群。
你的一些顾客倾向于购买相对便宜的薯片,但购买很多包。例如,如果你的杂货店靠近大学校园,你可能会发现很多大学生购买较便宜的薯片包,但他们购买的数量很多。数据中还有第二个集群,是另一群购物者,他们购买的薯片包较少,但购买的是更贵的包装。聚类算法分析此类数据,并自动将数据分组为两个或更多集群。
它常用于市场细分,并帮助你发现类似这样的情况:如果你有一个购买特定类型薯片的大学生受众,以及一个购买较少薯片但愿意支付更高价格的在职专业人士受众,这可以帮助你对这些细分市场进行不同的营销。
之所以称之为无监督学习,原因如下。
监督学习算法学习A到B的映射,你必须告诉算法你想要的输出B是什么。
无监督学习算法并不确切地告诉AI系统它想要什么。相反,它给AI系统一堆数据,比如这些客户数据,并告诉AI在数据中寻找有趣的东西,寻找数据中有意义的东西。在这种情况下,聚类算法事先并不知道存在大学生群体和在职专业人士群体。相反,它只是试图找出不同的市场细分,而无需事先被告知它们是什么。
因此,无监督学习算法在给定数据时,没有任何特定的设计输出标签,没有目标标签B,可以自动发现数据中有趣的东西。
我参与过的一个无监督学习例子是稍微有点“臭名昭著”的谷歌猫项目。在这个项目中,我和我的团队在一个非常大的YouTube视频集上运行了一个无监督学习算法,我们要求算法告诉我们它在YouTube视频中发现了什么。它在YouTube视频中发现的众多事物之一就是猫,因为有点刻板印象的是,YouTube上显然有很多猫视频。但这是一个了不起的结果,在没有事先告诉它应该找猫的情况下,AI系统,即无监督学习算法,能够自己发现猫的概念,仅仅通过观看大量YouTube视频,并发现“天哪,YouTube视频里有很多猫”。有时很难准确可视化AI算法在想什么,但右边的图片是系统学习到的猫概念的可视化。
尽管监督学习是一种非常有价值和强大的技术,但对它的批评之一是它需要大量标注数据。例如,如果你试图使用监督学习让AI系统识别咖啡杯,那么你可能需要给它1000张或10000张咖啡杯的图片,而这只是需要提供给AI系统的海量咖啡杯图片。
对于为人父母者,我几乎可以保证,这个星球上没有哪位父母,无论多么慈爱和关怀,曾向他们的孩子指出过10000个独特的咖啡杯来试图教孩子什么是咖啡杯。因此,当今的AI系统学习所需的标注数据量远多于人类儿童或大多数动物。这就是为什么AI研究人员对无监督学习寄予厚望,认为它可能是在未来让AI以更人性化、更生物化的方式,用更少的标注数据进行更有效学习的一种途径。目前,我们对生物大脑的工作原理几乎一无所知,因此要实现这一愿景,需要在AI领域取得重大突破,而今天我们所有人都还不知道如何实现。我们许多人对无监督学习的未来寄予厚望。
尽管如此,无监督学习在今天仍然有价值。例如,在自然语言处理的一些特定应用中,无监督学习实际上有助于显著提高网络搜索的质量。但如今无监督学习创造的价值仍然远小于通过监督学习创造的价值。
迁移学习:知识的传递与复用
了解了无监督学习后,我们来看另一种能有效利用已有知识的技术:迁移学习。
另一个重要的AI技术是迁移学习。让我们看一个例子。

假设你制造了一辆自动驾驶汽车,并且你已经训练了你的AI系统来检测汽车。但随后你将车辆部署到一个新的城市,而这个新城市有很多高尔夫球车在行驶。因此,你还需要建立一个高尔夫球车检测系统。你可能已经用大量图像(比如10万张)训练了你的汽车检测系统,但在你刚刚开始运营的这个新城市,你可能只有数量少得多的高尔夫球车图像。
迁移学习是一种技术,它让你能够从任务A(如汽车检测)中学习,并将知识用于帮助完成不同的任务B(如高尔夫球车检测)。迁移学习真正发挥作用的地方在于,如果已经从任务A(汽车检测)的庞大数据集中学习,那么即使你只有少得多的高尔夫球车数据,你现在也能在高尔夫球车检测上做得相当好,因为它从第一个任务中学到的一些知识(比如车辆的外观、轮子的样子、车辆的运动方式)可能对高尔夫球车检测也有用。
迁移学习没有得到很多媒体报道,但它是当今AI中非常有价值的技术之一。例如,许多计算机视觉系统都是使用迁移学习构建的,这对它们的性能产生了巨大影响。
强化学习:通过奖励信号学习行为
接下来,我们探讨一种通过试错和反馈来学习的技术:强化学习。
你可能也听说过一种叫做强化学习的技术。那么,什么是强化学习?让我用另一个例子来说明。
这是一张斯坦福自主直升机的图片。它配备了GPS、加速度计和罗盘,所以它总是知道自己的位置。假设你想写一个程序让它自主飞行。很难使用监督学习的输入输出A到B映射,因为很难指定当直升机处于某个给定位置时,最优的、最好的飞行方式是什么。
强化学习提供了不同的解决方案。我认为强化学习类似于你如何训练宠物狗表现良好。我成长的家庭曾养过一只宠物狗。那么,你如何训练宠物狗表现良好呢?我们让狗做它想做的任何事。然后每当它表现良好时,我们就会表扬它,说“哦,好狗”。每当它做坏事时,你就会说“坏狗”。随着时间的推移,它学会了多做“好狗”的事,少做“坏狗”的事。
强化学习采用同样的原则,并将其应用于直升机或其他事物。因此,我们让直升机在模拟器中飞行,这样它可以坠毁而不会伤害任何人。但我们会让AI以任何方式驾驶直升机。每当它驾驶直升机飞得好时,我们就会说“哦,好直升机”。每当它坠毁时,我们就会说“坏直升机”。然后,AI的任务就是学习如何驾驶直升机,以获得更多“好直升机”的奖励,减少“坏直升机”的负面反馈。
更正式地说,强化学习算法使用奖励信号来告诉AI它做得好还是不好。这意味着每当它做得好时,你给它一个大的正数作为大的正奖励;每当它做得非常糟糕时,你发送一个负数作为负奖励。AI的任务是自动学习如何行动,以最大化奖励。因此,“好狗”对应于给予正数,“坏狗”或“坏直升机”对应于你给予负数。然后AI将学会更多地采取那些导致大的正数或大的正奖励的行为。

让我给你看一段我们完成这项工作后斯坦福自主直升机飞行的视频。这是一段直升机在强化学习控制下飞行的视频。那天我是摄像师。当你拉远镜头时,你会看到种在天空中的树。我们实际上给了它一个奖励信号,奖励直升机倒飞。使用强化学习,我们建造了世界上能力最强的自主直升机之一。

除了机器人控制,强化学习在玩游戏方面也取得了很大进展,比如奥赛罗、跳棋、国际象棋或围棋。你可能听说过AlphaGo,它使用强化学习在围棋上表现得非常出色。强化学习在玩电子游戏方面也非常有效。
强化学习算法的一个弱点是它们可能需要海量的数据。所以,如果你在玩电子游戏,强化学习算法基本上可以玩无限多的电子游戏,因为它只是计算机玩电脑游戏,从而获得大量数据来学习如何表现得更好。或者对于玩跳棋或其他游戏,它可以自己玩很多游戏,免费获得大量数据输入强化学习算法。在自主直升机的案例中,我们有一个直升机模拟器。因此,可以在模拟中飞行很长时间,以找出什么对驾驶直升机有效,什么无效。目前正在进行大量激动人心的研究工作,以使强化学习即使在可能没有精确模拟器、难以获得如此大量数据的环境下也能工作。

尽管强化学习受到了媒体的大量关注,但至少在今天,它创造的经济价值明显低于监督学习。但未来的突破可能会改变这一点。AI发展如此迅速,我们当然都希望在我们谈论的这些领域都能取得突破。
生成对抗网络:创造新内容
除了学习模式,AI还能创造新内容。生成对抗网络是另一种令人兴奋的新AI技术。
GANs或生成对抗网络是另一种令人兴奋的新AI技术。它们是由我的前学生伊恩·古德费洛创建的。
GANs非常擅长从零开始合成新图像。让我给你看一段由英伟达团队生成的视频,他们使用GANs合成名人图片,这些都是从未存在过的人的照片,但通过从名人图像数据库中学习名人的样子,能够合成所有这些全新的图片。

目前,不同的团队正在开展激动人心的工作,将GANs应用于娱乐行业,范围涵盖计算机图形学、电脑游戏、媒体,以及像这样从零开始创造新内容。


知识图谱:结构化的知识数据库

最后,知识图谱是另一个我认为被严重低估的重要AI技术。
如果你在谷歌上搜索列奥纳多·达·芬奇,你可能会找到这组结果,右边有关于达·芬奇的信息面板。如果你搜索艾达·洛夫莱斯,你同样会在右边找到一个附加信息面板。
这些信息来自知识图谱,它基本上是一个列出人物及其关键信息(如生日、去世日期、传记和其他属性)的数据库。
如今,不同的公司已经构建了许多不同类型事物的知识图谱,不仅仅是人物,还构建了关于电影、名人、酒店、机场、风景名胜等等的数据库。例如,一个包含酒店信息的知识图谱可能有一个庞大的酒店数据库以及关于这些酒店的关键信息,这样当你在地图上查找它们时,可以相对快速地找到正确的信息。
“知识图谱”这个术语最初由谷歌推广,但这个概念已经传播到许多其他公司。有趣的是,尽管知识图谱目前正在为多家大公司创造大量经济价值,但这是在学术界相对较少研究的课题之一。因此,相对于当今实际的经济影响,你看到的关于知识图谱的研究论文数量似乎不成比例地少。
但根据你所处的行业垂直领域,也许构建知识图谱的一些技术对于构建与你公司相关的某类信息的大型数据库也会有用。
总结
在本节课中,我们一起学习了无监督学习、迁移学习、强化学习、生成对抗网络和知识图谱。内容似乎很多,不是吗?我希望其中一些想法对你的项目也有用,并且了解这些术语将使你更容易与AI工程师进行富有成效的讨论。
本周,我们讨论了很多关于AI如何影响公司,也许你如何使用AI来影响你的公司。AI也正在对社会产生巨大影响。因此,为了理解AI对社会的影响,并确保我们做合乎道德的事情,确保我们只使用AI来帮助人们并使人们生活得更好,在接下来的一周,我们将讨论AI与社会。感谢你坚持学习到这里,我期待在本课程最后一周的视频中见到你。
028:课程介绍

在本节课中,我们将要学习人工智能的宏观影响、其局限性以及相关的伦理与社会议题。这是本课程的第四周,也是最后一周,我们将一起探讨如何以现实的视角看待人工智能,并理解其在全球范围内的作用。
拥有现实的人工智能视角
上一节我们介绍了课程的整体安排,本节中我们来看看为何需要以现实的眼光看待人工智能。人工智能正在改变世界,但同时也存在许多不必要的炒作。对于公民、商业领袖和政府领导者而言,要驾驭人工智能的崛起,我们必须对人工智能有一个现实的认识。
在第一周,你已经了解了人工智能的一些技术局限性。然而,人工智能还存在其他方面的限制。
以下是人工智能的一些关键局限性:
- 偏见与歧视:人工智能可能存在偏见,并对少数群体或其他群体进行不公平的歧视。
- 对抗性攻击:人工智能技术容易受到对抗性攻击。例如,我们依赖垃圾邮件过滤器来维持电子邮件系统的正常运作,但总有人试图攻击这些过滤器。即使我们开发了新的AI技术,如果人们蓄意欺骗AI,这些新技术也可能面临新型攻击。
人工智能的全球影响与伦理
人工智能不仅影响发达经济体,也对发展中经济体和全球就业格局产生重大影响。许多这些问题都与人工智能和伦理领域相关。
为了确保我们在人工智能领域的工作符合伦理,我们需要正视这些复杂的问题。事实上,人工智能与伦理这个话题本身值得开设一个为期四周甚至更长的专门课程。本周,我希望至少能触及一些主要议题,以便你在构建或使用人工智能时,能够理解伴随AI崛起而产生的一些重大问题。
课程总结与展望
在本节课中,我们一起学习了以现实视角看待人工智能的重要性,探讨了AI在偏见、安全方面的局限性,并初步了解了其全球影响与伦理挑战。这是确保我们所做的工作能让社会变得更好的关键。

在本周的结尾,我们将完成《人工智能普及课程》的全部内容。我期待在最后这几个视频中与你一同学习。
接下来,让我们进入下一个视频,更深入地探讨超越技术和性能限制的人工智能现实视角。
029:人工智能的现实视角


在本节课中,我们将学习如何建立对人工智能的现实视角,既不盲目乐观也不过度悲观。我们还将探讨当前AI技术存在的一些主要局限性,例如可解释性、偏见和对抗性攻击。
人工智能对社会和许多人的生活产生了巨大影响。因此,为了让我们所有人做出明智的决策,拥有一个现实的人工智能视角至关重要,既不过于乐观,也不过于悲观。
你小时候读过《金发姑娘和三只熊》的故事吗?故事的一部分是说,一碗粥应该既不太热也不太冷,一张床应该既不太硬也不太软。我认为我们需要一个类似的“金发姑娘法则”来对待AI。重要的是,我们对于AI技术能做什么或不能什么,既不过于乐观,也不过于悲观。
例如,我们不应该对AI技术过于乐观。AI是一项非常强大的技术,但我不指望它能单凭一己之力解决人类所有问题,并引领人类进入某种全球乌托邦。一些过度乐观源于人们认为AI意识、通用人工智能甚至超级智能可能即将到来,并且当我们达到那个阶段时,AI将在医疗保健领域迅速取得巨大突破,让我们长寿健康,同时创造巨额财富。我希望事情能那么简单。
另一方面,一些对AI最悲观的恐惧也与认为超级智能可能即将到来有关,认为AI可能变得有意识并决定……我不知道……征服我们人类。在我看来,这极不可能。尽管AI确实存在风险,例如它可能产生有偏见、不公平或不准确的输出,但失控到AI变成一种优越物种并消灭我们的地步,这确实属于科幻小说的范畴,而非现实场景。人类拥有控制比任何个体都更强大的事物(如公司和民族国家)的丰富经验。虽然AI的输出有时不可预测,但我并不担心我们会“失去对AI的控制”或AI成为我们的竞争物种。
我认为,关于意识、超级智能、通用人工智能的不必要恐惧和过度乐观的希望,分散了人们对真正问题的注意力,也在社会中引起了不必要的AI恐惧。
相比之下,我认为对AI更现实的看法是,它是一个非常非常强大的工具,但也有很多事情是AI做不到的。它存在一些潜在的危害,如偏见、不公平和不准确的输出,但我们可以减轻这些危害。它已经在创造巨大的经济价值,并且我们看到了它在多个行业继续创造更多价值的清晰路径。因此,我和许多其他AI系统构建者一样,有信心在可预见的未来,AI将继续发展并为越来越多的人带来希望。
总而言之,与其过于乐观或过于悲观,金发姑娘故事的启示是,采取一种现实的中间立场才是正确的。当你与朋友谈论AI时,我希望你也能告诉他们这个AI的“金发姑娘法则”,这样他们也能对AI有一个更现实的看法。
AI存在许多局限性。你之前已经看到了一些性能上的限制,但AI还有其他方面的局限。
以下是AI的一些主要局限性:
可解释性困难
AI的局限性之一是难以解释。许多高性能的AI系统都是“黑箱”,意味着它工作得很好,但AI不知道如何解释它为什么这样做。
举个例子,假设你有一个AI系统,查看这张X光片来诊断病人是否有问题。在这个真实案例中,AI系统认为病人患有右侧气胸,这意味着右肺塌陷了。但我们怎么知道AI是否正确?你如何知道是否应该信任AI系统的诊断?
为了让AI系统解释自己,人们做了大量工作。在这个例子中,热力图显示了AI为了做出这个诊断,正在关注图像的哪一部分。因为它显然是基于右肺,实际上是右肺的一些关键特征来做出诊断的。看到这张图可能会让我们更有信心,认为AI正在做出合理的诊断。
公平地说,人类也不擅长解释我们自己是如何做决策的。例如,你在上周的视频中已经见过这个咖啡杯。但你怎么知道它是一个咖啡杯?一个人如何看着它并说“那是一个咖啡杯”?你可以指出一些特征,比如有装液体的空间和有一个把手,但我们人类并不擅长解释我们如何看着它并决定它是什么。但由于AI是一个相对较新的事物,缺乏可解释性有时会成为接受的障碍。而且,有时如果AI系统工作不正常,那么它解释自己的能力也将帮助我们找出如何改进AI系统的方法。
因此,可解释性是主要开放研究领域之一,许多研究人员正在努力。在实践中我看到的是,当一个AI团队想要部署某个系统时,他们通常能够提出一个足够好的解释,使系统能够工作并得以部署。所以,可解释性很难,但通常并非不可能。不过,我们确实需要更好的工具来帮助AI系统解释自己。
偏见与歧视
AI还有其他一些严重的局限性。作为一个社会,我们不想基于个人的性别或种族进行歧视,我们希望人们得到公平对待。但是,当AI系统被输入不反映这些价值观的数据时,AI就可能变得有偏见,或学会歧视某些人群。AI社区正在努力解决这些问题,并取得了良好进展,但我们还远未完成,还有很多工作要做。你将在下一个视频中了解更多关于AI偏见的知识,以及一些如何确保你使用的AI系统偏见更少的方法。
对抗性攻击
最后,许多AI系统正在做出具有重要经济意义的决策,而一些AI系统容易受到对抗性攻击,如果其他人故意试图愚弄你的AI系统。因此,根据你的应用场景,确保你的AI系统不易受到此类攻击可能很重要。


AI与歧视或偏见的问题,以及AI的对抗性攻击问题,无论对你作为AI的潜在构建者和使用者,还是对整个社会都至关重要。在下一个视频中,让我们更深入地探讨AI与偏见的问题。
本节课中,我们一起学习了如何以现实的“金发姑娘法则”视角看待AI,认识到它既是强大的工具,也存在可解释性、偏见和安全性等局限性。建立这种平衡的认识,有助于我们更好地利用AI技术,并推动其朝着负责任的方向发展。
030:算法歧视与偏见

概述
在本节课中,我们将要学习人工智能系统如何产生偏见并导致歧视,以及我们如何努力在AI系统中减少或消除这种影响。
AI系统如何产生偏见?🤔
AI系统如何变得有偏见,从而歧视某些人群?我们如何尝试在AI系统中减少或消除这种影响?让我们从一个例子开始。
微软的一个研究小组发现了一个显著的结果:当AI从互联网上的文本中学习时,它可能会学习到不健康的刻板印象。值得称赞的是,他们也提出了减少这类AI系统偏见的技术方案。
以下是他们的发现:通过让AI阅读互联网上的文本,它可以学习词汇,并且你可以要求它进行类比推理。现在,你可以这样测试AI系统:“既然你已经阅读了互联网上的所有文本,那么在类比‘男人之于女人,如同父亲之于什么?’中,答案是什么?”
AI会输出“母亲”这个词,这反映了这些词在互联网上的典型使用方式。如果你问它“男人之于女人,如同国王之于什么?”,同一个AI系统会说“如同国王之于王后”。同样,这相对于这些词在互联网上的使用方式似乎是合理的。
然而,研究还发现了以下结果:如果你问它“男人之于程序员,如同女人之于什么?”,同一个AI系统会输出答案“女人之于家庭主妇”。
我认为这个答案非常令人遗憾。一个偏见较少的答案应该是“女人之于程序员”。如果我们希望AI系统理解男人和女人都可以平等地成为程序员,就像男人和女人都可以平等地成为家庭主妇一样,那么我们更希望它输出“男人之于程序员,如同女人之于程序员”,以及“男人之于家庭主妇,如同女人之于家庭主妇”。
AI系统是如何从数据中学习到这种偏见的?让我们更深入地探讨一下技术细节。
技术细节:AI如何表示词汇?🔢
AI系统存储词汇的方式是使用一组数字。假设“男人”这个词被存储为(或者说“表示”为)两个数字:[1, 1]。
AI系统得出这些数字的方式是通过统计“男人”这个词在互联网上的使用情况。计算这些数字的具体过程相当复杂,这里不做深入探讨。但这些数字代表了这些词在实际使用中的典型模式。
实际上,AI可能需要数百或数千个数字来存储一个词,但为了简化示例,这里只使用两个数字。
让我把这些数字绘制在图表上。所以“男人”这个词,我将在右图的(1, 1)位置标出。通过观察“程序员”这个短语在互联网上的使用统计数据,AI会得到另一对数字,比如[3, 2],来存储或表示“程序员”这个短语。
同样,通过观察“女人”这个词的使用方式,它会得到另一对数字,比如[2, 3],来存储或表示“女人”这个词。
当你要求AI系统计算上面的类比“男人之于程序员,如同女人之于什么?”时,AI系统会做的是构建一个如下所示的平行四边形,并询问与(4, 4)位置相关联的词是什么。因为它会认为这就是这个类比的答案。
从数学角度思考的一种方式是,AI认为“男人”到“程序员”的关系是:从“男人”这个词出发,向右移动两步,向上移动一步。因此,为了找到“女人之于什么?”的相同答案,你也需要向右移动两步,向上移动一步。
不幸的是,当这些数字是从互联网文本中推导出来时,AI系统发现“家庭主妇”这个词在互联网上的使用方式导致它被放置在(4, 4)的位置,这就是为什么AI系统得出了这个带有偏见的类比。
偏见为何重要?⚖️
AI系统已经在做出重要决策,并且未来也将继续如此。因此,偏见问题至关重要。
例如,有一家公司使用AI进行招聘,发现他们的招聘工具歧视女性。这显然是不公平的,因此该公司关闭了他们的工具。
其次,一些人脸识别系统似乎对浅肤色个体的识别比对深肤色个体的识别更准确。如果一个AI系统主要是在浅肤色个体的数据上训练的,那么它对这类个体的识别就会更准确。如果这些系统被用于刑事调查等领域,这可能会对深肤色个体产生非常偏见和不公平的影响。因此,许多人脸识别团队今天都在努力确保系统不表现出这种类型的偏见。
还有一些AI或统计贷款审批系统最终歧视某些少数族裔群体,并给他们报出更高的利率。银行也一直在努力确保在其审批系统中减少或消除这种偏见。
最后,我认为重要的是,AI系统不应助长强化不健康刻板印象的有害影响。例如,如果一个八岁的女孩通过图像搜索引擎搜索“首席执行官”,如果她只看到男性的图片,或者没有看到任何在性别或种族上与自己相似的人,我们不希望她因此气馁,放弃追求未来可能成为大公司首席执行官的职业道路。
如何减少AI偏见?🛠️
由于这些问题,AI社区已经投入了大量精力来对抗偏见。
以下是几种主要方法:
1. 技术解决方案
例如,我们开始为减少AI系统中的偏见提供越来越好的技术解决方案。在本视频开头看到的AI输出偏见类比的例子中,稍微简化一下描述,研究人员发现,当AI系统学习大量不同的数字来表示词汇时,其中少数几个数字与偏见相对应。如果你将这些数字归零(即设置为0),那么偏见就会显著减少。
2. 使用更少偏见、更具包容性的数据
例如,如果你正在构建一个人脸识别系统,并确保包含来自多种族和所有性别的数据,那么你的系统偏见会更少,更具包容性。
3. 提高透明度和审计流程
许多AI团队正在让他们的系统接受更好的透明度和/或审计流程,以便我们能够持续检查这些AI系统表现出何种类型的偏见(如果有的话)。这样,我们至少可以在问题存在时识别它,然后采取措施解决它。例如,许多人脸识别团队正在系统地检查他们的系统在不同人群子集上的准确性,以检查其对深肤色与浅肤色个体的识别是否更准确或更不准确。拥有透明的系统以及系统的审计流程,增加了我们至少能快速发现问题(如果存在的话)的可能性,以便你能够修复它。

4. 建立多元化的团队
最后,我认为拥有多元化的团队也将有助于减少偏见。如果你有一个多元化的团队,那么团队中的成员更有可能发现不同的问题,并且也许他们首先就能帮助使你的数据更加多样化和包容,因为他们在构建AI系统时拥有更多独特的观点。我认为这将帮助我们所有人创建偏见更少的应用程序。
总结与展望
AI系统今天正在做出非常重要的决策,因此它们的偏见或潜在的偏见是我们必须关注并努力减少的。
让我对此感到乐观的一点是,实际上我们今天在减少AI偏见方面比减少人类偏见方面有更好的想法。因此,虽然我们不应该满足,直到所有AI偏见都消失,并且我们需要付出相当多的努力才能达到这个目标,但我仍然保持乐观。如果我们能够从与人类相似水平(因为它向人类学习)起步的AI系统开始,然后通过技术解决方案或其他方式从那里减少偏见,那么作为社会,我们有望使通过人类或AI做出的决策迅速变得更加公平,偏见更少。
除了偏见问题,AI的另一个局限性是它可能容易受到对抗性攻击。在下一个视频中,你将学习什么是对抗性攻击,以及你可以采取哪些措施来防范它们。让我们继续下一个视频。
031:针对人工智能的对抗性攻击 🛡️

在本节课中,我们将要学习现代人工智能系统的一个关键局限性:对抗性攻击。我们将了解攻击者如何通过微小的、人眼难以察觉的改动,来“欺骗”AI系统,使其做出错误的判断。
概述
尽管现代人工智能技术,特别是深度学习,已经非常强大,但它存在一个局限性:有时它会被“愚弄”。具体来说,现代AI系统有时容易受到对抗性攻击,即有人蓄意设计输入来欺骗你的AI系统。让我们来看一看。
对抗性攻击的原理
上一节我们提到了AI系统可能被欺骗,本节中我们来看看具体的攻击是如何实现的。
假设你给一个AI系统一张鸟的图片,并要求它分类。AI系统输出这是一只“蜂鸟”。但是,如果我们对这张图片进行微小的扰动——这里“微小扰动”指的是只改变一点点像素值,这种改变对大多数人来说几乎无法察觉——同一个AI系统就会说这是一把“锤子”。
对于人类来说,这似乎不可能。右边的图片看起来几乎和左边一模一样。事实上,这些变化对人眼来说几乎无法察觉。但AI系统“看”世界的方式与你我不同,因此它容易受到攻击。如果一个对手对图片进行了你我都难以察觉的改动,却导致AI误以为图片是完全不同的东西,我们称之为对AI系统的对抗性攻击。
在计算机安全领域,对一个安全系统的“攻击”意味着试图让它做出非预期的行为。同样,对AI系统的对抗性攻击也是试图让它做出非预期行为,例如诱使其输出错误的分类。

以下是另一个例子:
- 一张兔子的图片,经过微小的扰动或像素值的小幅改变后,AI反而说这是一张“桌子”。
计算机以不同于人类的方式“看”图片,这既有优势也有劣势。例如,计算机系统在读取条形码和二维码方面比人类强得多。但深度学习系统的工作方式也使其容易受到这种特定形式的攻击,而人类绝不会被这种攻击所欺骗。
对抗性攻击的实例
了解了基本原理后,我们来看一些具体的攻击实例。这些例子展示了攻击如何发生在数字图像和物理世界中。

目前,AI正被用于过滤垃圾邮件、试图过滤仇恨言论,而此类攻击会降低这些过滤器的有效性。本幻灯片上的攻击需要能够直接修改图像。例如,垃圾邮件发送者在上传图片到网站或通过电子邮件发送之前,可能会直接修改图像。
也有一些攻击是通过改变物理世界来实现的。 以下是几个关键例子:
- 特制眼镜:卡内基梅隆大学的一个团队设计了一副奇特的眼镜。当这名男子戴上这副眼镜时,他可以欺骗AI系统,使其认为他是女演员米拉·乔沃维奇。
- 干扰贴纸:来自加州大学伯克利分校、密歇根大学等高校的研究人员表明,如果你在停车标志上贴上如图所示的贴纸,你可以欺骗AI系统,使其完全“看不到”停车标志,认为那里是别的东西。这个例子有趣的一点在于,它看起来只是停车标志上被涂鸦了,大多数人仍然能轻易认出这是停车标志。但如果你在自动驾驶汽车中内置了计算机视觉系统,如果汽车因为这些贴纸而“看不到”停车标志,那将是非常不幸的。
- 香蕉变烤面包机:最后一个例子来自谷歌的一个研究小组。如果你向AI系统展示这张图片,它会说这是一根“香蕉”。但研究人员设计了一个贴纸,如果你把它放入场景中,AI就会错误分类这根香蕉。当贴纸被放入场景时,AI系统现在几乎完全确定这张图片是一个“烤面包机”。这项工作的一个有趣之处在于,论文作者(幻灯片底部引用了该论文)实际上在他们的论文中发布了他们贴纸的图片。这样,理论上世界上任何人都可以下载他们的论文,打印出贴纸,并把它贴在某个地方,如果他们想欺骗AI系统,让它认为那里有一个不存在的烤面包机。
现在,我不支持任何人攻击AI系统来欺骗它们。但这不幸地显示了,理论上攻击这些AI系统是多么容易。
防御措施与挑战

面对这些攻击,我们能做些什么来防御呢?幸运的是,AI界一直在研究新技术,以使系统更难被攻击。
防御措施往往技术性很强,但确实存在修改神经网络和其他AI系统的方法,使它们在一定程度上更难被攻击。一个缺点是,这些防御确实会带来一些成本。例如,AI系统的运行速度可能会慢一些。但这仍然是一个持续研究的领域,我们距离拥有足够好的对抗性防御技术还很远,这些技术需要能应用于所有我们想要使用AI的重要场景。
对于许多AI系统来说,可能没有人有动机去攻击它。例如,如果你在工厂运行一个自动视觉检测系统来检查咖啡杯是否有划痕,可能没有多少人有意愿去欺骗你的系统,让它认为一个有划痕的咖啡杯没有划痕。

但是,也会有一些AI应用会面临攻击。对于那些应用,我认为情况类似于垃圾邮件与反垃圾邮件的斗争:垃圾邮件发送者试图让垃圾邮件通过,而垃圾邮件过滤器试图阻止他们。我认为将会出现一些应用,我们将陷入一场军备竞赛:AI社区在构建防御,而攻击者社区则在试图突破我们的防御。
根据我构建AI系统的经验,少数几次让我感觉在与他人进行“全面战争”的情况之一,就是当我领导反欺诈团队与欺诈行为作斗争时。不幸的是,互联网上存在一定数量的欺诈,人们试图在支付系统中窃取金钱或创建欺诈账户。我从事反欺诈系统工作的那段时间,是少数真正感觉像零和游戏的时刻:我们会建立一道防御,他们会做出反应并发起攻击,我的团队有时必须在几小时内做出反应来保护自己。
因此,我认为在未来几年,即使AI技术不断发展,也会存在像垃圾邮件、欺诈这样的垂直领域,团队将与对手进行一场感觉像是零和游戏的“战争”。话虽如此,我也不想夸大对抗性AI系统可能造成的损害。这对某些应用确实非常重要,但也有许多AI应用不太容易受到对抗性攻击。
总结
本节课中,我们一起学习了人工智能中的对抗性攻击。我们了解到,攻击者可以通过对数字图像进行微小扰动,或在物理世界中添加特定图案(如特制眼镜、干扰贴纸),来欺骗深度学习模型,使其产生严重误判。这种攻击揭示了AI系统感知方式与人类的根本差异。虽然存在一些技术性防御手段,但它们往往有性能代价,且该领域仍在持续研究中。对于如反欺诈、内容过滤等可能面临恶意攻击的关键应用,开发者需要意识到这种风险,并准备应对可能出现的“攻防”军备竞赛。
032:人工智能的恶意应用 🛡️

在本节课中,我们将探讨人工智能技术可能被滥用的几种方式,包括深度伪造、侵犯隐私与民主以及虚假评论的生成。我们也将讨论社会如何应对这些挑战,并对未来持乐观态度。
人工智能技术极其强大,绝大多数使用者都在利用它让个人、公司、国家乃至整个社会变得更好。然而,也存在少数不良使用者。让我们看看其中一些案例,并讨论我们可以采取哪些应对措施。
上一节我们提到了AI的积极影响,本节中我们来看看其潜在的恶意应用。
深度伪造技术 🎭
人工智能技术已被用于创建“深度伪造”视频,这意味着可以合成人们从未真正做过的事情的视频。
例如,网站Buzzfeed曾制作了一段美国前总统巴拉克·奥巴马说他从未说过的话的视频。Buzzfeed对此是透明的,他们在发布视频时明确告知所有人这是伪造的。但如果这类技术被用于针对个人,使他人认为该人说过或做过他们从未实际做过的事情,那么这些人就可能受到伤害,并不得不为自己从未做过的事情的虚假视频证据进行辩护。
与垃圾邮件和反垃圾邮件的斗争类似,如今已有AI技术可用于检测视频是否为深度伪造。但在当今的社交媒体世界中,虚假信息的传播速度可能快于真相的澄清速度,因此许多人担心深度伪造可能对个人造成伤害。
隐私侵犯与民主威胁 🏛️
人工智能技术也存在被用于破坏民主和隐私的风险。
例如,世界上许多政府都在努力改善公民的生活,我们尊重那些提升公民福祉的政府领导人。但也存在一些压迫性政权,它们没有为其公民做正确的事情,并可能试图利用此类技术对其公民进行压迫性监控。虽然政府有改善公共安全和减少犯罪的合法需求,但使用AI的方式也存在一些感觉上更具压迫性而非提升性的做法。
虚假评论的生成 💬
与此密切相关的是AI可以生成的虚假评论的兴起。
利用AI技术,现在可以生成虚假评论,无论是在商业方面(如产品的虚假评论),还是在政治话语中(如关于公共讨论中政治事务的虚假评论),并且生成效率远高于仅靠人工编写。
以下是检测和过滤此类虚假评论的重要性:
- 维护信任:检测此类虚假评论并将其过滤掉,对于维持我们对在线评论的信任是一项重要技术。
- 技术对抗:这与垃圾邮件对抗反垃圾邮件、欺诈对抗反欺诈的斗争类似。

应对与展望 🔮
我认为,对于所有这些问题,未来相当长一段时间内,双方可能会持续进行技术对抗。
与垃圾邮件对抗反垃圾邮件、欺诈对抗反欺诈的斗争类似,我对这些斗争的结果持乐观态度。以垃圾邮件过滤器为例,有更多人有动力确保反垃圾邮件技术有效工作,而试图将垃圾邮件塞入你收件箱的垃圾邮件发送者数量则相对较少。正因为如此,反垃圾邮件一方拥有的资源远多于垃圾邮件一方。因为如果反垃圾邮件和反欺诈技术运作良好,社会实际上会运行得更好。
因此,尽管AI社区在防御这些恶意用例方面仍有许多工作要做,但由于如果只有AI的良性使用者社会才会真正变得更好,我乐观地认为,资源的平衡意味着正义的一方终将胜出。但这仍需要AI社区在未来多年付出大量努力。
本节课中我们一起学习了人工智能可能被滥用的几种主要形式:深度伪造、对隐私与民主的威胁以及虚假评论的生成。我们认识到,虽然存在挑战,但通过持续的技术开发和社会资源的投入,我们有能力应对这些恶意应用,并引导AI技术向造福社会的方向发展。
接下来,人工智能也对发展中经济体产生了重大影响。让我们在下一个视频中探讨这一点。
033:人工智能与发展中经济体 🌍

在本节课中,我们将探讨人工智能(AI)技术如何影响全球经济发展,特别是对发展中经济体的机遇与挑战。我们将分析AI可能带来的自动化风险,以及发展中经济体如何利用“蛙跳”效应和聚焦垂直行业来抓住AI带来的发展机遇。
每次出现重大的技术颠覆,例如人工智能,都为我们提供了重塑世界的机会。人工智能是一项非常先进的技术,同时影响着发达经济体和发展中经济体。那么,我们如何确保在AI创造巨大财富的同时,也能提升所有国家的发展水平?让我们一起来看一看。
许多发展中经济体都成功地执行了一条相当可预测的发展路线图,或者说阶梯,以帮助其公民获得技能并迈向更高水平的财富。
以下是许多国家典型的发展路径:
- 农业起步:许多国家从低端农产品开始,出口农作物。
- 纺织制造:随后转向低端纺织制造业,例如服装制造。
- 组件制造:随着人口开始获得更多财富、健康状况改善,进而转向低端组件制造,例如生产较便宜的塑料零件。
- 电子与汽车制造:然后发展到低端电子产品制造、高端电子产品制造,乃至汽车制造等。
通过这种循序渐进的模式,发展中经济体可以帮助其公民获得技能,并逐步发展为发达经济体。
上一节我们回顾了传统的发展路径,本节中我们来看看人工智能可能带来的一个问题:这个发展阶梯的许多较低层级特别容易受到人工智能自动化的冲击。
例如,随着工厂或农业变得更加自动化,对这些领域劳动力的需求可能会减少。因此,一些发展中经济体的大量人口可能更难踏上这个经济阶梯的较低层级,而这里原本是他们向上攀登的起点。
所以,如果人工智能通过强大的自动化能力“敲掉”了发展阶梯的一些较低层级,那么我们就有责任探索人工智能是否也能创造一个“蹦床”,帮助一些经济体跳上蹦床,甚至可能更快地弹跳到这个阶梯的更高层级。
随着早期技术的兴起,许多经济体已经证明它们可以实现“蛙跳”,跳过发达经济体经历的阶段,直接采用更先进的技术。
例如,在美国,大多数人曾拥有通过电线连接到墙上的固定电话。正因为如此多人拥有固定电话,向无线移动电话的过渡实际上花费了相当长的时间。相比之下,包括印度、中国在内的许多发展中经济体,并没有费力铺设那么多固定电话线,而是直接跳到了移动电话。
这是一种蛙跳现象,发展中经济体直接跨越了前一代技术,没有费力为每个家庭铺设实体电缆,而是直接采用了移动电话。
我们在移动支付领域也看到了类似的情况。许多发达经济体拥有成熟的信用卡系统,这实际上减缓了它们采用手机支付的速度。相比之下,一些发展中经济体由于信用卡行业没有根深蒂固的现有体系,反而能更快地拥抱移动支付。
我还看到在线教育在发展中经济体快速普及。在那些尚未建成所需的大量实体学校和大学的国家,许多教育领导者和政府正在寻求更快拥抱在线教育的方式,而一些拥有完善线下教育基础设施的发达经济体,其转变速度可能相对较慢。
当然,发达经济体也在迅速拥抱所有这些技术。发展中经济体的一个优势在于,没有根深蒂固的现有体系,它们在某些领域或许能建设得更快。
在人工智能领域,美国目前处于领先地位,紧随其后的是拥有大量AI人才的中国。英国、加拿大、印度、拉丁美洲的许多地方以及其他许多国家也拥有充满活力的人工智能社区。但人工智能仍处于早期发展阶段,因此我认为每个国家仍然拥有大量的机会和增长空间。
我对发展中经济体的建议是:聚焦人工智能,以加强本国的垂直行业。
例如,我认为今天大多数国家不应该试图建立自己的网络搜索引擎,因为已经存在非常出色的搜索引擎,那是上一个十年的竞争。相反,如果一个国家在某个垂直行业(比如咖啡豆制造)非常强大,那么这个国家实际上在咖啡制造领域的人工智能应用方面具有独特的优势。为咖啡制造构建人工智能技术,将进一步巩固该国已有的优势。
因此,与其要求每个国家在通用人工智能领域与美国和中国竞争,我建议大多数国家利用人工智能来加强本国已经擅长并希望在未来发展的领域。

最后,公私合作伙伴关系(即政府与企业合作)确实有助于加速垂直行业的人工智能发展。在从医疗保健到自动驾驶汽车等交通运输、再到金融等高度监管的领域,存在我们希望实现的结果和我们不希望出现的结果。
那些深思熟虑、制定正确法规以保护公民,同时又能促进行业采用人工智能解决方案的国家,将看到更快的本地经济增长以及国内更快的技术发展。
此外,发展中经济体应该投资于教育。因为人工智能技术仍然非常不成熟,每个国家都有充足的空间来学习更多关于人工智能的知识,甚至可以建立自己的人工智能人才队伍,并以重要的方式参与到我们正在构建的这个人工智能驱动的世界中。
在技术颠覆的时刻,领导力至关重要。在美国,我们曾经信任我们的政府将人类送上月球,并且成功了。随着人工智能的兴起,它创造了一个空间,在某些国家也产生了一种需求,需要政府层面、公司或教育领域的领导者来帮助国家进入人工智能时代,拥抱和采用人工智能,以持续提升其公民的福祉,甚至可能持续提升全球其他地区人们的生活水平。
本节课中,我们一起学习了人工智能与发展中经济体的关系,探讨了自动化风险、蛙跳机遇、垂直行业聚焦以及领导力的重要性。
在本视频中,我们简要触及了人工智能与就业的问题,这是一个当前在许多国家被广泛讨论的重要话题。让我们进入下一个视频,更深入地探讨人工智能与就业。
034:人工智能与就业市场 📈

在本节课中,我们将探讨人工智能(AI)对就业市场的潜在影响。我们将了解AI如何加速自动化进程,分析相关研究对未来工作岗位变化的预测,并讨论社会和个人可以如何应对这些变化。
AI是自动化的加速器 ⚙️
在当代AI兴起之前,自动化已经对许多工作岗位产生了巨大影响。随着AI的崛起,我们现在能够自动化的任务范围突然比以往大得多,因此这也对就业产生了加速影响。
就业岗位的增减预测 📊
有多少工作岗位会被取代?又会创造多少新工作?目前还没有人能给出确切的答案。但我们可以通过一些研究来尝试理解未来的趋势。
麦肯锡全球研究所估计,到2030年,将有4亿至8亿个工作岗位因AI自动化而消失。这些数字非常庞大。然而,同一份报告也估计,AI创造的工作岗位数量可能更多。其他研究给出的数字略有不同,例如高盛的一项研究估计,到2033年将有3亿个工作岗位消失,低于麦肯锡的估计。
因此,关于AI对就业的影响仍存在相当大的不确定性,尽管大多数人认为其影响将是重大的。但令人鼓舞的是,许多研究估计,未来创造的工作岗位数量很可能超过被取代的数量。这意味着未来人们仍将有大量工作可做,尽管在某些行业,对工人进行再培训的需求可能会非常显著。
我认为,未来的许多工作岗位甚至可能还没有名称,例如无人机交通优化师、3D打印服装设计师,或者在医疗保健领域,可能会出现基于DNA的定制药物设计师。因此,尽管存在对AI取代工作岗位的担忧,但也有对未来创造许多新工作岗位,甚至更多新工作岗位的希望。
如何评估岗位被取代的风险? 🔍
你可能会好奇,我们如何估计有多少工作岗位可能被取代?这些研究通常采用的一种方法是:分析一个工作岗位,思考构成该工作的各项任务。
例如,你可以分析放射科医生执行的任务,或者出租车司机执行的所有任务。然后,针对每项任务,评估其通过AI实现自动化的难易程度。如果一个工作主要由高度可自动化的任务组成,那么该工作被取代的风险就会更高。
大多数AI工程师发现,将AI视为应用于任务而非应用于人的工作更有用。但这个框架允许我们利用AI自动化任务的能力,来估计可能有多少工作岗位被取代。

最可能和最不可能被AI取代的工作 📉
那么,哪些工作最可能或最不可能被AI和自动化取代呢?麦肯锡研究了AI(包括生成式AI工具)对广泛工作岗位的影响。
下图改编自其研究数据,展示了到2033年自动化潜力最高的10类工作。每个条形图右侧的数字(如87或82)是对该工作中可能被自动化的任务所占百分比的估计。

这份列表涵盖了麦肯锡所称的多种职业类别,包括办公室工作、机械安装与维修、商业与法律专业工作以及客户服务和销售。

这里值得注意的是,生成式AI对当前可由AI自动化的工种类型产生了巨大影响。这些工具能够生成类似人类的文本、撰写富有同理心的电子邮件以及与人类聊天,这使得一些以前不易受自动化影响的新类别工作也暴露在AI自动化的风险之下。
事实上,如果你观察在没有生成式AI工具的情况下这些工作的自动化潜力,会发现涉及写作和沟通风格(如办公室支持和法律工作)的职业,其AI自动化潜力显著增加。

右侧列中的数字显示了每个职业类别在全球劳动力中的就业比例。这前10大职业类别总共雇用了全球超过70% 的工人,这是一个巨大的人群。
如何应对AI对就业的影响? 🛡️
我们如何帮助公民和国家应对即将到来的AI对就业的影响?以下是一些可能的解决方案。
上一节我们了解了AI对就业的潜在冲击,本节中我们来看看社会和个人可以采取哪些应对策略。以下是几种可能的途径:
第一,有条件基本收入。
你可能听说过全民基本收入,即政府无条件向公民支付款项。我认为人们确实需要一个安全网。对于那些失业但有能力学习的人,我认为一个更有效的版本可能是有条件基本收入。我们提供安全网,但通过建立一个帮助人们学习的体系,激励他们持续学习并投资于自身发展。这将增加这些人重新进入劳动力市场、为自己、家庭、社会以及为支付这一切的税基做出贡献的几率。
第二,建设终身学习型社会。
通过你现在正在学习这门课程,你可能已经成为这个终身学习型社会的一部分。旧的“上大学四年,然后工作四十年”的教育模式在当今快速变化的世界中已经不再适用。通过政府、公司和个人都认识到我们需要持续学习,这增加了每个人都能更好地定位自己的几率,即使工作岗位可能消失,也能利用未来创造的新工作机会。我认为,即使在完成大学学业后,大多数人也应该在整个生命周期中持续学习。
第三,探索政治解决方案。
从激励或帮助创造新工作,到立法确保人们受到公平对待,各种方案都在探索中。我希望社会能够找到正确的政治解决方案,以应对即将到来的AI对就业的影响。
如果你想从事AI工作,应该怎么做? 🧑💻

有时人们会问:如果你想从事AI工作,应该怎么做?最近,一位处于职业生涯初期的放射科住院医师问我:“Andrew,我听到很多关于AI即将对放射学产生影响的消息。我应该放弃我的专业,去学习AI并转而从事AI工作吗?”
我对他的回答是:“不,你可以那样做。你确实可以放弃你正在做的事情,从头开始学习AI。这完全有可能,很多人已经做到了。但是,你可以考虑另一种选择。”
我对这位放射科住院医师说:“考虑从事 ‘AI + 放射学’ 领域的工作。凭借你对放射学的了解,如果你再学习一些AI知识,你将比大多数人更有能力在放射学与AI的交叉领域开展工作。”
因此,如果你想在AI领域做更多工作,在当今世界,完全可以通过在线课程和其他资源从头学习AI。但是,如果你结合自己已有的专业知识,学习一些AI,从事 ‘你的领域 + AI’ 的工作,那么通过将AI应用到你已经是专家的领域,你可能会具备更独特的资格,从事非常有价值的工作。

总结 📝
本节课中,我们一起学习了AI作为自动化加速器对就业市场的深远影响。我们分析了不同研究对未来工作岗位数量变化的预测,认识到尽管存在不确定性,但创造新岗位的潜力同样巨大。我们探讨了评估岗位被取代风险的方法,并了解了最易受自动化影响的职业类别。最后,我们讨论了社会层面的应对策略(如有条件基本收入、终身学习)以及个人职业发展建议(结合自身专业与AI),以更好地应对AI时代带来的挑战与机遇。
035:课程总结 🎓

在本节课中,我们将对《AI for Everyone》课程的全部内容进行总结,回顾过去四周所学的核心知识,并展望未来的学习方向。
恭喜你完成本课程的最后一个视频。人工智能是一项超能力,理解它能让你做到世界上只有极少数人才能做到的事情。
让我们来总结一下你在本课程中学到的内容。
第一周:人工智能技术基础
在第一周,你学习了人工智能技术的基础知识。你了解了什么是人工智能,什么是机器学习。核心概念是监督学习,即学习从输入到输出(A到B)的映射关系。你还了解了什么是数据科学,以及数据如何为所有这些技术提供支持。重要的是,你也看到了人工智能能做什么和不能做什么的具体例子。
第二周:构建人工智能项目
在上一节我们介绍了人工智能的技术基础,本节中我们来看看如何构建一个人工智能项目。在第二周,你学习了构建人工智能项目的实际流程。你看到了机器学习项目的工作流,包括收集数据、构建系统和部署系统。你也了解了数据科学项目的工作流。此外,你还学习了如何进行技术尽职调查以确保项目的可行性,以及在承诺开展具体的人工智能项目之前,如何进行商业尽职调查以确保项目的价值。
第三周:人工智能与公司战略
了解了单个项目的构建后,我们需要将其置于更广阔的背景下。在第三周,你学习了如何将此类人工智能项目融入你公司的整体战略中。你看到了复杂人工智能产品的例子,例如智能音箱和自动驾驶汽车。你还了解了大型人工智能团队中的角色与职责。并且,你学习了人工智能转型手册,这是一个帮助公司成为优秀人工智能公司的五步行动指南。我希望前三周的材料能帮助你构思人工智能项目,或思考如何在你的公司或组织中应用人工智能。
第四周:人工智能与社会
在最后一周,你将视野从组织内部扩展到了整个社会。在第四周,你学习了人工智能与社会的关系。你看到了人工智能除技术限制外的一些局限性,也了解了人工智能如何影响发展中的经济体和全球就业。
持续学习与未来展望
在这四周里,你学到了很多。但人工智能是一个复杂的主题,因此我希望你能继续学习,无论是通过Coursera或DeepLearning.AI的额外在线课程、书籍、博客,还是仅仅通过与朋友交流。如果你想尝试构建人工智能技术,现在比以往任何时候都更容易学习编程并通过这些资源学习如何实现人工智能技术。如果你想持续接收关于人工智能的信息,你也可以访问DeepLearning.AI网站并注册邮件列表,我将偶尔通过该邮件列表向你发送有关人工智能的有用信息。
总结与致谢
恭喜你完成本课程!现在,你对人工智能的理解和为人工智能崛起做规划的能力,已经显著领先于许多大公司的首席执行官。因此,我希望你也能为其他试图应对这些问题的人提供领导力。😊
最后,我想对你说,非常感谢你选修这门课程。我知道你忙于自己的工作、学业、朋友和家人,我非常感激你花费这么多时间与我一起学习这些涉及人工智能技术及其影响的复杂问题。非常感谢你为本课程付出的时间和努力。😊


本节课中我们一起回顾了《AI for Everyone》课程的核心内容,从技术基础、项目实践、公司战略到社会影响,构建了对人工智能的全面认知。希望这门课程能成为你探索AI世界的坚实起点。

浙公网安备 33010602011771号