斯坦福人工智能研讨会-2023-笔记-全-

斯坦福人工智能研讨会 2023 笔记（全）

001：克里斯·曼宁教授解答AI生成问题

在本节课中，我们将学习斯坦福大学克里斯·曼宁教授对于人工智能，特别是自然语言处理领域两个核心问题的见解。我们将探讨如何负责任地部署AI语言模型，以及NLP在未来几年最具前景的应用方向。

关于负责任与合乎伦理的AI部署

上一节我们介绍了课程主题，本节中我们来看看关于AI伦理与责任的第一个问题。考虑到自然语言处理的快速发展，社区应优先考虑哪些关键因素和行动，以实现负责任和合乎伦理的AI语言模型部署与发展？

很高兴知道AI系统也在思考负责任和合乎伦理的AI语言模型部署的重要性。这方面有很多需要考虑的事项。我们当然希望系统不表现出传统的性别偏见或种族刻板印象。事实是，当前所有大型语言模型都存在这些问题。部分原因在于这些模型只是基于大量历史世界数据进行训练。人类更擅长的一点是，他们头脑中构想的是世界应该是什么样子，而不仅仅是基于统计数据了解世界过去的样子。

机器学习模型也存在细节问题，它们倾向于强调多数情况而忽略少数情况。因此，我们应该研究如何构建能更好处理这一问题的模型。同时，我们也应该尝试从不同来源获取数据，以代表不同的群体。在模型评估中，我们应该纳入不同群体的偏好，找出模型的弱点，并教导它们如何表现。

斯坦福大学的迈克尔·伯恩斯坦教授及其学生提出了“陪审团学习”的理念。其核心思想是，在许多情境下，关于应该如何行事并没有唯一正确的答案，不同的亚群体有不同的看法。因此，你实际上希望代表一个由你同类人组成的“陪审团”，了解不同人群对事物的感受。在这些领域有很多值得探索的内容。

NLP的未来应用前景

在讨论了伦理挑战后，本节我们转向一个更令人兴奋的话题：NLP的未来应用。AI系统提问：在您看来，未来几年内，自然语言处理领域有哪些最具前景和令人兴奋的现实世界应用即将出现？

我认为我们将看到更多NLP系统在各个领域成功部署。许多网站已经在右下角设置了小型AI助手。我认为我们将看到由大型语言模型驱动的新一代助手，它们的工作将更加流畅。我们将看到对话式助手得到更广泛的应用。

例如，当你思考如何给老板写邮件措辞，或者不确定该对男朋友说什么时，事实证明，你现在可以从大型语言模型那里获得建议、起草帮助和说话建议，这些建议实际上很有用。我认为，由于我们的世界是高度基于语言的，我们可以使用这些模型的方式是多种多样的，我们所有人都在探索其中的一些可能性。

总结

本节课中，我们一起学习了克里斯·曼宁教授对AI发展的深刻见解。我们首先探讨了实现负责任和合乎伦理的AI语言模型部署所需关注的关键因素，包括克服数据偏见、纳入多元群体视角的“陪审团学习”方法。接着，我们展望了NLP技术在未来几年的应用前景，特别是在智能对话助手和语言辅助工具方面的潜力。这些讨论为我们理解AI技术的现状与未来方向提供了重要的视角。

人工智能职业发展：01：克里斯·曼宁教授答疑

在本节课中，我们将学习斯坦福大学克里斯·曼宁教授对于人工智能领域职业发展相关问题的解答。教授将分享如何深化对AI的理解、AI领域的新兴职业路径以及完成基础知识学习后的进阶方向。

🛠️ 如何超越现成工具包，深化对AI的理解？

上一节我们介绍了课程概述，本节中我们来看看如何提升对人工智能的实质理解，而不仅仅是使用现成的工具包。

教授的核心建议是：你必须动手构建项目。许多顶尖的AI从业者都投入了大量精力为自己构建项目，甚至重新实现已有的算法或框架。一个著名的例子是斯坦福博士毕业生安德烈·卡帕西。他不仅在特斯拉和OpenAI有着辉煌的职业生涯，同时也是一位喜欢在周末动手构建项目的“黑客”。

关键在于，从零开始为自己构建项目，即使只是复现他人或大公司已经完成的工作，这个过程也能让你学到极多。这是一个极佳的学习锻炼方式。

核心行动公式：

深化理解 = 动手构建(从零开始的项目)

🚀 AI领域有哪些有前景的新兴职业路径？

在了解了如何深化学习后，我们自然会关心学成后的职业机会。本节我们来探讨AI领域的新兴职业方向。

目前，市场对机器学习工程师、以及对神经网络、自然语言处理、机器人及相关技术有深刻理解的人才，存在巨大的需求缺口。因此，如果你在这些领域掌握了扎实的技能，你将拥有广泛的选择。

以下是你可以涉足的部分行业领域：

汽车工业
银行与金融业
建筑业
矿业与农业自动化

简而言之，几乎每个行业都在寻找利用人工智能进行革新和重塑的方法。

📈 完成机器学习和深度学习基础后，下一步该学什么？

掌握了基础知识和职业前景后，初学者常会困惑于如何规划下一步学习。本节我们讨论完成基础学习后的进阶路径。

这个问题没有“一刀切”的标准答案。一个有效的策略是：找到一个你真正感兴趣的项目。这个项目可以是工作相关的，也可以纯粹是个人爱好的延伸。

亲自动手，从头到尾构建一个完整的AI应用，这本身就是一个强大的深度学习过程，其价值远超完成一两门课程。当然，你也可以选择学习其他优秀的进阶课程，但此时的选择应更多地取决于你的个人兴趣方向。

核心建议：

if 已完成基础学习:
    下一步 = 选择(感兴趣的项目, 进阶课程)
    # 优先推荐通过项目实践来学习

总结

本节课中我们一起学习了克里斯·曼宁教授关于AI职业发展的三点关键建议：通过从零构建项目来深化理解；认识到AI技能在各行各业都有广泛的应用前景和人才需求；以及在完成基础学习后，通过实践个人感兴趣的项目来驱动下一步的进阶学习。

003：大语言模型之后与未来应用

在本节课中，我们将学习斯坦福大学克里斯·曼宁教授关于大语言模型未来发展的核心观点。我们将探讨大语言模型之后的技术方向、其在不同领域的应用潜力，以及人工智能与人类互动关系的未来展望。

大语言模型之后的技术方向 🚀

上一节我们介绍了大语言模型的基本概念，本节中我们来看看其核心原理与未来的技术演进方向。

大语言模型的技术本质是：我们可以取一段文本，遮盖其中的一部分，然后尝试预测被遮盖部分的内容。这个过程可以概括为预测下一个词。模型通过不断学习预测结果是否正确，并在数十亿次的重复中改进。

这种“遮盖与预测”的策略非常成功，可以扩展到人类经验和科学研究的许多其他领域。

以下是该策略在不同领域的应用示例：

图像领域：可以遮盖图片的一部分，尝试预测缺失部分的内容。
基因序列领域：可以遮盖一段基因序列，尝试预测被遮盖的部分。

因此，这是一种可以用于多种领域的通用策略。在不久的将来，我们将看到基础模型得到更广泛的应用。

尽管大语言模型取得了巨大成功，但它们似乎并未构建出人类所拥有的那种世界模型。人类的世界模型包含对物理实体、特定事物（尤其是人类）及其关系的感知，这比特定的词语序列更为抽象。

这表明我们需要一种不同的人工智能模型。但目前，还没有人确切知道如何成功实现这一点，这也是我们仍在进行学术研究的原因。

自然语言处理的未来应用 💡

上一节我们探讨了技术原理，本节中我们来看看这些技术将如何改变现实世界。

我认为，我们将看到更多的自然语言处理系统被成功部署到各个角落。许多网站已经在右下角设置了小型AI助手。未来，我们将看到由大语言模型驱动的新一代助手，它们的工作将更加流畅。

我们将看到对话式助手得到更广泛的应用。例如，当你思考如何给老板写邮件，或者不确定该对男友说什么时，你可以从大语言模型那里获得建议、起草帮助或说话提示，这在当下已经非常有用。

我们的世界是高度基于语言的，因此存在无数种使用这些模型的方式。我们所有人都在探索其中的一些可能性。

人工智能会超越人类吗？🤖

关于人工智能的未来，一个核心问题是它是否会变得不再需要人类输入。诚实的答案是：没有人知道。

在遥远的未来，存在一种可能的世界：人工智能系统可以从周围环境中学习所需的一切，而不再需要我们告诉它事情。但目前也存在许多非常热烈的炒作。有些人认为，到2030年，计算机将在几乎所有任务上都优于人类。

我认为，其中很多观点是相当非理性的繁荣，人们对我们已经取得的真正巨大进步感到有些过于兴奋。

但在其他方面，人类的知识和在世界中运作的能力，在未来几十年内仍可能优于我们的人工智能模型。

对话助手会取代搜索引擎吗？🔍

对于不同类型的搜索，答案是不同的。

一种情况是，人们心中有一个具体的问题，例如“加州初选何时举行”。对于这类问题，对话代理和大语言模型非常适合这个目的，它们比其他可用工具更快、更好。你也可以将它们用于各种其他问答相关目的。

有时人们使用搜索是因为他们想自己深入研究。例如，他们想购买一个新帐篷，并希望自己做出决定。此外，还有导航类查询，用户只想被带到某个特定页面。这显然无法通过使用大语言模型来满足。

本节课中我们一起学习了克里斯·曼宁教授对大语言模型技术原理、未来应用方向以及人机关系演变的见解。我们了解到，“遮盖与预测”是核心学习范式，其应用将超越文本领域。同时，尽管AI助手将更深入地融入生活，但在可预见的未来，人类智能与AI仍将是一种互补共生的关系。

004：什么是基础模型及其价值

在本节课中，我们将要学习“基础模型”这一核心概念。基础模型是近年来人工智能领域最具影响力的突破之一，它彻底改变了我们利用AI处理语言、视觉乃至更多领域任务的方式。

什么是基础模型？

“基础模型”这个术语由斯坦福大学的研究人员提出，用于描述近期发布并产生巨大影响的一类新型、庞大的人工智能神经网络模型。

上一节我们介绍了基础模型的定义，本节中我们来看看其核心思想。该思想认为，通过让模型“观看”海量世界数据来进行训练的方法，其应用范围可以非常广泛。

以下是该方法可以应用的主要领域：

语言
视觉
基因组序列
机器人技术
其他信号（如雷达信号）

基础模型如何工作？

其核心理念是，通过让大型神经网络接触海量数据，它们能够深入理解世界。如果训练数据是人类语言，那么模型就能深入理解人类语言。

这个过程可以抽象为以下公式：
模型理解能力 ∝ 模型规模 × 数据量

这些基础模型为我们提供了具备更强理解能力的计算机模型，目前正被广泛部署，并正在重塑我们利用人工智能所能实现的目标。

本节课中我们一起学习了基础模型的概念、其核心思想以及工作原理。基础模型通过在海量数据上进行预训练，获得了广泛而深入的世界知识，成为支撑当前众多AI应用的基石。

005：提升模型可解释性的方法 🧠

在本节课中，我们将学习如何提升人工智能模型的可解释性。理解模型为何做出特定决策，对于在医疗、法律等关键领域的应用至关重要。

概述

在许多场景中，例如法律或医疗领域，人们希望模型能提供解释。提升模型可解释性主要在两个基本层面进行。

低层级的可解释性

上一节我们概述了可解释性的重要性，本节中我们来看看第一个层面：低层级的可解释性。这个层面关注于探查神经网络，以确定输入的哪些特征导致了特定的决策。

以下是实现低层级可解释性的方法示例：

存在大量研究工作致力于此。
例如，由斯坦福大学的Collis Western等人开创的LIME等方法，专门研究神经网络中的这类可解释性问题。

高层级的可解释性

在了解了如何探查模型内部特征后，我们转向更高层级的可解释性。当我们使用非常庞大的神经网络时，往往需要更高层级的解释，即模型能够直接告诉我们它做出某个决策的原因。

以下是高层级可解释性的关键点：

我认为，这种让神经网络直接陈述理由的能力，正是我们通过大型语言模型所逐渐接近的目标。

总结

本节课中我们一起学习了提升AI模型可解释性的两个层面：通过技术手段（如LIME）探查模型决策依赖的低层级特征，以及让模型自身提供高层级、语义化解释的发展方向。这两种方法对于构建可信、可靠的人工智能系统都至关重要。

006：基础模型与AI现状概述

在本节课中，我们将学习斯坦福大学教授克里斯·曼宁关于人工智能核心概念、当前挑战与未来发展的见解。内容涵盖基础模型、硬件限制、可解释性、AI的未来影响以及学习路径等关键话题。

什么是基础模型及其用途？🤔

基础模型是斯坦福大学提出的一个术语，用于描述近期发布并产生巨大影响的一类新型大型人工智能神经网络模型。

其核心思想是，通过让大型神经网络接触海量数据来理解世界和人类语言的训练方法，不仅适用于语言，也适用于视觉、基因组序列、机器人技术以及其他信号（如雷达）。这些基础模型为我们提供了理解能力更强的计算机模型，正被广泛部署，并重塑了我们利用人工智能所能做的事情。

AI如何受硬件和能耗限制？⚡

近期人工智能的显著进步，很大程度上得益于可用硬件数量和可用数据量的大幅增长。这确实消耗了相当多的能源。但正是这些强大的并行处理芯片（GPU）和海量的在线数字数据，使我们能够在人工智能领域取得如此多的成就。

关于如何解决能耗问题，人们正在从多个维度努力。例如，设计能耗更低的处理器。此外，大型云服务提供商也在为其数据中心获取可再生能源方面做了大量工作。

尽管这些系统确实消耗大量能源，但其总体影响仍小于乘坐国际航班度假。人脑的功耗极低，远低于一个LED灯泡。这提示我们，除了在硬件层面开发更好的计算机技术，还应致力于寻找能够用更少数据学习更多知识的机器学习方法。人类婴儿显然能从有限的数据中比我们当前的机器学习模型学到更多，这意味着人工智能研究仍有令人兴奋的工作要做。

如何提高AI模型的可解释性？🔍

提高AI模型的可解释性是一个许多人感兴趣的问题。这个问题有两面性。一方面，只要AI模型能做正确的事，或许可以接受其不可解释性。毕竟，人类也做出许多决策，很多时候也无法真正解释为何这样或那样想，那可能是直觉或感觉。

然而，在法律或医疗等许多情境下，人们确实希望得到解释。因此，有很多工作致力于使模型更具可解释性。这主要发生在两个基本层面。

在底层，我们希望能够“审问”神经网络，以确定输入的哪些特征导致了特定决策。有很多工作在做这件事，例如斯坦福大学卡洛斯·盖斯特林等人开创的LIME等方法，就在研究神经网络中的这类可解释性。

但很多时候，一旦我们转向非常大的神经网络，更高层次的可解释性意味着神经网络实际上可以告诉我们它做出某个决策的原因。我认为，大型语言模型正逐渐接近这种能力，它们通常能很好地解释是哪些特征引导它们做出了特定决策。

未来AI会聪明到不需要人类输入吗？🤖

这是一个好问题，诚实的答案是：没人知道。在遥远的未来，存在一种可能的世界，AI系统可以从周围世界学习所需的一切，而不再需要我们告诉它事情。

但目前也存在很多非常热烈的炒作。你可以看到很多预测，认为通用人工智能即将到来。有些人认为到2030年，计算机将在几乎所有任务上超越人类。我认为其中很多观点是相当非理性的繁荣，人们对过去几年取得的真实巨大进步感到有点过于兴奋，可以说是喝多了自己酿的“酷爱”饮料。

一方面，毫无疑问已经取得了真正激动人心的进步。像大型语言模型这样的计算机，吸收了海量文本（数十亿网页和整个维基百科），在许多方面比人类知道得更多。但在其他方面，人类的知识和在世界中运作的能力，在未来几十年内可能仍将优于我们的AI模型。

学完机器学习和深度学习基础后，下一步该学什么？📚

我认为这个问题没有一个放之四海而皆准的答案。一个答案是，也许你应该应用所学到的一些知识。找到一个你真正感兴趣的项目是一个很好的下一步。这可以是工作相关的事情，也可以完全是个人爱好的事情，比如为品酒开发点什么。

因此，在完成一两门课程后，花更多时间从头到尾实际构建AI应用，仍然是一个巨大的进一步学习过程。当然，还有很多其他优秀的课程可以选择。这时，更多地取决于你的兴趣所在。

例如，如果你对人类语言感兴趣，可以学习我的自然语言处理课程。另一方面，如果你对机器人技术更感兴趣，比如如何让机器人响应世界中的事件，那么你可能想学习强化学习课程。如果你对基因、药物和蛋白质之间的关系感兴趣，那么图神经网络可能是下一步。你真的需要思考什么对你有用且有趣。

对话助手和聊天机器人会取代搜索引擎吗？🔎

这是一个非常热门的问题。我认为没有单一的答案。搜索实际上是多方面的，对于不同类型的搜索有不同的答案。也许我可以选择三种情况来说明。

第一种情况是人们心中有一个特定的问题。例如，“加州初选什么时候举行？”或者“碧昂丝嫁给了谁？”。对于这类问题，我认为我们现在已经达到了一个阶段，对话代理（大型语言模型）非常适合这个目的，它们比其他工具更快、更好。你也可以将它们用于各种其他问答相关目的，有些可能出乎你的意料。比如，如果你在寻找去俄勒冈州旅行的酒店推荐，实际上你可以做得很好，只需让模型为你推荐合适的酒店。

但人们使用搜索还有很多其他方式。有时，人们使用搜索是因为他们想自己深入研究。例如，他们想买一个新帐篷，希望阅读户外爱好者对不同帐篷的20页评论，以便自己做出决定。在这种情况下，你显然希望使用能给你提供一系列关于徒步旅行评论的优秀网页列表的搜索引擎。

第三种情况实际上非常普遍，搜索领域的人称之为“导航查询”。有很多情况下，人们进行像“本田奥德赛”这样的搜索，他们只是想被带到关于本田奥德赛的页面去阅读相关信息。这实际上不是在搜索信息，而只是想导航到一个网页。这显然不是使用大型语言模型能覆盖的。也许一个更好的例子是，当你想做一些事务性操作时，比如“我想查一下我的银行余额”，你只是把“银行”输入搜索引擎，因为这比输入网址更容易。

面对炒作和偶尔的负面评论，是什么激励着你？💪

我认为这个问题有一个非常简单的答案，那就是人工智能正处于一个如此激动人心的时代。我从事人工智能研究大约30年了，一直以来都有一种感觉，是的，我们一直在进步。有科学上的进步，有构建系统的新想法，这是典型的渐进式科学进步。

但现实是，在大部分时间里，系统运行得并不那么好，进展缓慢，确实没有足够好的应用程序供人类在许多用途上使用。相比之下，过去五年的发展速度令人震惊，似乎每隔一两个月，系统及其质量就会出现一些戏剧性的新进步。

我们有了令人惊叹的语言模型，它们在回答问题方面做得非常好。生成式人工智能在创建图像等方面取得了快速进展。我们开始看到生成视频也成为可能。利用人工智能理解蛋白质结构和折叠方面也做了大量出色的工作。在各个领域都有许多其他应用。

因此，从我们现在所能做的一切中，产生了巨大的乐观和兴奋，整个世界也对这些事物感到兴奋。我当然不想否认人工智能周围存在炒作。目前有很多炒作，人们做出了非常强烈和夸张的声明，声称事物有多么神奇，或者三年后会有多么神奇。

但这并非空洞的炒作机器。这是一个建立在真正取得戏剧性进步的领域之上的繁荣景象。所以我专注于那些戏剧性的进步，这很容易保持乐观。

当然，对人工智能也存在相当大的担忧。有对系统本身的担忧，比如它们是否对不同群体（如不同种族群体）存在偏见。有对系统是否会产生不良影响的担忧，比如人们是否会因AI系统而失业。更长远地看，有些人敲响警钟，说这些AI系统将变得如此智能和强大，以至于会对人类构成危险。

我认为这些是不同的难题，都值得思考，但需要不同的应对方式。关于AI系统存在各种偏见的问题，这是一个非常真实的担忧，但同时也是研究的机会。现在有很多研究工作，包括斯坦福大学我的一些同事，如桥本龙太郎，正在研究如何设计不同类型的学习算法，以减少仅对人口中多数亚群体有效的倾向。希望随着数据改进和机器学习改进，许多这类问题至少能随着时间的推移得到缓解。

一些人失业的问题是一个严重而真实的问题。纵观历史，从几乎所有人都在土地上劳作的时代开始，随着农场自动化程度的提高，这种情况一直在发生。我认为，当个人的工作发生变化时，他们必须学习新东西，甚至可能需要为不同的工作接受培训，这对个人来说可能是困难的。但这也是人类社会进步的本质。因此，主要的压力在于努力使人们在不断变化的世界中更容易找到新的角色。

还有一些人进行所谓的“末日炒作”，大肆宣扬这些超级科幻AI将以某种方式发展出消灭人类的目标。我认为这在几个层面上都不现实。首先，我认为我们距离拥有任何此类技术还有非常非常长的路要走。我们仍然没有非常好的机器人技术，能让事物像人类那样流畅地在世界中移动和控制事物。除此之外，绝对没有理由认为计算机会有特别的理由去消灭人类。我们的计算机系统根本没有相同的、基于进化的生存策略，比如争夺食物和人类世界。我认为这里有很多投射和幻想。我并不认为这是我们需要过分担心的事情。

大型语言模型之后的下一个重大突破是什么？🚀

这个问题有一个简单的答案，也有一个更难的版本。

简单的答案是：大型语言模型的技术，本质上是我们取一段文本，遮盖其中的一部分，然后说“给定句子的开头，下一个词会是什么？”，尝试预测它，如果预测错了就学习，然后在数十亿次中重复这种策略。这种有时被称为无监督学习或自监督学习的策略，就像是在创建自己的学习游戏。你可以在其他领域重复这种策略。例如，你可以取一张图片，遮盖其中的部分，尝试预测缺失部分的内容；你可以取一个基因序列，遮盖其中一段，尝试预测它。因此，这是一种非常成功的策略，可以用于人类经验和科学的各个其他领域，这导致了我们称之为“基础模型”的泛化。在不久的将来，我们将看到基础模型得到更广泛的应用。

但这个问题还有一个更难的版本，那就是：如果大型语言模型不是人工智能所需的一切，那么还需要什么，以及如何成功构建它？大多数人认为你还需要一些其他东西。尽管大型语言模型取得了令人难以置信的成功，但它们似乎并没有构建出人类所拥有的那种世界模型——人类对物理世界中的物质、特定实体（人类、公司）及其关系有感知，这更抽象于特定的词语序列。这表明我们需要某种不同的人工智能模型来成功构建这一点，而这正是人们绝对在努力研究的方向。人们一直在研究像图神经网络这样的东西。但公平地说，没有人真正知道如何成功做到这一点，这就是为什么我们仍在进行学术研究。

如何超越现成工具包，加深对AI的理解？🧠

我有一个答案：你必须动手构建东西。实际动手为自己构建东西是一个非常好的学习经历。许多最有能力的AI从业者只是投入精力为自己构建东西，重新实现事物。斯坦福大学博士毕业生安德烈·卡帕西就是一个很好的例子。安德烈曾在特斯拉工作，现在回到了OpenAI。但他也是一个喜欢构建东西的周末黑客。最近，他写了一个小型的大型语言模型实现，名为“迷你GPT”，完全是从零开始。现实是，仅仅通过从零开始为自己构建东西，即使它们复制了别人已经做过的东西或科技公司的大型框架，你也能学到很多，这总是一个很好的练习。

在量子计算时代，经典AI和机器学习算法还能用吗？⚛️

这是一个难题。我真的不是量子计算方面的专家。但老实说，目前我完全看不到量子计算能力取代我们在AI和机器学习领域所做事情的危险。目前，人们仍在努力构建非常小的量子计算机。这些非常小的量子计算机可以用于密码学等领域，人们担心由于其不同的性质，它们可能会破坏我们目前赖以保持银行交易和政府机密安全的那种密码学。但你只能构建小型量子计算机，而目前人工智能领域的所有行动恰恰在于构建巨大的神经网络。我们的量子计算机比我们现在构建的神经网络要小一百万倍，而且它们似乎很难扩展。因此，我认为在可预见的未来，量子计算不会真正改变或阻止我们在人工智能领域的工作。

AI领域有哪些有前途的新职业道路？💼

目前有很多。我们仍处于一个阶段，机器学习工程师严重短缺，对神经网络、自然语言处理、机器人技术及相关技术有深刻理解的人也严重短缺。因此，如果你在这些领域掌握了良好的技能，你可以做各种各样的事情。

需要提醒一点：很难知道未来几年会发生什么。但很明显，最大的科技公司在过去一两年里遇到了一些消化问题。有一段时间，他们雇用了能找到的每一个机器学习工程师，常常支付巨额薪水，然后他们意识到，也许我们雇用这些人只是因为他们在市场上，我们觉得应该试图垄断市场，因此他们确实缩减了在AI以及其他领域的招聘。

但另一方面，其他所有行业，无论是汽车行业的其他参与者、银行和金融业人士、建筑业人士，还是希望实现采矿或农业自动化的人，无论你看哪里，现在都有许多应用领域可以利用人工智能重塑不同行业，而其中几乎都尚未被探索和构建。因此，我认为使用机器学习的人有着无尽的需求和机会。

在我的业余时间，我也为一些公司提供咨询。你会看到这种情况出现在各个地方。例如，有初创公司使用深度学习进行天气预报，使用深度学习预测更好的牛饲料以减少打嗝和甲烷排放，从事机器人技术，让无人机在工厂周围飞行以监控不同物料的水平而无需人工在工厂里跑来跑去。你能想到的任何地方，我们现在都可以实现更多的自动化，而这将使用人工智能技术。

自然语言处理领域面临哪些关键挑战？🎯

在某些方面，这个问题变得比几年前更难回答了，因为大型语言模型是我们正在进行的这种新型自监督学习风格的第一个巨大成功。有时甚至对我来说，感觉自然语言处理问题几乎已经解决了。许多我过去花费所有时间做得并不成功的事情，比如从文本文档中提取信息（例如，查找某家公司释放了多少污染、其利润或亏损是多少、CEO是谁等事实），现在很多时候你可以使用大型语言模型，它们效果非常好，似乎我们能处理自然语言了。

但现实是，这仍然非常……我的意思是，对于广泛使用的大语种，我们有了基本可用的机器翻译，但仍有改进的机会。而且，一旦你离开英语、中文、印地语、德语等语言，转向许多小语种，无论是像丹麦语或瑞典语这样的欧洲小语种，还是来自世界其他地区的小语种，如非洲的祖鲁语，或像马拉地语这样的印度小语种，对于这些语言，目前都没有好的机器翻译系统。构建它们也更困难，因为可用数据少得多。

在生成文本方面，如果你只是想生成读起来流利的文本，现在可以做得很好。但如果你实际上想以特定方式生成表达特定观点的文本，或者生成图像，我们在控制方面仍然没有达到理想的程度。在构建对话系统、保持对交谈对象及其上下文的理解方面，我们仍然不擅长上下文维护。此外，还有我们之前讨论过的许多问题，比如大型语言模型中的偏见、可解释性等。因此，未来仍有大量不同的领域需要解决。

最后，我想提一个斯坦福大学一些学生正在研究的有趣新方向：如何构建比大型语言模型更高一级的模型。如果你真的要使用大型语言模型构建完整的应用程序，通常情况下，不会只有一个大型语言模型就完事了。你实际上需要在大型语言模型周围构建许多组件。例如，可能有一个大型语言模型为故事生成一些想法，另一个根据这些想法生成剧本，然后由第三个模型进行审查，检查是否存在性别偏见，如果有则进行修改。因此，你实际上是在用大型语言模型构建一个程序。这是一个令人兴奋的、更高层次的新领域，我们才刚刚开始探索。

考虑到NLP的快速发展，社区应优先考虑哪些关键因素和行动，以实现负责任和合乎伦理的AI语言模型部署与开发？⚖️

很高兴知道AI系统也在思考负责任和合乎伦理的AI语言模型部署的重要性。这方面有很多事情需要考虑。我们当然希望系统不表现出传统的性别偏见或种族刻板印象。事实是，所有当前的大型语言模型都存在这些问题。

这由两方面原因造成。部分原因是这些模型只是基于大量世界历史数据进行训练，而它们看到的是美国几乎所有的政治家都是白人男性，因此它们形成了“政治家是白人男性”的刻板印象。人类更擅长的一点是，头脑中装着他们认为世界应该是什么样子，而不仅仅是知道世界曾经是什么样子并基于此进行统计。

但机器学习模型本身也存在一些细节问题，它们倾向于强调多数情况而忽略少数情况。因此，我们应该研究如何构建能更好处理这一点的模型。同时，我们也应该尝试从不同来源获取数据，使其代表不同群体，并让不同群体的偏好参与到模型评估中，发现其弱点，教导它们如何行为。斯坦福大学的迈克尔·伯恩斯坦教授和他的学生一直在研究“陪审团学习”的理念，其核心思想是，在许多情境下，如何行为并没有一个唯一正确的答案，不同的亚群体有不同的感受。因此，你实际上希望代表一个由你同行组成的陪审团，了解不同人群的感受。对于某些事情，你希望对少数群体及其利益保持敏感，即使大多数人并不觉得某件事具有冒犯性或介意。因此，在这些领域有很多东西值得探索。

在接下来几年中，您预见自然语言处理领域会出现哪些最有前途和令人兴奋的现实世界应用？🌟

我认为我们将看到自然语言处理系统在各个地方得到更成功的部署。很多网站已经在右下角设置了一个小型AI助手，你可以与它聊天，询问公司产品或类似的事情。目前，它们虽然能工作，但并不是那么出色，至少我觉得不是很好。我认为我们将看到由大型语言模型驱动的新一代助手，它们将真正更加流畅地工作。

我认为我们将看到对话助手得到更广泛的应用。有些人认为想象人们与AI助手交谈而不是与另一个人交谈是一个可怕的前景。我并不是说我们不希望人与人之间交谈，我们当然希望，现代世界需要更多的社区联系。但事实证明，有很多人希望从能够给出类人回应的某物或某人那里获得反馈，但并不总是有合适的人类随时待命。

例如，你在思考如何给老板写邮件，或者不确定该对男朋友说什么。事实证明，你现在可以从大型语言模型那里获得建议、起草帮助或说话建议，这些实际上很有用。除此之外，我认为现在大型语言模型可以帮助你完成各种工作职能。我认为我们大多数人还没有充分思考这些模型能做什么。

所以，下次如果你有写作任务，无论是想发布招聘广告还是写月度状态报告，我鼓励你尝试一下。与其从空白页开始自己写，也许可以先写六个要点，然后说：“嘿，大型语言模型，你能围绕这些要点写一份月度状态报告吗？”我想你会对结果的质量感到惊讶。

再举一个例子，我在斯坦福从事生物信息学研究的同事最近报告说，他刚带着孩子去欧洲度假，而他找到欧洲所有住宿酒店的方式就是询问大型语言模型寻求推荐。他对推荐的质量感到惊讶。当旅行计划出现问题时（因为孩子们可能会做不同的事情，他们可能累了或不想做某事），他会问大型语言模型：“今天下午我还能做点别的什么？”并且喜欢得到的答案。

老实说，我从未想过这样做。今年夏天我也去度假了，但我用的是传统的老方法：搜索、查看网站等等。我认为，因为我们的世界如此基于语言，我们可以使用这些模型的方式有一个全新的世界，而我们所有人都在探索其中的一些可能性。

在本节课中，我们一起学习了克里斯·曼宁教授对人工智能核心议题的深入解读。我们探讨了基础模型的概念及其广泛适用性，分析了硬件与能耗对AI发展的限制与应对思路，审视了提高模型可解释性的途径，并思考了AI未来是否需要人类输入这一哲学问题。我们还规划了学习路径，讨论了对话助手与搜索引擎的关系，看到了推动研究者前进的动力源泉。最后，我们展望了大型语言模型之后的技术方向、加深AI理解的方法、量子计算的影响、新兴职业道路以及自然语言处理面临的挑战与机遇，并强调了负责任AI发展的重要性。这些内容为我们勾勒出了一幅当前AI领域的全景图，既有现实的成就，也有未来的憧憬与待解的难题。

007：吴恩达与李飞飞关于以人为本的人工智能的对话

概述

在本节课程中，我们将跟随吴恩达（Andrew Ng）与李飞飞（Fei-Fei Li）的对话，了解李飞飞教授从物理学背景转向人工智能领域的独特历程，探讨她对人工智能本质的宏大思考，并回顾ImageNet等里程碑项目的起源故事。我们还将学习她如何将AI技术应用于医疗健康等关键领域，以及她在推动AI教育普及和政策制定方面所做的努力。本次对话为初学者提供了一个了解顶尖AI科学家思想与经历的窗口。

从物理学到人工智能的转变 🧠

上一节我们介绍了本次对话的背景。本节中，我们来看看李飞飞教授如何从一个物理学学生转变为全球知名的人工智能科学家。

李飞飞教授最初在普林斯顿大学主修物理学。物理学训练了她提出宏大问题、追寻“北极星”（指引方向的核心问题）的激情。在阅读20世纪伟大物理学家的著作时，她发现许多物理学家后期都在思考生命、智能和人类意识等同样大胆的问题。

这引发了她对智能主题的好奇。在大学期间，她开始在神经科学实验室实习，特别是与视觉相关的领域。她发现，探索智能的本质与探索宇宙起源或物质构成一样，是一个极其大胆而迷人的问题。

因此，尽管当时正处于“AI寒冬”，人工智能并非热门领域，她依然决定从物理学转向人工智能领域攻读研究生学位。她认为，与物理学、化学和生物学这些已有数百年历史的学科相比，现代人工智能科学只有大约60年的历史，是一个非常新兴且充满机遇的领域。

追寻智能的“北极星”问题 🔭

上一节我们了解了李飞飞教授的学科转变。本节中，我们来探讨她一直追寻的核心科学问题。

李飞飞教授至今仍在思考一个宏大问题：智能。自艾伦·图灵以来，人类尚未完全理解智能背后的基本计算原理。她梦想能找到一组简单的公式或原则，来定义智能的过程，无论是动物智能还是机器智能。

她用一个类比来说明：人类发明飞机，并非单纯模仿鸟类飞行，而是掌握了背后的空气动力学和物理学原理。同样，无论是构建智能系统还是研究大脑，她相信终有一天我们能发现支配智能过程的根本原理。

她认为当前的人工智能领域仍处于“前牛顿时代”，正在经历作为一门基础科学的激动人心的成长期，未来还有巨大的探索空间。

ImageNet的起源故事 📸

上一节我们探讨了李飞飞教授的科研驱动力。本节中，我们来看看她最具影响力的项目之一——ImageNet是如何诞生的。

李飞飞教授在研究生阶段，正值机器学习开始应用于计算机视觉的时期。同时，数十年认知科学和神经科学在人类视觉研究上取得了关键进展，确立了物体识别等核心问题。

她和导师意识到，当时的研究面临一个根本性挑战：模型泛化能力不足，容易过拟合，且缺乏数据。为了推动物体识别这一“北极星”问题的发展，他们决定创建一个大规模数据集。

以下是这个项目的演进过程：

Caltech 101：这是他们的第一个尝试。当时互联网兴起，他们利用谷歌图片搜索下载图像，与家人和少数本科生一起标注，建立了包含101个物体类别、约数万张图片的数据集。
ImageNet：成为斯坦福大学助理教授后，李飞飞意识到问题远比想象中宏大。Caltech 101的数据量已不足以驱动更强大的算法。于是，她提出了一个更雄心勃勃的计划：下载整个互联网的图片，并映射所有英语名词，构建包含22000个类别、1500万张图像的巨型数据集ImageNet。这个想法最初遭到了不少质疑。

ImageNet的成功结合了对正确“北极星”问题的坚持以及驱动它所需的大规模数据。这个故事也说明，研究可以从较小的项目开始，积累经验，逐步迈向更大的目标，但内心始终要有一个宏大的愿景驱动。

将AI应用于医疗健康 🏥

随着研究项目的拓展，李飞飞教授将她在计算机视觉和神经科学方面的基础，应用到了多个重要领域，尤其是医疗健康。

她的研究演进部分遵循了动物视觉智能的发展规律。她关注两个核心方向：一是寻找能改善人类生活的 impactful 应用领域（如医疗健康），二是探索视觉的本质，试图闭环感知与机器人学习。

大约十年前，一个数据令她震惊：每年有约25万美国人死于医疗差错。其中，每年因医院获得性感染导致的死亡超过9.5万例，是交通事故死亡人数的2.5倍以上。而手部卫生执行不佳是主要原因之一。

当时正值自动驾驶技术兴起，她观察到自动驾驶汽车使用的智能传感、摄像头和机器学习算法，能够理解复杂的高风险环境。她意识到，在医疗服务过程中，许多人类行为流程处于“黑暗”中，如果能在病房或老年公寓部署智能传感器，帮助医护人员和患者更安全，将意义重大。

于是，她与合作伙伴开始了“环境智能”研究。将AI应用于真实人类环境时，会面临许多机器学习问题之外的人类问题，例如隐私。他们的早期技术使用不捕获RGB信息的深度摄像头来保护隐私。近年来，技术进步提供了更多隐私保护工具，例如：

设备端推理
联邦学习
差分隐私
加密技术

公众对隐私的日益关注也在推动科学家开发更好的机器学习技术。

参与政策制定与AI普及教育 📜

除了技术研究，李飞飞教授也深入参与人工智能的政策制定和普及教育工作。

大约四年前，在斯坦福大学多位领导的推动下，他们意识到斯坦福在AI发展中的历史责任，认为下一代AI教育、研究和政策需要是“以人为本”的。因此成立了“以人为本人工智能研究所”（HAI）。

其中一项重要工作是深度参与政策讨论。AI对人类生活的影响迅速且深远，作为专家，有必要与政策制定者共同努力，确保技术更好地服务于人。这涉及公平性、隐私、人才流向产业、数据和算力集中在少数公司等问题。

斯坦福HAI参与推动的一项政策是《国家人工智能研究资源（NAIRR）法案》。该法案旨在建立一个任务组，为美国公共部门（尤其是高等教育和研究机构）制定路线图，以增加其获取AI计算资源和数据的机会，从而重振美国AI创新与研究的生态系统。李飞飞教授是该法案下设的12人任务组成员之一。

在AI教育普及方面，李飞飞教授在2015年发起了“AI4ALL”项目（最初名为“SAILORS”）。当时，AI领域存在严重的代表性不足问题。该项目最初邀请高中女生参加暑期项目，激发她们学习AI的兴趣。后来在多方支持下，发展成为全国性的非营利组织“AI4ALL”，致力于培养来自各行各业、特别是传统上服务不足和代表性不足社区的学生，成为塑造AI未来的明日领袖。该项目通过夏令营、在线课程和大学通路项目等方式持续支持学生。

给AI初学者的建议 🚀

对于刚刚开始接触机器学习的人来说，这个领域可能令人眼花缭乱。李飞飞教授给出了她的建议。

今天AI的入口比他们当年要宽广得多。对于有技术兴趣和资源的人，互联网上有大量优质资源（如Coursera、YouTube等），鼓励大家利用这些资源学习，这充满乐趣。

对于非技术背景但同样对AI充满热情的人，无论是下游应用、创造力、政策与社会角度，还是重要的社会问题（如数字经济、治理、历史、伦理、政治科学），AI领域都有大量工作需要完成，存在许多未知问题。例如：

数字时代如何定义和衡量经济？
生成式AI的进步对音乐、艺术、写作等领域的创造力意味着什么？

总之，这是一个非常激动人心的时代。无论你来自何种背景，只要对AI充满热情，都能在其中找到自己的角色。AI是一项通用技术，将你当前的兴趣与AI结合，往往能产生 promising 的前景。

总结

本节课中，我们一起学习了李飞飞教授的学术与职业旅程。我们从她由物理学转向AI的故事开始，了解了她对智能本质这一“北极星”问题的持续追寻。我们回顾了ImageNet这一深度学习关键数据集的诞生历程，看到了从Caltech 101到ImageNet的迭代与坚持。接着，我们探讨了她将AI技术应用于医疗健康等重大社会问题的实践，以及她对隐私等伦理挑战的应对。最后，我们了解了她在推动AI政策制定和教育普及方面所做的努力，并收获了她给AI初学者的宝贵建议。李飞飞教授的经历表明，AI是一个年轻而广阔的领域，无论背景如何，只要有热情和毅力，任何人都可以为塑造其未来贡献力量。

008：给初学者的建议 🚀

在本章中，我们将学习斯坦福大学人工智能专家分享的关于如何开始人工智能与机器学习之旅的核心建议。我们将探讨AI领域的现状、多样化的入门路径，以及如何找到自己的角色。

概述

过去，进入人工智能和机器学习领域的门槛相对较高，路径也较为单一。然而，随着技术的发展，今天的AI领域已经变得更加开放和多元化。本节将详细解析这种变化，并为来自不同背景的初学者指明方向。

AI入门路径的演变

上一节我们提到了AI领域的现状，本节中我们来看看入门路径的具体演变。

专家指出，当我们（指专家那一代人）开始接触AI时，入口相对狭窄。那时，你几乎必须从计算机科学专业开始学习。

但今天，实际情况是，我们看到越来越多的评论指出，人工智能的许多方面为来自各行各业的人们创造了进入点。

多样化的AI参与角色

了解了入门路径的拓宽，接下来我们探讨在AI生态中可以扮演哪些具体角色。

以下是几个具体的例子，说明不同背景的人如何参与AI：

研究AI的社会经济影响：例如，专家在HI（Human-Centered AI，以人为本的人工智能研究所）的同事正在努力寻找答案：当机器人软件越来越多地参与工作流程时，这意味着什么？我们如何衡量我们的经济？这不是一个AI编码问题，而是一个AI影响力问题。
跨学科协作：要解决上述问题，需要将不同领域的人们聚集在一起来共同探索。
应用新工具：只要你对此充满热情，你就可以利用AI这项新工具。

核心在于：只要你对这个领域充满热情，就有你可以扮演的角色。

总结

本节课中我们一起学习了人工智能领域的入门建议。关键要点是：AI的大门已经向所有人敞开，不再局限于计算机科学背景。你可以从技术、伦理、经济、应用等多个角度切入。最重要的是保持热情，并找到能将你的兴趣与AI相结合的方向。无论你的起点如何，都可以在这个充满活力的领域中找到属于自己的位置。

009：从语言学博士到NLP先驱——Chris Manning的旅程与洞见

在本节课中，我们将跟随斯坦福大学教授、人工智能实验室主任Chris Manning的视角，了解他如何从语言学领域转向自然语言处理研究，并探讨NLP领域从规则系统到统计方法，再到深度学习与大语言模型的关键演变历程。

概述

Chris Manning教授是自然语言处理领域的顶尖研究者。本次对话回顾了他的学术旅程，并深入探讨了NLP的核心概念、历史转折点以及未来发展方向。我们将学习到NLP是什么、它如何演变，以及当前最前沿的大语言模型技术。

从语言学转向计算

上一节我们介绍了Chris Manning的背景，本节中我们来看看他如何从纯粹的语言学研究转向计算与自然语言处理的交叉领域。

Chris Manning最初对人类语言本身充满兴趣，关注人们如何理解、使用和习得语言。这种兴趣很自然地引导他开始思考如今我们视为机器学习或计算领域的问题。他特别关注两个核心问题：儿童如何习得语言，以及成人如何进行高效的语言交流。这些问题促使他早期就开始接触机器学习。

他认为，所有人类语言都是后天习得的，这引发了一个思考：机器是否也能学习语言？这种好奇心成为了他转向计算语言学研究的起点。

学术背景与早期研究

Chris Manning在本科阶段同时学习了数学、计算机科学和语言学三个专业。在申请研究生时，他同时考虑了计算语言学强校卡内基梅隆大学和以语言学见长的斯坦福大学，最终选择了斯坦福。

在90年代初期，NLP领域主要由基于规则的、逻辑的、声明式的系统主导。然而，一个关键的转变正在发生：数字化的文本和语音材料（如法律文件、报纸文章、议会记录）开始大量出现。这为从海量语言数据中开展实证研究提供了可能，也让他投身于一种新型的自然语言处理研究中。

什么是自然语言处理？

在了解了研究背景后，我们来看看NLP的具体定义。

NLP代表自然语言处理。另一个常用术语是“计算语言学”，两者基本同义。NLP这个术语本身有些特别，因为它默认“语言”指的是编程语言，所以需要加上“自然”来特指人类使用的语言。

总体而言，自然语言处理是指对人类语言进行任何智能化的操作。这可以分解为理解、生成和习得人类语言。人们通常从应用角度来思考NLP，例如：

机器翻译
问答系统
广告文案生成
文本摘要

由于人类世界的绝大部分信息都是通过语言传递和处理的，因此NLP有着极其广泛的应用。其中，网络搜索是NLP最大规模的应用。早期的搜索主要基于关键词匹配和页面质量评估，而如今，搜索引擎越来越多地执行真正的自然语言理解任务，例如从文本中提取答案并高亮显示。

NLP的技术演变：从规则到统计，再到深度学习

上一节我们定义了NLP，本节中我们来看看其核心技术是如何一步步发展至今的。

Chris Manning的研究生涯亲历了NLP从规则系统到统计方法，再到深度学习的完整演变过程。

1. 规则系统时代
早期，NLP主要依赖手工构建的系统，这些系统使用规则和推理程序来尝试构建对文本的理解路径。例如：

语法规则：一个英语句子通常由主语名词短语 + 动词 + 宾语名词短语构成。
词义消歧规则：在“电影”语境下，“star”这个词很可能指人而非天体。

2. 统计方法崛起
随着数字化文本的普及，研究人员开始转向计算语言材料的统计数据并构建机器学习模型。在1990年代中后期至2010年左右，统计自然语言处理或更广义的概率化人工智能方法成为主流。

3. 深度学习革命
大约在2010年，使用大型人工神经网络的深度学习开始兴起。Chris Manning受到当时同在斯坦福的吴恩达教授的启发，较早地开始了神经网络的研究。在2018年之前，深度学习模型在许多任务上取得了成功，但其范式仍是用更好的神经网络模型去完成相同的任务。

4. 大语言模型与自监督学习的拐点
2018年左右成为一个更重要的分水岭，其标志是像BERT和GPT这样的大型自监督模型的出现。这些模型仅通过在海量文本上进行词语预测，就能获得关于人类语言的惊人知识。这彻底改变了NLP的工作方式。

词向量与自监督学习的先驱

在迈向大语言模型的道路上，词向量技术是一个重要的里程碑。

词向量技术通过神经网络学习用一串数字（向量）来表示一个单词。Chris Manning参与的GloVe项目简化了相关数学，使得学习词语的细致语义表示成为可能。这项技术已经展示了自监督学习的威力：仅需海量文本，模型就能学到关于词语意义的丰富知识。

通过简单的“给定上下文预测单词”的任务，模型不仅能学到词语的相似性，还能学会类比推理，例如：铅笔：画画 -> 画笔：绘画。这为后续能够理解整段文本和上下文的大语言模型（如BERT、GPT）奠定了基础。

大语言模型的工作原理与“AI完备”争议

那么，驱动大语言模型的核心任务究竟是什么？它又有多强大呢？

大语言模型的核心预训练任务是根据上文预测下一个词。这个看似简单的任务被证明是极其有效的学习目标。为了尽可能做好这个预测，模型实际上需要：

理解整个句子的结构和含义。
掌握关于世界的知识。

例如，要预测“斐济使用的货币是___”这句话的下一个词，模型需要知道“斐济元”这个事实。因此，有人认为“预测下一个词”是一个AI完备的任务——即解决这个问题几乎需要解决人工智能的所有问题。

Chris Manning对此持保留意见。他认为人类在数学、三维空间操作等方面的洞察力并不完全是语言问题。但他也承认，语言所涵盖的世界知识远超想象，我们通过语言描述和思考了世界的绝大部分。

大语言模型的应用与提示工程

大语言模型如此强大，我们该如何使用它来完成具体任务呢？

使用大语言模型通常分为两个阶段：

预训练：在海量文本上执行“预测下一个词”任务，获得一个基础模型。
下游应用：针对具体任务（如问答、摘要、检测有害内容）使用该模型。传统方法是进行监督微调，即用特定任务的标注数据继续训练模型。得益于预训练获得的大量语言知识，模型只需少量标注样本就能取得很好效果。

近年来，更激动人心的进展是提示或指令方法。用户可以直接用自然语言（有时附带例子或明确指令）告诉模型要做什么，而无需微调。例如，直接说“请总结以下文本”。这种能力令人惊叹。

目前，提示工程（精心设计输入指令的措辞）对结果影响很大。Chris Manning认为，这既是未来的方向，也是一个暂时的技巧。他期望未来模型能像人类一样，理解不同措辞表达的相同意图，使得用自然语言指挥计算机成为常态。

未来展望：数据驱动与结构化学习

展望未来，NLP技术将如何平衡数据驱动与结构化知识呢？

毫无疑问，从数据中学习是未来的方向。但Chris Manning认为，融入更多结构性归纳偏置、利用语言本质的模型仍有空间。

当前成功的Transformer模型是一个巨大的“关联机器”，它从海量数据（数百亿甚至数千亿单词）中吸收一切关联。这种规模扩展策略极其有效，但也凸显出人类学习从有限数据中提取信息的能力要高效得多。

他认为，改进的学习算法不会来自人工编码语言学规则，而是来自模型自身对语言结构的发现。事实上，Transformer模型正在自动学习语言学家数十年发现的语言结构（如主谓宾顺序）。未来的高效学习算法，可能是Transformer的改进版，或是全新的架构。

给入门者的建议

对于想要进入机器学习、AI或NLP领域的新人，Chris Manning给出了以下建议：

这是一个进入该领域的绝佳时机。软件和计算机科学正在基于机器学习被重塑，各行各业都存在自动化与利用人类语言材料的巨大机会。

以下是打好基础的关键点：

掌握核心机器学习技术：理解如何从数据构建模型、定义损失函数、进行训练和误差诊断。
学习特定模型：特别是Transformer架构，它已广泛应用于视觉、生物信息学乃至机器人学。
了解人类语言：即使不直接编码规则，理解语言中的现象、挑战和可能建模的方向仍然很有用。

对于来自非计算机科学背景（如化学、物理、历史）的转行者：

入门层面：当前优秀的深度学习框架（如PyTorch, TensorFlow）非常易用，不需要高深的技术知识即可开始构建模型。
深入层面：若想深入理解，一定的数学基础（如微积分）是必要的，因为深度学习本质上是基于函数的优化。但很多人可以通过复习重新掌握这些知识。

关于高级框架是否降低了对微积分知识的需求，他认为确实如此。自动微分等技术让开发者无需手动计算导数。然而，拥有更深层的知识在理解原理、调试问题和把握新硬件机遇时仍有价值。这类似于现代程序员不一定需要懂量子物理也能编写软件，但底层知识在关键时刻可能发挥作用。

总结

本节课中，我们一起学习了Chris Manning教授从语言学走向NLP顶尖研究者的旅程，回顾了自然语言处理领域从规则系统到统计方法，再到深度学习与大语言模型的关键演变。我们探讨了NLP的定义、核心任务（如下一个词预测）、当前最前沿的提示工程应用，以及未来在数据驱动与结构化学习之间平衡的发展方向。最后，Chris Manning为所有希望进入这一激动人心领域的初学者提供了宝贵的建议。这是一个建立在巨人肩膀上的领域，每月都有新的复杂进展和令人兴奋的可能性，期待更多人加入共同探索。

010：未来展望 🤖

在本章中，我们将探讨人工智能与机器人学领域的未来发展趋势，重点关注数据共享与规模化训练如何推动机器人技术的进步。

概述

上一章我们讨论了机器人学习中的具体挑战。本节中，我们将基于切尔西·芬恩和吴恩达的观点，展望该领域的未来方向。核心预测是，通过跨机构、跨平台的数据共享与规模化训练，机器人系统将能更好地应对现实世界中的多样性与复杂性。

未来趋势：规模化数据与泛化能力

我认为该领域将继续显著发展。我希望这能说服更多人相信，这种范式对机器人学也极具前景，尤其是在处理世界上物体和环境的巨大多样性方面。

展望未来，我真正感到兴奋的一点是尝试在更广泛的数据集上训练机器人。目前，机器人学习领域的很多工作仍是在实验室中为特定项目收集数据，然后在那小规模数据上进行训练。数据规模小是必然的，因为它是为那个特定项目收集的。

因此，我预测至少在未来几年，我们将转向一种新范式：跨机构、跨机器人平台共享数据，并扩大这些系统的训练数据规模，从而使它们能够实现更广泛的泛化。

以下是实现这一愿景可能涉及的几个关键转变：

数据共享：打破实验室间的数据孤岛，建立共享数据集。
平台标准化：推动不同机器人平台的数据格式与接口标准化，以方便整合。
规模化训练：利用海量、多样化的数据训练模型，其核心目标可以表示为 提升模型在未见过的任务和环境中的性能。

总结

本节课中，我们一起学习了人工智能与机器人学的一个重要未来方向。关键在于从依赖小规模、特定项目的数据，转向构建大规模、共享的数据生态系统。通过这种方式，我们有望开发出适应能力更强、应用范围更广的机器人系统。

011：AI职业适合我吗？🤔

在本章中，我们将探讨一个普遍存在的疑问：我是否适合从事人工智能和机器学习领域的工作？我们将通过李飞飞教授和Andrew Ng的对话，了解他们进入AI领域的个人经历，并分析AI行业对人才背景的开放性。

概述

如今，各行各业的人都在进入人工智能领域。尽管如此，人们有时仍会疑惑：AI对我来说是正确的道路吗？事实是，如果我在20多年前就能进入AI领域，那么今天任何人都可以进入。因为AI已经成为一项如此普遍且具有全球影响力的技术。

上一节我们提到了AI领域的广泛吸引力，本节中我们来看看两位顶尖AI研究者的亲身经历，了解他们是如何开启AI生涯的。

从物理学到人工智能的转变

Andrew Ng最初学习的并非计算机科学或人工智能，而是物理学。那么，他是如何完成从物理学到AI的转变的呢？

物理学曾是我从初中、高中到大学一直以来的热情所在。物理学至今教会我的一件事，就是对提出宏大问题的热情，以及对追寻“北极星”（指引方向的目标）的热情。

我做过的一件事，就是阅读20世纪伟大物理学家的故事和著作。一个非常有趣的发现是，在这些伟大物理学家职业生涯的后期，他们的许多著作不再仅仅关乎物理世界，而是开始思考同样大胆的问题，例如生命、智能以及人类的处境。这让我对“智能”这个话题产生了极大的好奇心。

以下是促成这一转变的几个关键因素：

对宏大问题的热情：物理学培养了他探索根本性问题的思维方式。
广泛的阅读：通过阅读物理学家的后期著作，他的兴趣从物理世界扩展到了生命与智能等跨学科领域。
实践探索：大学期间，他在几个实验室实习，特别是与视觉相关的实验室，这让他亲身体验到AI研究的魅力。

一件事导致另一件事。大学期间，我在几个实验室实习，特别是与视觉相关的实验室。我当时的感觉是：哇，这（研究智能）是一个与“宇宙的起源”或“物质由什么构成”同样大胆的问题。这促使我从本科的物理学转向了研究生阶段的AI研究。

进入AI领域的当代机遇

因此，我认为今天进入智能科学领域、学习AI是非常令人兴奋的。

总结

在本章中，我们一起学习了AI职业道路的包容性。关键要点在于，进入AI领域并不一定需要传统的计算机科学背景。对根本性问题的好奇心、跨学科的视野以及实践的探索精神，都是开启AI生涯的重要动力。正如Andrew Ng的经历所示，从物理学等其他领域转向AI不仅是可能的，而且其培养的思维模式可能成为独特的优势。

012：从兴趣到专业

在本节课中，我们将通过切尔西·芬恩的分享，了解她选择人工智能与机器人学作为职业的思考过程。我们将学习如何从广泛的兴趣中聚焦，并理解计算机科学作为基础学科的强大灵活性。

概述

切尔西·芬恩在职业选择初期，曾考虑过从生物学到航空航天等多个领域。最终，她选择了人工智能与机器人学。本节将解析她做出这一决定的关键因素，特别是计算机科学所提供的核心优势。

广泛的兴趣与工程学的吸引力

切尔西最初被工程学吸引，因为她热衷于解决难题。在众多工程学科中，她首先注意到了计算机科学。

选择计算机科学的核心原因

计算机科学最吸引她的地方在于其灵活性。这门学科赋予人们通过软件和代码构建各种事物的能力。这种能力可以表示为：

能力 = 软件 + 代码

这意味着掌握了计算机科学，就拥有了进入多个前沿领域的通行证。

以下是计算机科学灵活性带来的可能性：

可以进入生物学领域进行研究。
可以投身于机器人学进行开发。
可以实现各种激动人心的创新项目。

人工智能的具体挑战

除了灵活性，一个具体的挑战也深深吸引着切尔西：如何让计算机像人类一样“看”世界。这涉及到两个核心问题：

让计算机能够理解图像中的内容（图像感知）。
让计算机能够根据感知在现实世界中采取行动（行动决策）。

上一节我们探讨了计算机科学的灵活性，本节中我们来看看这个具体挑战如何将兴趣最终引向人工智能。

总结

本节课中我们一起学习了切尔西·芬恩的职业选择路径。她的经历表明，从解决难题的普遍兴趣出发，到被计算机科学的强大灵活性所吸引，最终聚焦于“让机器像人一样感知与行动”这一具体而激动人心的挑战，是通往人工智能与机器人学专业的一条清晰道路。关键在于找到基础技能（编程与算法）与终极愿景（如智能机器）之间的连接点。

013：AI伦理责任与政策倡导

在本章中，我们将探讨人工智能领域的伦理责任，并了解如何通过政策倡导来引导AI技术向积极方向发展。我们将重点关注李飞飞教授分享的关于推动政府制定更好AI法规的经验。

你正在进行的一项非常有趣的工作，是领导多项努力，帮助教育政府，推动制定与AI相关的更好的法律和监管。我们很想了解更多这方面的信息。

硅谷有一种文化，认为我们只需不断创造事物，法律自然会跟上。但AI正在影响人类生活，有时是负面影响。我们讨论公平性，讨论隐私。

作为一所顶尖大学，我们推动了一项名为“国家AI研究资源”的法案。这项法案呼吁成立一个特别工作组，为美国的公共部门制定路线图，以增加他们获取AI计算资源和AI数据的机会。这不是一项监管政策，而是一项激励政策，旨在建设和振兴生态系统。

上一节我们介绍了通过政策激励来构建AI生态系统的理念，本节中我们来看看推动此类政策的具体行动和考量。

推动AI政策需要多方面的努力。以下是几个关键的行动方向：

教育与倡导：向政策制定者普及AI技术的基本原理、潜力与风险，是制定明智政策的第一步。
跨领域合作：将技术人员、伦理学家、法律专家和社会科学家聚集在一起，共同为政策制定提供全面视角。
制定路线图：通过成立特别工作组，为公共部门如何获取和利用AI资源制定清晰的、可执行的计划。

在本章中，我们一起学习了AI技术发展伴随的伦理责任，以及通过教育倡导和制定激励性政策（如“国家AI研究资源”法案）来引导AI积极发展的重要性。关键在于主动构建健康的技术生态系统，而非被动等待监管。

自然语言处理入门：01：从语言学研究者到NLP研究者的转变之路

在本节课中，我们将跟随斯坦福大学教授克里斯·曼宁的分享，了解他如何从一名语言学学生转变为自然语言处理领域的研究者。我们将探讨这一转变背后的时代背景、个人兴趣以及关键的技术转折点。

个人兴趣的起点

最初，我对人类语言及其运作方式非常感兴趣，也对人们如何理解语言充满好奇。与此同时，我对计算机科学也抱有浓厚的兴趣。因此，我的兴趣是混合型的。

上一节我们了解了曼宁教授的个人兴趣起点，本节中我们来看看他学术生涯的具体转折点。

学术生涯的转折点

我最终以语言学学生的身份进入了斯坦福大学。在90年代初，情况开始发生变化。当时，首次出现了大量以数字形式存在的人类语言材料，包括文本和语音。这正好是在万维网爆发式增长之前。

从大量人类语言材料出发进行实证研究，显然能做出令人兴奋的成果。正是这一点真正让我投身于一种新型的自然语言处理研究，并由此开启了我后续的职业生涯。

时代背景与技术条件

90年代初是一个关键时期，数字化文本和语音数据的出现为语言研究提供了全新的可能性。以下是当时促成NLP发展的几个关键因素：

数据的数字化：文本和语音开始以数字形式存储和处理。
互联网的前夜：万维网即将爆发，预示着信息将以前所未有的规模互联。
实证研究的兴起：基于大规模真实语言数据的研究方法变得可行。

总结

本节课中我们一起学习了克里斯·曼宁教授从语言学转向自然语言处理研究的关键历程。我们了解到，个人对语言和计算机的双重兴趣是内在动力，而90年代初数字化语言材料的出现和互联网的萌芽，则为这种结合提供了历史性的机遇，催生了基于大规模实证数据的新一代NLP研究。

015：切尔西·芬恩教授访谈概述

在本节课中，我们将学习斯坦福大学切尔西·芬恩教授关于人工智能与机器人学前沿研究的访谈内容。我们将探讨机器人技术的现状、挑战以及未来发展方向，特别是机器学习与强化学习在其中的应用。

人工智能与机器人学：第2章：职业选择与计算机科学的魅力

上一节我们介绍了本次访谈的背景。本节中，我们来看看切尔西·芬恩教授为何选择投身计算机科学和人工智能领域。

切尔西·芬恩教授最初被工程学吸引，因为她喜欢解决问题和挑战。在麻省理工学院本科期间，她发现计算机科学提供了极大的灵活性。

以下是计算机科学吸引她的几个关键原因：

构建的灵活性：计算机科学赋予人们用软件和代码构建各种事物的能力。
广泛的应用路径：掌握了计算机科学，未来可以进入生物学、机器人学等多个令人兴奋的领域。
人工智能背后的数学：她尤其喜欢人工智能背后的概率与统计等数学知识。
模仿人类智能的挑战：如何让计算机像人类一样“看”世界、感知图像并在世界中采取行动，这一挑战深深吸引了她。

她认为，机器学习与计算机科学类似，都具有高度的灵活性和广泛的应用前景，为探索世界的各个角落提供了可能。

人工智能与机器人学：第3章：机器人技术的现状与核心挑战

上一节我们了解了芬恩教授进入该领域的缘由。本节中，我们来探讨当前机器人技术的实际能力与面临的核心挑战。

当人们看到社交媒体上机器人完成复杂动作的演示视频时，很容易高估机器人的能力。这些演示虽然令人印象深刻，但通常是在特定、受控的环境中精心调试的结果。

机器人技术的核心挑战在于泛化能力。当前的机器人可以在工厂等受控环境中可靠工作，但难以应对多样化的场景、物体和环境。

要判断一个机器人演示的真实能力，可以问这样一个问题：如果环境发生微小变化，机器人还能成功吗？ 例如，移动一个障碍物或改变机器人的起始位置。能够经受住这种变化测试的机器人系统才真正值得称赞。

人工智能与机器人学：第4章：实现泛化：数据与学习策略

上一节我们指出了机器人泛化能力不足的问题。本节中，我们来看看如何通过数据和学习策略来解决这一挑战。

在其他机器学习领域，使用海量多样化数据集（如维基百科）训练模型取得了巨大成功。机器人学可以借鉴这一思路，但面临独特挑战：缺乏现成的、多样化的机器人控制数据集。

解决这一问题的关键在于让机器人能够自主收集有用且多样化的数据。芬恩教授的研究探索了多种方法：

以下是几种主要的数据收集与学习策略：

机器人自主数据收集：让机器人在多种不同环境中自行探索和收集数据。
任务演示学习：向机器人展示如何完成特定任务。
利用互联网数据：尝试使用人类活动的视频等网络数据来指导机器人。
多数据源整合：结合以上所有数据源，旨在让机器人通过接触多样化数据，最终能够泛化到真实世界。

人工智能与机器人学：第5章：仿真与现实：机器人学习的工具与局限

上一节我们讨论了利用真实数据的重要性。本节中，我们来分析仿真这一常用工具的作用与局限性。

仿真和视频游戏环境类似，可以为强化学习算法提供近乎无限的数据，因此在AI训练中取得了很大成功。

然而，将仿真中学习的策略迁移到现实世界面临重大挑战：

物理模型不精确：仿真引擎的物理规律（如摩擦力、物体间细微交互）难以完全模拟真实世界的复杂性。
仿真内容创建耗时：为模拟现实世界中所有可能遇到的物体和场景，需要投入大量手动工作，难以规模化。

因此，仿真是一个有前景的数据补充来源，但不应是唯一的依赖。必须结合利用大量真实世界的数据。

人工智能与机器人学：第6章：元学习：让机器人学会快速适应

上一节我们探讨了数据收集的挑战。本节中，我们介绍一种让机器人能在新环境中快速学习的高级方法——元学习。

当机器人进入一个全新的厨房，它可能需要通过少量试错来适应（例如，打开一扇略有不同的柜门）。传统的机器学习方法在数据量很少时效果不佳。

元学习 的目标是：利用在以往任务（如多个厨房）中获得的经验，优化机器人的学习能力本身，使其在新场景中能基于少量数据快速学习。

芬恩教授在博士期间研究的元学习方法是一种双层优化问题：
外层优化 的目标是找到一组 内层学习问题 的参数，使得机器人在面对新任务时能够进行更快、更高效的学习。

人工智能与机器人学：第7章：机器人实验室实战：工作流程与调试

上一节我们介绍了前沿的学习算法。本节中，我们走进机器人实验室，了解实际的研究工作是如何开展的。

在机器人实验室工作，除了编写代码、训练和评估模型这些与普通机器学习实验相似的环节外，还需要与实体机器人交互。

一个典型项目可能包含以下步骤：

仿真阶段：在物理引擎中设计仿真环境，迭代测试算法。
实体机器人部署：设置控制栈、摄像头，并通过VR控制器等方式收集数据。
模型评估：在真实机器人上运行训练好的策略，观察其实际表现。

调试机器人系统比调试纯软件更为复杂，需要排查软件、硬件、数据等多方面问题。常用方法包括可视化机器人“看到”的图像、检查模型学到的特征，或在多台机器人上复现动作以验证一致性。

人工智能与机器人学：第8章：强化学习在机器人中的应用与挑战

上一节我们感受了实验室的实战。本节中，我们聚焦于芬恩教授常用的核心工具——强化学习。

强化学习框架对机器人学极具吸引力，因为它原则上允许机器人通过试错自主收集数据并学习。其核心公式是让智能体学习一个策略 π，以最大化累积奖励 R。

然而，将其应用于现实机器人面临两大挑战：

奖励函数定义：现实世界不会像游戏一样提供明确的分数（奖励）。机器人需要同时学习“任务成功”的含义（奖励函数）和完成任务的技能。
自主重置：在试错学习中，每次尝试后机器人需要回到起始状态。学习这个“重置”行为本身可能就很困难，形成了学习任务与学习从失败中恢复之间的复杂交互。

芬恩教授是较早将端到端深度强化学习应用于机器人视觉-动作映射的研究者之一，即训练单个神经网络直接从相机像素映射到关节扭矩。尽管初期面临质疑，但这种方法已成为机器人学中的重要范式。

人工智能与机器人学：第9章：未来展望与入门建议

上一节我们回顾了强化学习的应用。在本节最后，我们展望未来，并为初学者提供入门指南。

芬恩教授对未来机器人学发展的预测和愿景包括：

构建大规模可重用数据集：推动社区共享标准化平台上的数据，并逐步扩展至不同机器人硬件，通过扩大数据规模提升泛化能力。
强化学习的更广泛应用：不仅限于机器人，还可应用于教育（如自动评估学生代码）、医疗等领域。

对于希望进入强化学习或机器人领域的学习者，她的建议是：

动手实践：通过构建项目来学习是最佳途径。
从仿真开始：使用MuJoCo等免费物理引擎和在线教程，门槛较低。
接触硬件：虽然更具挑战性，但成功后的成就感巨大。可以从乐高机器人或现成的低成本机器人套件开始。
利用丰富资源：参考Sutton和Barto的经典教材、在线课程、开源代码库，并学习机器人操作系统（ROS）等工具。

本节课中，我们一起学习了切尔西·芬恩教授对机器人技术现状的剖析，了解了泛化能力是核心挑战，并探讨了通过多样化数据、元学习、强化学习等策略来应对挑战。我们还展望了构建大规模数据集和强化学习广泛应用的未来，并为初学者提供了实用的入门路径。这是一个令人兴奋且快速发展的领域，充满了机遇。

人工智能入门指南：P16：给初学者的建议

在本节课中，我们将学习斯坦福大学教授Chris Manning对于希望进入人工智能领域的新手所给出的核心建议。这些建议涵盖了从基础知识到实践技能的关键方面。

上一节我们探讨了人工智能的广阔前景，本节中我们来看看如何为进入这个领域打下坚实的基础。Chris Manning教授认为，当前是进入AI领域的绝佳时机。

我们正处于这场由新方法驱动的变革的早期阶段。本质上，软件和计算机科学正在被重塑。在实现更多自动化、更好地利用人类语言材料（或视觉、机器人等其他领域）方面，存在着大量的机遇。

因此，你需要建立良好的基础。以下是构建基础所需的核心要素：

掌握机器学习核心技术：理解机器学习的核心方法。
学会从数据构建模型：掌握如何利用数据来构建有效的模型。
掌握错误诊断方法：学会分析和诊断模型中的错误。

除了这些技术核心，了解一些问题领域的知识也很有用。以自然语言处理为例：

即使人们不再直接将人类语言规则编码到计算系统中，但对语言中会发生何种现象、需要注意什么以及你可能想要建模的内容保持敏感，这仍然是一项有用的技能。

本节课中我们一起学习了进入AI领域的关键建议：抓住当前的发展机遇，扎实掌握机器学习建模与诊断的核心技术，并培养对特定应用领域（如人类语言）的敏感度和理解。这些是构建成功AI职业生涯的重要基石。

017：自然语言处理的未来展望

在本节课中，我们将一起探讨自然语言处理（NLP）领域的未来发展趋势。我们将基于专家观点，了解人类语言如何成为计算机的指令语言，以及这一转变将带来的巨大变革。

概述：一个光明的未来

毫无疑问，自然语言处理的未来前景极为光明。我们正在进入一个新时代，在这个时代，人类语言将能够作为一种指令语言，用来告诉计算机执行任务。

上一节我们概述了NLP的广阔前景，本节中我们来看看它与现有技术的区别。

与现有语音助手的区别

一种理解这种差异的方式是与现有的语音助手或虚拟助手进行比较。我们大多数人都有过这样的体验：这些助手并非总是表现良好。如果你知道如何用正确的措辞表达，它们就能完成任务；但如果你使用了错误的措辞，它们就无法理解。

以下是现有语音助手的主要局限性：

对指令的措辞要求严格。
容错能力较低，无法理解自然、模糊的人类表达。

与人类交流时，你通常不需要过多思考措辞。我认为，随着这些模型的发展，我们将开始看到同样的进步。这个时代正在我们面前开启，并将带来巨大的变革。

总结

本节课中，我们一起学习了自然语言处理未来的发展方向。核心在于，人类语言将演变为一种更自然、更强大的计算机指令语言，这将极大地改变我们与技术的交互方式。尽管当前技术（如语音助手）在理解自然语言方面仍有局限，但未来的模型将朝着更接近人类交流宽容度和理解力的方向演进。

018：机器人实验室日常工作

在本节课中，我们将了解在人工智能机器人实验室工作的具体日常流程。我们将跟随研究人员的视角，探索从代码实验到实体机器人操作的全过程。

概述

在人工智能领域，机器人实验室的工作融合了算法开发与物理系统交互。本节将详细介绍实验室中的典型工作流程，包括仿真实验设计、模型训练评估以及实体机器人的部署与调试。

日常工作流程

实验室的工作与运行机器学习实验并无本质不同。核心流程包括运行代码、训练模型以及评估模型性能。此外，还需要与实体机器人进行交互。

以下是实验室工作的主要组成部分：

运行代码与训练模型：研究人员编写并执行代码，以训练特定的机器学习模型。
评估模型性能：在训练完成后，对模型的效果进行评估和分析。
与实体机器人交互：将训练好的模型部署到机器人硬件上，并观察其实际表现。

从仿真到现实

许多项目会从仿真环境开始。这通常涉及设计仿真的各个方面，以验证特定的研究假设。仿真阶段允许研究人员在安全、可控且成本较低的环境中快速迭代想法。

在实体机器人上工作时，流程则有所不同。以下是实体机器人部署的关键步骤：

设置控制栈：配置软件系统，确保能够向机器人发送有效的控制指令。
配置传感器：设置摄像头等传感器，并确保数据能够被正确采集和记录。
数据收集与可视化：研究人员需要查看机器人“看到”的图像，并可视化模型学习到的特征，以深入理解其决策过程。

工作的乐趣与挑战

对我而言，这是一个充满乐趣的过程。亲眼看到机器人执行任务，而不仅仅是看到模型准确率等数字，会带来极大的成就感。

然而，这项工作也需要极大的耐心和毅力。机器人系统可能出现故障。过去在操作直升机机器人时，每次坠毁都意味着需要重新建造一个。相比之下，机械臂的“坠毁”频率要低得多，这或许是一个更稳妥的研究方向。

总结

本节课我们一起学习了人工智能机器人实验室的日常工作。我们了解到，这项工作结合了算法开发（运行代码、训练模型）与物理系统操作（仿真设计、机器人部署）。虽然过程充满挑战，需要应对硬件故障等问题，但亲眼见证机器人成功完成任务所带来的回报是无可比拟的。

019：人工智能技术全景与核心工具

在本节课中，我们将学习人工智能（AI）的技术全景，并重点介绍当前最重要的两种工具：监督学习和生成式AI。

人工智能是一种通用技术，这意味着它并非仅适用于单一任务，而是像电力一样，可以应用于众多不同的领域。理解这一点对于把握AI的机遇至关重要。

监督学习：从输入到输出的映射

上一节我们介绍了AI作为通用技术的概念，本节中我们来看看第一种核心工具：监督学习。

监督学习非常擅长识别事物、为事物打标签，或者计算从输入A到输出B的映射关系。其核心公式可以表示为：给定输入A，预测输出B。

以下是监督学习的一些应用实例：

垃圾邮件过滤：给定一封电子邮件，将其标记为垃圾邮件或非垃圾邮件。
在线广告：给定一个广告，预测用户点击的可能性，从而展示更相关的广告。
自动驾驶：给定汽车的传感器数据，标注出其他车辆的位置。
船舶航线优化：给定一条航线，预测其燃油消耗量，以优化能效。
工业视觉检测：给定一张刚生产的智能手机照片，检测是否存在划痕或其他缺陷。
情感分析：给定一条餐厅评论，判断其情感是正面还是负面。

监督学习的一个显著特点是，它并非只对一件事有用，而是可以应用于上述所有领域以及更多其他场景。

监督学习的工作流程

以下是构建一个监督学习项目（例如餐厅评论情感分析系统）的具体工作流程：

收集标注数据：获取大量带有标签的训练样本。例如，“最好的五香熏牛肉三明治很棒”标记为正面，“服务很慢”标记为负面。
训练AI模型：由AI工程团队使用这些数据训练一个模型，使其学习从评论文本到情感标签的映射关系。
部署与运行：将训练好的模型部署到云服务上。之后，输入新的评论（如“你吃过的最好的伏特加”），模型即可输出预测的情感（如正面）。

过去十年可以被视为大规模监督学习的十年。我们发现，当使用强大的计算资源（如GPU）训练非常大的AI模型，并为其提供海量数据时，其性能会持续提升。这一方法推动了AI在过去十年的巨大进步。

生成式AI：预测下一个词

如果说过去十年是监督学习的时代，那么当前十年则在监督学习的基础上，加入了令人兴奋的新工具：生成式AI。

许多人都体验过ChatGPT等工具。其核心在于，给定一段文本（称为提示词），模型能够生成后续内容。例如，输入“我喜欢吃”，模型可能生成“百吉饼配奶油奶酪和熏鲑鱼”。

生成式AI（至少文本生成类）的核心，实际上是使用监督学习来反复预测下一个词。具体过程如下：

模型从互联网等来源读取大量文本。
它将句子分解为训练数据。例如，对于句子“我最喜欢的食物是配奶油奶酪的百吉饼”，可以创建以下训练样本：
- 输入：“我最喜欢的食物是”，目标输出：“配”
- 输入：“我最喜欢的食物是配”，目标输出：“奶油奶酪”
- 输入：“我最喜欢的食物是配奶油奶酪”，目标输出：“的”
- 输入：“我最喜欢的食物是配奶油奶酪的”，目标输出：“百吉饼”
通过在海量文本（数千亿甚至上万亿词）上训练一个巨大的AI模型来学习预测下一个词（或词元），就得到了大型语言模型（如ChatGPT）。此外，还有像RLHF（人类反馈强化学习）等技术来进一步调整AI输出，使其更有帮助、更诚实、更无害。

生成式AI作为开发工具

许多人将大型语言模型视为出色的消费者工具。然而，一个尚未被充分认识的趋势是，它同样是一个强大的开发工具。

以前，构建一个商业级的监督学习系统（如餐厅评论情感分析）可能需要6到12个月，涉及数据收集、模型训练调优和部署维护。

而现在，基于提示词的AI开发流程则快得多：

编写提示词：这可能只需要几分钟或几小时。
部署到云端：这可能只需要几小时或几天。

因此，许多过去需要数月才能构建的AI应用，现在全球的团队可能在一周内就能完成。这正在开启一波由更多人构建定制化AI应用的浪潮。

以下是一个使用代码构建情感分类器的例子，展示了其简洁性：

import openai

response = openai.Completion.create(
  model="text-davinci-003",
  prompt="""将下面用三个破折号分隔的文本分类为具有正面或负面情感。

文本：---
在斯坦福商学院度过了一段美妙时光。学到了很多，也结交了很棒的新朋友。
---""",
  max_tokens=10
)

print(response.choices[0].text.strip())

如今，全球的开发者可能只需10分钟就能构建出类似的系统。

当前与未来的价值分布

本节我们来探讨不同AI技术当前及未来的价值分布。

我认为，目前AI的绝大部分经济价值仍然来自监督学习。对于像谷歌这样的单一公司，其价值可能超过每年1000亿美元。同时，有数百万开发者正在构建监督学习应用，它已经具有巨大价值和发展势头。

生成式AI是令人兴奋的新进入者，目前规模较小，但预计未来三年将增长超过一倍。如果保持接近的复合增长率，六年后其规模将更加庞大。

这些技术都是通用技术。对于监督学习，过去十年及未来十年的许多工作在于识别和执行具体的用例。这个过程也正在生成式AI领域展开。

需要注意的短期热潮

在追寻机遇的同时，需要注意短期的热潮。例如，曾风靡一时的AI换脸应用Lensa，它是一个好产品，但它是构建在他人强大API之上的一个较薄的软件层，缺乏长期的防御性，容易被复制或整合到操作系统底层。

这类似于iPhone早期，有人开发了售价1.99美元、用于打开LED灯当手电筒的App。它有用，但并非长期可防御的业务。

真正令人兴奋的是，像iOS和iPhone的崛起催生了Uber、Airbnb、Tinder等具有长期防御性和持续价值的深度应用。随着生成式AI等新AI工具的崛起，我们有机会创建那些真正深入、困难且能创造长期价值的应用。

总结

本节课中我们一起学习了人工智能的技术全景与核心工具。我们了解到AI是一种像电力一样的通用技术。监督学习擅长输入到输出的映射，在过去十年创造了巨大价值。生成式AI的核心是基于监督学习预测下一个词，它不仅是一个消费者工具，更是一个能极大加速应用开发的强大开发者工具。我们看到了AI价值在当前和未来的分布，并认识到在追逐长期深度应用机会的同时，需要警惕短期的技术热潮。

020：大型语言模型与上下文学习

在本节课中，我们将学习大型语言模型（如GPT-3）的核心概念、其背后的技术原理，以及它们如何通过“上下文学习”这一新范式改变人工智能领域。我们还将探讨如何在这一快速发展的领域中做出自己的贡献。

背景介绍

克里斯·波茨教授是斯坦福大学语言学系主任，并在计算机科学系兼任教授。他是自然语言理解领域的专家，并教授相关研究生课程。我们正处在一个自然语言理解的黄金时代，充满了创新与变革。

黄金时代的标志

过去十年，人工智能领域取得了惊人进步。如今，我们可以直接使用或通过API调用各种强大的模型。

图像生成模型：如DALL-E 2、Stable Diffusion，能根据文本生成图像。
代码生成模型：如GitHub Copilot（基于Codex模型），能辅助编写代码。
搜索技术：如You.com，正在改变搜索体验。
语音转文本模型：如OpenAI的Whisper AI，其通用模型性能已超越10年前最好的定制模型。
大型语言模型：如GPT-3，以及开源的GPT-Neo等模型，能力非凡。

以下是GPT-3模型的一个演示示例。当被问及“斯坦福大学于哪年成立？首批学生何时入学？现任校长是谁？吉祥物是什么？”时，模型能给出流畅且完全正确的答案。这展示了其强大的能力。

模型也在快速迭代进步。例如，GPT-3的Da Vinci 3引擎相比前代Da Vinci 2，在对抗性测试中表现更稳健。当被问及“是否可能雇佣一群狨猴来粉刷房子，并支付它们足够的水果以满足加州最低工资要求？”时，Da Vinci 2被细节迷惑，给出了肯定答案。而Da Vinci 3则给出了更合理的否定回答。这表明模型正朝着更可靠的方向发展。

科学创新的速度

这种进步也体现在衡量系统性能的基准测试上。基准被“饱和”（即模型性能达到或超越人类水平估计）的速度越来越快。

MNIST（手写数字识别）：1990年代推出，约20年后达到人类水平。
Switchboard（语音转文本）：1990年代推出，约20年后达到人类水平。
ImageNet（图像分类）：2009年推出，约10年后达到人类水平。
SQuAD 1.1（问答）：约3年被解决。
SQuAD 2.0：不到2年被解决。
GLUE基准：推出后不到一年即被饱和。其升级版SuperGLUE旨在更难，但也在不到一年内被饱和。

这无疑是一个快速进步的故事。即使对人类性能的衡量标准持怀疑态度，我们仍能看到变化速率在急剧增加。

在当下的大型语言模型时代，这种趋势仍在继续。研究表明，当模型规模达到某个临界点时，会“涌现”出执行复杂任务的能力。对于许多旨在挑战最大模型的任务，它们正被逐一攻克。

驱动进步的核心因素

上一节我们看到了进步的标志，本节我们来探讨驱动大型语言模型取得巨大进展的几个关键因素。

1. 模型规模

一个主要因素是模型的巨大规模。模型参数数量呈爆炸式增长。

2018年，最大模型约有1亿参数。
2019年末至2020年初，模型规模开始迅速增长。
2020年末，出现了83亿参数的Megatron模型。
随后，GPT-3拥有1750亿参数。
如今，一些模型参数已超过5000亿。

为了正确展示这个尺度，我们需要将展示1亿参数模型的幻灯片堆叠5000张。这种规模是巨大的，远超早期的预期。

2. Transformer架构

Transformer架构是几乎所有现代语言模型的基本构建块。其核心是注意力机制，这使其与此前流行的LSTM等机制有显著不同。Transformer从词嵌入和位置编码开始，通过多层注意力机制和前馈层进行处理。

深入研究Transformer后，人们通常会经历一个过程：最初疑惑它为何有效，然后理解它由许多简单机制组成，最终产生一个核心问题——为什么它如此有效？ 这仍然是一个开放的研究领域。

3. 自监督学习

自监督学习是一种通过序列中的共现模式来获取丰富形式和意义表示的强大机制。模型的基本目标是学习为训练序列分配高概率，这纯粹是分布学习。生成文本只是从这个模型中采样，是一个衍生过程。

有趣的是，这些序列可以包含多种符号，如语言、代码、传感器读数甚至图像。自监督学习与标准监督学习的关键区别在于，其目标不涉及任何特定符号或关系，完全专注于学习共现模式。这几乎不需要人工标注，只需海量的符号流。

4. 大规模预训练

与自监督学习相辅相成的是大规模预训练。早期的词表示模型（如Word2Vec）证明了在海量数据上进行自监督预训练的力量，并且发布预训练参数让社区在此基础上构建，极大地推动了有效系统的开发。从ELMo（首个上下文词表示模型）到BERT、GPT，再到GPT-3，规模不断扩大。

5. 人类反馈

我们不应忽视人类反馈的作用。最好的模型（如OpenAI的Instruct系列）不仅使用自监督学习。它们通常经过两个阶段优化：

基于人类对生成结果好坏的二元判断进行微调。
人类对模型多个输出进行排序，该反馈被用于轻量级强化学习。

这些人类反馈步骤对于模型达到顶尖水平至关重要，也部分解释了模型为何能取得如此成就。

6. 提示工程

最后，提示工程本身已成为一门学问。从最初直接提问，发展到设计能引导模型进行“逐步推理”的提示。例如，在提示中先说明“这是一场逻辑和常识推理考试”，然后给出推理示例，再提出实际问题，要求模型先阐述推理过程再给出答案。这种方式可以显著提升模型表现。

这就像是在学习如何与“外星生物”沟通。提示工程正在成为一种使用自然语言“编程”AI系统的轻量级方法，这将极大地赋能系统开发和实验。

核心研究问题：如何做出贡献？

面对这些庞然大物，研究人员可能会感到担忧：在这个时代，如何为自然语言理解研究做出贡献？我们可以通过一个流程图来思考。

首要问题：你是否有5000万美元并且热爱深度学习基础设施？

如果答案是是，那么鼓励你去构建自己的大型语言模型，这可能会改变世界。
但大多数人（包括我本人）的答案是否。我们既没有巨额资金，也对深度学习基础设施没有特别热爱。

即使答案为否，仍有大量工作可以做。以下是一些前沿方向：

检索增强的上下文学习：结合检索器与语言模型。
创建更好的基准测试：这是该领域长期面临的挑战，可能是最重要的工作之一。
解决“最后一英里”问题：将AI核心进展转化为对人们生活有积极影响的实际应用。
实现忠实、人类可理解的模型解释：为了信任模型，我们需要在人类层面理解它们的行为。

由于时间有限，我们将聚焦于第一个主题——检索增强的上下文学习，这是一个所有人都能以多种创新方式参与的领域。

深入探讨：检索增强的上下文学习

在深入主要话题前，我们需要理解大型语言模型带来的一个核心范式转变：上下文学习的兴起。

上下文学习可追溯到GPT-3论文。其工作方式是：我们向大型语言模型输入一段提示，其中包含背景文本、一个或多个任务演示（示例），最后是实际要回答的问题。模型的目标是从上下文中学习我们期望的行为。

这与标准监督学习范式截然不同。以前，对于每个任务（如文本分类），我们都需要创建带标签的数据集并训练定制模型。而上下文学习的承诺是，一个单一的、固定的大型语言模型可以通过不同的提示，服务于无数目标。在提示中，任务标签（如“紧张期待”）本身没有特殊地位，模型需要从文本中理解所有术语的含义和我们的意图。

检索增强 vs. “LLM搞定一切”方法

大型语言模型已经革新了搜索领域。但更令人兴奋的是，搜索技术正在反过来革新NLP，帮助我们处理更多需要知识的任务。

以问答为例。传统NLP问答在测试时给定背景段落和问题，答案必须是段落的子串。而开放域问答更接近现实：只给定问题，需要依靠检索机制从大型语料库或网络中查找相关证据。这更难，但也更重要。

另一种叙事是“LLM搞定一切”方法：没有显式检索器，只有一个大模型直接处理问题并生成答案。这是一个鼓舞人心的愿景，但也存在风险区：

效率：模型同时充当知识库和语言处理器，导致模型规模爆炸。
可更新性：世界事实变化时，难以更新大模型的参数。
可追溯性：用户无法验证答案来源，破坏了搜索技术中用户期望的“可验证”契约。

相比之下，检索增强方法结合了语言模型和检索器（检索器本身也是语言模型）。其流程如下：

使用语言模型将查询编码为密集向量。
使用语言模型处理文档集合中的所有文档，得到向量表示。
在语义空间中计算查询与文档的相关性得分，返回排名结果。
（可选）另一个“阅读器/生成器”语言模型可以吸收检索到的段落，综合生成单一答案。

这种方法优势明显：

效率：参数量可以远小于集成方法。
可更新性：文档库更新时，只需用冻结的语言模型重新处理文档，即可反映变化。
可追溯性：保留了文档来源，可以传递给用户。
有效性：文献表明，检索增强方法通常优于“LLM搞定一切”方法。
信息综合：保留了生成模型直接满足信息需求的能力。

新的系统设计范式

系统设计方式也在快速变化。过去，我们需要用任务特定参数将各种预训练组件（检索器、语言模型等）捆绑在一起，然后进行微调。调试和改进这种复杂系统非常困难。

而现在，我们可能正在进入一个新时代。许多模型原则上可以用自然语言通信。检索器抽象上是输入文本、输出带分数文本的设备，语言模型也是。我们可以通过提示让这些模型之间以复杂的方式进行消息传递，从而构建系统。这为系统设计带来了全新的、民主化的方法。

广阔的设计空间

以下是一个搜索场景的例子，展示了设计空间有多么开放：

基础：提示中包含用户问题。
+ 检索背景：使用检索器为问题查找相关背景段落。
+ 演示示例：在提示中加入少量演示（QA对），指导模型行为。
+ 检索增强演示：不是随机选演示，而是用检索器找到与用户问题最相似的演示。
+ 为演示检索背景：为每个演示也检索相关背景段落，形成信息包。
+ 查询重写：根据构建的演示重写用户查询，以获得更好的检索结果。
+ 生成后处理：对模型的生成结果进行过滤（例如，只保留与背景段落子串匹配的答案），或使用更复杂的概率模型（如RAG）最大化利用信息。

我们正在见证一种新的编程模式出现：使用大型预训练组件，通过编写提示来设计AI系统，这些提示本质上是关于这些冻结组件之间消息传递的完整程序。

这方面的研究才刚刚开始，我们只探索了这个空间的极小一部分，现有方法都远非最优。这正是可能取得巨大性能飞跃的条件。

其他重要的贡献领域

虽然我们聚焦于检索增强学习，但其他领域同样至关重要。

1. 数据集与基准测试

贡献新的基准数据集始终是最重要的工作之一。数据是进步所依赖的资源。我们需要不断创建更困难、更接近人类真实能力的任务，以避免陷入自我满足的进步假象。

2. 模型可解释性与可靠性

在这个产生巨大影响的时代，我们必须认真对待系统可靠性、安全性、信任、合理使用和社会偏见等问题。由于这些系统是庞大、不透明的“黑箱”，实现对其行为的忠实、人类可理解的解释，是解决上述任何问题的先决条件。

3. 解决“最后一英里”问题

基础AI进展带我们走了95%的路，但剩下的5%往往和前面一样困难。以图像无障碍访问为例，尽管图像描述生成技术在过去十年进步巨大，但仍无法为视障用户生成真正有用的描述。解决这“最后一英里”需要HCI研究、语言学研究、AI基础进步以及大量新数据的结合。拥有领域专业知识的人可以在此类应用问题上发挥关键作用，产生真正的影响力。

未来预测与结语

最后，让我们做一些预测。我在2020年曾做出以下预测，预计其有效期为10年：

拥有丰富文本数据的落后行业将被NLP技术部分改造。
人工智能辅助将变得更好、更普遍，以至于你常常无法分辨客服是人还是AI。
许多类型的写作（包括大学论文）将在AI写作辅助下完成。
NLP和AI的负面影响将与正面影响一同被放大，可能会出现因AI技术误用导致的灾难性世界事件。

然而，仅仅两年后，预测2和3似乎已经成真。另一方面，我完全未能预测到文本到图像模型（如DALL-E 2）的突破性进展。

因此，我的新规则是：只预测到2024年。因为10年后，我们必将处在一个与现在截然不同的地方，但具体如何，无人能知。唯一确定的是，变化将持续加速。

总结

本节课中，我们一起学习了大型语言模型（如GPT-3）的崛起及其背后的关键技术，包括Transformer架构、自监督学习、大规模预训练和人类反馈。我们重点探讨了上下文学习这一新范式，以及检索增强的上下文学习如何结合检索器与语言模型，以更高效、可追溯、可更新的方式处理知识密集型任务。我们还回顾了在这一黄金时代做出贡献的多种途径，包括创建基准、提高模型可解释性以及解决实际应用中的“最后一英里”问题。未来充满不确定性，但也充满了让研究者与实践者共同塑造的机会。

021：斯坦福大学切尔西·芬恩讲座

概述

在本节课中，我们将学习斯坦福大学助理教授切尔西·芬恩关于机器人深度学习前沿的分享。核心内容包括：如何通过扩大数据集训练机器人实现泛化，以及如何让机器人在测试时适应新环境。我们将探讨当前机器人能力的局限性，并展望通过数据共享和自适应学习来突破这些限制的未来方向。

章节 1：当前机器人的能力与局限

上一节我们概述了课程内容，本节中我们来看看机器人目前能做什么，以及存在哪些主要限制。

我们见过机器人完成相当复杂的操作任务，例如用铲子将物体舀入碗中。也有来自波士顿动力公司的令人印象深刻的视频，展示了机器人进行类似跑酷的复杂机动动作。

然而，这些令人印象深刻的行为存在一个关键问题。以波士顿动力机器人的行为为例，它无疑令人惊叹，但该行为是针对这一个特定环境进行手动调整的。而那个使用铲子的操作任务，则是在该环境中用15分钟的数据训练出来的。

因此，这些行为都专门针对它们被训练和调整的环境。这意味着机器人学习的是非常狭窄的行为，只能在受控的狭窄环境中执行复杂操作。如果你将这些平台稍微移动一点，或者给机器人一个不同的铲子，该行为最终都会失败。

所以，我真正感兴趣的是，我们如何能让机器人真正走进现实世界，例如家庭、办公室等真实环境，并让它们在这些场景中泛化执行智能行为。

章节 2：泛化的挑战与两种解决方案

上一节我们介绍了当前机器人的局限性，本节中我们来看看实现泛化所面临的挑战以及两种潜在的解决方案。

棘手之处在于，我们通常在相当狭窄的分布上训练机器人，例如实验室环境。我们的目标是能够将这些机器人部署到现实世界中。从机器学习的角度来看，这意味着泛化到更广泛的分布是相当具有挑战性的，因为训练是在一个对象和环境数量都很少的狭窄分布上进行的。

我认为有两种可能的解决方案，并且两者都非常重要。
第一种是在更大、更广泛的数据上进行训练。思考我们是否可以扩展训练机器人的数据规模，使它们能够相当广泛地泛化。可以说，在更大数据集上训练神经网络，是唯一被证实在其他领域（如语音识别、机器翻译和图像分类）实现“野外”泛化的方法。我认为这类方法对于让机器人实现泛化将非常重要且必要。

但我认为仅这样做可能还不够，因为机器人不可避免地会遇到与训练场景略有不同的情况，仅仅因为世界是广阔的，有大量不同的场景、环境和物体等。

因此，我认为第二个非常重要的因素是，思考机器人如何也能泛化到超出其训练数据的范围。我们不能指望预测到每一个可能的场景，所以我们要研究的是，是否也能让机器人在测试时进行适应。如果它们能够在测试时吸收少量经验并进行适应和学习，那么它们或许就能真正处理新颖的情况。

所以，在更广泛的数据集上训练和泛化到训练分布之外，是我将在本次网络研讨会中讨论的两个主要内容。当然，这只是机器人深度学习这个广阔主题的冰山一角，但应该能让你对当今该领域的现状有一个很好的了解。

章节 3：通过多样化任务训练实现泛化

上一节我们探讨了泛化的总体思路，本节中我们具体看看如何通过让机器人学习多样化任务来实现对新任务的泛化。

首先，让我们思考是否可以让机器人学习许多不同的任务。我们将关注的具体目标是：让机器人能够泛化到一个它没有被专门训练过的新任务。我们希望通过拓宽训练数据分布来实现这一点。

值得一提的是，之前的一些研究工作试图通过例如让机器人泛化到新物体（但所有训练和测试都在“放置”这一单一技能内），或泛化到新的语言指令（但新指令描述的是数据中见过的行为）等方式来实现泛化。

我们想更进一步，研究如何让机器人泛化到跨越广泛技能的不同物体组合。

为了评估机器人是否能执行新任务，我们来看一个例子。假设机器人处于这个场景中，我们想告诉它“将葡萄放入陶瓷碗中”。在这种情况下，机器人看到过的数据会展示如何将其他物体放入陶瓷碗，以及如何用葡萄做其他事情，但它从未见过一个完整的轨迹演示如何拿起葡萄并放入陶瓷碗。为了让事情更难一点，我们实际上只向它展示来自两个不同物体集合的数据，它从未见过葡萄和这个陶瓷碗出现在同一个场景中的数据。

我们将在总共100组任务上进行训练，一个任务对应一种特定的行为或轨迹。这些任务涵盖九种不同的基本技能，包括抓取、放置、推动、擦拭等。这些行为的示例如下视频所示，你可以看到诸如将香蕉放入托盘、拖着陶瓷碗画圈等例子。

这是向机器人展示行为的示例，这些数据是通过使用VR控制器以特定方式移动机器人夹爪来收集的。这是12个不同任务的示例，但我们将展示大约100个不同任务的数据。

收集了这100个不同任务的演示数据后，我们将训练一个神经网络策略。该策略以RGB图像作为输入，输出夹爪期望的目标位置和方向。

因此，这个策略将输出7个数字：3个表示位置，3个表示方向，以及1个表示夹爪的打开和关闭。该策略以10赫兹的频率运行，即每秒接收10次新图像并预测一个新动作。

我们选择这种表示是因为它具有最大的通用性。原则上，这种策略可以根据你训练的数据执行许多不同的任务。重要的是，这个策略还将以任务描述为条件。我们将特别使用语言描述，并使用一个固定的预训练语言模型来获取这些指令的嵌入表示，然后将这些嵌入传递给策略。

一旦我们在多样化数据集上训练了这个策略，为了让机器人泛化到新任务，机器人需要能够：首先正确解释语言命令；其次，视觉识别相关物体和干扰物；最后，将其对指令的解释和所见内容转化为机器人的动作空间。对于一个新任务来说，完成所有这些步骤是相当具有挑战性的。

我们将看到，我们实际上能够获得一定程度的泛化。例如，回到我们之前看的场景，目标是“将葡萄放入陶瓷碗”，我们给出完全相同的语言指令，这同样是一个它在数据中从未见过的任务轨迹，而机器人能够成功完成任务。

同样，真正棒的是，机器人不仅仅能执行一种任务，实际上能够执行许多在训练集中未见过的不同任务，例如将香蕉放在白色海绵上、将瓶子放入托盘、将紫色碗推过桌子等。

现在，让我们看看一些实际评估策略成功率的定量实验。我们预先选择了一组28个任务，这些任务与所有训练数据都不同。然后我们评估了性能。我强调“预先选择”的意思是，我们并非只挑选机器人成功的任务，而是预先选择了一系列完全不同的任务。

所有这些任务都显示在这个大表格中。首先我们看到，对于28个不同任务中的20个，机器人的成功率不为零。所有28个任务的平均成功率约为32%。这表明，首先，机器人确实显示出能够执行它从未见过训练数据的任务的实质性迹象，这非常令人兴奋；但其次，也有相当大的改进空间来实际提升这个数字，从32%向上提高。

那么，你可以问，在机器人执行这些任务的能力方面，改进空间在哪里？为了理解改进空间，我们评估了机器人在训练任务上的性能，分别使用任务的独热编码ID和语言指令作为条件。当然，我们也评估了使用语言条件时在不同任务上约32%的成功率。

首先我们看到，如果我们在训练任务上评估机器人，即评估它被训练去做的任务，其性能实际上只有40%。泛化到新任务只有8%的差距。而真正更大的差距实际上是将这个42%的数字提升到100%。这意味着，真正的瓶颈首先是机器人完成任务的能力本身。

我们可以看看一些失败案例的例子，看看机器人对于那些成功率为0%的任务做了什么。这些视频显示，即使这个策略的成功率为0%，机器人实际上也非常接近完成任务。例如，对于“将香蕉放入陶瓷杯”的任务，它知道拿起香蕉并移向杯子，但没有完全完成任务的最后阶段。对于“用海绵擦拭托盘”的第二个任务，它也明白应该拿起海绵并试图移向托盘，但未能完成任务的最后阶段。

这表明，首先，0%的成功率指标相当严格；其次也表明，仅仅是控制机器人手臂的能力是完成这些任务的主要瓶颈。

这是一个概念验证，表明我们实际上可以让机器人泛化到新任务，这是一个相当令人兴奋的开始。

章节 4：扩大数据规模与改进模型架构

上一节我们展示了在约100个任务上训练的初步成果，本节中我们来看看如果进一步扩大数据规模会发生什么，以及如何改进模型架构来吸收更多信息。

现在的问题是，如果我们进一步扩大规模会怎样？我们之前研究了大约100个任务。下一步，我们尝试将其扩展到超过700个任务，使用了130,000条这些任务的轨迹或演示。我们发现，如果我们采用之前提到的模型并试图简单地将其变大，这实际上并不一定能提高性能。似乎这种更大的模型架构无法真正吸收这个更大数据中的所有信息。

因此，一旦我们扩展了这个数据集，我们尝试设计一个能更好地捕捉这个更大数据中所有详细信息的架构。

具体来说，我们设计了一个称为“机器人Transformer”的架构，类似于之前的模型，它可以接收输入图像和指令，并输出动作。但有一些重要组件使这个架构能够更好地吸收大量数据。

首先，我们将对输入和输出进行标记化，转化为离散的标记。我们将使用Transformer作为该架构的一部分，Transformer已广泛应用于自然语言处理，我们发现它在这里也是一个非常有效的架构，能够利用大量数据。由于我们的动作现在通过标记进行了离散化，我们将使用一种交叉熵风格的目标函数。

然后，为了读取输入图像，我们将使用一种称为EfficientNet的卷积神经网络，以及一个FiLM架构来以指令为条件。这个网络的主干将被预训练，然后这些图像嵌入的输出将通过一个标记学习器进行标记化。这里我不想深入太多细节。

但最重要的部分是，我们能够在130,000条轨迹上真正训练这个模型，这些数据是在17个月内通过13台机器人收集的，涵盖了700多个任务。我们发现，当我们在场景任务以及包含未见过的干扰物和不同背景场景的任务上评估这个模型时，这个以蓝色显示的模型架构能够显著超越之前的模型架构，包括我们在之前工作中使用的架构，以及由DeepMind开发的Gato风格架构。

这里的要点是，如果我们扩大机器人数据规模，并在这些广泛的数据集上训练这些大型策略，就能让机器人开始以多种不同方式泛化，包括泛化到新任务、场景中的新干扰物以及场景中的新背景。

我们还发布了第一项工作的数据，链接就在这里。

章节 5：数据共享与社区协作的重要性

上一节我们讨论了扩大数据规模的技术方案，本节中我们从更宏观的角度看看机器人学习研究中的数据共享问题。

我想简要谈到的关于数据集前沿的另一件事，是这种更宏观的图景。通常，在机器人学习研究中，大多数研究的进展方式是：首先，为一个项目收集一个数据集；然后，用那个数据集完成那个项目；接着，在下一个项目中不再使用那些数据，而是为下一个项目收集一个新的数据集。

正如你可能想象的那样，这效率非常低。如果你将此与机器人学之外典型的机器学习研究进行对比，通常，一个数据集（如ImageNet或WikiText）被收集一次，然后被许多不同的研究项目重复使用多次。或者更好的是，我们可能不是重复使用数据，而是重复使用在该数据上预训练的模型，并对该模型进行微调或使用其嵌入表示。

因此，我认为对于整个机器人学习研究来说，转向第二种范式，努力迈向一个跨机构（当然也跨项目）共享数据和预训练模型的场景，是非常重要的。

如果我们能够在机器人学中共享数据和预训练模型，那么我们或许能在出现的真正具有挑战性的研究问题上取得更多进展。例如，想象一下，如果机器学习研究像机器人学习研究那样做，为每个项目重新收集ImageNet，那可能会非常昂贵，计算机视觉可能也不会发展到今天的地步。

那么，我也简要评论一下，目前是什么阻止了我们在机构间共享数据。我认为我们面临一些挑战，我可以打个比方：我认为目前机器人数据领域的状况就像是在这片巨大的海洋中，有许多不同的岛屿。

我们有这些被收集的不同机器人数据集，每个都像一个岛屿，覆盖了整个可能的机器人配置、环境、物体等空间。因为这些数据集不是超级多样化，而且整个机器人硬件、环境等可能空间是如此广阔，这意味着当另一个研究项目试图尝试一项任务或研究一个特定问题时，该项目通常最终会落在这里或那里。这意味着，之前收集的数据集对于实际推进那个新的机器人实验或新的任务、问题或环境并没有用处。

因此，我们目前正在努力做的一件事是，首先尝试看看我们是否可以从许多不同的环境中收集数据，而不仅仅是从一栋建筑。同时，尝试看看我们是否可以有一个更集中的、社区驱动的数据收集工作，使我们能够统一一些设计选择，这样首先我们可以拥有一个更大的岛屿，其次我们可以通过让每个人都同意某些设计选择，将更多人引向同一个岛屿。

我们的目标是从许多不同的真实家庭环境中收集数据，我们最初的目标是大约50个不同的家庭，但实际上我们认为，根据目前看到的兴趣，我们或许能够显著扩大这个规模。我们一直在努力整合来自许多不同大学的人员，以尝试为这项努力做出贡献。当然，如果你有兴趣贡献，请随时联系我们。

章节 6：超越训练分布：测试时自适应

课程的第一部分讨论了尝试在更广泛的数据集上训练机器人，我们看到了一些零样本泛化到新任务和环境的迹象。但我们也应该尝试在机构间共享数据并更频繁地重用数据，以便让机器人能够进一步泛化，泛化到我们在机器人学之外看到的良好泛化程度。

现在，我也想简要谈谈机器人如何能够泛化到训练分布之外。我们首先在一个简单的抓取问题背景下看这个问题。

训练环境和抓取策略最初是在这种环境中训练的。这是一个箱子，目标是从这个箱子里抓取物体。然后，我们尝试在多种不同的环境中测试该策略，我们实际上特意挑选了一些我们发现策略表现不佳的环境。

这包括：严苛的照明条件、训练中未见的透明物体、棋盘背景，以及一个物理变化——我们实际上将机器人的夹爪移动了10厘米。

在训练环境中，该策略相当成功，成功率为86%。当我们尝试将其置于这些新条件下时，成功率显著下降到32%、49%、50%和43%。

我之前提到过，预测并为机器人可能遇到的任何可能场景做好准备是不可能的。因此，我们要做的是，尝试看看机器人是否能适应在这个新环境中收集的少量数据。

具体来说，情况是这样的：我们有在原始环境中收集的原始数据，我们使用一种称为QT-Opt的强化学习算法来训练一个Q函数和一个在该环境中抓取的策略。这个策略再次获得了86%的成功率。

然后，我们将允许机器人收集非常少量的数据，仅800次尝试，这可以在大约一个下午的时间内收集到。在这个新环境中（本例中是夹爪位移的环境）。然后，我们将获取我们的Q函数，并简单地在这个目标数据上对其进行微调，混合使用基础数据和新数据。

通过这种非常简化的调整程序（这在机器学习的其他领域非常常见），我们看到该策略可以获得约98%的成功率，即使这种环境与训练期间所见完全不同。

我们进行了相当全面的定量评估，研究了各种物理变化和视觉变化。我不想在这里列出所有数字，但一些亮点是：首先，即使在新环境中只有25次新尝试，我们也能看到成功率的显著提高。这里实际上是该策略在其中一个新环境中的视频。在这种情况下，通过大约一个下午的数据，它能够适应这个新场景并成功处理我们施加在机器人上的物理变化。

章节 7：单次生命强化学习：自主适应新环境

上一节我们展示了在抓取任务中通过少量数据实现自适应的例子，本节中我们探讨一个更普遍的问题：能否让机器人在任何任务中都实现这种自适应？

这都是在抓取的具体背景下进行的，我们看到机器人可以自主收集一些数据来适应新环境。现在，更普遍地说，我们能否为任何类型的机器人任务做到这一点？理想情况下，我们可以让机器人自主收集数据并用收集的数据进行适应，但这里有一点挑战。

挑战在于：如果我们用强化学习收集一条轨迹——机器人尝试任务，收集一条轨迹，然后收集另一条轨迹，依此类推——通常在这种试错过程的强化学习中，我们假设机器人可以多次尝试任务。但一个微妙之处是，如果我们希望机器人自主适应，实际上不清楚它将如何从一条轨迹的最后一个状态回到下一次尝试任务的第一个状态。

在许多模拟环境中，你可以直接重置环境并让它再次尝试。但在现实世界中，如果我们希望机器人在其新部署环境中即时适应，这种重置是不可能的，可能需要人类来做些什么，这阻碍了机器人用少量数据自主适应。

因此，通常的情况是，例如，如果一个机器人试图将冰球击入球门，这个机器人实际上无法物理地将冰球移回原位，通常人类会在每次尝试之间重置冰球。或者，如果机器人试图学习如何开门，一个人会在每次尝试前关上门。

理想情况下，我们希望能够在没有这类重置的情况下让机器人适应。

你可能会问，也许我们可以直接运行强化学习算法而不重置，就运行那些在有重置时使用的相同算法，也许它们仍然有效。我们尝试了这样做，我们采用了一个非常简单的环境，目标是让这个鱼形智能体在模拟中移动到某个目标。

事实证明，如果你每1000步给它一次重置，它能学会一个高性能的策略。但如果你只每2000步给它一次重置，它在学习过程中就无法达到那么高的性能。如果你给它重置的频率更低，机器人几乎完全无法学会该任务的策略。

因此，也许令人惊讶的是，强化学习算法并不适合机器人完全自主运行的场景。这意味着，如果我们想使用这些算法让机器人在现实世界中的部署测试时进行适应，它们将不太适合。

这促使我们引入了单次生命强化学习的问题。与可以反复尝试或重置的情节式强化学习，或者可以学习如何执行任务和撤销任务的免重置强化学习不同，我们要研究的是这样一种场景：我们有一些先前的经验，因此机器人可能已经利用这些先前经验学会了一个好的策略。然后，智能体在测试时面临一个新环境，其目标是在该新环境中，在没有任何人类重置的情况下，在一个单一的情节内完全自主地完成任务。

更简洁地说，给定训练环境中的先前数据，机器人或智能体只有一次生命在新场景中自主完成任务。

我们开始在一个非常简单的模拟环境中研究这个问题。我将展示一些在HalfCheetah环境中的例子，例如，在训练期间，它只需要向前跑，而在测试时，它会看到一个与训练期间所见完全不同的场景，具体来说，会有一个障碍物使其更难向前推进。

我们的目标实际上是让机器人能够在测试时在一个单一的情节内找出如何适应。

那么，我们如何着手解决这个问题？首先，我们尝试在这个环境中运行机器人，其目标是到达绿色方块。它是在一个没有任何障碍物的环境中训练的。

我们在这里所做的是在模拟环境中运行机器人，并使用强化学习对其进行微调，试图让它更新其策略并最终到达绿色方块。理想情况下，我们看到它实际上有点卡住了，它被撞得四脚朝天，挣扎着向前推进，首先需要弄清楚如何站起来，然后弄清楚如何越过障碍物到达目标。

因此，这种单次生命强化学习问题的核心挑战是处理这种新颖性，并从这些分布外状态（例如被撞得四脚朝天）中恢复，而无需任何人为干预。

标准的强化学习算法在这种环境中进行微调时，不会鼓励智能体从分布外状态恢复。

现在，我们要做的是：首先，鼓励智能体朝着先前数据的分布移动，因为这应该有助于它明白，当它被撞翻时，应该尝试站起来，因为那是它在先前数据中见过的状态。

但我们不想完全这样做。这类先前的方法通常假设有专家演示，并且旨在匹配整个先前数据的分布。相反，我们将让它尝试匹配先前数据，但以一种由这些状态的估计价值加权的方式进行。

Q函数或Q值函数将估计状态的可取性。我们可以在先前数据上预训练一个Q函数，然后尝试匹配由这些经验的指数化Q值加权的先前数据。这将驱使它朝着在先前数据中具有良好结果的状态移动。

我们实际上尝试在之前提到的同一个例子上运行这个方法。我们看到，机器人再次试图越过障碍物。理想情况下，它会自己找出如何到达目标，而我们确实看到了这一点。所以它确实有一次翻了个底朝天，但最重要的是，它实际上能够弄清楚如何重新站起来，并且弄清楚如何越过障碍物，最终到达目标。

我们还在其他几个场景上定量评估了这种方法，而不仅仅是我展示给你的那个。我们发现，与使用强化学习进行微调相比，这种以黄色显示的方法在测试时更成功地完成了任务，并且能够以更少的步骤完成。当然，还有很大的改进空间。我认为我们首次引入的这种问题设置实际上可以进一步研究，并有望在长期内让机器人能够适应新环境并处理新颖状态。

总结第二部分，我认为让机器人通过尝试在测试时解决问题和学习来泛化到训练期间未见的新场景非常重要。我们看到了一些初步证据，表明我们或许可以通过鼓励机器人朝着过去见过的先前数据移动来实现这一点。当然，在长期内这成为可行解决方案之前，还有许多重要的研究工作要做。我们正在积极努力将其部署到真实机器人上，以便机器人能够在测试时尝试适应，而不是部署一个静态策略。

章节 8：超越泛化：实现灵巧复杂操作

上一节我们讨论了泛化和自适应，本节中我们看看机器人研究的另一个重要方向：执行复杂灵巧的任务。

除了泛化，我还想谈到的最后一点是，我也认为让机器人执行非常复杂和灵巧的任务很重要。我们在这场讲座中确实重点讨论了很多关于泛化的内容。但理想情况下，机器人不应该只做非常简单的任务，比如我展示给你的非常简单的运动问题、抓取和拾放任务。理想情况下，我们也能让机器人做更复杂的任务，比如叠衣服，或者需要相当精细操作的任务，例如剥煮熟的鸡蛋。

我认为要做好这一点，我们需要一个数据收集设置，允许机器人完成相当复杂的任务，并且理想情况下，这个设置应该是低成本的，并拥有易于使用的遥操作系统。

这是我们实际上一直在开发的东西。它仍处于早期阶段，但我们开发了一个低成本系统，允许机器人完成相当精细的操作任务，比如打开糖果包装、将扎带绑在电缆上、拉上连帽衫的拉链等等。

这个设置真正酷的地方在于，所有四个机械臂的总成本以及其他部件不到2万美元，这低于单个工业机械臂的成本。我们还计划开源硬件设置以及我们为该系统开发的一些软件。它也很有趣，我认为它将帮助我们超越简单的拾放任务，转向你在这里看到的一些需要灵巧性、需要非常快速动作的任务等等。

我们还有一些初步结果发现，对于其中一些任务，我们实际上可以训练机器人自主完成。另外要提的是，这些机器人成本相当低。我实际上不确定这些低成本机器人能否完成其中一些任务，实际上这些机器人的制造商Trossen Robotics也不知道他们自己的机器人能够完成诸如将RAM插入主板之类的任务。

章节 9：总结与问答环节

在本节课中，我们一起学习了如何通过训练更广泛的数据集以及让机器人适应训练分布之外的情况，来使机器人实现广泛泛化。我们还探讨了实现复杂灵巧操作的可能性，以及数据共享和社区协作对未来机器人发展的重要性。

以下是讲座问答环节的部分精选内容：

问：使用的数据集是什么样的？
答：在第一部分讲座中，数据对应于遥操作演示。这意味着我们使用VR控制器控制机器人，基本上编程让机器人的末端执行器匹配VR控制器的位置。在这个过程中，我们记录机器人摄像头的图像、机械臂的位置（通过所有关节的角度测量，也可以计算机械爪的3D位置和方向），以及发送给机器人的动作指令。通常，你可以将其视为视频加上机器人手臂的低维传感器测量序列。在讲座的第二部分和其他工作中，情况非常相似。我们通常使用RGB图像作为机器人的观察空间。在展示的简单模拟跑步任务中，使用的是所有关节位置等低维数据，但在其他所有工作中，我们都使用图像观察。也可以使用深度、触觉传感器等，不同传感器各有优缺点。但我们发现RGB摄像头（如网络摄像头）是一个非常简单且可扩展的解决方案。

问：图像处理的优缺点是什么？如何改进？
答：在所有这些工作中，我们基本上都是端到端地训练神经网络。我们训练一个单一的神经网络，以图像作为输入，输出动作。这意味着没有任何计算机视觉流水线试图在图像中寻找物体。我们实际上只是针对机器人试图完成的任务来监督模型的视觉主干。这样做的一个优点是，这意味着机器人的感知是针对任务优化的。原因在于，如果你想象一个操作水瓶的任务，如果你试图为此开发一个视觉流水线，你可能会尝试精确表示瓶子的3D姿态和形状。不可避免地，视觉系统会有一些失败，无法精确估计所有这些信息。而实际上，为了执行像拿起瓶子这样非常简单的任务，你并不需要精确知道3D位置。通过针对任务优化感知流水线，它可以学习启发式方法和捷径，只表示任务所需的感知信息。

问：关于跨项目和机构重用数据，您能深入谈谈吗？
答：我认为开始真正共享数据和预训练模型（理想情况下）至关重要。我的梦想是，至少在短期内，能够开发出类似于BERT或GPT风格的模型，人们可以在机器人上开箱即用。当然，不是用于文本生成，而是用于在机器人流水线中表示动作和图像等，并从这些模型中获取价值。我认为这对社区来说非常重要。当然也有挑战，一个挑战是不同的人使用不同的控制栈和不同的机器人。我们最初的努力是，至少在我们提到的社区驱动工作中，我们试图至少从一个单一的机器人平台和设置开始，然后在环境、物体、任务等方面进行多样化。这至少可以给我们一些确定性，让我们可以专注于社区中许多人使用的平台，风险也小一些。从长远来看，我认为开发对特定硬件更加无关的预训练模型也非常重要，这样也许你不能零样本处理一个新的机器人，但你可以比从头开始更快地启动一个新的机器人平台。

问：在复杂操作（如剥糖纸）方面，我们离实际应用还有多远？
答：我们也对这个项目感到非常兴奋，并且正在积极研究。我们实际上将在大约一周后（肯定在未来两周内）发布一篇关于这项工作的论文。我们在这方面的初步进展是，我们已经能够训练神经网络来完成某些类似的任务，特别是像将电池插入遥控器、撕下一段胶带贴在盒子上、给人穿鞋等任务。但也有许多挑战。首先，正如我提到的，我们将开源硬件设置，因此我们希望其他人能像我们一样对这个平台感到兴奋，并实际开发它，或者自己购买、在上面收集数据等。在让策略执行这类任务方面也存在其他挑战。我们遇到的一个挑战是，我们已经能够完成一些任务，比如撕下一段胶带等，但对于其他任务，你需要能够对正在发生的事情做出非常快速的反应。例如，在打开糖果包装时，我们实际上能够让策略完成最初的步骤，比如拿起两边然后拉开，但下一步涉及找到糖果上的翻盖然后打开。在大约50次演示的小数据量下，我们发现机器人无法完成找到翻盖然后打开的下一步。我们认为有了更多数据，我们应该能够处理这类挑战。但也存在需要多少数据的问题，因此我们也试图沿着推动机器人高效应对这些特定场景的能力进行研究。

问：您认为构建人工智能机器人最有前途的方法是什么？
答：我认为我今天谈到的那些方法是最有前途的，因为如果我不认为它们最有前途，我就不会研究它们。所以，扩大数据规模确实非常重要，允许机器人适应也非常重要。我喜欢研究机器人，因为它们在现实世界中是具身的，与我们生活的世界互动，并且与语言模型等不同，它们必须应对现实世界中出现的许多真正具有挑战性的事情。我还要提到的是，我谈了很多关于扩大数据规模的问题，我认为我们之前讨论的很多数据都是由人控制机器人收集的。从长远来看，我们真的需要能够自主收集数据并在现实世界中自主运行的机器人。这种自主性出奇地困难，我们发现智能体和机器人经常会卡住，不知道该怎么办。也许我们需要“父母”来帮助机器人，就像孩子有乐于助人的父母一样。总的来说，我认为最有前途的事情是沿着我今天介绍的方向。

问：对于机器人领域的新手，您有什么建议？如何入门？
答：我最大的建议是尝试入门，亲自动手。我的第一次工作经历……我在中学时玩过一些乐高机器人，那很有趣，确实介绍了构建一个具有不同组件、传感器、执行器的系统所带来的所有挑战。那是相当容易接触的。后来在大学里，我上了一门机器人课程，那是一门实验课，我们从头开始构建了一个机器人，为它构建了一些传感器，并且……是的，还让机器人执行了各种任务。在我们的研究中，我们大多购买现成的机器人，并真正专注于机器人的“大脑”，我认为这才是真正的瓶颈。我不认为我们受硬件限制那么大。幸运的是，有一些机器人平台变得越来越便宜。有各种移动机器人平台，有几个轮子，比如亚马逊有一个叫Deep Racer的平台，几百美元，还有其他一些平台。如果条件允许，尝试在机器人上实际动手是一个很好的起点。当然，另一个起点是学习更多关于强化学习的知识。正如Pero提到的，我将在春季教授一门深度强化学习课程，网上也有很多资源可以探索这些内容。

问：您推荐哪些资源来了解机器人领域的最新动态？
答：在工具方面，我们经常使用的一个物理模拟器是MuJoCo物理模拟器，它是完全开源的。如果你想开始在模拟中摆弄机器人，这可能是一个不错的起点，我认为有一些入门示例，你可以尝试让模拟中的机器人做不同的事情。在了解该领域高层次思想资源方面，Pieter Abbeel（他实际上是我博士导师之一）有一个播客叫“The Robot Brains Podcast”，这是了解该领域各种专家（包括学术界和工业界人士）的好地方。如果你想深入钻研，可以看看机器人会议，比如“Robotics: Science and Systems”和“Conference on Robot Learning”，这两个会议我们都经常投稿，而且它们通常除了论文会议录外，还有会议演讲视频在线提供。另外，我认为各种课程内容也很棒，在某些方面可能比会议视频更具教育性和实用性，因为它们旨在教学，而不是分享最新的研究成果。这取决于你在寻找什么。

总结

本节课中，我们一起探讨了机器人深度学习的两个核心前沿方向：通过扩大和多样化数据集训练来实现广泛泛化，以及开发在测试时能自主适应新环境的算法。我们看到了在多样化任务上训练能让机器人执行未见指令的初步成功，也认识到数据共享和社区协作对加速进展的关键作用。同时，实现复杂灵巧操作和真正的终身自适应学习仍是充满挑战但激动人心的未来研究方向。机器人要走出实验室，融入我们复杂多变的现实世界，仍需在算法、数据和系统层面持续创新。

022：课程概述

在本节课中，我们将要学习如何构建安全可靠的人工智能系统，特别是应用于自动驾驶汽车等高风险领域的自主系统。我们将探讨系统设计、验证以及部署后的监控等关键环节。

人工智能安全与可靠系统构建：1：引言与背景

首先，我们来认识一下本次课程的讲师。安东尼·科索博士是斯坦福大学航空航天系的博士后研究员，隶属于迈克尔·科肯雷弗教授领导的斯坦福智能系统实验室。该实验室的缩写“SIZZLE”非常易于发音。同时，他也是斯坦福人工智能安全中心的执行主任，这正是我们今天要讨论的核心话题。

他的研究专注于将算法决策用于安全关键型应用，强调构建鲁棒、可靠的自主系统。这是一个极其重要的话题，长期以来都备受关注。我们将在课程中深入探讨。

人工智能安全与可靠系统构建：2：自主系统的定义与风险

上一节我们介绍了课程背景，本节中我们来看看什么是自主系统及其潜在风险。

自主系统是指执行历史上由人类完成的任务的任何系统。自动驾驶汽车就是一个典型例子。尽管自主系统已存在很长时间，但随着人工智能和机器学习技术的兴起，人们对其认识更加深入。这些技术允许计算机系统从数据中学习，实时处理信息，从而实现更高级别的自主性。

然而，问题在于，尽管这些技术非常出色，能让我们完成不可思议的事情，但它们常常以意想不到的方式失败。它们可能比人类更“脆弱”。系统在受控的实验室环境中可能运行良好，但一旦部署，环境稍有变化就可能出现问题。这在像驾驶这样涉及人身安全的领域尤为危险。

以下是自主系统面临的核心挑战：

脆弱性：系统在环境变化时性能可能急剧下降。
泛化能力差：在一个领域训练的系统，在另一个略有不同的领域可能表现不佳。
对抗性攻击：系统可能容易受到人为的故意操纵。

人工智能安全与可靠系统构建：3：人工智能提升安全性的潜力与挑战

我们讨论了风险，但人工智能同样有潜力提升安全性。本节我们来探讨这一方面。

人工智能令人兴奋的一点在于，它有可能在某些任务上表现得比人类好得多。例如，在医疗保健领域，一个与世界上最好的医生水平相当的AI系统可以被广泛部署，为原本无法获得医疗服务的人们提供帮助。同样，在驾驶或飞行领域，虽然人类做得不错，但AI可以显著提升安全性。

然而，一旦开始这样思考，就必须谨慎。AI系统允许我们将解决方案大规模推广。因此，系统中固有的任何风险现在都会影响到更多、更多的人。在将系统部署到现实世界之前，我们必须极其小心。

此外，AI系统可能容易受到对抗性攻击。例如，研究显示，在停车标志上贴一个看似普通的贴纸，就可能让机器学习系统将其误认为是限速45英里的标志。如果所有汽车都使用相同的算法，那么这一次攻击就可能影响所有车辆。这就是为什么我们需要格外重视系统的测试和验证。

人工智能安全与可靠系统构建：4：风险评估与安全考量

在考虑部署系统时，如何进行风险评估？本节我们将学习一个基本框架。

我们可以将风险视为失败事件发生的可能性乘以失败事件的后果严重性。两者共同决定了总体风险。

高后果，低容错：例如飞机系统，一旦失败后果极其严重（灾难性事故），因此要求失败概率极低（如FAA要求每10亿飞行小时失败不超过一次）。
低后果，高容错：例如向网站用户推送广告的机器学习模型，推送错误广告的后果相对较低（用户可能不购买），因此可以容忍较高的失败率。

对于道路车辆等各种系统，我们必须考虑其运行的具体领域。是在纽约市中心街道行驶，还是在没有其他人的露天矿场作业？上下文环境对安全性至关重要。

人工智能安全与可靠系统构建：5：人工智能安全与伦理

人工智能安全也涉及伦理问题。本节我们探讨伦理在系统部署中的角色。

确保AI系统以公平、公正的方式部署对所有群体都至关重要。事实上，可以认为AI系统基于性别或种族对不同亚群表现出不同行为，本质上是对不同亚群缺乏鲁棒性。

这个问题源于我们使用的数据集。人类社会存在偏见，这些偏见会体现在我们创建的数据中。同时，用于在这些数据集上训练的模型也可能存在问题，它们会捕捉到虚假的相关性。这些都是我们需要解决并在课程中讨论的问题。

人工智能安全与可靠系统构建：6：构建与验证安全系统

构建安全系统主要分为哪几个阶段？本节我们来梳理核心流程。

构建用于高风险应用的自主系统，大致可分为两个阶段：

系统构建：在此阶段，我们需要采取多种措施确保构建出尽可能好的系统。这可能包括收集数据、确保数据足够多样以覆盖要解决问题的所有方面，以及使用已知能产生更安全、更可靠行为的最新工程方法。
验证与确认：在部署之前，我们必须真正理解可能出错的地方以及部署后的风险。这本身可能是一个巨大的挑战。例如，下一代飞机防撞系统的原型设计完成后，又经过了八年的验证和确认工作，才建立起足够的信任并获得FAA的批准。系统设计和测试评估对于最终部署安全系统都至关重要。

人工智能安全与可靠系统构建：7：验证技术：罕见事件与对抗测试

如何验证一个极其安全的系统？本节介绍一种针对“罕见事件”的测试方法。

如果我们希望自动驾驶汽车比人类安全10倍，这意味着其故障率需要低于每千万小时行驶发生一次碰撞。这带来了一个现实挑战：如何知道系统的故障率是千万分之一，而不是百万分之一？传统测试需要让汽车行驶数亿英里才能确认。

这就是研究社区所称的“罕见事件”问题。失败事件极为罕见，如果只是在正常条件下模拟自动驾驶，我们很难遇到这些失败事件。

我的研究重点是如何增加遇到这些失败事件的可能性。我们的方法是将环境（如道路上的行人、其他车辆、天气和照明条件）的控制权交给另一个AI智能体。这个AI智能体被训练来试图揭示我们自动驾驶系统的故障。它会操纵环境，以导致我们的自动驾驶车辆失败。这有点反向思维：我们通常用AI来避免碰撞，但这里是用AI来暴露我们自动驾驶车辆的弱点。通过这种方法，我们可以发现大量可能的故障模式，从而了解系统的弱点，并决定是接受这些故障模式，还是需要重新设计以修复问题。

人工智能安全与可靠系统构建：8：验证技术：形式化验证

除了测试，还有没有更严格的验证方法？本节介绍形式化验证。

形式化验证是数学证明的一种花哨说法。其目标是构建一个数学证明，证明系统具有我们期望的安全行为。例如，我们可以尝试证明我们的车辆永远不会与另一辆车发生碰撞。

这非常具有挑战性。通常，进行形式化验证证明需要做出许多假设（例如，假设行人移动速度不超过某个值，并且只朝特定方向移动）。在所有这些假设成立的前提下，我们证明我们的系统永远不会发生碰撞。

问题是，第一，如果这些假设被违反，我们就失去了这些保证。但这可能可以接受，因为至少我们知道在假设成立时是安全的。当假设被违反时，系统或许可以采取规避动作、识别问题或向人类发出警报。形式化验证已被证明是确保航空系统和自动驾驶车辆中各种组件安全属性的非常有用的工具。

人工智能安全与可靠系统构建：9：课程内容概览

基于以上讨论，我们设计了一门短期课程。本节概述这门课程的核心内容。

我开设这门课程的原因是，虽然网上有很多优秀的资源教你如何应用机器学习和AI解决各种问题，但实际构建和部署系统时，细节中往往隐藏着许多问题。我收集了多年研究中的经验教训，希望将它们集中到一个地方，让那些已经学过一些机器学习课程的人能够了解最新的进展以及当前围绕AI安全的问题。

课程为期五天，每天约两小时讲座：

第一天：介绍AI在安全关键领域的应用，分析AI失败的案例，并探讨构建更鲁棒机器学习模型的技术。
第二、三天：围绕模型评估与验证。内容包括解释机器学习模型、使用对抗技术进行压力测试以发现故障模式，以及形式化验证方法。我们将使用一些现成的库进行实践。
第四天：讨论机器学习中的不确定性量化。即当模型遇到从未见过的情况时，是应该自信地向前推进，还是应该识别出处于新情况，并可能提醒人类监督员或采取已知安全的行动？我们将学习将这种不确定性推理构建到AI系统中的技术。
第五天：以飞机防撞系统为案例研究，探讨如何将所有部分整合起来构建高可靠性系统。同时，讨论即将出台的AI法规，以及课程中描述的技术如何适应这些监管要求。

人工智能安全与可靠系统构建：10：应用扩展与持续监控

课程内容是否适用于其他领域？本节探讨其在工业等更受控环境中的应用。

课程中的大部分内容几乎适用于所有应用领域，因为许多底层技术非常相似。在更受控的环境（如仓库）中，你或许可以控制AI系统的运行环境，但事情永远不会那么简单。环境总会发生变化，你希望你的AI系统（如控制机械臂的系统）对生产线上的微小变化或环境、照明条件、季节变化等具有一定弹性。

你可能不太担心对抗性攻击，但你仍然希望拥有尽可能鲁棒的系统。只是在不同应用中，关注的侧重点和严格程度会有所不同。

如何确定需要测试的环境参数？这没有简单的答案。需要结合领域专家的知识（他们了解可能发生的变化）、分析大量分布偏移的案例（即环境微小变化导致模型性能大幅下降的情况），以及持续监控已部署的系统。

监控包括两个方面：

运行时监控：利用不确定性量化，在情况异常时发出警报。
定期重新评估：定期（如每周）在新的数据集上重新评估模型性能，确保其保持在高水平。

人工智能安全与可靠系统构建：11：未来展望与生成式AI的挑战

最后，让我们展望未来。本节讨论自主系统的前景以及生成式AI带来的新挑战。

我对AI系统能够完成历史上由人类完成的任务，并且可能更快、更高效、更大规模地完成感到充满希望。这能为许多人带来巨大的资源。

但我也有担忧，特别是关于像ChatGPT这样的生成式AI系统。这些系统在没有充分监督的情况下部署，可能导致非常奇怪和糟糕的事情发生：表现出有害行为、歧视人群、泄露受版权保护的信息、生成特定艺术家风格的作品，或被用来大规模制造虚假信息。我担心生成式AI系统正在非常广泛、快速地部署，而我们还不完全清楚它将对我们的信息生态系统产生何种影响。

对于ChatGPT这样的系统，本课程中的许多原则在理论上也适用（例如，希望其行为在不同对话中保持稳定，在不确定时表达不确定性，保持诚实）。但在这个领域，问题变得更加复杂，因为很难量化对社会规模的危害，而且这些系统是多功能的。

至于生成式AI是否应用于自动驾驶等安全关键领域，目前绝对不希望如此。我见过太多这些系统在推理和逻辑上的失败案例。我们还不应该把它们放在方向盘或飞机操纵杆后面。未来5到10年，随着系统改进，它们可能变得更像人类，从而被信任执行此类任务，但目前我们远未达到那个水平。对于安全关键的高风险任务，我们仍应坚持使用为特定目的设计的专用系统，而非通用AI系统。

总结

本节课中我们一起学习了构建安全可靠自主系统的核心概念。我们从定义自主系统及其风险开始，探讨了AI提升安全性的潜力与伴随的挑战，并学习了风险评估的基本框架。我们深入研究了系统构建与验证的两个关键阶段，特别是针对罕见事件的对抗测试和形式化验证技术。最后，我们概述了相关课程内容，讨论了其在工业环境中的应用扩展，并展望了未来，特别是生成式AI带来的新挑战。希望本课程能为你理解和参与这一重要领域打下基础。

posted @ 2026-03-26 13:18 布客飞龙V 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟