人工智能-机器学习-深度学习和生成式人工智能---清晰解释

人工智能、机器学习、深度学习和生成式人工智能 — 清晰解释

原文：towardsdatascience.com/artificial-intelligence-machine-learning-deep-learning-and-generative-ai-clearly-explained/

人工智能无处不在。机器学习和深度学习被提及的频率同样高。

现在，生成式人工智能似乎几乎主导了每一次技术对话。

对于许多非人工智能领域的专业人士来说，这个词汇表可能会令人困惑。这些术语经常被互换使用，有时混合在一起，有时被作为竞争性技术提出。

如果你曾经问过自己：

什么是人工智能？

机器学习和深度学习是如何相互关联的？

生成式人工智能有什么不同之处？

这篇文章是为你准备的 😉

这里的目标是 清晰性 — 不是通过近似来简化，而是用普通语言准确解释。本文的其余部分不需要任何技术背景。

图 1 — AI 生态系统（由作者使用 Excalidraw 创建）

关键思想：套娃

理解人工智能、机器学习、深度学习和生成式人工智能之间关系的一个有用方法是想象套娃。

每个概念都包含下一个概念：

没有什么可以取代之前的东西，

每一层都建立在之前的基础上。

让我们逐一打开它们。

人工智能：外壳

人工智能 (AI) 是最广泛的概念定义。

在其核心，AI 指的是设计用来执行通常需要人类智能的任务的系统。在实践中，AI 包括以下系统：

做出决定。例如：一个基于实时交通状况选择最快路线的导航系统。

得出结论。例如：一个基于多个因素的贷款申请审批或拒绝的系统。

识别模式。例如：通过识别不寻常的消费行为来检测欺诈信用卡交易。

预测结果。例如：估计未来的能源消耗或产品需求。

基于规则的 AI：由人类编写的人工智能

在人工智能的早期几十年，尤其是在 20 世纪 70 年代和 80 年代，系统主要是 基于规则的。我的意思是，人类明确编写了逻辑。计算机没有学习，它执行预定义的指令。

-> 在人类自然语言中，规则看起来是这样的：“如果一个房子至少有三个卧室并且位于好社区，那么它的价格应该在 50 万欧元左右。”

-> 在编程术语中，逻辑类似，但用代码编写，看起来可能像这样：IF 卧室 ≥ 3 AND 社区 = "好" THEN 价格 ≈ 500000

这被认为是人工智能，因为人类推理被完全编码并由机器执行。

为什么基于规则的 AI 有限制

基于规则的系统仅在受控环境中表现良好。

实际条件无法控制。如果我们还是以房地产为例。

市场演变，

环境变化，

异常情况增多。

除非人类重写规则，否则系统无法适应。

这种限制导致了下一层。

机器学习：让数据说话

机器学习（ML）是人工智能的一个子集。

关键的转变简单但深刻：

我们不再告诉计算机规则是什么，而是让系统直接从例子中学习它们。

-> 让我们回到房价的例子。我们不是编写规则，而是收集数据：

表面积，

房间数量，

位置，

历史销售价格。

表 1 — 数据示例（由作者使用Excalidraw创建）

数千甚至数百万个过去的例子。

这些数据被提供给机器学习模型作为训练数据。

图 2 — 机器学习流程（由作者使用Excalidraw创建）

但使用数据“训练模型”实际上意味着什么？

训练不是黑盒子。我们首先选择一个数学模型——本质上是一个方程——它可以描述输入（表面积、位置等）与输出（价格）之间的关系。

我们不是测试一个方程。我们测试许多（我们称之为模型）。

一个非常简化的例子可能看起来像： 价格 = 2 × 表面积 + 3 × 位置

模型通过比较许多例子中的价格与实际价格来调整其参数。

没有人能够手动分析数十万套房屋。机器可以。

我们如何知道模型是有效的？

在采用模型之前——即最能代表我们研究现象的方程——我们对其进行评估。

部分数据是有意隐藏的。这被称为测试数据。

模型：

在训练期间从未见过这些数据，

必须在之后对其做出预测。

然后将预测与现实进行比较。

图 3 — 训练/测试数据（由作者使用Excalidraw创建）

如果在未见过的数据上表现良好，则该模型是有用的。

如果不是，它就会被丢弃，并尝试另一个模型。

这个评估步骤是至关重要的。

机器学习在人类难以应对的任务上表现出色：

分析大量数据，

检测微妙的模式，

从过去的例子中进行泛化。

应用示例：

医疗保健

-> 疾病风险预测，

-> 医学图像分析。

行业

-> 预测设备故障，

-> 优化生产流程。

消费品

-> 推荐系统，

-> 欺诈检测。

传统机器学习的局限性

尽管如此，传统的机器学习有重要的局限性。它非常适合结构化数据：

表格，

数值，

明确定义的变量。

然而，它在处理人类自然处理的数据类型上挣扎，例如：

图像，

音频，

文本。

这种限制的原因是根本性的 -> “计算机只理解数字”

计算机并不像人类那样理解图像、声音或文字。

它们只理解数字。

当与图像、文本或音频一起工作时，这些数据必须首先被转换为数值表示。

例如，一个图像被转换为一个数字矩阵，其中每个值对应于像素信息，如颜色强度。只有在这个转换之后，机器学习模型才能处理数据。

这个转换步骤是强制性的。

图 4 — 将图像转换为矩阵（作者使用 Excalidraw 创建）

特征提取：传统方法

在深度学习兴起之前，这种转换在很大程度上依赖于手动特征工程。

工程师必须事先决定哪些特征可能是有用的：

边缘或形状用于图像，

关键词或词频用于文本，

频谱成分用于音频。

这个过程，被称为特征提取，是：

耗时，

易碎的，

强烈依赖于人类直觉。

数据中的微小变化通常需要从头开始重新设计特征。

为什么需要深度学习

在复杂设置中手动特征提取的限制是深度学习发展的关键动机。（本文不涉及更技术性的动机。我的目标是让你对整体有一个清晰的理解）。

深度学习并没有消除对数值数据的需求。

相反，它改变了特征获取的方式。

深度学习模型不是依赖于人类设计的特征，而是直接从原始数据中学习有用的表示。

这标志着结构性的转变。

深度学习：结构性的转变

深度学习仍然像机器学习一样工作。学习过程是相同的：

-> 数据，

-> 训练，

-> 评估。

变化的是我们所说的模型架构。

深度学习依赖于多层神经网络。

层作为渐进表示

图 5 — 深度学习流程（作者使用 Excalidraw 创建）

深度学习模型中的每一层都对它的输入应用数学变换，并将结果传递给下一层。

这些层可以理解为数据的渐进表示。

在图像识别的情况下：

早期层检测简单的模式，如边缘和对比度，

中间层将这些模式组合成形状和纹理，

后续层捕获更高层次的概念，如面孔、物体或动物。

模型并不“看到”图像的方式与人类相同。

它学习了一个数值表示的层次结构，这使得准确的预测成为可能。

而不是明确告知使用哪些特征，模型直接从数据中学习它们。

这种自动学习表示的能力使得深度学习对于复杂、非结构化数据非常有效（见上面的表示）。

一旦达到这个理解水平，一个重要的转变就变得可能。

到目前为止，深度学习模型主要被用来分析现有数据。

它们被训练去：

识别图像中存在的内容，

理解文本的结构，

根据学习到的模式对结果进行分类或预测。

简而言之，它们帮助回答问题：这是什么？

但是，学习数据的丰富表示自然会引发一个新的问题：

如果一个模型已经学会了数据的结构，它是否也能产生遵循相同结构的新数据？

这个问题是生成式人工智能的基础。

生成式人工智能：从分析到创造

图 6 —— GenAI 流程（作者使用 Gemini3 创建）

生成式人工智能并不取代深度学习。它直接建立在深度学习之上。

与学习识别模式相同的深度神经网络现在可以训练不同的目标：生成。

与仅关注分类或预测不同，生成模型学习数据是如何产生的，一步一步地。

因此，它们能够创建连贯且逼真的新内容。

一个具体的例子

考虑以下提示：

“描述一个巴黎的豪华公寓。”

模型不会检索现有的描述。

而不是：

它从提示开始，

预测最可能的下一个单词，

然后是下一个，

然后按顺序继续这个过程。

每个预测都依赖于：

已经生成的内容是什么，

原始提示，

以及从大量数据中学习到的模式。

最终的文本是新的——它以前从未存在过——但它感觉自然，因为它遵循了在训练期间看到的类似文本的结构。

跨数据类型的相同原则

这种机制不仅限于文本。相同的生成原理适用于：

图像，通过生成像素值，

音频，通过生成随时间变化的声信号，

视频，通过生成一系列图像，

代码，通过生成语法和逻辑上一致的程序。

这就是为什么这些模型通常被称为基础模型：一个经过训练的模型可以适应许多不同的任务。

为什么生成式人工智能今天感觉不同

人工智能、机器学习和深度学习已经存在了许多年。

使生成式人工智能感觉像是一个转折点的不仅仅是性能的提升，还有人类与人工智能的交互方式。

在过去，使用高级人工智能需要：

技术接口，

编程知识，

基础设施和模型管理。

今天，交互主要通过：

自然语言，

简单的指令，

对话。

用户不再需要指定如何做某事。

它们可以简单地描述它们想要的。

这种转变极大地降低了进入门槛，并允许 AI 直接集成到广泛职业的日常工作中。

将一切整合起来

这些概念不是相互竞争的技术。它们形成了一个连贯的进步：

人工智能定义了目标：智能系统。

机器学习使系统能够从数据中学习。

深度学习允许从复杂、非结构化的信息中学习。

生成式 AI利用这种理解来创建新的内容。

以这种方式看，生成式 AI 并不是与过去突然断裂。

这是之前所有事物的自然延续。

一旦这个结构清晰，AI 术语就不再令人困惑，而成为一个连贯的故事。

但是，我们已经完成了吗？几乎。

图 6——2025 年的完整 AI 生态系统（由作者使用Excalidraw创建)

到目前为止，我们已经涵盖了核心 AI 生态系统：人工智能、机器学习、深度学习和生成式 AI——以及它们如何自然地相互构建。

如果你正在阅读这篇文章，那么你很可能已经在日常生活中使用 ChatGPT 等工具。这里我不会深入探讨——这值得一篇单独的文章。

然而，有一个重要的最终想法值得记住。

之前，我们说生成式 AI 是深度学习的延续，专门学习足够好的模式来生成遵循这些模式的新数据。

这是真的——但是当涉及到语言时，涉及的模式要复杂得多。

人类语言不仅仅是单词的序列。它由语法、句法、语义、上下文和长距离依赖性结构化。捕捉这些关系需要深度学习架构的重大演变。

从深度学习到大型语言模型

为了处理这种复杂程度的语言，出现了新的深度学习架构。这些模型被称为大型语言模型（LLMs）。

LLMs 不是一次性理解整个句子的全部意义，而是以非常特别的方式学习语言：

它们学会预测下一个词（或标记）给定之前的一切。

这可能听起来很简单，但当在大量文本上训练时，这个目标迫使模型内化：

语法规则，

句子结构，

写作风格，

事实，

以及推理的元素。

通过重复这个过程数十亿次，模型学习了对语言工作方式的隐式表示。

从这些大型语言模型中，构建了对话系统，如ChatGPT，结合语言生成、指令遵循、对话和对齐技术。

上面的插图直观地展示了这个想法：生成是一次一个词，每个步骤都基于之前生成的内容。

最终的大图景

你今天所看到的任何东西都不是凭空出现的。

ChatGPT 不是一项独立的技术。它是长期发展过程中的一个可见结果：

人工智能设定了目标。

机器学习使得从数据中学习成为可能。

深度学习使得从复杂、非结构化数据中学习成为可能。

生成式人工智能使得创作成为可能。

大型语言模型将语言引入了这个框架。

我希望这篇文章对你有所帮助。现在，你在技术对话中不再感到迷茫——即使在年终家庭聚会时也是如此 😃

如果你喜欢这篇文章，请随意在领英上关注我，获取更多关于人工智能、数据科学和职业的真实见解。

👉 领英: Sabrine Bendimerad

👉 Medium: medium.com/@sabrine.bendimerad1