人工智能-机器学习-深度学习和生成式人工智能---清晰解释

人工智能、机器学习、深度学习和生成式人工智能 — 清晰解释

原文:towardsdatascience.com/artificial-intelligence-machine-learning-deep-learning-and-generative-ai-clearly-explained/

人工智能无处不在。机器学习和深度学习被提及的频率同样高。

现在,生成式人工智能似乎几乎主导了每一次技术对话。

对于许多非人工智能领域的专业人士来说,这个词汇表可能会令人困惑。这些术语经常被互换使用,有时混合在一起,有时被作为竞争性技术提出。

如果你曾经问过自己:

  • 什么是人工智能?
  • 机器学习和深度学习是如何相互关联的?
  • 生成式人工智能有什么不同之处?

这篇文章是为你准备的 😉

这里的目标是 清晰性 — 不是通过近似来简化,而是用普通语言准确解释。本文的其余部分不需要任何技术背景。

图 1 — AI 生态系统(由作者使用 Excalidraw 创建)

关键思想:套娃

理解人工智能、机器学习、深度学习和生成式人工智能之间关系的一个有用方法是想象 套娃

  • 每个概念都包含下一个概念:
  • 没有什么可以取代之前的东西,
  • 每一层都建立在之前的基础上。

让我们逐一打开它们。


人工智能:外壳

人工智能 (AI) 是最广泛的概念定义。

在其核心,AI 指的是设计用来执行通常需要人类智能的任务的系统。在实践中,AI 包括以下系统:

  1. 做出决定。例如:一个基于实时交通状况选择最快路线的导航系统。

  2. 得出结论。例如:一个基于多个因素的贷款申请审批或拒绝的系统。

  3. 识别模式。例如:通过识别不寻常的消费行为来检测欺诈信用卡交易。

  4. 预测结果。例如:估计未来的能源消耗或产品需求。

基于规则的 AI:由人类编写的人工智能

在人工智能的早期几十年,尤其是在 20 世纪 70 年代和 80 年代,系统主要是 基于规则的。我的意思是,人类明确编写了逻辑。计算机没有学习,它执行预定义的指令。

  • -> 在人类自然语言中,规则看起来是这样的:“如果一个房子至少有三个卧室并且位于好社区,那么它的价格应该在 50 万欧元左右。”
  • -> 在编程术语中,逻辑类似,但用代码编写,看起来可能像这样:IF 卧室 ≥ 3 AND 社区 = "好" THEN 价格 ≈ 500000

这被认为是人工智能,因为人类推理被完全编码并由机器执行

为什么基于规则的 AI 有限制

基于规则的系统仅在受控环境中表现良好。

实际条件无法控制。如果我们还是以房地产为例。

  • 市场演变,
  • 环境变化,
  • 异常情况增多。

除非人类重写规则,否则系统无法适应。

这种限制导致了下一层。


机器学习:让数据说话

机器学习(ML)是人工智能的一个子集。

关键的转变简单但深刻:

我们不再告诉计算机规则是什么,而是让系统直接从例子中学习它们。

-> 让我们回到房价的例子。我们不是编写规则,而是收集数据:

  • 表面积,
  • 房间数量,
  • 位置,
  • 历史销售价格。

图片

表 1 — 数据示例(由作者使用Excalidraw创建)

数千甚至数百万个过去的例子。

这些数据被提供给机器学习模型作为训练数据。

图片

图 2 — 机器学习流程(由作者使用Excalidraw创建)

但使用数据“训练模型”实际上意味着什么?

训练不是黑盒子。我们首先选择一个数学模型——本质上是一个方程——它可以描述输入(表面积、位置等)与输出(价格)之间的关系。

我们不是测试一个方程。我们测试许多(我们称之为模型)。

一个非常简化的例子可能看起来像: 价格 = 2 × 表面积 + 3 × 位置

模型通过比较许多例子中的价格与实际价格来调整其参数。

没有人能够手动分析数十万套房屋。机器可以。

我们如何知道模型是有效的?

在采用模型之前——即最能代表我们研究现象的方程——我们对其进行评估。

部分数据是有意隐藏的。这被称为测试数据

模型:

  • 在训练期间从未见过这些数据,
  • 必须在之后对其做出预测。
  • 然后将预测与现实进行比较。

图片

图 3 — 训练/测试数据(由作者使用Excalidraw创建)

如果在未见过的数据上表现良好,则该模型是有用的。

如果不是,它就会被丢弃,并尝试另一个模型。

这个评估步骤是至关重要的。

机器学习在人类难以应对的任务上表现出色:

  • 分析大量数据,
  • 检测微妙的模式,
  • 从过去的例子中进行泛化。
  • 应用示例:
  1. 医疗保健

  2. -> 疾病风险预测,

    -> 医学图像分析。

  3. 行业

  4. -> 预测设备故障,

    -> 优化生产流程。

  5. 消费品

  6. -> 推荐系统,

    -> 欺诈检测。

传统机器学习的局限性

尽管如此,传统的机器学习有重要的局限性。它非常适合结构化数据

  • 表格,
  • 数值,
  • 明确定义的变量。

然而,它在处理人类自然处理的数据类型上挣扎,例如:

  • 图像,
  • 音频,
  • 文本。

这种限制的原因是根本性的 -> 计算机只理解数字

计算机并不像人类那样理解图像、声音或文字。

它们只理解数字

当与图像、文本或音频一起工作时,这些数据必须首先被转换为数值表示。

例如,一个图像被转换为一个数字矩阵,其中每个值对应于像素信息,如颜色强度。只有在这个转换之后,机器学习模型才能处理数据。

这个转换步骤是强制性的。

图 4 — 将图像转换为矩阵(作者使用 Excalidraw 创建)

特征提取:传统方法

在深度学习兴起之前,这种转换在很大程度上依赖于手动特征工程

工程师必须事先决定哪些特征可能是有用的:

  • 边缘或形状用于图像,
  • 关键词或词频用于文本,
  • 频谱成分用于音频。

这个过程,被称为特征提取,是:

  • 耗时,
  • 易碎的,
  • 强烈依赖于人类直觉。

数据中的微小变化通常需要从头开始重新设计特征。

为什么需要深度学习

在复杂设置中手动特征提取的限制是深度学习发展的关键动机。(本文不涉及更技术性的动机。我的目标是让你对整体有一个清晰的理解)。

深度学习并没有消除对数值数据的需求。

相反,它改变了特征获取的方式

深度学习模型不是依赖于人类设计的特征,而是直接从原始数据中学习有用的表示

这标志着结构性的转变。


深度学习:结构性的转变

深度学习仍然像机器学习一样工作。学习过程是相同的:

-> 数据,

-> 训练,

-> 评估。

变化的是我们所说的模型架构

深度学习依赖于多层神经网络

层作为渐进表示

图 5 — 深度学习流程(作者使用 Excalidraw 创建)

深度学习模型中的每一层都对它的输入应用数学变换,并将结果传递给下一层。

这些层可以理解为数据的渐进表示

在图像识别的情况下:

  • 早期层检测简单的模式,如边缘和对比度,
  • 中间层将这些模式组合成形状和纹理,
  • 后续层捕获更高层次的概念,如面孔、物体或动物。

模型并不“看到”图像的方式与人类相同。

它学习了一个数值表示的层次结构,这使得准确的预测成为可能。

而不是明确告知使用哪些特征,模型直接从数据中学习它们。

这种自动学习表示的能力使得深度学习对于复杂、非结构化数据非常有效(见上面的表示)。

一旦达到这个理解水平,一个重要的转变就变得可能。

到目前为止,深度学习模型主要被用来分析现有数据

它们被训练去:

  • 识别图像中存在的内容,
  • 理解文本的结构,
  • 根据学习到的模式对结果进行分类或预测。

简而言之,它们帮助回答问题:这是什么?

但是,学习数据的丰富表示自然会引发一个新的问题:

如果一个模型已经学会了数据的结构,它是否也能产生遵循相同结构的新数据?

这个问题是生成式人工智能的基础。


生成式人工智能:从分析到创造

图片

6 —— GenAI 流程(作者使用 Gemini3 创建)

生成式人工智能并不取代深度学习。它直接建立在深度学习之上。

与学习识别模式相同的深度神经网络现在可以训练不同的目标:生成

与仅关注分类或预测不同,生成模型学习数据是如何产生的,一步一步地。

因此,它们能够创建连贯且逼真的新内容。

一个具体的例子

考虑以下提示:

“描述一个巴黎的豪华公寓。”

模型不会检索现有的描述。

而不是:

  • 它从提示开始,
  • 预测最可能的下一个单词,
  • 然后是下一个,
  • 然后按顺序继续这个过程。

每个预测都依赖于:

  • 已经生成的内容是什么,
  • 原始提示,
  • 以及从大量数据中学习到的模式。

最终的文本是新的——它以前从未存在过——但它感觉自然,因为它遵循了在训练期间看到的类似文本的结构。

跨数据类型的相同原则

这种机制不仅限于文本。相同的生成原理适用于:

  • 图像,通过生成像素值,
  • 音频,通过生成随时间变化的声信号,
  • 视频,通过生成一系列图像,
  • 代码,通过生成语法和逻辑上一致的程序。

这就是为什么这些模型通常被称为基础模型:一个经过训练的模型可以适应许多不同的任务。


为什么生成式人工智能今天感觉不同

人工智能、机器学习和深度学习已经存在了许多年。

使生成式人工智能感觉像是一个转折点的不仅仅是性能的提升,还有人类与人工智能的交互方式

在过去,使用高级人工智能需要:

  • 技术接口,
  • 编程知识,
  • 基础设施和模型管理。

今天,交互主要通过:

  • 自然语言,
  • 简单的指令,
  • 对话。

用户不再需要指定如何做某事。

它们可以简单地描述它们想要的

这种转变极大地降低了进入门槛,并允许 AI 直接集成到广泛职业的日常工作中。


将一切整合起来

这些概念不是相互竞争的技术。它们形成了一个连贯的进步:

  • 人工智能定义了目标:智能系统。
  • 机器学习使系统能够从数据中学习。
  • 深度学习允许从复杂、非结构化的信息中学习。
  • 生成式 AI利用这种理解来创建新的内容。

以这种方式看,生成式 AI 并不是与过去突然断裂。

这是之前所有事物的自然延续。

一旦这个结构清晰,AI 术语就不再令人困惑,而成为一个连贯的故事。

但是,我们已经完成了吗?几乎。

图 6——2025 年的完整 AI 生态系统(由作者使用Excalidraw创建)

到目前为止,我们已经涵盖了核心 AI 生态系统:人工智能、机器学习、深度学习和生成式 AI——以及它们如何自然地相互构建。

如果你正在阅读这篇文章,那么你很可能已经在日常生活中使用 ChatGPT 等工具。这里我不会深入探讨——这值得一篇单独的文章。

然而,有一个重要的最终想法值得记住。

之前,我们说生成式 AI 是深度学习的延续,专门学习足够好的模式来生成遵循这些模式的新数据。

这是真的——但是当涉及到语言时,涉及的模式要复杂得多。

人类语言不仅仅是单词的序列。它由语法、句法、语义、上下文和长距离依赖性结构化。捕捉这些关系需要深度学习架构的重大演变。


从深度学习到大型语言模型

为了处理这种复杂程度的语言,出现了新的深度学习架构。这些模型被称为大型语言模型(LLMs)

LLMs 不是一次性理解整个句子的全部意义,而是以非常特别的方式学习语言:

它们学会预测下一个词(或标记)给定之前的一切

这可能听起来很简单,但当在大量文本上训练时,这个目标迫使模型内化:

  • 语法规则,
  • 句子结构,
  • 写作风格,
  • 事实,
  • 以及推理的元素。

通过重复这个过程数十亿次,模型学习了对语言工作方式的隐式表示。

从这些大型语言模型中,构建了对话系统,如ChatGPT,结合语言生成、指令遵循、对话和对齐技术。

上面的插图直观地展示了这个想法:生成是一次一个词,每个步骤都基于之前生成的内容。


最终的大图景

你今天所看到的任何东西都不是凭空出现的。

ChatGPT 不是一项独立的技术。它是长期发展过程中的一个可见结果:

  • 人工智能设定了目标。
  • 机器学习使得从数据中学习成为可能。
  • 深度学习使得从复杂、非结构化数据中学习成为可能。
  • 生成式人工智能使得创作成为可能。
  • 大型语言模型将语言引入了这个框架。

我希望这篇文章对你有所帮助。现在,你在技术对话中不再感到迷茫——即使在年终家庭聚会时也是如此 😃

如果你喜欢这篇文章,请随意在领英上关注我,获取更多关于人工智能、数据科学和职业的真实见解。

👉 领英: Sabrine Bendimerad

👉 Medium: medium.com/@sabrine.bendimerad1

posted @ 2026-03-27 10:55  布客飞龙V  阅读(16)  评论(0)    收藏  举报