人工智能-机器学习-深度学习和生成式人工智能---清晰解释
人工智能、机器学习、深度学习和生成式人工智能 — 清晰解释
人工智能无处不在 。机器学习和深度学习被提及的频率同样高。现在,生成式人工智能似乎几乎主导了每一次技术对话。
对于许多非人工智能领域的专业人士来说,这个词汇表可能会令人困惑。这些术语经常被互换使用,有时混合在一起,有时被作为竞争性技术提出。
如果你曾经问过自己:
- 什么是人工智能?
- 机器学习和深度学习是如何相互关联的?
- 生成式人工智能有什么不同之处?
这篇文章是为你准备的 😉
这里的目标是 清晰性 — 不是通过近似来简化,而是用普通语言准确解释。本文的其余部分不需要任何技术背景。
图 1 — AI 生态系统(由作者使用 Excalidraw 创建)
关键思想:套娃
理解人工智能、机器学习、深度学习和生成式人工智能之间关系的一个有用方法是想象 套娃。
- 每个概念都包含下一个概念:
- 没有什么可以取代之前的东西,
- 每一层都建立在之前的基础上。
让我们逐一打开它们。
人工智能:外壳
人工智能 (AI) 是最广泛的概念定义。
在其核心,AI 指的是设计用来执行通常需要人类智能的任务的系统。在实践中,AI 包括以下系统:
做出决定。例如:一个基于实时交通状况选择最快路线的导航系统。
得出结论。例如:一个基于多个因素的贷款申请审批或拒绝的系统。
识别模式。例如:通过识别不寻常的消费行为来检测欺诈信用卡交易。
预测结果。例如:估计未来的能源消耗或产品需求。
基于规则的 AI:由人类编写的人工智能
在人工智能的早期几十年,尤其是在 20 世纪 70 年代和 80 年代,系统主要是 基于规则的。我的意思是,人类明确编写了逻辑。计算机没有学习,它执行预定义的指令。
- -> 在人类自然语言中,规则看起来是这样的:
“如果一个房子至少有三个卧室并且位于好社区,那么它的价格应该在 50 万欧元左右。”- -> 在编程术语中,逻辑类似,但用代码编写,看起来可能像这样:
IF 卧室 ≥ 3 AND 社区 = "好" THEN 价格 ≈ 500000这被认为是人工智能,因为人类推理被完全编码并由机器执行。
为什么基于规则的 AI 有限制
基于规则的系统仅在受控环境中表现良好。
实际条件无法控制。如果我们还是以房地产为例。
- 市场演变,
- 环境变化,
- 异常情况增多。
除非人类重写规则,否则系统无法适应。
这种限制导致了下一层。
机器学习:让数据说话
机器学习(ML)是人工智能的一个子集。
关键的转变简单但深刻:
我们不再告诉计算机规则是什么,而是让系统直接从例子中学习它们。
-> 让我们回到房价的例子。我们不是编写规则,而是收集数据:
- 表面积,
- 房间数量,
- 位置,
- 历史销售价格。
表 1 — 数据示例(由作者使用Excalidraw创建)
数千甚至数百万个过去的例子。
这些数据被提供给机器学习模型作为训练数据。
图 2 — 机器学习流程(由作者使用Excalidraw创建)
但使用数据“训练模型”实际上意味着什么?
训练不是黑盒子。我们首先选择一个数学模型——本质上是一个方程——它可以描述输入(表面积、位置等)与输出(价格)之间的关系。
我们不是测试一个方程。我们测试许多(我们称之为模型)。
一个非常简化的例子可能看起来像:
价格 = 2 × 表面积 + 3 × 位置模型通过比较许多例子中的价格与实际价格来调整其参数。
没有人能够手动分析数十万套房屋。机器可以。
我们如何知道模型是有效的?
在采用模型之前——即最能代表我们研究现象的方程——我们对其进行评估。
部分数据是有意隐藏的。这被称为测试数据。
模型:
- 在训练期间从未见过这些数据,
- 必须在之后对其做出预测。
- 然后将预测与现实进行比较。
图 3 — 训练/测试数据(由作者使用Excalidraw创建)
如果在未见过的数据上表现良好,则该模型是有用的。
如果不是,它就会被丢弃,并尝试另一个模型。
这个评估步骤是至关重要的。
机器学习在人类难以应对的任务上表现出色:
- 分析大量数据,
- 检测微妙的模式,
- 从过去的例子中进行泛化。
- 应用示例:
医疗保健
-> 疾病风险预测,
-> 医学图像分析。
行业
-> 预测设备故障,
-> 优化生产流程。
消费品
-> 推荐系统,
-> 欺诈检测。
传统机器学习的局限性
尽管如此,传统的机器学习有重要的局限性。它非常适合结构化数据:
- 表格,
- 数值,
- 明确定义的变量。
然而,它在处理人类自然处理的数据类型上挣扎,例如:
- 图像,
- 音频,
- 文本。
这种限制的原因是根本性的 -> “计算机只理解数字”
计算机并不像人类那样理解图像、声音或文字。
它们只理解数字。
当与图像、文本或音频一起工作时,这些数据必须首先被转换为数值表示。
例如,一个图像被转换为一个数字矩阵,其中每个值对应于像素信息,如颜色强度。只有在这个转换之后,机器学习模型才能处理数据。
这个转换步骤是强制性的。
图 4 — 将图像转换为矩阵(作者使用 Excalidraw 创建)
特征提取:传统方法
在深度学习兴起之前,这种转换在很大程度上依赖于手动特征工程。
工程师必须事先决定哪些特征可能是有用的:
- 边缘或形状用于图像,
- 关键词或词频用于文本,
- 频谱成分用于音频。
这个过程,被称为特征提取,是:
- 耗时,
- 易碎的,
- 强烈依赖于人类直觉。
数据中的微小变化通常需要从头开始重新设计特征。
为什么需要深度学习
在复杂设置中手动特征提取的限制是深度学习发展的关键动机。(本文不涉及更技术性的动机。我的目标是让你对整体有一个清晰的理解)。
深度学习并没有消除对数值数据的需求。
相反,它改变了特征获取的方式。
深度学习模型不是依赖于人类设计的特征,而是直接从原始数据中学习有用的表示。
这标志着结构性的转变。
深度学习:结构性的转变
深度学习仍然像机器学习一样工作。学习过程是相同的:
-> 数据,
-> 训练,
-> 评估。
变化的是我们所说的模型架构。
深度学习依赖于多层神经网络。
层作为渐进表示
图 5 — 深度学习流程(作者使用 Excalidraw 创建)
深度学习模型中的每一层都对它的输入应用数学变换,并将结果传递给下一层。
这些层可以理解为数据的渐进表示。
在图像识别的情况下:
- 早期层检测简单的模式,如边缘和对比度,
- 中间层将这些模式组合成形状和纹理,
- 后续层捕获更高层次的概念,如面孔、物体或动物。
模型并不“看到”图像的方式与人类相同。
它学习了一个数值表示的层次结构,这使得准确的预测成为可能。
而不是明确告知使用哪些特征,模型直接从数据中学习它们。
这种自动学习表示的能力使得深度学习对于复杂、非结构化数据非常有效(见上面的表示)。
一旦达到这个理解水平,一个重要的转变就变得可能。
到目前为止,深度学习模型主要被用来分析现有数据。
它们被训练去:
- 识别图像中存在的内容,
- 理解文本的结构,
- 根据学习到的模式对结果进行分类或预测。
简而言之,它们帮助回答问题:这是什么?
但是,学习数据的丰富表示自然会引发一个新的问题:
如果一个模型已经学会了数据的结构,它是否也能产生遵循相同结构的新数据?
这个问题是生成式人工智能的基础。
生成式人工智能:从分析到创造
图 6 —— GenAI 流程(作者使用 Gemini3 创建)
生成式人工智能并不取代深度学习。它直接建立在深度学习之上。
与学习识别模式相同的深度神经网络现在可以训练不同的目标:生成。
与仅关注分类或预测不同,生成模型学习数据是如何产生的,一步一步地。
因此,它们能够创建连贯且逼真的新内容。
一个具体的例子
考虑以下提示:
“描述一个巴黎的豪华公寓。”
模型不会检索现有的描述。
而不是:
- 它从提示开始,
- 预测最可能的下一个单词,
- 然后是下一个,
- 然后按顺序继续这个过程。
每个预测都依赖于:
- 已经生成的内容是什么,
- 原始提示,
- 以及从大量数据中学习到的模式。
最终的文本是新的——它以前从未存在过——但它感觉自然,因为它遵循了在训练期间看到的类似文本的结构。
跨数据类型的相同原则
这种机制不仅限于文本。相同的生成原理适用于:
- 图像,通过生成像素值,
- 音频,通过生成随时间变化的声信号,
- 视频,通过生成一系列图像,
- 代码,通过生成语法和逻辑上一致的程序。
这就是为什么这些模型通常被称为基础模型:一个经过训练的模型可以适应许多不同的任务。
为什么生成式人工智能今天感觉不同
人工智能、机器学习和深度学习已经存在了许多年。
使生成式人工智能感觉像是一个转折点的不仅仅是性能的提升,还有人类与人工智能的交互方式。
在过去,使用高级人工智能需要:
- 技术接口,
- 编程知识,
- 基础设施和模型管理。
今天,交互主要通过:
- 自然语言,
- 简单的指令,
- 对话。
用户不再需要指定如何做某事。
它们可以简单地描述它们想要的。
这种转变极大地降低了进入门槛,并允许 AI 直接集成到广泛职业的日常工作中。
将一切整合起来
这些概念不是相互竞争的技术。它们形成了一个连贯的进步:
- 人工智能定义了目标:智能系统。
- 机器学习使系统能够从数据中学习。
- 深度学习允许从复杂、非结构化的信息中学习。
- 生成式 AI利用这种理解来创建新的内容。
以这种方式看,生成式 AI 并不是与过去突然断裂。
这是之前所有事物的自然延续。
一旦这个结构清晰,AI 术语就不再令人困惑,而成为一个连贯的故事。
但是,我们已经完成了吗?几乎。
图 6——2025 年的完整 AI 生态系统(由作者使用Excalidraw创建)
到目前为止,我们已经涵盖了核心 AI 生态系统:人工智能、机器学习、深度学习和生成式 AI——以及它们如何自然地相互构建。
如果你正在阅读这篇文章,那么你很可能已经在日常生活中使用 ChatGPT 等工具。这里我不会深入探讨——这值得一篇单独的文章。
然而,有一个重要的最终想法值得记住。
之前,我们说生成式 AI 是深度学习的延续,专门学习足够好的模式来生成遵循这些模式的新数据。
这是真的——但是当涉及到语言时,涉及的模式要复杂得多。
人类语言不仅仅是单词的序列。它由语法、句法、语义、上下文和长距离依赖性结构化。捕捉这些关系需要深度学习架构的重大演变。
从深度学习到大型语言模型
为了处理这种复杂程度的语言,出现了新的深度学习架构。这些模型被称为大型语言模型(LLMs)。
LLMs 不是一次性理解整个句子的全部意义,而是以非常特别的方式学习语言:
它们学会预测下一个词(或标记)给定之前的一切。
这可能听起来很简单,但当在大量文本上训练时,这个目标迫使模型内化:
- 语法规则,
- 句子结构,
- 写作风格,
- 事实,
- 以及推理的元素。
通过重复这个过程数十亿次,模型学习了对语言工作方式的隐式表示。
从这些大型语言模型中,构建了对话系统,如ChatGPT,结合语言生成、指令遵循、对话和对齐技术。
上面的插图直观地展示了这个想法:生成是一次一个词,每个步骤都基于之前生成的内容。
最终的大图景
你今天所看到的任何东西都不是凭空出现的。
ChatGPT 不是一项独立的技术。它是长期发展过程中的一个可见结果:
- 人工智能设定了目标。
- 机器学习使得从数据中学习成为可能。
- 深度学习使得从复杂、非结构化数据中学习成为可能。
- 生成式人工智能使得创作成为可能。
- 大型语言模型将语言引入了这个框架。
我希望这篇文章对你有所帮助。现在,你在技术对话中不再感到迷茫——即使在年终家庭聚会时也是如此 😃
如果你喜欢这篇文章,请随意在领英上关注我,获取更多关于人工智能、数据科学和职业的真实见解。
👉 领英: Sabrine Bendimerad
👉 Medium:
medium.com/@sabrine.bendimerad1









浙公网安备 33010602011771号