大模型是怎么"思考"的？揭秘 AI 的"大脑"工作原理

目录：

背景引入：AI 真的在"思考"吗？
核心概念一：大模型的"世界观"——词向量和 Token
核心概念二：预测下一个词
核心概念三：注意力机制怎么工作
核心概念四：温度参数——控制"创造力"
完整的"思考"流程
和人类思考的区别
本文小结
今日思考题

一、背景引入：AI 真的在"思考"吗？

大家平时用 DeepSeek 的时候，有没有过这种疑惑：

这玩意儿是真的在"思考"，还是只是在背书？

它是怎么知道"北京"后面应该接"天安门"的？

为什么它好像能理解我的问题？

今天咱们就来扒一扒大模型的"大脑"，看看它到底是怎么"思考"的。

先说结论：

大模型的"思考"本质上是超级复杂的"文字接龙"

但这个"文字接龙"厉害到让你感觉它好像真的有智能。

二、核心概念一：大模型的"世界观"——词向量和 Token

要理解大模型怎么思考，先得搞懂它眼中的世界是什么样的。

2.1 一切都是 Token

在咱们人类看来：

"我爱北京天安门" 
= 一个有意义的句子

但在大模型眼里：

"我爱北京天安门" 
= [1534, 882, 3698, 7721, 5543]（一串数字编号）

每个数字叫一个 Token（词元）。

Token 就是大模型处理文本的最小单位

2.2 Token 是怎么切分的？

咱们来个例子感受一下：

原文： "我喜欢吃苹果"

Token 切分可能是：
["我", "喜欢", "吃", "苹果"]

也可能是：
["我", "喜", "欢", "吃", "苹果", "🍎"]

还可能是：
["我", "喜欢", "吃", "苹", "果"]

具体怎么切，是训练的时候决定的。

大模型不看"字"，只看 Token

2.3 词向量：大模型眼中的"含义"

接下来神奇的事情来了。

每个 Token 会被转换成一串数字，比如：

"苹果" → [0.23, -0.56, 0.78, ..., 0.12]（4096个数字）
"香蕉" → [0.21, -0.54, 0.77, ..., 0.11]
"汽车" → [0.89, 0.34, -0.23, ..., 0.67]

这一串数字叫词向量（Word Embedding）

重点来了！

这些数字不是随便编的，而是训练出来的，包含了词的"含义"

"苹果"和"香蕉"的数字很接近（都是水果）
"苹果"和"汽车"的数字差很远（没啥关系）

咱们用一张图来感受一下（想象在二维空间）：

        汽车
          ↑
          |
    飞船 --+-- 飞机
          |
    苹果 ← → 香蕉
         |
         梨

距离越近，关系越紧密。

大模型就是通过这些数字来理解词义的

三、核心概念二：预测下一个词

好了，现在大模型把文字都变成了数字。

接下来它要干什么？

预测下一个 Token 是什么。

3.1 本质就是"文字接龙"

咱们来玩个游戏：

输入： "今天天气真"
下一个可能是： "好"、"不错"、"糟糕"...

大模型干的就是这个事儿！

它会计算每个候选 Token 的概率：

"好"     → 70%
"不错"   → 20%
"糟糕"   → 5%
"崩了"   → 3%
...

然后选一个概率最高的（或者随机抽一个），输出"好"。

3.2 怎么计算概率？

这就用到大模型那几千亿个参数了。

简单来说，模型会看前面的所有 Token，然后计算：

P(下一个Token | 之前的所有Token)

用数学符号表示：

P(好 | 今天, 天气, 真)

这个概率是根据模型的训练数据和参数算出来的。

3.3 一个完整的生成过程

咱们来看一个完整的例子：

用户： "写一首"

Step 1: 输入 [写, 一, 首]
Step 2: 模型预测下一个 → "诗" (概率60%)
Step 3: 输出 "诗"

Step 4: 输入变成 [写, 一, 首, 诗]
Step 5: 模型预测下一个 → "，" (概率40%)
Step 6: 输出 "，"

...循环往复...

最终输出："写一首诗，\n春天来了..."

大模型就是这样，一个词一个词地"生成"出来的

四、核心概念三：注意力机制怎么工作

但是！光预测下一个词还不够。

怎么让模型理解上下文关系呢？

比如：

"小明把苹果给了小红，因为它太甜了"

模型怎么知道"它"指的是"苹果"？

这就是 注意力机制 的作用。

4.1 每个 Token 都要"看"其他 Token

当模型在处理"它"这个 Token 的时候，会同时"注意"其他所有 Token：

"它" 会重点关注：
- "苹果"（关系最密切）
- "给"（动作相关）
- "小红"（可能的指代对象）

不太关注：
- "把"（关系较弱）

4.2 权重分配

模型会给每个 Token 分配一个注意力权重：

处理"它"时：

小明：0.05
把：  0.02
苹果：0.60 ← 重点关注！
给了：0.10
小红：0.15
，：  0.01
因为：0.03
它：  0.01
太：  0.02
甜：  0.01
了：  0.00

"苹果"的权重最高，所以"它"的理解会参考"苹果"的信息。

4.3 多头注意力——从不同角度看问题

更厉害的是，Transformer 有多个"头"，每个头关注不同的关系：

头1：关注"谁指代谁"（它 → 苹果）
头2：关注"动作关系"（给 → 小红）
头3：关注"修饰关系"（甜 → 苹果）
...

就像从多个角度同时观察一个句子。

五、核心概念四：温度参数——控制"创造力"

大家有没有发现：同一个问题问 ChatGPT 多次，它的回答每次都不太一样？

这就是 温度参数（Temperature） 在起作用。

5.1 什么是温度？

温度控制的是模型输出的随机性。

咱们来看个例子：

假设预测下一个词的概率分布是：

"好"：   50%
"不错"： 30%
"棒"：   15%
"其他"： 5%

5.2 温度低 = 保守

温度 = 0.1（很低）

"好"：   90% ← 概率被放大
"不错"： 8%
"棒"：   2%
"其他"： 0%

效果：

每次几乎都选"好"
输出很稳定
但比较死板、缺乏变化

适用场景： 数学题、编程、需要精确答案的任务

5.3 温度高 = 创新

温度 = 0.8（较高）

"好"：   35% ← 概率被压缩
"不错"： 25%
"棒"：   20%
"其他"： 20%

效果：

可能选"不错"、"棒"
输出有变化、更丰富
但可能不太稳定

适用场景： 创意写作、头脑风暴、诗歌创作

5.4 总结对比

温度	特点	适用场景
低（0-0.3）	稳定、精确	数学、编程、翻译
中（0.4-0.7）	平衡	日常对话、问答
高（0.8-1.5）	创意、多样	写作、头脑风暴

六、完整的"思考"流程

好了，咱们把前面的内容串起来，看看大模型完整的"思考"过程。

举个例子：用户问"什么是人工智能？"

【输入阶段】
1. 文本分词
   "什么是人工智能？"
   → [什么, 是, 人, 工, 智能，, ?]

2. 转换成 Token ID
   → [2648, 389, 723, 992, 6721, 15, 32]

3. 转换成词向量
   → 每个ID变成4096维的数字向量


【处理阶段】
4. 通过多层 Transformer 处理
   - 每一层都有注意力机制
   - 每一层都更新词向量的表示
   - 逐层提取更抽象的特征

   第一层：理解每个词的基本含义
   第二层：理解词与词之间的关系
   第三层：理解"什么"是疑问词
   ...
   第三十二层：理解整个问题的语义


【生成阶段】
5. 预测第一个 Token
   输出："人" (概率30%)
   或输出："Artificial" (概率25%)
   → 选择"人"

6. 把"人"加入输入，继续预测下一个
   输入变成：[什么, 是, 人, 工, 智能，, ?, 人]
   → 预测出："工"

7. 循环往复
   → "人" → "工" → "智" → "能" → "，" → "是" ...

【最终输出】
"人工智能，是指由人制造出来的机器所表现出来的智能..."

整个过程就是：输入 → 处理 → 预测 → 输出 → 再预测...

这就是大模型"思考"的全过程！

七、和人类思考的区别

现在大家应该理解了大模型是怎么"思考"的。

但是！它和人类的思考有本质区别。

7.1 大模型的"思考"

输入 → 数学计算 → 输出

本质：复杂的概率计算
基础：统计规律
特点：没有真正理解，只是模式匹配

7.2 人类的思考

感知 → 理解 → 推理 → 表达

本质：真实的认知过程
基础：世界知识、逻辑、经验
特点：有真正的理解和意识

7.3 形象的比喻

对比项	大模型	人类
学习方式	读遍全网文本（机械记忆）	通过经验和实践（理解性学习）
知识存储	几千亿个参数（数字）	神经元连接（生物结构）
推理方式	概率计算（预测下一个词）	逻辑推理（真正的思考）
创造力	组合训练过的模式	跳出框架的创新
意识	无	有

大模型更像一个超级鹦鹉，而不是真正的人。

但这个"鹦鹉"太厉害了，以至于让你感觉它好像真的会思考。

八、本文小结

咱们今天主要讲了以下几点：

1. 大模型眼中的世界

一切都是 Token（词元）
Token 转换成词向量（一串数字）
数字之间有"距离"关系，代表语义

2. 核心工作原理

预测下一个 Token（文字接龙）
通过注意力机制理解上下文
一个词一个词地生成输出

3. 关键概念

词向量：用数字表示词的含义
注意力机制：关注词与词之间的关系
温度参数：控制输出的随机性和创造力

4. 完整流程

分词 → Token → 向量 → Transformer → 预测 → 输出 → 循环

5. 与人类的区别

大模型 = 复杂的概率计算
人类 = 真正的认知和理解
本质不同，但效果相似

九、今日思考题

今天留一个思考题：

如果大模型的本质是"预测下一个词"，那为什么它能做数学题？数学题不是应该有逻辑推理能力吗？

提示：思考一下，训练数据中有多少数学题和答案？

大家先思考思考，欢迎在评论区说说你的理解！

如果这篇文章对你有帮助，欢迎点赞关注，我会持续用大白话讲解复杂的技术概念！

下一期预告： 什么是 Token？大模型是怎么理解文字的？

posted @ 2026-03-04 23:10 小许TX 阅读(65) 评论(0) 收藏举报

刷新页面返回顶部

码面重学

白话讲技术，轻松过面试！定期更新「重学系列」，拆解面试高频坑点，陪你从刷题小白到面霸大佬～