# 大语言模型学术史:从分布式表示到Transformer的演进路径(Gregory Gundersen 2025)
关联知识库:# 大语言模型学术史:从分布式表示到Transformer的演进路径(Gregory Gundersen 2025)
大语言模型学术史:从分布式表示到Transformer的演进路径
文章来源:A History of Large Language Models - Gregory Gundersen
发布时间:2025年10月1日
核心主题:追溯大语言模型背后的核心思想的学术历史
哲学视角:技术演进中的理想与折中
庄子《逍遥游》:"万物皆有所待"——所有事物都依赖于一定的条件
老子《道德经》:"少则得,多则惑"——简单的方法往往更有效
"后退是向前":有时候放弃完美,反而能走得更远
本文的哲学主题:
大语言模型的技术演进,本质上是一场关于理想与折中的哲学对话。每一个阶段的技术选择,都反映了在面对完美理解的乌托邦理想与计算可行性的现实约束之间的权衡。
-
CNN和RNN代表了追求"完美理解"的理想方案——试图完全理解所有信息,完全记住所有上下文。但正如庄子所言"万物皆有所待",这种理想方案需要无限的计算资源,在现实世界中不可行。
-
Transformer代表了"折中智慧"——放弃完美理解,采用"按需访问"的策略。不需要掌握所有知识,但在需要时可以主动去调用。正如老子所言"少则得,多则惑",这种看似"后退"的方案,反而让技术"向前"走得更远。
-
幻觉问题正是这种折中的代价——按需访问虽然让Transformer变得强大且可行,但也可能导致模型在需要时调用错误的信息。这提醒我们:万物皆有所待,没有完美的技术,只有在不同约束下的折中选择。
本文将从这一哲学视角出发,重新审视大语言模型的技术演进史。
要点速览
核心故事
大语言模型的发展就像打怪升级:每解决一个Boss(问题),就会遇到新的Boss(新问题)。但好消息是,每个新Boss都比上一个弱一点(因为我们越来越强),直到现在我们站在GPT-4的肩膀上,还在琢磨:这玩意儿到底怎么工作的?
更深层的哲学洞察:
这场技术演进的本质,是理想与折中的博弈。每一个技术选择,都是在追求完美理解的理想与计算可行性的现实之间寻找平衡。万物皆有所待——技术依赖于硬件、软件、计算资源的条件,没有完美的技术,只有在不同约束下的最优折中。
时间线速览
1940s-2003: 分布式表示时代 → 如何表示词?
2003-2013: 神经语言模型时代 → 如何捕获序列依赖?
2013-2017: 序列到序列+注意力时代 → 如何并行化?
2017-2020: Transformer+预训练时代 → 如何利用大规模数据?
2020-2025: 规模化+对齐时代 → 如何理解涌现?
️ 五大阶段核心对比
| 阶段 | 时间 | 核心成果 | 解决的问题 | 遗留的问题 | 下一阶段线索 |
|---|---|---|---|---|---|
| 分布式表示 | 1940s-2003 | 神经网络自动学习词向量 | 规则系统太复杂 | 固定窗口,无法捕获长距离依赖 | 需要序列模型 |
| 神经语言模型 | 2003-2013 | 用神经网络预测下一个词 | 统计模型的维度灾难 | 仍是固定窗口,计算成本高 | 需要循环结构 |
| 序列到序列+注意力 | 2013-2017 | RNN+注意力机制 | 固定大小表示的信息瓶颈 | RNN串行计算慢 | 需要并行化 |
| Transformer+预训练 | 2017-2020 | 纯注意力架构+大规模预训练 | RNN的串行限制 | 需要大量算力和数据 | 需要更好的泛化 |
| 规模化+对齐 | 2020-2025 | GPT-3/GPT-4+RLHF对齐 | 模型规模与能力的平衡 | 涌现机制不明,对齐挑战 | 待解决的问题 |
️ 阶段一:分布式表示时代(1940s-2003)
背景
1980s之前的技术背景:
- 计算机处理语言主要依赖手工编写的规则系统
- 每个词都需要手工编写规则("cat" → 这是名词,动物,宠物...)
- 需要大量语言学专业知识
- 系统脆弱,规则越多越容易出错
核心问题:如何让计算机理解和表示语言?
哲学思考:手工规则系统代表了人类对"完美理解"的追求——试图为每个词、每个规则都提供精确的定义。但正如老子所言"多则惑",规则越多,系统越脆弱。这是对"完美"的执念,却忽略了万物皆有所待——系统依赖于人类能够编写和维护规则的能力,而这种能力是有限的。
❌ 当前问题
1. 手工规则的不可行性
- 问题:手工写规则写不完(100万词写不完)
- 问题:遇到新词无法处理(需要手工写新规则)
- 问题:计算机不理解词的意思(只认识字符串)
2. 如何预测下一个词?
- 问题:需要建立语言模型来预测下一个词
- 问题:如何表示序列概率?
当前技术
1. 分布式表示(1940s-1986)
- 关键论文:McCulloch & Pitts (1943)、Rumelhart et al. (1986)、Hinton (1986)
- 核心思想:神经网络通过反向传播自动学习词向量,相似词得到相似向量
- 核心目的:向量化的核心目的是语义理解和自动泛化,以解决手工规则的不可行性问题(手工写规则写不完、遇到新词无法处理、计算机不理解词的意思)
- 工作机制:神经网络自动学习词向量,相似词自动得到相似向量
2. 统计语言模型(1990)
- 关键论文:Brown et al. (1990) - A statistical approach to machine translation
- 核心思想:将语言建模为概率分布,下一个词的概率取决于前面所有词
- 序列概率模型:\(p(w_t \mid w_{1:t-1})\) - 为了解决"如何预测下一个词",引入序列概率模型
- 为什么激进:不包含任何语法结构(名词、动词?那是什么?),只靠统计
✅ 解决到哪种程度
解决的问题:
- ✅ 表示问题:神经网络自动学习词向量,解决了手工规则的不可行性
- ✅ 预测问题:引入了序列概率模型,可以预测下一个词
遗留的问题:
-
❌ 维度灾难:词汇量巨大(100万词),组合爆炸,数据稀疏
- 如果考虑所有前面的词:词汇量100万词 × 序列长度100词 → 可能的组合约 \(10^{600}\)(计算不可行)
- 估计序列概率 \(p(w_t \mid w_{1:t-1})\) 非常困难,永远无法遇到所有可能的组合
-
❌ 马尔可夫假设的妥协:为了解决维度灾难,只看前 \(N\) 个词(如 \(N=3\))
- 可能的组合约 \(10^{18}\)(虽然还是很大,但至少可计算)
- 代价:牺牲了长距离依赖(第1个词无法直接影响第100个词,第11个词开始完全看不见)
- 本质:在计算可行性(维度灾难)和长距离依赖之间做妥协,选择计算可行性
哲学思考:这是技术演进中的第一次重要折中。马尔可夫假设牺牲了"完美理解"的理想(考虑所有前面的词),选择了"可行性"的现实(只看前N个词)。正如庄子所言"万物皆有所待",这种理想方案依赖于无限的计算资源,而现实中的计算资源是有限的。这是一种"后退"——放弃完美理解,但正是这种"后退"让技术变得"向前"可行。
产生了什么样的新问题
1. 固定窗口限制
- 问题:只看前 \(N\) 个词,无法处理变长序列
- 问题:第11个词开始完全看不见(固定窗口截断,不是逐渐遗忘)
2. 无法捕获长距离依赖
- 问题:第1个词无法直接影响第100个词
- 问题:长距离的语义关系无法捕获
3. 需要序列模型
- 问题:固定窗口无法捕获序列结构
- 问题:需要能够处理变长序列的模型
阶段二:神经语言模型时代(2003-2013)
背景
阶段一的遗留问题:
- 序列概率模型已经引入,但遇到维度灾难
- 马尔可夫假设牺牲了长距离依赖
- 固定窗口无法处理变长序列
核心问题:如何在序列概率模型基础上,用神经网络自动学习,解决统计模型的维度灾难?
❌ 当前问题
1. 统计模型的维度灾难
- 问题:词汇量巨大组合爆炸(100万词)
- 问题:数据稀疏无法估计概率(永远无法遇到所有可能的组合)
- 问题:需要手工统计所有组合的概率
2. 固定窗口的限制
- 问题:仍然是固定窗口(只看前 \(N\) 个词)
- 问题:无法处理变长序列
当前技术
Bengio的突破(2003)
- 关键论文:Bengio et al. (2003) - A neural probabilistic language model
- 核心创新:
- 词嵌入:每个词 → 固定维度向量(如100维),相似词自动得到相似向量
- 神经网络联合学习:前 \(N\) 个词的向量 → 多层前馈网络 → 下一个词的概率分布
- 核心目的:神经语言模型的核心目的是用神经网络自动学习序列概率,以解决统计模型维度灾难的不可行性问题(词汇量巨大组合爆炸、数据稀疏无法估计概率)
- 工作机制:在已有序列概率模型基础上(阶段一已引入),用神经网络来自动学习序列概率,解决统计模型的维度灾难(不需要手工统计,神经网络自动学习)
- 关键贡献:明确了后续LLM的自回归训练目标(预测下一个词)
✅ 解决到哪种程度
解决的问题:
- ✅ 维度灾难:用神经网络自动学习序列概率,不需要手工统计所有组合
- ✅ 自动学习:神经网络自动学习词向量和序列概率
遗留的问题:
- ❌ 仍然是固定窗口:只看前 \(N\) 个词,无法处理变长序列
- ❌ 计算成本高:需要遍历所有词汇表计算概率(10万个词 → 10万次前向传播)
- ❌ 无法捕获序列结构:前馈网络是位置无关的("猫追狗"和"狗追猫"可能一样)
产生了什么样的新问题
1. 固定窗口和位置无关的限制
- 问题:无法处理变长序列
- 问题:无法捕获顺序性语义("猫追狗"和"狗追猫"可能一样)
2. 需要循环结构
- 问题:需要能够逐步处理序列的模型
- 问题:需要能够捕获顺序的模型
阶段三:序列到序列+注意力时代(2013-2017)
背景
阶段二的遗留问题:
- 仍然是固定窗口,无法处理变长序列
- 无法捕获序列结构(位置无关)
- 需要循环结构来处理序列
核心问题:如何处理变长序列?如何捕获顺序性语义?
哲学思考:RNN的循环结构试图通过逐步累积信息来实现"完美理解"——想要记住所有上下文信息。但这又陷入了"多则惑"的陷阱——信息过载,上下文负担太重。注意力机制的引入,标志着从"完全理解"向"按需访问"的哲学转向——不需要记住所有信息,但在需要时可以主动去调用。这正是"少则得,多则惑"的智慧。
❌ 当前问题
1. 固定窗口(只看前10个词)
- 问题:只看前 \(N\) 个词,第11个词开始完全看不见
- 问题:无法处理任意长度的序列
2. 无法捕获序列结构(位置无关)
- 问题:前馈网络只看词的集合,不看顺序
- 问题:"猫追狗"和"狗追猫"可能一样(无法区分)
3. 信息瓶颈(Seq2Seq的问题)
- 问题:固定大小的向量无法编码所有信息(13个词的信息压缩到256维,信息丢失)
- 问题:随着序列变长,隐藏状态需要存储越来越多信息(信息过载)
- 问题:长距离信息经过多个时间步传递,容易丢失
当前技术
1. Seq2Seq框架(2013-2014)
- 关键论文:Kalchbrenner & Blunsom (2013)、Cho et al. (2014)、Sutskever et al. (2014)
- 核心架构:
编码器:源序列 → RNN逐步处理 → 最后一个隐藏状态(固定大小的向量) 解码器:向量表示 → RNN逐步生成 → 目标序列 - 工作机制:
- 解决固定窗口:RNN可以逐步处理整个序列,从第一个词到最后一个词,不受固定窗口限制
- 解决序列结构:RNN的隐藏状态会累积之前所有词的信息,顺序不同,累积的信息不同
- 核心机制:RNN的循环结构,逐步累积信息,顺序不同,隐藏状态不同
- RNN的核心价值:主要解决顺序性的语义问题
- 顺序性:词的前后顺序很重要("猫追狗"≠"狗追猫")
- 语义问题:顺序不同,语义不同(主语、宾语、动作的关系不同)
2. 注意力机制(2014)
- 关键论文:Bahdanau et al. (2014) - Neural machine translation by jointly learning to align and translate
- 核心问题:固定大小的向量无法编码所有信息(信息瓶颈)
- 工作机制:解码器不再只依赖最后一个隐藏状态,而是可以按需访问编码器的所有隐藏状态
- 不再把13个词的信息压缩到1个向量
- 而是存储13个隐藏状态(每个词一个)
- 解码时按需访问(需要哪个词的信息就访问哪个)
- 核心思想:对齐 + 加权求和(决定源序列的哪个部分与目标词相关)
3. 自注意力(2016)
- 关键论文:Cheng et al. (2016)
- 核心思想:编码器内部也可以相互关注(序列中的每个位置可以关注序列中的所有其他位置)
4. CNN在NLP中的尝试(2014-2017)
- 关键论文:Kim (2014) - Convolutional Neural Networks for Sentence Classification
- CNN的优势:可以并行化(卷积操作可以并行计算)
- CNN的问题:
- 只能捕获局部依赖(卷积核大小有限,只能看到局部窗口内的词)
- 无法捕获长距离依赖(需要多层卷积才能"看到"更远)
- 不适合序列顺序(CNN的空间不变性不适合NLP的顺序性语义问题)
✅ 解决到哪种程度
解决的问题:
- ✅ 变长序列:RNN可以处理任意长度的序列
- ✅ 顺序性语义:RNN可以捕获顺序性语义("猫追狗"≠"狗追猫")
- ✅ 信息瓶颈:注意力机制解决了信息瓶颈(按需访问,不需要压缩所有信息)
遗留的问题:
- ❌ RNN的串行计算:必须按顺序处理序列,无法并行化(GPU再强也没用)
- ❌ 长距离依赖仍然困难:信息需要经过多个时间步传递,容易丢失
- ❌ 信息瓶颈仍然存在:长序列仍然困难(100个词 → 需要存储100个隐藏状态)
产生了什么样的新问题
1. 串行计算的限制
- 问题:RNN必须串行计算,无法并行化
- 问题:训练速度慢,GPU无法充分利用
2. 长距离依赖仍然困难
- 问题:信息需要经过多个时间步传递,容易丢失
- 问题:梯度可能消失(训练时梯度传递困难)
3. 需要并行化
- 问题:需要能够并行计算的架构
- 问题:需要能够直接连接长距离依赖的架构
阶段四:Transformer+预训练时代(2017-2020)
背景
阶段三的遗留问题:
- RNN的串行计算限制了并行化
- 长距离依赖仍然需要经过多个时间步传递
- 注意力机制解决了信息瓶颈,但RNN限制了并行化
历史背景:
- 2014年:注意力机制被引入Seq2Seq(解决信息瓶颈)
- 2016年:自注意力被提出(编码器内部相互关注)
- 2017年:Transformer诞生(纯注意力架构,抛弃RNN)
核心问题:如何同时实现并行化和长距离依赖?
❌ 当前问题
1. RNN的串行计算
- 问题:必须按顺序处理序列,无法并行化(GPU再强也没用)
- 问题:训练速度慢
2. 长距离依赖仍然困难
- 问题:信息需要经过多个时间步传递,容易丢失
- 问题:O(T)距离(需要经过T个时间步传递)
3. 信息瓶颈仍然存在
- 问题:长序列仍然困难(100个词 → 需要存储100个隐藏状态)
当前技术
1. Transformer革命(2017)
- 关键论文:Vaswani et al. (2017) - Attention is all you need
- 核心思路:注意力机制已经包含了RNN的核心功能!
- RNN的核心功能:顺序处理序列、捕获顺序性语义、累积上下文信息
- 注意力机制也能做到:可以同时关注序列的所有位置、可以通过位置编码捕获顺序、可以按需访问信息
- 结论:注意力机制可以替代RNN!而且还有并行化优势!
哲学思考:这是技术演进中最深刻的哲学转折。CNN和RNN都试图追求"完美理解"——CNN想要完美捕获所有局部依赖,RNN想要完美累积所有历史信息。但正如庄子所言"万物皆有所待",这种理想需要无限的计算资源,在现实世界中不可行。
Transformer的"按需访问"策略,是对"完美理解"乌托邦的告别,是对现实的妥协。但正如老子所言"后退是向前",这种看似"后退"(放弃完美理解)的策略,反而让技术"向前"走得更远——获得了并行化、长距离依赖、可扩展性。
这是"少则得,多则惑"的最佳印证:简单但可扩展的注意力机制,胜过了复杂但不可扩展的RNN和CNN。
纯注意力架构的工作机制:
1. 自注意力机制(Self-Attention)
- 核心思想:序列中的每个位置都可以直接关注序列中的所有其他位置
- 工作机制:
输入序列:"The cat chased the mouse" 步骤1:计算注意力权重(哪些词相关?) 步骤2:加权求和(按权重组合信息) → 每个位置都能看到序列中的所有其他位置! → 不再需要RNN的循环传递信息! - 关键公式:注意力 = softmax(Q × K^T / √d) × V
2. 多头自注意力(Multi-Head Self-Attention)
- 核心思想:多个注意力头同时关注不同关系(语法、语义、位置等)
- 工作机制:不同头关注不同的关系,综合所有头的信息
3. 位置编码(Positional Encoding)
- 核心问题:注意力机制本身是位置无关的("猫追狗"和"狗追猫"会得到相同的注意力权重)
- 解决方案:显式添加位置信息(词嵌入 + 位置编码 = 语义信息 + 位置信息)
- 工作机制:通过位置编码,让"猫追狗"和"狗追猫"得到不同的表示
4. 编码器-解码器架构
- 编码器:输入序列 → 多头自注意力 → 前馈网络 → 编码表示
- 解码器:编码表示 → 多头自注意力 → 前馈网络 → 输出序列
关键创新:
- 抛弃RNN和CNN:完全基于注意力机制
- 多头自注意力:多个注意力头同时关注不同关系
- 位置编码:显式添加位置信息
- 残差连接和层归一化:使深层网络可训练
2. GPT-1:生成式预训练(2018)
- 关键论文:Radford et al. (2018) - Improving language understanding by generative pre-training
- 核心方法:大规模自监督预训练 + 任务微调
- 关键洞察:预训练+微调范式,数据需求减少1000倍!
3. BERT:双向理解(2018)
- 关键论文:Devlin et al. (2018) - BERT: Pre-training of deep bidirectional transformers
- 核心创新:Masked Language Model (MLM) + 双向编码
- 应用场景:判别式任务(BERT更强)vs 生成式任务(GPT更强)
✅ 解决到哪种程度
解决的问题:
- ✅ 并行化:所有位置同时计算(矩阵运算,GPU友好),训练速度提升10-100倍!
- ✅ 长距离依赖:直接连接所有位置(O(1)距离,不再需要经过多个时间步),信息不会丢失
- ✅ 顺序性语义:通过位置编码捕获顺序信息,可以区分"猫追狗"和"狗追猫"
- ✅ 预训练:大规模自监督预训练 + 任务微调,解决了"如何利用无标签数据"的问题
与前作的差异:
| 维度 | RNN(阶段三) | CNN(尝试) | Transformer(阶段四) |
|---|---|---|---|
| 并行化 | ❌ 串行计算 | ✅ 可以并行 | ✅ 完全并行 |
| 长距离依赖 | ⚠️ O(T)距离,容易丢失 | ❌ 只能局部 | ✅ O(1)距离,不丢失 |
| 顺序性语义 | ✅ 逐步处理 | ❌ 空间不变性 | ✅ 位置编码 |
| 计算效率 | ❌ 慢 | ⚠️ 中等 | ✅ 快(10-100倍) |
遗留的问题:
- ❌ 计算复杂度O(n²):注意力机制的计算复杂度是O(n²),序列越长,计算量指数增长
- ❌ 需要大量算力和数据:GPT-1需要TPU训练数周,成本数万美元
- ❌ 泛化能力有限:需要微调才能在特定任务上表现好,零样本能力有限
- ❌ 位置编码的局限性:位置编码是固定的(正弦/余弦),无法学习位置关系
产生了什么样的新问题
1. 规模和泛化能力的关系
- 问题:更大的模型是否意味着更强的能力?
- 问题:能否不微调就执行各种任务?
2. 计算复杂度问题
- 问题:O(n²)的计算成本限制了序列长度(如GPT-3的上下文窗口是2048个token)
- 问题:虽然解决了长距离依赖,但计算成本限制了实际应用
3. 需要更好的泛化
- 问题:零样本能力有限,需要微调
- 问题:预训练+微调范式虽然有效,但还不够通用
哲学思考:Transformer的"按需访问"策略,虽然解决了并行化和长距离依赖的问题,但也带来了新的代价——计算复杂度O(n²),以及按需访问可能导致的幻觉问题。这再次印证了"万物皆有所待"——没有完美的技术,只有在不同约束下的折中选择。Transformer获得了可行性和扩展性,但也付出了准确性和计算成本的代价。
阶段五:规模化+对齐时代(2020-2025)
背景
阶段四的遗留问题:
- 规模和泛化能力的关系仍未明确
- 零样本能力有限,需要微调
- 计算复杂度O(n²)限制了序列长度
核心问题:更大的模型是否意味着更强的能力?能否实现零样本学习?
❌ 当前问题
1. 规模和泛化能力的关系
- 问题:更大的模型是否意味着更强的能力?
- 问题:能否不微调就执行各种任务?
2. 对齐问题
- 问题:如何让模型输出更符合人类偏好?
- 问题:如何减少有害内容,提升有用性?
当前技术
1. GPT-2:零样本学习(2019)
- 关键论文:Radford et al. (2019) - Language models are unsupervised multitask learners
- 核心发现:无需微调,模型就能执行各种任务!
- 关键因素:15亿参数(vs GPT-1的1.17亿,13倍增长)+ 40GB数据(8倍增长)
2. GPT-3:少样本学习(2020)
- 关键论文:Brown et al. (2020) - Language models are few-shot learners
- 核心创新:In-Context Learning(上下文学习)
输入:给几个例子 输出:模型自动学习模式(无需训练!) - 模型规模:1750亿参数(vs GPT-2的15亿,117倍增长),成本数百万美元
3. 规模定律(2020)
- 关键论文:Kaplan et al. (2020) - Scaling laws for neural language models
- 核心发现:能力 ∝ (参数数量)^α × (数据量)^β × (计算量)^γ
- 关键洞察:简单但可扩展的方法胜过聪明但不可扩展的方法
4. 涌现能力(2022)
- 关键论文:Wei et al. (2022) - Emergent abilities of large language models
- 核心发现:小模型没有这些能力,大模型突然出现这些能力(Chain-of-Thought推理、数学能力、代码生成等)
- 关键问题:为什么会涌现?机制是什么?
5. RLHF:对齐的突破(2020-2022)
- 关键论文:Stiennon et al. (2020)、Ouyang et al. (2022)
- 核心方法:三阶段训练(监督微调 → 奖励模型训练 → 强化学习PPO)
- 关键效果:模型输出更符合人类偏好,减少有害内容,提升有用性
✅ 解决到哪种程度
解决的问题:
- ✅ 零样本/少样本学习:更大规模的模型(GPT-2/GPT-3)实现了零样本和少样本学习
- ✅ 规模定律:明确了规模与能力的关系(能力 ∝ 参数数量^α × 数据量^β × 计算量^γ)
- ✅ 对齐:RLHF解决了"如何对齐"的问题(模型输出更符合人类偏好)
遗留的问题:
- ❌ 涌现机制不明:无法解释为什么在某个规模阈值突然出现新能力
- ❌ 对齐挑战:如何定义"对齐"?如何确保模型真正理解指令?
- ❌ 幻觉问题:模型会生成看似合理但错误的信息
- ❌ 成本与规模:更大规模的模型需要更多资源(只有大公司才能承担)
产生了什么样的新问题
1. 涌现机制
- 问题:为什么会涌现?机制是什么?
- 问题:无法解释为什么在某个规模阈值突然出现新能力
2. 对齐理论
- 问题:如何形式化定义"对齐"?
- 问题:如何确保模型真正理解指令?
3. 幻觉问题
- 问题:模型会生成看似合理但错误的信息
- 问题:如何减少幻觉?
4. 成本与规模
- 问题:更大规模的模型需要更多资源
- 问题:只有大公司才能承担训练成本
关键论文时间线
基础(1940s-2003)
- 1943: McCulloch & Pitts - 人工神经元
- 1986: Rumelhart et al. - 反向传播;Hinton - 分布式表示
- 1990: Brown et al. - 统计机器翻译
- 2003: Bengio et al. - 神经概率语言模型
序列到序列+注意力(2013-2016)
- 2013-2014: Seq2Seq框架(Kalchbrenner, Cho, Sutskever)
- 2014: Bahdanau et al. - 注意力机制
- 2015: Luong et al. - 注意力分类
- 2016: Cheng et al. - 自注意力
Transformer时代(2017-2018)
- 2017: Vaswani et al. - Transformer
- 2018: Radford et al. - GPT-1;Devlin et al. - BERT
规模化时代(2019-2022)
- 2019: Radford et al. - GPT-2
- 2020: Brown et al. - GPT-3;Kaplan et al. - 规模定律;Stiennon et al. - RLHF
- 2022: Ouyang et al. - InstructGPT;Wei et al. - Chain-of-Thought & 涌现能力
现代LLM(2023-2025)
- 2023: OpenAI - GPT-4;Anthropic - Claude;Google - Gemini;Meta - LLaMA 2
- 2025: DeepSeek - DeepSeek-R1
核心洞察
核心教训
- 简单性价值:简单但可扩展的方法往往是最好的(Transformer证明了这一点)
- 规模的力量:不要低估规模带来的质变(GPT-2到GPT-3的跨越)
- 历史的重要性:理解历史才能避免重复发明
- 矛盾与演进:每个阶段的突破都解决了上一阶段的问题,但又带来了新的挑战
关键启示
对研究者:理解Transformer是理解现代AI的基础,规模的力量不容小觑
对工程师:实践优先,理论理解需要配合实际应用,持续学习很重要
对决策者:计算资源和数据是核心竞争力,对齐和安全需要从开始就考虑
技术哲学:理想与折中
理想方案的困境
CNN和RNN的"乌托邦"理想:
- CNN:试图通过卷积操作完全理解所有局部模式(想要完美捕获所有局部依赖)
- RNN:试图通过循环结构完全记住所有上下文信息(想要完美累积所有历史信息)
- 共同特点:都追求"完美理解"——想要掌握所有信息,完全理解整个序列
理想方案的问题:
- ❌ 计算不可行:完全理解需要无限的计算资源
- ❌ 信息过载:试图存储和处理所有信息,导致信息过载
- ❌ 系统脆弱:对硬件和软件的限制敏感,难以扩展
Transformer的折中智慧
注意力机制的"按需访问"策略:
- 核心思想:不再试图完全理解所有信息,而是按需访问相关信息
- 工作机制:不需要记住所有信息,但在需要时可以主动去调用
- 本质:这是一种折中方案,牺牲了一定的准确性,换取了可行性和扩展性
折中的代价与收益:
- ✅ 可行性:计算复杂度从理想方案的不可行降到了O(n²)(虽然还是很高,但至少可计算)
- ✅ 扩展性:可以处理更长的序列,可以扩展到更大的模型
- ✅ 效率:只需要关注相关信息,不需要处理所有信息
- ⚠️ 准确性:牺牲了一定的准确性(可能遗漏某些信息)
- ⚠️ 幻觉问题:按需访问可能导致模型在需要时调用错误的信息,产生幻觉
"万物皆有所待":向现实的妥协
庄子《逍遥游》的智慧:
"万物皆有所待"——所有事物都依赖于一定的条件
技术演进的哲学:
- 理想的乌托邦方案(CNN/RNN):追求完美理解,但需要无限资源
- 现实的折中方案(Transformer):向现状妥协,接受局限性,但获得可行性
- 本质:理想方案往往需要向现状妥协,技术演进就是在完美与可行之间找到平衡
人脑的启示:
- 人脑的工作方式:并不是完全记住所有信息,而是按需访问相关信息
- 注意力机制:Transformer的注意力机制与人脑的注意力机制非常相似
- 启示:也许"按需访问"而不是"完全理解"才是智能的本质
后退是向前:少则得,多则惑
老子的智慧:
- "少则得,多则惑":简单的方法往往更有效,复杂的方法反而容易迷惑
- "后退是向前":有时候后退一步(放弃完美),反而能走得更远
技术演进的印证:
- CNN/RNN:追求完美(完全理解),反而受到限制(计算不可行)
- Transformer:放弃完美(按需访问),反而走得更远(可行且强大)
核心洞察:
理想方案往往需要向现实妥协。Transformer的"按需访问"策略虽然牺牲了一定的准确性,但正是这种折中让它获得了可行性和扩展性,从而成为了现代AI的基础。这种折中智慧,正如庄子所言"万物皆有所待",也正如老子所言"少则得,多则惑"。
更深层的哲学思考:
技术演进的历史,也是一部"理想与折中"的哲学史:
-
手工规则系统:追求"完美定义"的理想,但受限于人类编写规则的能力(万物皆有所待)
-
马尔可夫假设:追求"完美理解"的理想(考虑所有前面的词),但受限于计算资源,选择折中(只看前N个词)
-
RNN的循环结构:追求"完美记忆"的理想(累积所有历史信息),但受限于信息过载和串行计算
-
Transformer的按需访问:放弃"完美理解"的理想,选择"按需访问"的折中,反而获得了可行性和扩展性("少则得,多则惑")
-
幻觉问题:这是折中的代价——按需访问虽然让Transformer变得强大,但也可能导致调用错误信息。万物皆有所待,没有完美的技术。
哲学启示:
- "万物皆有所待":所有技术都依赖于一定的条件,理想方案往往需要无限资源
- "少则得,多则惑":简单但可扩展的方法,往往胜过复杂但不可扩展的方法
- "后退是向前":有时候放弃完美,反而能走得更远
这正是从CNN/RNN到Transformer演进的核心哲学——在理想与折中之间寻找平衡,在完美与可行之间做出选择。
当前的问题:幻觉的根源
幻觉问题的本质:
- 问题:Transformer的按需访问可能导致模型在需要时调用错误的信息
- 根源:模型并不掌握所有知识,只是在需要时"猜测"相关信息
- 悖论:正是这种折中策略让Transformer变得强大,但也正是这种策略导致了幻觉问题
未来的挑战:
- 如何平衡:如何在"按需访问"和"准确性"之间找到更好的平衡?
- 如何减少幻觉:如何在保持可行性的同时减少幻觉?
- 新的折中:是否会有新的折中方案,既能保持Transformer的优势,又能减少幻觉?
哲学反思
技术演进的启示
从CNN/RNN到Transformer的演进,反映了技术发展的一个深刻道理:
- 理想vs现实:理想方案(完美理解)往往不可行,需要向现实妥协
- 折中的智慧:折中方案(按需访问)虽然不完美,但更实用
- 万物皆有所待:所有技术都依赖于一定的条件(硬件、软件、计算资源)
- 后退是向前:有时候放弃完美,反而能走得更远
对于AI未来的思考:
- 也许"完美理解"不是智能的本质
- 也许"按需访问"才是智能的本质
- 也许我们需要接受这种折中,并在此基础上寻找更好的平衡
正如庄子所言:"万物皆有所待",技术演进也是如此。
最终哲学思考:
大语言模型的技术演进,本质上是一场关于理想与折中的永恒对话。每一个阶段的技术选择,都反映了在面对完美理解的乌托邦理想与计算可行性的现实约束之间的权衡。
-
CNN和RNN代表了人类对"完美理解"的执着追求——想要完全理解所有信息,完全记住所有上下文。但正如庄子所言"万物皆有所待",这种理想需要无限的计算资源,在现实世界中不可行。
-
Transformer代表了"折中智慧"的胜利——放弃完美理解,采用"按需访问"。不需要掌握所有知识,但在需要时可以主动去调用。正如老子所言"少则得,多则惑",这种看似"后退"的方案,反而让技术"向前"走得更远。
-
幻觉问题正是这种折中的代价和警示——按需访问虽然让Transformer变得强大且可行,但也可能导致模型在需要时调用错误的信息。这提醒我们:万物皆有所待,没有完美的技术,只有在不同约束下的折中选择。
对未来的哲学启示:
也许,未来的AI技术演进,不是追求更完美的理解,而是寻找更好的折中——在"按需访问"和"准确性"之间找到更精妙的平衡。正如庄子所言"万物皆有所待",我们需要接受技术的局限性,并在这种局限性中寻找最优解。
也许,"按需访问"而不是"完全理解",才是智能的本质——这不仅符合Transformer的设计,也符合人脑的工作方式。万物皆有所待,智能也是如此。
延伸阅读
必读资源
- 原始论文:Transformer (2017)、GPT-1/2/3、BERT、Scaling Laws
- 博客和教程:The Illustrated Transformer (Jay Alammar)、The Annotated Transformer (Harvard NLP)
- 相关历史文章:The Bitter Lesson (Rich Sutton)
结语:大语言模型的发展就像打怪升级:每解决一个Boss(问题),就会遇到新的Boss(新问题)。但好消息是,每个新Boss都比上一个弱一点(因为我们越来越强),直到现在我们站在GPT-4的肩膀上,还在琢磨:这玩意儿到底怎么工作的?
理解这段历史不仅有助于理解现在(知道我们是怎么走到这里的),也有助于预测未来(知道我们可能会遇到什么问题)。就像看历史书一样,虽然不能完全预测未来,但至少知道历史会重复。

浙公网安备 33010602011771号