Transformer
Transformer 是深度学习历史上最具革命性的架构,由 Google 团队在 2017 年的论文 《Attention Is All You Need》 中首次提出。
它是当前所有大语言模型 (LLM)(如 GPT-4, Claude, Llama, Qwen)的基石。可以说,没有 Transformer,就没有今天的生成式 AI 浪潮。
1. 核心突破:为什么它如此重要?
在 Transformer 出现之前,处理序列数据(如文本、时间序列)的主流架构是 RNN (循环神经网络) 和 LSTM。
-
RNN 的痛点:
- 串行计算:必须算完第 \(t\) 个词,才能算第 \(t+1\) 个词。无法利用 GPU 的并行计算能力,训练极慢。
- 长距离遗忘:句子太长时,开头的信息传到结尾已经消失殆尽(尽管 LSTM 有所改善,但仍未根本解决)。
-
Transformer 的革命:
- 完全并行化:抛弃了循环结构,可以一次性把整个句子的所有词输入网络,同时计算。训练速度提升了数个数量级。
- 全局视野:通过自注意力机制 (Self-Attention),句子中的任何一个词都能直接“看到”并关联到句子中的其他任何词,无论距离多远。路径长度从 \(O(N)\) 缩短为 \(O(1)\)。
一句话总结:Transformer 用“注意力”取代了“循环”,让模型既能看得全(全局依赖),又能算得快(并行计算)。
2. 核心架构:它是怎么工作的?
Transformer 采用了经典的 Encoder-Decoder (编码器 - 解码器) 结构,但现在的大模型(如 GPT 系列)通常只使用 Decoder-only 部分。
其内部主要由以下关键组件堆叠而成:
🔑 A. 自注意力机制 (Self-Attention) —— 灵魂
这是 Transformer 的心脏(前面已详细解释过)。
- 它让模型在处理每个词时,动态地计算它与句中所有其他词的相关性权重。
- 作用:解决“指代消歧”(它指谁?)和“长距离依赖”问题。
🍞 B. 位置编码 (Positional Encoding) —— 秩序
- 问题:因为 Transformer 是并行处理的,它本身不知道词的顺序(“猫吃鱼”和“鱼吃猫”对它来说是一堆乱序的词袋)。
- 解决:给每个词的位置加上一个独特的向量(正弦/余弦函数或可学习参数),告诉模型“我是第几个词”。
- 作用:注入序列的顺序信息。
🍽️ C. 前馈神经网络 (Feed-Forward Network, FFN) —— 消化
- 在注意力层之后,每个位置的向量会独立通过一个两层的全连接神经网络。
- 作用:对提取的特征进行非线性变换和深层加工,增加模型的表达能力。
🛡️ D. 残差连接 (Residual Connection) & 层归一化 (Layer Norm) —— 稳定
- 残差连接:\(Output = Input + SubLayer(Input)\)。让信息可以直接流向深层,防止梯度消失,使得训练上百层的网络成为可能。
- 层归一化:将数据分布标准化,加速收敛,提高训练稳定性。
3. 三大变体家族
根据任务需求,Transformer 演化出了三种主要架构:
| 架构类型 | 代表模型 | 特点 | 适用场景 |
|---|---|---|---|
| Encoder-only(仅编码器) | BERT, RoBERTa | 双向关注:每个词都能看到左右两边的所有词。擅长理解上下文语义。 | 文本分类、情感分析、命名实体识别、搜索检索。 |
| Decoder-only(仅解码器) | GPT 系列, Llama, Qwen, Claude | 单向掩码 (Causal Mask):每个词只能看到之前的词,不能看未来。擅长生成下一个词。 | 大语言模型 (LLM)、文本生成、代码生成、对话机器人。 |
| Encoder-Decoder(编解码器) | T5, BART, 原始 Transformer | 编码器理解输入,解码器基于编码结果生成输出。兼顾理解与生成。 | 机器翻译、文本摘要、问答系统。 |
注:目前最火的 LLM (大语言模型) 几乎清一色采用 Decoder-only 架构,因为它们在“预测下一个 Token”的任务上表现最出色,且扩展性最好。
4. Transformer 的成功公式
Transformer 之所以能统治 AI 界,是因为它完美契合了缩放定律 (Scaling Laws):
- 并行性让它能吃下海量数据(互联网文本)。
- 架构简洁让它能轻松堆叠到几百甚至上千层(千亿/万亿参数)。
- 注意力机制让它能从海量数据中提取出复杂的逻辑和世界知识。
只要给更多的数据和算力,Transformer 的性能就会持续线性提升,甚至产生涌现能力 (Emergent Abilities)(如突然学会了推理、编程)。
5. 局限与挑战
尽管强大,Transformer 也不是完美的:
- 计算复杂度 quadratic (\(O(N^2)\)):
- 注意力机制需要计算每两个词之间的关系。如果序列长度翻倍,计算量变成 4 倍。
- 后果:处理超长文本(如整本书、长视频)时,显存和算力消耗巨大。
- 改进:稀疏注意力 (Sparse Attention)、线性注意力 (Linear Attention, 如 Mamba/SSM)、滑动窗口注意力。
- 缺乏真正的推理规划:
- 标准的 Transformer 仍然是基于概率预测下一个词,对于需要多步逻辑推理的任务,有时会“胡言乱语”。
- 改进:思维链 (CoT)、测试时计算 (Test-time Compute, 如 o1 模型)。
- 固定上下文窗口:
- 虽然技术在进步(如 Gemini 1.5 的 1M+ 上下文),但理论上仍受限于显存。
6. 总结
Transformer 是 AI 领域的“iPhone 时刻”。
- 它终结了 RNN/CNN 在 NLP 领域的统治。
- 它开启了预训练 + 微调的大模型时代。
- 它证明了“注意力机制”足以构建最强大的智能系统。
今天,Transformer 不仅用于文本,还被修改用于图像 (ViT)、视频 (Sora)、音频甚至蛋白质折叠 (AlphaFold)。它是当前人工智能基础设施的绝对核心。理解 Transformer,就是理解现代 AI 的底层逻辑。
浙公网安备 33010602011771号