大模型基础:从 Transformer 到 GPT

大模型基础:从 Transformer 到 GPT

AI 核心技能系列 · 第 1 篇


导语

"大模型是怎么工作的?"

这个问题你迟早会被问到——面试的时候、和同事讨论方案的时候、或者你自己调了半天 Prompt 没效果开始怀疑人生的时候。

很多人觉得"我又不训练模型,懂原理有什么用?"——这话放在三年前没问题,但现在不行了。2026 年的 AI 应用开发,你不理解模型的工作原理,就不知道为什么你的 Prompt 不生效、为什么 RAG 检索到了但回答还是不对、为什么有些任务适合 Fine-tuning 而有些不适合。

不是为了造轮子,而是为了更好地用轮子。

这篇文章帮你建立对大模型的"技术直觉"——不堆公式,用类比和图解,让你搞清楚 Transformer 到底在干什么,GPT 是怎么从它发展来的,以及现在市面上那么多模型该怎么选。


一、大模型到底是什么

1.1 一句话定义

大模型(Large Language Model, LLM)的本质就一件事:预测下一个 Token

你给它一句话 "今天天气真",它算出下一个最可能的 Token 是 "好",概率 0.72;"不错" 0.15;"热" 0.08……然后从中采样一个输出。

就这么简单。ChatGPT 能写文章、能编代码、能翻译、能推理,底层都是在一个 Token 一个 Token 地往外蹦。

1.2 从"统计"到"神经网络"

语言模型不是 2022 年冒出来的,它有 70 年的历史:

1950s  统计语言模型(N-gram)
       ↓ "根据前 N 个词预测下一个词",简单但粗糙
2003   神经网络语言模型(Bengio)
       ↓  用神经网络学习词的分布式表示
2013   Word2Vec(Mikolov)
       ↓  词向量爆火,NLP 进入预训练时代
2017   Transformer(Vaswani et al.)
       ↓  彻底改变游戏规则
2018   GPT-1 / BERT
       ↓  预训练 + 微调范式确立
2020   GPT-3(175B 参数)
       ↓  涌现能力出现,In-Context Learning
2022   ChatGPT
       ↓  RLHF 对齐,LLM 走入大众视野
2023-2026  GPT-4/5、Claude、Gemini、Llama、DeepSeek...

关键转折点是 2017 年的 Transformer——在它之前,NLP 的主流架构是 RNN/LSTM,处理序列得一个词一个词地来,又慢又容易"遗忘"。Transformer 用注意力机制(Attention)实现了并行处理,训练效率暴增,才有了后来百亿、千亿参数模型的可能。

1.3 参数量级的跃升

模型 年份 参数量 类比
GPT-1 2018 1.17 亿 一个小学生
GPT-2 2019 15 亿 一个中学生
GPT-3 2020 1750 亿 一个博士生
GPT-4 2023 ~1.8 万亿(传闻 MoE) 一个研究院
Llama 4 2025 4000 亿+ 开源的研究院

参数量不是唯一指标(DeepSeek V3 用 6710 亿参数做出了接近 GPT-4 的效果),但它决定了模型的"容量上限"——能存储多少知识、处理多复杂的推理。


二、Transformer 架构:改变一切的论文

2017 年,Google 的一篇论文《Attention Is All You Need》彻底改变了 NLP 的格局。论文标题就是核心思想——注意力就是你所需要的一切

2.1 Self-Attention 机制:直觉理解

先忘掉数学公式,用一个类比理解 Self-Attention:

想象你在一个派对上听一个人讲故事。故事很长,你不可能记住每一个字。你的大脑会自动做一件事:根据当前在听的内容,决定之前哪些信息是重要的

比如说到"他打开了那个盒子",你的大脑会自动回去找"盒子"第一次被提到的地方——"昨天他收到了一个神秘的盒子"——然后把这两处信息关联起来。

Self-Attention 做的就是同样的事:对于序列中的每一个 Token,它会"回头看"所有其他 Token,计算"我该关注谁"——这个关注程度用一个数值(注意力权重)表示。

形式上,Self-Attention 的计算可以概括为三步:

  1. Query(查询):当前 Token 想找什么信息?
  2. Key(键):其他每个 Token 有什么信息?
  3. Value(值):找到匹配后,实际取出什么内容?

用公式表示:

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) \cdot V \]

其中 \(\frac{QK^T}{\sqrt{d_k}}\) 计算的是每对 Token 之间的"相关性分数",\(\text{softmax}\) 把分数归一化成概率分布,最后乘以 \(V\) 得到加权结果。\(\sqrt{d_k}\) 是一个缩放因子,防止分数太大导致 softmax 梯度消失。

直觉总结:Self-Attention 让模型在处理每一个词的时候,都能"看到"整个句子,并且自动决定关注哪些部分。这就是为什么 Transformer 能理解长距离依赖——"The cat sat on the mat because it was tired" 中的 "it" 指代 "cat",Self-Attention 可以直接建立两者的关联。

2.2 Multi-Head Attention:为什么需要多个"注意力头"

一个 Attention 只能捕捉一种模式。但语言中的关系是多维的——语法关系、语义关系、指代关系、位置关系……

Multi-Head Attention 的做法是:同时运行多个 Attention,每个"头"学习不同的注意力模式,最后把结果拼接起来

\[\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_h) \cdot W^O \]

其中:

\[\text{head}_i = \text{Attention}(QW_i^Q,\; KW_i^K,\; VW_i^V) \]

比如 8 个头:

  • 头 1 可能学会了关注语法结构(主语-谓语)
  • 头 2 可能学会了关注指代关系(代词-名词)
  • 头 3 可能学会了关注邻近上下文
  • ……

每个头只需要关注一个维度的关系,组合起来就能捕获丰富的语言特征。

2.3 位置编码:模型如何理解顺序

Attention 机制有一个"缺陷"——它是排列不变的(permutation invariant),即 "猫吃鱼" 和 "鱼吃猫" 对 Attention 来说完全一样。显然这不行。

解决方案是位置编码(Positional Encoding):给每个 Token 加上一个表示位置的向量。

原始 Transformer 用的是正弦/余弦函数:

\[PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right) \]

\[PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right) \]

现在主流的是旋转位置编码(RoPE),被 Llama、Qwen 等模型广泛采用,它通过旋转变换将位置信息编码到 Attention 的计算中,支持更好的外推性(处理训练时没见过的更长序列)。

2.4 Encoder-Decoder vs Decoder-Only

原始 Transformer 是 Encoder-Decoder 结构:

┌─────────────────────────────────────────────────┐
│              Transformer 架构                     │
│                                                   │
│  ┌──────────────┐          ┌──────────────┐      │
│  │   Encoder     │          │   Decoder     │      │
│  │              │          │              │      │
│  │  Self-Attn   │ ──────→  │  Masked       │      │
│  │  + FFN       │ (交叉注意力) │  Self-Attn   │      │
│  │  × N 层      │          │  + Cross-Attn │      │
│  │              │          │  + FFN        │      │
│  │              │          │  × N 层       │      │
│  └──────────────┘          └──────────────┘      │
│       ↑                         ↓                 │
│     输入序列                  输出序列              │
│  "I love AI"              "我喜欢人工智能"         │
└─────────────────────────────────────────────────┘
  • Encoder:理解输入(双向注意力,能同时看左右)
  • Decoder:生成输出(单向注意力,只能看左边已生成的内容)

但现在主流大模型几乎都用 Decoder-Only 架构——去掉 Encoder,只保留 Decoder。为什么?

  1. 统一性:一切任务都变成"生成下一个 Token",足够通用
  2. 规模优势:架构更简单,参数全集中在一个模块,Scaling 更高效
  3. In-Context Learning:Decoder-Only 更适合少样本学习
架构 代表模型 特点
Encoder-Only BERT, RoBERTa 擅长理解,不擅长生成
Encoder-Decoder T5, BART 翻译、摘要等 seq2seq 任务
Decoder-Only GPT, Claude, Llama 当前主流,统一生成范式

2.5 完整的 Transformer Block

一个标准的 Transformer Decoder Block 长这样:

输入 Token Embedding + 位置编码
        │
        ▼
┌─────────────────────────┐
│  Masked Self-Attention   │ ← 只能看到左边的 Token
│  + 残差连接 + LayerNorm   │
└───────────┬─────────────┘
            │
            ▼
┌─────────────────────────┐
│  Feed-Forward Network    │ ← 两层全连接,中间 ReLU/GELU
│  + 残差连接 + LayerNorm   │
└───────────┬─────────────┘
            │
            ▼
        输出表示

这个 Block 堆叠 N 次(GPT-3 是 96 层),每一层都在提取更高层次的语义特征。最后通过一个线性层 + softmax 输出下一个 Token 的概率分布。


三、从 Transformer 到 GPT 家族

3.1 GPT 的核心创新

GPT(Generative Pre-trained Transformer)的核心创新不在架构本身,而在训练范式

  1. 预训练:用海量无标注文本做 Next Token Prediction,学习通用语言能力
  2. 微调:用少量标注数据在特定任务上微调

这个"预训练 + 微调"的范式,后来成了整个 NLP 领域的标准套路。

3.2 GPT 家族演进

GPT-1 (2018.06)  ─── 1.17 亿参数
│                     证明了预训练+微调的有效性
│
GPT-2 (2019.02)  ─── 15 亿参数
│                     Zero-shot 能力初现,"太危险不敢发布"
│
GPT-3 (2020.05)  ─── 1750 亿参数  ★ 关键里程碑
│                     In-Context Learning 涌现
│                     Few-shot 效果惊人,不需要微调
│
ChatGPT (2022.11) ── GPT-3.5 + RLHF
│                     对齐人类偏好,走入大众视野
│
GPT-4 (2023.03)  ─── 多模态,MoE 架构(传闻)
│                     推理能力质的飞跃
│
GPT-4o (2024.05) ─── 原生多模态
│                     文字/图像/语音统一处理
│
GPT-5/5.3 (2025-2026) ── 参与自身训练的 Codex
                          AI 协助训练 AI 的新纪元

3.3 关键里程碑:In-Context Learning 的涌现

GPT-3 发现了一个令人震惊的现象:当模型规模足够大时,不需要微调,只需要在 Prompt 中给几个例子,模型就能学会新任务。

# Few-shot:在 Prompt 里给 2 个例子,模型就学会了翻译
Prompt:
  English: Hello → Chinese: 你好
  English: Thank you → Chinese: 谢谢
  English: How are you → Chinese:

模型输出: 你怎么样 / 你好吗

这种能力被称为 In-Context Learning(上下文学习),它是 Prompt Engineering 的理论基础——也是大模型从"预训练 + 微调"走向"预训练 + Prompting"的关键转折点。

为什么会涌现?目前主流解释是:

  • 模型在预训练阶段隐式地学到了"学习如何学习"的能力
  • 大量训练数据中本身就包含了"给例子 → 做任务"的模式
  • 这种能力随模型规模的增大突然显现(涌现,emergence)

四、主流大模型全景对比

2026 年,大模型格局可以用"两超多强"概括:OpenAI 和 Anthropic 领跑,Google、Meta、DeepSeek 紧随其后。

4.1 主流模型横向对比

模型 厂商 参数量 上下文窗口 开源 主要优势 典型定价(输入/输出)
GPT-5.3 OpenAI 未公开 256K 综合最强、Codex 能力 $10/$30 per 1M tokens
GPT-4o OpenAI 未公开 128K 原生多模态、性价比高 $2.5/$10 per 1M tokens
o3 OpenAI 未公开 200K 推理能力极强 $10/$40 per 1M tokens
Claude Opus 4.6 Anthropic 未公开 1M 超长上下文、代码能力强 $15/$75 per 1M tokens
Claude Sonnet 4 Anthropic 未公开 200K 性价比之王 $3/$15 per 1M tokens
Gemini 2.5 Pro Google 未公开 1M+ 超长上下文、多模态 $3.5/$10.5 per 1M tokens
Gemini 2.5 Flash Google 未公开 1M 速度快、成本低 $0.15/$0.6 per 1M tokens
Llama 4 Maverick Meta 400B+ 1M 开源最强、MoE 架构 自部署
DeepSeek V3 DeepSeek 671B MoE 128K 性价比极高、开源 $0.27/$1.10 per 1M tokens
DeepSeek R1 DeepSeek 671B MoE 128K 推理能力强 $0.55/$2.19 per 1M tokens
Qwen 2.5 阿里巴巴 72B 128K 中文优秀、版本多 自部署/API

注:定价为 2026 年初数据,各厂商调价频繁,请以官方最新报价为准。

4.2 开源 vs 闭源

┌──────────────────────────────────────────────────┐
│               模型选择光谱                         │
│                                                    │
│  闭源API                    开源自部署              │
│  ◄────────────────────────────────────────►        │
│                                                    │
│  GPT-5  Claude  Gemini    DeepSeek  Llama  Qwen   │
│                                                    │
│  ✅ 即开即用              ✅ 数据隐私               │
│  ✅ 持续更新              ✅ 完全可控               │
│  ✅ 无需运维              ✅ 可定制/微调             │
│  ❌ 数据出境              ❌ 需要 GPU 资源          │
│  ❌ 供应商锁定            ❌ 需要运维能力            │
│  ❌ 成本随调用量线性增长   ❌ 需要持续跟进社区        │
└──────────────────────────────────────────────────┘

五、模型选型指南:什么场景用什么模型

5.1 选型决策框架

选模型不是选"最好的",而是选"最合适的"。核心权衡四个维度:

                    性能
                     │
                     │
       成本 ─────────┼───────── 隐私
                     │
                     │
                    延迟

5.2 常见场景推荐

场景 推荐模型 理由
日常对话/写作 GPT-4o / Claude Sonnet 4 性价比高,响应快
复杂代码生成 Claude Opus 4.6 / GPT-5.3 Codex 长上下文 + 强代码能力
复杂推理/数学 o3 / DeepSeek R1 专为推理优化
企业私有化部署 Llama 4 / DeepSeek V3 / Qwen 2.5 开源可控,数据不出境
成本敏感的大批量处理 DeepSeek V3 / Gemini Flash 价格极低
超长文档处理 Gemini 2.5 Pro / Claude Opus 4.6 百万级上下文
多模态(图片/语音) GPT-4o / Gemini 2.5 Pro 原生多模态能力
中文场景 DeepSeek / Qwen / GLM 中文训练数据充足

5.3 模型选型决策树

你的需求是什么?
│
├── 数据不能出境?
│   ├── 是 → 开源模型自部署(Llama 4 / DeepSeek V3 / Qwen)
│   │        ├── 有 GPU 资源? → 自建推理服务
│   │        └── 没有? → 国内云厂商托管服务
│   └── 否 → 继续 ↓
│
├── 需要最强性能?
│   ├── 是 → GPT-5.3 / Claude Opus 4.6 / o3
│   └── 否 → 继续 ↓
│
├── 预算有限?
│   ├── 是 → DeepSeek V3 API / Gemini Flash
│   └── 否 → 继续 ↓
│
└── 综合考虑 → Claude Sonnet 4 / GPT-4o(均衡之选)

六、职业视角:这些知识怎么用

6.1 面试高频问题

问题 考察点 核心答案要点
Transformer 的核心创新是什么? 基础理解 Self-Attention 替代 RNN,实现并行处理 + 长距离依赖建模
Attention 机制怎么工作? 技术深度 Q/K/V 三步:计算相关性 → 归一化 → 加权求和
为什么现在的模型都用 Decoder-Only? 架构理解 统一生成范式 + Scaling 效率 + ICL 能力
GPT 和 BERT 有什么区别? 技术广度 自回归 vs 双向,生成 vs 理解,Decoder vs Encoder
什么是 In-Context Learning? 前沿认知 大模型不需要微调,通过 Prompt 中的示例学习新任务
怎么选择合适的模型? 实战能力 四维权衡:性能、成本、延迟、隐私

6.2 工作中的实际价值

  • Prompt 调优:理解 Attention 机制,你就知道为什么"把重要信息放在 Prompt 开头或结尾"效果更好——因为注意力分布不均匀
  • Debug 模型输出:理解自回归生成,你就知道模型为什么会"一本正经地胡说八道"——它只是在预测最可能的下一个 Token,不是在"思考"
  • 方案选型:理解模型的能力边界,才能在 Prompt、RAG、Fine-tuning 之间做出正确的选择

6.3 推荐学习资源

资源 类型 适合人群
3Blue1Brown《But what is a GPT?》 视频 零基础,直觉理解
Jay Alammar《The Illustrated Transformer》 博客 有基础,图解深入
Andrej Karpathy《Let's build GPT》 视频+代码 想动手实现的
《Attention Is All You Need》原论文 论文 想看原始推导的
Hugging Face NLP Course 课程 想系统学习+实战的

总结

这篇文章帮你建立了大模型的全局认知:

  1. 本质:大模型的核心就是 Next Token Prediction——预测下一个 Token
  2. 架构:Transformer 通过 Self-Attention 实现了并行处理和长距离依赖建模,Multi-Head Attention 捕捉多维度语言关系
  3. 演进:从 GPT-1 的 1 亿参数到 GPT-5 的万亿级,In-Context Learning 等能力随规模涌现
  4. 格局:闭源(GPT/Claude/Gemini)和开源(Llama/DeepSeek/Qwen)两条路线并行发展
  5. 选型:没有最好的模型,只有最合适的——根据性能、成本、延迟、隐私四维权衡

理解了这些,你就有了进入 AI 领域的"底层操作系统"。接下来的每一篇文章——无论是 Prompt Engineering、RAG 还是 Fine-tuning——都建立在这个基础之上。


本文是 AI 核心技能系列 第 1 篇,共 12 篇。下一篇:大模型训练全景:预训练与后训练

关注公众号「coft」,获取完整系列更新、配套代码和学习路线图。一起交流 AI 转行经验,助力职业跃升,迈向高薪岗位。

posted @ 2026-02-27 14:38  warm3snow  阅读(22)  评论(0)    收藏  举报