大模型基础:从 Transformer 到 GPT
大模型基础:从 Transformer 到 GPT
AI 核心技能系列 · 第 1 篇
导语
"大模型是怎么工作的?"
这个问题你迟早会被问到——面试的时候、和同事讨论方案的时候、或者你自己调了半天 Prompt 没效果开始怀疑人生的时候。
很多人觉得"我又不训练模型,懂原理有什么用?"——这话放在三年前没问题,但现在不行了。2026 年的 AI 应用开发,你不理解模型的工作原理,就不知道为什么你的 Prompt 不生效、为什么 RAG 检索到了但回答还是不对、为什么有些任务适合 Fine-tuning 而有些不适合。
不是为了造轮子,而是为了更好地用轮子。
这篇文章帮你建立对大模型的"技术直觉"——不堆公式,用类比和图解,让你搞清楚 Transformer 到底在干什么,GPT 是怎么从它发展来的,以及现在市面上那么多模型该怎么选。
一、大模型到底是什么
1.1 一句话定义
大模型(Large Language Model, LLM)的本质就一件事:预测下一个 Token。
你给它一句话 "今天天气真",它算出下一个最可能的 Token 是 "好",概率 0.72;"不错" 0.15;"热" 0.08……然后从中采样一个输出。
就这么简单。ChatGPT 能写文章、能编代码、能翻译、能推理,底层都是在一个 Token 一个 Token 地往外蹦。
1.2 从"统计"到"神经网络"
语言模型不是 2022 年冒出来的,它有 70 年的历史:
1950s 统计语言模型(N-gram)
↓ "根据前 N 个词预测下一个词",简单但粗糙
2003 神经网络语言模型(Bengio)
↓ 用神经网络学习词的分布式表示
2013 Word2Vec(Mikolov)
↓ 词向量爆火,NLP 进入预训练时代
2017 Transformer(Vaswani et al.)
↓ 彻底改变游戏规则
2018 GPT-1 / BERT
↓ 预训练 + 微调范式确立
2020 GPT-3(175B 参数)
↓ 涌现能力出现,In-Context Learning
2022 ChatGPT
↓ RLHF 对齐,LLM 走入大众视野
2023-2026 GPT-4/5、Claude、Gemini、Llama、DeepSeek...
关键转折点是 2017 年的 Transformer——在它之前,NLP 的主流架构是 RNN/LSTM,处理序列得一个词一个词地来,又慢又容易"遗忘"。Transformer 用注意力机制(Attention)实现了并行处理,训练效率暴增,才有了后来百亿、千亿参数模型的可能。
1.3 参数量级的跃升
| 模型 | 年份 | 参数量 | 类比 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17 亿 | 一个小学生 |
| GPT-2 | 2019 | 15 亿 | 一个中学生 |
| GPT-3 | 2020 | 1750 亿 | 一个博士生 |
| GPT-4 | 2023 | ~1.8 万亿(传闻 MoE) | 一个研究院 |
| Llama 4 | 2025 | 4000 亿+ | 开源的研究院 |
参数量不是唯一指标(DeepSeek V3 用 6710 亿参数做出了接近 GPT-4 的效果),但它决定了模型的"容量上限"——能存储多少知识、处理多复杂的推理。
二、Transformer 架构:改变一切的论文
2017 年,Google 的一篇论文《Attention Is All You Need》彻底改变了 NLP 的格局。论文标题就是核心思想——注意力就是你所需要的一切。
2.1 Self-Attention 机制:直觉理解
先忘掉数学公式,用一个类比理解 Self-Attention:
想象你在一个派对上听一个人讲故事。故事很长,你不可能记住每一个字。你的大脑会自动做一件事:根据当前在听的内容,决定之前哪些信息是重要的。
比如说到"他打开了那个盒子",你的大脑会自动回去找"盒子"第一次被提到的地方——"昨天他收到了一个神秘的盒子"——然后把这两处信息关联起来。
Self-Attention 做的就是同样的事:对于序列中的每一个 Token,它会"回头看"所有其他 Token,计算"我该关注谁"——这个关注程度用一个数值(注意力权重)表示。
形式上,Self-Attention 的计算可以概括为三步:
- Query(查询):当前 Token 想找什么信息?
- Key(键):其他每个 Token 有什么信息?
- Value(值):找到匹配后,实际取出什么内容?
用公式表示:
其中 \(\frac{QK^T}{\sqrt{d_k}}\) 计算的是每对 Token 之间的"相关性分数",\(\text{softmax}\) 把分数归一化成概率分布,最后乘以 \(V\) 得到加权结果。\(\sqrt{d_k}\) 是一个缩放因子,防止分数太大导致 softmax 梯度消失。
直觉总结:Self-Attention 让模型在处理每一个词的时候,都能"看到"整个句子,并且自动决定关注哪些部分。这就是为什么 Transformer 能理解长距离依赖——"The cat sat on the mat because it was tired" 中的 "it" 指代 "cat",Self-Attention 可以直接建立两者的关联。
2.2 Multi-Head Attention:为什么需要多个"注意力头"
一个 Attention 只能捕捉一种模式。但语言中的关系是多维的——语法关系、语义关系、指代关系、位置关系……
Multi-Head Attention 的做法是:同时运行多个 Attention,每个"头"学习不同的注意力模式,最后把结果拼接起来。
其中:
比如 8 个头:
- 头 1 可能学会了关注语法结构(主语-谓语)
- 头 2 可能学会了关注指代关系(代词-名词)
- 头 3 可能学会了关注邻近上下文
- ……
每个头只需要关注一个维度的关系,组合起来就能捕获丰富的语言特征。
2.3 位置编码:模型如何理解顺序
Attention 机制有一个"缺陷"——它是排列不变的(permutation invariant),即 "猫吃鱼" 和 "鱼吃猫" 对 Attention 来说完全一样。显然这不行。
解决方案是位置编码(Positional Encoding):给每个 Token 加上一个表示位置的向量。
原始 Transformer 用的是正弦/余弦函数:
现在主流的是旋转位置编码(RoPE),被 Llama、Qwen 等模型广泛采用,它通过旋转变换将位置信息编码到 Attention 的计算中,支持更好的外推性(处理训练时没见过的更长序列)。
2.4 Encoder-Decoder vs Decoder-Only
原始 Transformer 是 Encoder-Decoder 结构:
┌─────────────────────────────────────────────────┐
│ Transformer 架构 │
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ Encoder │ │ Decoder │ │
│ │ │ │ │ │
│ │ Self-Attn │ ──────→ │ Masked │ │
│ │ + FFN │ (交叉注意力) │ Self-Attn │ │
│ │ × N 层 │ │ + Cross-Attn │ │
│ │ │ │ + FFN │ │
│ │ │ │ × N 层 │ │
│ └──────────────┘ └──────────────┘ │
│ ↑ ↓ │
│ 输入序列 输出序列 │
│ "I love AI" "我喜欢人工智能" │
└─────────────────────────────────────────────────┘
- Encoder:理解输入(双向注意力,能同时看左右)
- Decoder:生成输出(单向注意力,只能看左边已生成的内容)
但现在主流大模型几乎都用 Decoder-Only 架构——去掉 Encoder,只保留 Decoder。为什么?
- 统一性:一切任务都变成"生成下一个 Token",足够通用
- 规模优势:架构更简单,参数全集中在一个模块,Scaling 更高效
- In-Context Learning:Decoder-Only 更适合少样本学习
| 架构 | 代表模型 | 特点 |
|---|---|---|
| Encoder-Only | BERT, RoBERTa | 擅长理解,不擅长生成 |
| Encoder-Decoder | T5, BART | 翻译、摘要等 seq2seq 任务 |
| Decoder-Only | GPT, Claude, Llama | 当前主流,统一生成范式 |
2.5 完整的 Transformer Block
一个标准的 Transformer Decoder Block 长这样:
输入 Token Embedding + 位置编码
│
▼
┌─────────────────────────┐
│ Masked Self-Attention │ ← 只能看到左边的 Token
│ + 残差连接 + LayerNorm │
└───────────┬─────────────┘
│
▼
┌─────────────────────────┐
│ Feed-Forward Network │ ← 两层全连接,中间 ReLU/GELU
│ + 残差连接 + LayerNorm │
└───────────┬─────────────┘
│
▼
输出表示
这个 Block 堆叠 N 次(GPT-3 是 96 层),每一层都在提取更高层次的语义特征。最后通过一个线性层 + softmax 输出下一个 Token 的概率分布。
三、从 Transformer 到 GPT 家族
3.1 GPT 的核心创新
GPT(Generative Pre-trained Transformer)的核心创新不在架构本身,而在训练范式:
- 预训练:用海量无标注文本做 Next Token Prediction,学习通用语言能力
- 微调:用少量标注数据在特定任务上微调
这个"预训练 + 微调"的范式,后来成了整个 NLP 领域的标准套路。
3.2 GPT 家族演进
GPT-1 (2018.06) ─── 1.17 亿参数
│ 证明了预训练+微调的有效性
│
GPT-2 (2019.02) ─── 15 亿参数
│ Zero-shot 能力初现,"太危险不敢发布"
│
GPT-3 (2020.05) ─── 1750 亿参数 ★ 关键里程碑
│ In-Context Learning 涌现
│ Few-shot 效果惊人,不需要微调
│
ChatGPT (2022.11) ── GPT-3.5 + RLHF
│ 对齐人类偏好,走入大众视野
│
GPT-4 (2023.03) ─── 多模态,MoE 架构(传闻)
│ 推理能力质的飞跃
│
GPT-4o (2024.05) ─── 原生多模态
│ 文字/图像/语音统一处理
│
GPT-5/5.3 (2025-2026) ── 参与自身训练的 Codex
AI 协助训练 AI 的新纪元
3.3 关键里程碑:In-Context Learning 的涌现
GPT-3 发现了一个令人震惊的现象:当模型规模足够大时,不需要微调,只需要在 Prompt 中给几个例子,模型就能学会新任务。
# Few-shot:在 Prompt 里给 2 个例子,模型就学会了翻译
Prompt:
English: Hello → Chinese: 你好
English: Thank you → Chinese: 谢谢
English: How are you → Chinese:
模型输出: 你怎么样 / 你好吗
这种能力被称为 In-Context Learning(上下文学习),它是 Prompt Engineering 的理论基础——也是大模型从"预训练 + 微调"走向"预训练 + Prompting"的关键转折点。
为什么会涌现?目前主流解释是:
- 模型在预训练阶段隐式地学到了"学习如何学习"的能力
- 大量训练数据中本身就包含了"给例子 → 做任务"的模式
- 这种能力随模型规模的增大突然显现(涌现,emergence)
四、主流大模型全景对比
2026 年,大模型格局可以用"两超多强"概括:OpenAI 和 Anthropic 领跑,Google、Meta、DeepSeek 紧随其后。
4.1 主流模型横向对比
| 模型 | 厂商 | 参数量 | 上下文窗口 | 开源 | 主要优势 | 典型定价(输入/输出) |
|---|---|---|---|---|---|---|
| GPT-5.3 | OpenAI | 未公开 | 256K | 否 | 综合最强、Codex 能力 | $10/$30 per 1M tokens |
| GPT-4o | OpenAI | 未公开 | 128K | 否 | 原生多模态、性价比高 | $2.5/$10 per 1M tokens |
| o3 | OpenAI | 未公开 | 200K | 否 | 推理能力极强 | $10/$40 per 1M tokens |
| Claude Opus 4.6 | Anthropic | 未公开 | 1M | 否 | 超长上下文、代码能力强 | $15/$75 per 1M tokens |
| Claude Sonnet 4 | Anthropic | 未公开 | 200K | 否 | 性价比之王 | $3/$15 per 1M tokens |
| Gemini 2.5 Pro | 未公开 | 1M+ | 否 | 超长上下文、多模态 | $3.5/$10.5 per 1M tokens | |
| Gemini 2.5 Flash | 未公开 | 1M | 否 | 速度快、成本低 | $0.15/$0.6 per 1M tokens | |
| Llama 4 Maverick | Meta | 400B+ | 1M | 是 | 开源最强、MoE 架构 | 自部署 |
| DeepSeek V3 | DeepSeek | 671B MoE | 128K | 是 | 性价比极高、开源 | $0.27/$1.10 per 1M tokens |
| DeepSeek R1 | DeepSeek | 671B MoE | 128K | 是 | 推理能力强 | $0.55/$2.19 per 1M tokens |
| Qwen 2.5 | 阿里巴巴 | 72B | 128K | 是 | 中文优秀、版本多 | 自部署/API |
注:定价为 2026 年初数据,各厂商调价频繁,请以官方最新报价为准。
4.2 开源 vs 闭源
┌──────────────────────────────────────────────────┐
│ 模型选择光谱 │
│ │
│ 闭源API 开源自部署 │
│ ◄────────────────────────────────────────► │
│ │
│ GPT-5 Claude Gemini DeepSeek Llama Qwen │
│ │
│ ✅ 即开即用 ✅ 数据隐私 │
│ ✅ 持续更新 ✅ 完全可控 │
│ ✅ 无需运维 ✅ 可定制/微调 │
│ ❌ 数据出境 ❌ 需要 GPU 资源 │
│ ❌ 供应商锁定 ❌ 需要运维能力 │
│ ❌ 成本随调用量线性增长 ❌ 需要持续跟进社区 │
└──────────────────────────────────────────────────┘
五、模型选型指南:什么场景用什么模型
5.1 选型决策框架
选模型不是选"最好的",而是选"最合适的"。核心权衡四个维度:
性能
│
│
成本 ─────────┼───────── 隐私
│
│
延迟
5.2 常见场景推荐
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常对话/写作 | GPT-4o / Claude Sonnet 4 | 性价比高,响应快 |
| 复杂代码生成 | Claude Opus 4.6 / GPT-5.3 Codex | 长上下文 + 强代码能力 |
| 复杂推理/数学 | o3 / DeepSeek R1 | 专为推理优化 |
| 企业私有化部署 | Llama 4 / DeepSeek V3 / Qwen 2.5 | 开源可控,数据不出境 |
| 成本敏感的大批量处理 | DeepSeek V3 / Gemini Flash | 价格极低 |
| 超长文档处理 | Gemini 2.5 Pro / Claude Opus 4.6 | 百万级上下文 |
| 多模态(图片/语音) | GPT-4o / Gemini 2.5 Pro | 原生多模态能力 |
| 中文场景 | DeepSeek / Qwen / GLM | 中文训练数据充足 |
5.3 模型选型决策树
你的需求是什么?
│
├── 数据不能出境?
│ ├── 是 → 开源模型自部署(Llama 4 / DeepSeek V3 / Qwen)
│ │ ├── 有 GPU 资源? → 自建推理服务
│ │ └── 没有? → 国内云厂商托管服务
│ └── 否 → 继续 ↓
│
├── 需要最强性能?
│ ├── 是 → GPT-5.3 / Claude Opus 4.6 / o3
│ └── 否 → 继续 ↓
│
├── 预算有限?
│ ├── 是 → DeepSeek V3 API / Gemini Flash
│ └── 否 → 继续 ↓
│
└── 综合考虑 → Claude Sonnet 4 / GPT-4o(均衡之选)
六、职业视角:这些知识怎么用
6.1 面试高频问题
| 问题 | 考察点 | 核心答案要点 |
|---|---|---|
| Transformer 的核心创新是什么? | 基础理解 | Self-Attention 替代 RNN,实现并行处理 + 长距离依赖建模 |
| Attention 机制怎么工作? | 技术深度 | Q/K/V 三步:计算相关性 → 归一化 → 加权求和 |
| 为什么现在的模型都用 Decoder-Only? | 架构理解 | 统一生成范式 + Scaling 效率 + ICL 能力 |
| GPT 和 BERT 有什么区别? | 技术广度 | 自回归 vs 双向,生成 vs 理解,Decoder vs Encoder |
| 什么是 In-Context Learning? | 前沿认知 | 大模型不需要微调,通过 Prompt 中的示例学习新任务 |
| 怎么选择合适的模型? | 实战能力 | 四维权衡:性能、成本、延迟、隐私 |
6.2 工作中的实际价值
- Prompt 调优:理解 Attention 机制,你就知道为什么"把重要信息放在 Prompt 开头或结尾"效果更好——因为注意力分布不均匀
- Debug 模型输出:理解自回归生成,你就知道模型为什么会"一本正经地胡说八道"——它只是在预测最可能的下一个 Token,不是在"思考"
- 方案选型:理解模型的能力边界,才能在 Prompt、RAG、Fine-tuning 之间做出正确的选择
6.3 推荐学习资源
| 资源 | 类型 | 适合人群 |
|---|---|---|
| 3Blue1Brown《But what is a GPT?》 | 视频 | 零基础,直觉理解 |
| Jay Alammar《The Illustrated Transformer》 | 博客 | 有基础,图解深入 |
| Andrej Karpathy《Let's build GPT》 | 视频+代码 | 想动手实现的 |
| 《Attention Is All You Need》原论文 | 论文 | 想看原始推导的 |
| Hugging Face NLP Course | 课程 | 想系统学习+实战的 |
总结
这篇文章帮你建立了大模型的全局认知:
- 本质:大模型的核心就是 Next Token Prediction——预测下一个 Token
- 架构:Transformer 通过 Self-Attention 实现了并行处理和长距离依赖建模,Multi-Head Attention 捕捉多维度语言关系
- 演进:从 GPT-1 的 1 亿参数到 GPT-5 的万亿级,In-Context Learning 等能力随规模涌现
- 格局:闭源(GPT/Claude/Gemini)和开源(Llama/DeepSeek/Qwen)两条路线并行发展
- 选型:没有最好的模型,只有最合适的——根据性能、成本、延迟、隐私四维权衡
理解了这些,你就有了进入 AI 领域的"底层操作系统"。接下来的每一篇文章——无论是 Prompt Engineering、RAG 还是 Fine-tuning——都建立在这个基础之上。
本文是 AI 核心技能系列 第 1 篇,共 12 篇。下一篇:大模型训练全景:预训练与后训练
关注公众号「coft」,获取完整系列更新、配套代码和学习路线图。一起交流 AI 转行经验,助力职业跃升,迈向高薪岗位。

浙公网安备 33010602011771号