大模型基础：从 Transformer 到 GPT

AI 核心技能系列 · 第 1 篇

导语

"大模型是怎么工作的？"

这个问题你迟早会被问到——面试的时候、和同事讨论方案的时候、或者你自己调了半天 Prompt 没效果开始怀疑人生的时候。

很多人觉得"我又不训练模型，懂原理有什么用？"——这话放在三年前没问题，但现在不行了。2026 年的 AI 应用开发，你不理解模型的工作原理，就不知道为什么你的 Prompt 不生效、为什么 RAG 检索到了但回答还是不对、为什么有些任务适合 Fine-tuning 而有些不适合。

不是为了造轮子，而是为了更好地用轮子。

这篇文章帮你建立对大模型的"技术直觉"——不堆公式，用类比和图解，让你搞清楚 Transformer 到底在干什么，GPT 是怎么从它发展来的，以及现在市面上那么多模型该怎么选。

一、大模型到底是什么

1.1 一句话定义

大模型（Large Language Model, LLM）的本质就一件事：预测下一个 Token。

你给它一句话 "今天天气真"，它算出下一个最可能的 Token 是 "好"，概率 0.72；"不错" 0.15；"热" 0.08……然后从中采样一个输出。

就这么简单。ChatGPT 能写文章、能编代码、能翻译、能推理，底层都是在一个 Token 一个 Token 地往外蹦。

1.2 从"统计"到"神经网络"

语言模型不是 2022 年冒出来的，它有 70 年的历史：

1950s  统计语言模型（N-gram）
       ↓ "根据前 N 个词预测下一个词"，简单但粗糙
2003   神经网络语言模型（Bengio）
       ↓  用神经网络学习词的分布式表示
2013   Word2Vec（Mikolov）
       ↓  词向量爆火，NLP 进入预训练时代
2017   Transformer（Vaswani et al.）
       ↓  彻底改变游戏规则
2018   GPT-1 / BERT
       ↓  预训练 + 微调范式确立
2020   GPT-3（175B 参数）
       ↓  涌现能力出现，In-Context Learning
2022   ChatGPT
       ↓  RLHF 对齐，LLM 走入大众视野
2023-2026  GPT-4/5、Claude、Gemini、Llama、DeepSeek...

关键转折点是 2017 年的 Transformer——在它之前，NLP 的主流架构是 RNN/LSTM，处理序列得一个词一个词地来，又慢又容易"遗忘"。Transformer 用注意力机制（Attention）实现了并行处理，训练效率暴增，才有了后来百亿、千亿参数模型的可能。

1.3 参数量级的跃升

模型	年份	参数量	类比
GPT-1	2018	1.17 亿	一个小学生
GPT-2	2019	15 亿	一个中学生
GPT-3	2020	1750 亿	一个博士生
GPT-4	2023	~1.8 万亿（传闻 MoE）	一个研究院
Llama 4	2025	4000 亿+	开源的研究院

参数量不是唯一指标（DeepSeek V3 用 6710 亿参数做出了接近 GPT-4 的效果），但它决定了模型的"容量上限"——能存储多少知识、处理多复杂的推理。

二、Transformer 架构：改变一切的论文

2017 年，Google 的一篇论文《Attention Is All You Need》彻底改变了 NLP 的格局。论文标题就是核心思想——注意力就是你所需要的一切。

2.1 Self-Attention 机制：直觉理解

先忘掉数学公式，用一个类比理解 Self-Attention：

想象你在一个派对上听一个人讲故事。故事很长，你不可能记住每一个字。你的大脑会自动做一件事：根据当前在听的内容，决定之前哪些信息是重要的。

比如说到"他打开了那个盒子"，你的大脑会自动回去找"盒子"第一次被提到的地方——"昨天他收到了一个神秘的盒子"——然后把这两处信息关联起来。

Self-Attention 做的就是同样的事：对于序列中的每一个 Token，它会"回头看"所有其他 Token，计算"我该关注谁"——这个关注程度用一个数值（注意力权重）表示。

形式上，Self-Attention 的计算可以概括为三步：

Query（查询）：当前 Token 想找什么信息？
Key（键）：其他每个 Token 有什么信息？
Value（值）：找到匹配后，实际取出什么内容？

用公式表示：

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) \cdot V \]

其中 $\frac{QK^T}{\sqrt{d_k}}$ 计算的是每对 Token 之间的"相关性分数"，$\text{softmax}$ 把分数归一化成概率分布，最后乘以 $V$ 得到加权结果。$\sqrt{d_k}$ 是一个缩放因子，防止分数太大导致 softmax 梯度消失。

直觉总结：Self-Attention 让模型在处理每一个词的时候，都能"看到"整个句子，并且自动决定关注哪些部分。这就是为什么 Transformer 能理解长距离依赖——"The cat sat on the mat because it was tired" 中的 "it" 指代 "cat"，Self-Attention 可以直接建立两者的关联。

2.2 Multi-Head Attention：为什么需要多个"注意力头"

一个 Attention 只能捕捉一种模式。但语言中的关系是多维的——语法关系、语义关系、指代关系、位置关系……

Multi-Head Attention 的做法是：同时运行多个 Attention，每个"头"学习不同的注意力模式，最后把结果拼接起来。

\[\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_h) \cdot W^O \]

其中：

\[\text{head}_i = \text{Attention}(QW_i^Q,\; KW_i^K,\; VW_i^V) \]

比如 8 个头：

头 1 可能学会了关注语法结构（主语-谓语）
头 2 可能学会了关注指代关系（代词-名词）
头 3 可能学会了关注邻近上下文
……

每个头只需要关注一个维度的关系，组合起来就能捕获丰富的语言特征。

2.3 位置编码：模型如何理解顺序

Attention 机制有一个"缺陷"——它是排列不变的（permutation invariant），即 "猫吃鱼" 和 "鱼吃猫" 对 Attention 来说完全一样。显然这不行。

解决方案是位置编码（Positional Encoding）：给每个 Token 加上一个表示位置的向量。

原始 Transformer 用的是正弦/余弦函数：

\[PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right) \]

\[PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right) \]

现在主流的是旋转位置编码（RoPE），被 Llama、Qwen 等模型广泛采用，它通过旋转变换将位置信息编码到 Attention 的计算中，支持更好的外推性（处理训练时没见过的更长序列）。

2.4 Encoder-Decoder vs Decoder-Only

原始 Transformer 是 Encoder-Decoder 结构：

┌─────────────────────────────────────────────────┐
│              Transformer 架构                     │
│                                                   │
│  ┌──────────────┐          ┌──────────────┐      │
│  │   Encoder     │          │   Decoder     │      │
│  │              │          │              │      │
│  │  Self-Attn   │ ──────→  │  Masked       │      │
│  │  + FFN       │ (交叉注意力) │  Self-Attn   │      │
│  │  × N 层      │          │  + Cross-Attn │      │
│  │              │          │  + FFN        │      │
│  │              │          │  × N 层       │      │
│  └──────────────┘          └──────────────┘      │
│       ↑                         ↓                 │
│     输入序列                  输出序列              │
│  "I love AI"              "我喜欢人工智能"         │
└─────────────────────────────────────────────────┘

Encoder：理解输入（双向注意力，能同时看左右）
Decoder：生成输出（单向注意力，只能看左边已生成的内容）

但现在主流大模型几乎都用 Decoder-Only 架构——去掉 Encoder，只保留 Decoder。为什么？

统一性：一切任务都变成"生成下一个 Token"，足够通用
规模优势：架构更简单，参数全集中在一个模块，Scaling 更高效
In-Context Learning：Decoder-Only 更适合少样本学习

架构	代表模型	特点
Encoder-Only	BERT, RoBERTa	擅长理解，不擅长生成
Encoder-Decoder	T5, BART	翻译、摘要等 seq2seq 任务
Decoder-Only	GPT, Claude, Llama	当前主流，统一生成范式

2.5 完整的 Transformer Block

一个标准的 Transformer Decoder Block 长这样：

输入 Token Embedding + 位置编码
        │
        ▼
┌─────────────────────────┐
│  Masked Self-Attention   │ ← 只能看到左边的 Token
│  + 残差连接 + LayerNorm   │
└───────────┬─────────────┘
            │
            ▼
┌─────────────────────────┐
│  Feed-Forward Network    │ ← 两层全连接，中间 ReLU/GELU
│  + 残差连接 + LayerNorm   │
└───────────┬─────────────┘
            │
            ▼
        输出表示

这个 Block 堆叠 N 次（GPT-3 是 96 层），每一层都在提取更高层次的语义特征。最后通过一个线性层 + softmax 输出下一个 Token 的概率分布。

三、从 Transformer 到 GPT 家族

3.1 GPT 的核心创新

GPT（Generative Pre-trained Transformer）的核心创新不在架构本身，而在训练范式：

预训练：用海量无标注文本做 Next Token Prediction，学习通用语言能力
微调：用少量标注数据在特定任务上微调

这个"预训练 + 微调"的范式，后来成了整个 NLP 领域的标准套路。

3.2 GPT 家族演进

GPT-1 (2018.06)  ─── 1.17 亿参数
│                     证明了预训练+微调的有效性
│
GPT-2 (2019.02)  ─── 15 亿参数
│                     Zero-shot 能力初现，"太危险不敢发布"
│
GPT-3 (2020.05)  ─── 1750 亿参数  ★ 关键里程碑
│                     In-Context Learning 涌现
│                     Few-shot 效果惊人，不需要微调
│
ChatGPT (2022.11) ── GPT-3.5 + RLHF
│                     对齐人类偏好，走入大众视野
│
GPT-4 (2023.03)  ─── 多模态，MoE 架构（传闻）
│                     推理能力质的飞跃
│
GPT-4o (2024.05) ─── 原生多模态
│                     文字/图像/语音统一处理
│
GPT-5/5.3 (2025-2026) ── 参与自身训练的 Codex
                          AI 协助训练 AI 的新纪元

3.3 关键里程碑：In-Context Learning 的涌现

GPT-3 发现了一个令人震惊的现象：当模型规模足够大时，不需要微调，只需要在 Prompt 中给几个例子，模型就能学会新任务。

# Few-shot：在 Prompt 里给 2 个例子，模型就学会了翻译
Prompt:
  English: Hello → Chinese: 你好
  English: Thank you → Chinese: 谢谢
  English: How are you → Chinese:

模型输出: 你怎么样 / 你好吗

这种能力被称为 In-Context Learning（上下文学习），它是 Prompt Engineering 的理论基础——也是大模型从"预训练 + 微调"走向"预训练 + Prompting"的关键转折点。

为什么会涌现？目前主流解释是：

模型在预训练阶段隐式地学到了"学习如何学习"的能力
大量训练数据中本身就包含了"给例子 → 做任务"的模式
这种能力随模型规模的增大突然显现（涌现，emergence）

四、主流大模型全景对比

2026 年，大模型格局可以用"两超多强"概括：OpenAI 和 Anthropic 领跑，Google、Meta、DeepSeek 紧随其后。

4.1 主流模型横向对比

模型	厂商	参数量	上下文窗口	开源	主要优势	典型定价（输入/输出）
GPT-5.3	OpenAI	未公开	256K	否	综合最强、Codex 能力	$10/$30 per 1M tokens
GPT-4o	OpenAI	未公开	128K	否	原生多模态、性价比高	$2.5/$10 per 1M tokens
o3	OpenAI	未公开	200K	否	推理能力极强	$10/$40 per 1M tokens
Claude Opus 4.6	Anthropic	未公开	1M	否	超长上下文、代码能力强	$15/$75 per 1M tokens
Claude Sonnet 4	Anthropic	未公开	200K	否	性价比之王	$3/$15 per 1M tokens
Gemini 2.5 Pro	Google	未公开	1M+	否	超长上下文、多模态	$3.5/$10.5 per 1M tokens
Gemini 2.5 Flash	Google	未公开	1M	否	速度快、成本低	$0.15/$0.6 per 1M tokens
Llama 4 Maverick	Meta	400B+	1M	是	开源最强、MoE 架构	自部署
DeepSeek V3	DeepSeek	671B MoE	128K	是	性价比极高、开源	$0.27/$1.10 per 1M tokens
DeepSeek R1	DeepSeek	671B MoE	128K	是	推理能力强	$0.55/$2.19 per 1M tokens
Qwen 2.5	阿里巴巴	72B	128K	是	中文优秀、版本多	自部署/API

注：定价为 2026 年初数据，各厂商调价频繁，请以官方最新报价为准。

4.2 开源 vs 闭源

┌──────────────────────────────────────────────────┐
│               模型选择光谱                         │
│                                                    │
│  闭源API                    开源自部署              │
│  ◄────────────────────────────────────────►        │
│                                                    │
│  GPT-5  Claude  Gemini    DeepSeek  Llama  Qwen   │
│                                                    │
│  ✅ 即开即用              ✅ 数据隐私               │
│  ✅ 持续更新              ✅ 完全可控               │
│  ✅ 无需运维              ✅ 可定制/微调             │
│  ❌ 数据出境              ❌ 需要 GPU 资源          │
│  ❌ 供应商锁定            ❌ 需要运维能力            │
│  ❌ 成本随调用量线性增长   ❌ 需要持续跟进社区        │
└──────────────────────────────────────────────────┘

五、模型选型指南：什么场景用什么模型

5.1 选型决策框架

选模型不是选"最好的"，而是选"最合适的"。核心权衡四个维度：

                    性能
                     │
                     │
       成本 ─────────┼───────── 隐私
                     │
                     │
                    延迟

5.2 常见场景推荐

场景	推荐模型	理由
日常对话/写作	GPT-4o / Claude Sonnet 4	性价比高，响应快
复杂代码生成	Claude Opus 4.6 / GPT-5.3 Codex	长上下文 + 强代码能力
复杂推理/数学	o3 / DeepSeek R1	专为推理优化
企业私有化部署	Llama 4 / DeepSeek V3 / Qwen 2.5	开源可控，数据不出境
成本敏感的大批量处理	DeepSeek V3 / Gemini Flash	价格极低
超长文档处理	Gemini 2.5 Pro / Claude Opus 4.6	百万级上下文
多模态（图片/语音）	GPT-4o / Gemini 2.5 Pro	原生多模态能力
中文场景	DeepSeek / Qwen / GLM	中文训练数据充足

5.3 模型选型决策树

你的需求是什么？
│
├── 数据不能出境？
│   ├── 是 → 开源模型自部署（Llama 4 / DeepSeek V3 / Qwen）
│   │        ├── 有 GPU 资源？ → 自建推理服务
│   │        └── 没有？ → 国内云厂商托管服务
│   └── 否 → 继续 ↓
│
├── 需要最强性能？
│   ├── 是 → GPT-5.3 / Claude Opus 4.6 / o3
│   └── 否 → 继续 ↓
│
├── 预算有限？
│   ├── 是 → DeepSeek V3 API / Gemini Flash
│   └── 否 → 继续 ↓
│
└── 综合考虑 → Claude Sonnet 4 / GPT-4o（均衡之选）

六、职业视角：这些知识怎么用

6.1 面试高频问题

问题	考察点	核心答案要点
Transformer 的核心创新是什么？	基础理解	Self-Attention 替代 RNN，实现并行处理 + 长距离依赖建模
Attention 机制怎么工作？	技术深度	Q/K/V 三步：计算相关性 → 归一化 → 加权求和
为什么现在的模型都用 Decoder-Only？	架构理解	统一生成范式 + Scaling 效率 + ICL 能力
GPT 和 BERT 有什么区别？	技术广度	自回归 vs 双向，生成 vs 理解，Decoder vs Encoder
什么是 In-Context Learning？	前沿认知	大模型不需要微调，通过 Prompt 中的示例学习新任务
怎么选择合适的模型？	实战能力	四维权衡：性能、成本、延迟、隐私

6.2 工作中的实际价值

Prompt 调优：理解 Attention 机制，你就知道为什么"把重要信息放在 Prompt 开头或结尾"效果更好——因为注意力分布不均匀
Debug 模型输出：理解自回归生成，你就知道模型为什么会"一本正经地胡说八道"——它只是在预测最可能的下一个 Token，不是在"思考"
方案选型：理解模型的能力边界，才能在 Prompt、RAG、Fine-tuning 之间做出正确的选择

6.3 推荐学习资源

资源	类型	适合人群
3Blue1Brown《But what is a GPT?》	视频	零基础，直觉理解
Jay Alammar《The Illustrated Transformer》	博客	有基础，图解深入
Andrej Karpathy《Let's build GPT》	视频+代码	想动手实现的
《Attention Is All You Need》原论文	论文	想看原始推导的
Hugging Face NLP Course	课程	想系统学习+实战的

总结

这篇文章帮你建立了大模型的全局认知：

本质：大模型的核心就是 Next Token Prediction——预测下一个 Token
架构：Transformer 通过 Self-Attention 实现了并行处理和长距离依赖建模，Multi-Head Attention 捕捉多维度语言关系
演进：从 GPT-1 的 1 亿参数到 GPT-5 的万亿级，In-Context Learning 等能力随规模涌现
格局：闭源（GPT/Claude/Gemini）和开源（Llama/DeepSeek/Qwen）两条路线并行发展
选型：没有最好的模型，只有最合适的——根据性能、成本、延迟、隐私四维权衡

理解了这些，你就有了进入 AI 领域的"底层操作系统"。接下来的每一篇文章——无论是 Prompt Engineering、RAG 还是 Fine-tuning——都建立在这个基础之上。

本文是 AI 核心技能系列 第 1 篇，共 12 篇。下一篇：大模型训练全景：预训练与后训练

关注公众号「coft」，获取完整系列更新、配套代码和学习路线图。一起交流 AI 转行经验，助力职业跃升，迈向高薪岗位。

posted @ 2026-02-27 14:38 warm3snow 阅读(22) 评论(0) 收藏举报

刷新页面返回顶部

warm3snow

大模型基础：从 Transformer 到 GPT

大模型基础：从 Transformer 到 GPT

导语

一、大模型到底是什么

1.1 一句话定义

1.2 从"统计"到"神经网络"

1.3 参数量级的跃升

二、Transformer 架构：改变一切的论文

2.1 Self-Attention 机制：直觉理解

2.2 Multi-Head Attention：为什么需要多个"注意力头"

2.3 位置编码：模型如何理解顺序

2.4 Encoder-Decoder vs Decoder-Only

2.5 完整的 Transformer Block

三、从 Transformer 到 GPT 家族

3.1 GPT 的核心创新

3.2 GPT 家族演进

3.3 关键里程碑：In-Context Learning 的涌现

四、主流大模型全景对比

4.1 主流模型横向对比

4.2 开源 vs 闭源

五、模型选型指南：什么场景用什么模型

5.1 选型决策框架

5.2 常见场景推荐

5.3 模型选型决策树

六、职业视角：这些知识怎么用

6.1 面试高频问题

6.2 工作中的实际价值

6.3 推荐学习资源

总结

转载声明

公告