现代 LLM 训练 Pipeline(2026 年版)

现代 LLM 训练 Pipeline(2026 年版)

从零训练一个大模型需要哪些步骤?
从 GPT-3(2020)到 DeepSeek-R1 / Claude 4 / Gemini 2.5(2025-2026),训练流程发生了根本性变化。


目录


术语表

术语 全称 一句话解释
LLM Large Language Model 大语言模型,基于海量文本训练的神经网络,能理解和生成自然语言
Token 文本的最小处理单元(≈ 0.75 个英文单词 或 1-2 个中文字),模型读写的"原子"
Params 模型参数(Parameters) 神经网络的权重数量。越多通常能力越强(但成本越高)
Pre-training 预训练 在原始文本上做 next token prediction,让模型学会语言知识
SFT Supervised Fine-Tuning 有监督微调,用人工/合成的高质量对话数据训练模型学会"回答"
RLHF Reinforcement Learning from Human Feedback 基于人类反馈的强化学习——用人类偏好排序训练奖励模型,再用 PPO 优化主模型
DPO Direct Preference Optimization 直接偏好优化——不用奖励模型,直接用偏好对(好/坏回答)更新策略,比 RLHF 简单
PPO Proximal Policy Optimization RLHF 中使用的主流强化学习算法,通过策略梯度 + KL 惩罚稳定训练
Reasoning RL Reinforcement Learning for Reasoning 对模型的推理过程做强化学习——用客观结果(答案对错/测试通过)做 reward,不需要人工标注
Rejection Sampling 拒绝采样 模型生成多条推理路径,只保留最终结果正确的,用这些高质量路径再做一轮 SFT
CoT Chain-of-Thought 思维链——让模型输出"一步步推理"的过程,而不是直接给答案
ReAct Reasoning + Acting 推理+行动——模型交替输出思考过程和工具调用,Agent 场景的标准模式
Tool Use / Function Calling 工具调用 模型通过 JSON 格式调用外部函数(读文件、执行命令、调 API)的能力
MoE Mixture of Experts 混合专家——模型由多个"专家"子网络组成,每次只激活部分专家,用更少算力达到更大容量
Scaling Law 缩放定律 Kaplan et al. (2020) 发现:模型越大、数据越多、算力越大,性能持续提升
Chinchilla Law Hoffmann et al. (2022) 发现:参数量和训练 token 数应等比例增长
Test-time Compute Scaling 推理时计算缩放 推理阶段给模型更多 token 去"思考",可以换取更高的准确率
Extended Thinking 扩展思考 Claude 4 / Gemini 2.5 的"深度思考"模式,内部推理后再给最终答案
Alignment 对齐 让模型的行为符合人类期望——说人话、有用、无害、诚实
Red Teaming 红队测试 派专门的测试者攻击模型找漏洞,用于提升安全对齐
Constitutional AI 宪法 AI Anthropic 的安全方法:用一套原则让模型自我评估、自我修正

第 1 章:历史回望——LLM 训练的三幕演进

理解现状必须先理解历史。2026 年的训练流水线不是一天建成的,它经历了三次范式转移。

1.1 第一幕:Scaling Law 时代(2020 — 2023 中)

核心信仰:更大 = 更好

GPT-3 (2020)      175B params    ~300B tokens    成本 ~$4.6M
    ↓
Chinchilla (2022)  70B params     1.4T tokens    → "更多token > 更多参数"
    ↓
LLaMA (2023)      7B-65B params  1T-1.4T tokens → 小模型+多数据可匹敌大模型
    ↓
GPT-4 (2023)      传闻 1.8T MoE   未知 token 数  → 闭源,但巨大
时代信条 内容
Scaling Law(Kaplan et al., 2020) 模型越大、数据越多、算力越大,loss 越低
Chinchilla Law(Hoffmann et al., 2022) 参数量与训练 token 应等比例增长
数据量压倒数据集质量 原始网页足够多就能训练好模型
Post-Training 是点缀 核心能力来自预训练

训练流程(简化版):

海量数据 → 预训练 → SFT(少量指令数据)→ RLHF(可选)→ 发布

代表作: GPT-3、InstructGPT、LLaMA 1、Chinchilla、PaLM


1.2 第二幕:对齐觉醒时代(2023 中 — 2024 底)

核心信仰:Post-Training 质量决定实际表现

转折点:ChatGPT(2022.11)——GPT-3.5 不是模型架构的突破,而是 RLHF 的产品化

闭源竞赛 (2023-2024)
├── GPT-4:RLHF 质量巅峰
├── Claude 3:Constitutional AI + RLHF
├── Gemini 1.5:超长上下文(1M)+ 多模态对齐

开源追赶 (2024)
├── Llama 3:15T token + 高质量 SFT → 接近 GPT-4
├── DeepSeek-V2:MoE + 低成本对齐
└── Qwen 2.5 / Mistral:各垂直方向对齐最佳实践

关键发现:

发现 影响
SFT 数据质量 > 数量 10K 高质量 >> 100K 低质量
DPO 可替代 RLHF 开源社区大规模对齐成为可能
合成数据取代人工标注 用 GPT-4 生成 SFT 数据训练小模型
多轮对话 > 单轮指令 模型需要跟踪上下文

训练流程:

预训练 → Continue Pre-training(代码/数学/领域)
    ↓
SFT(合成+人工混合,强调多轮对话)
    ↓
DPO / RLHF(偏好对齐)
    ↓
安全对齐 + Red Teaming → 发布

1.3 第三幕:推理增强时代(2025 初 — 至今)

核心信仰:比"答对"更重要的是"过程"——让模型自己学会思考

触发事件:DeepSeek-R1(2025.01)OpenAI o1(2024.09)。核心创新不是模型结构,而是用强化学习训练推理过程

DeepSeek-R1 (2025.01)
├── 不需要人工标注推理过程
├── 只需要客观结果做 reward(答案对错)
├── 模型自己学会:反思、自我纠错、延长思考
└── Post-Training 成本 ~$2M(基座 V3 预训练成本 ~$5.6M)

OpenAI o3 / GPT-5 (2025)
├── "推理预算"控制:min/medium/max thinking
└── Test-time Compute Scaling

Claude 4 / Gemini 2.5 (2025-2026)
├── Extended Thinking
└── Reasoning RL 成为 post-training 标配第三阶段
旧范式 新范式
SFT 教模型"答案是什么" RL 让模型自己探索"怎么得到答案"
需要人工标注推理过程 只需标注最终答案对错
推理过程固定 推理时可用更多 token 换准确率
模型无"时间感" 模型能自我判断需要思考多久

1.4 时间线与关键转折点

2020 ─── GPT-3 | Scaling Law 诞生
2021 ─── Codex | 代码生成
2022 ─── Chinchilla | "更多 token" 范式
        ChatGPT | RLHF 产品化 ← 转折点
2023 ─── LLaMA | 开源起点
        GPT-4 | RLHF 质量巅峰
2024 ─── Llama 3 | 15T 开源标杆
        DPO 成为主流 | 对齐平民化
        o1-preview | Reasoning RL 雏形
2025 ─── DeepSeek-R1 | 开源 Reasoning RL ← 转折点
        Extended Thinking 普及
2026 ─── Reasoning RL 全面普及
        Post-Training 三阶段定型
        Agent 能力成为 SFT 核心组成部分
时间 事件 改变了什么
2020.06 GPT-3 证明 Scaling Law
2022.03 Chinchilla "更多 token 比更多参数更香"
2022.11 ChatGPT Post-Training > 预训练的时代开启
2023.07 LLaMA 开源可逼近闭源
2024.04 Llama 3 Post-training 方法公开化
2024.09 o1-preview Reasoning RL 新方向
2025.01 DeepSeek-R1 开源 Reasoning RL,全球跟进

第 2 章:2026 年全景——标准训练流水线

阶段 0: 基础设施准备
    硬件集群(万卡 GPU/TPU)、网络拓扑、训练框架

阶段 1: 预训练
    数据收集 → 清洗 → tokenize → next token prediction

阶段 2: 继续预训练 / Domain Adaptation
    特定领域(代码/数学/多语言)继续训练

阶段 3: Post-Training(三阶段)
    ├── 3a. SFT(指令 + 对话 + 推理轨迹 + 工具调用)
    ├── 3b. 偏好对齐(DPO/RLHF)
    └── 3c. Reasoning RL ← 2025-2026 新增

阶段 4: 专项能力调优
    ├── Tool Use / Function Calling
    ├── Safety
    ├── 长上下文 / 多模态

阶段 5: 评测与迭代
    自动评测 → 人工评测 → Red Teaming → Bad Case → 回到阶段 1/3/4

第 3 章:阶段 0——基础设施

3.1 硬件

代际 典型集群 预训练耗时 成本估算
GPT-3 (2020) ~10K V100 数月 ~$4.6M
Llama 3.1 405B (2024) 16K H100 ~54 天 ~$60M+
DeepSeek-V3 (2024) 2K H800 ~2.7M GPU 小时 ~$5.6M
Gemini 2.5 / GPT-5 (2025-2026) 10K+ H100/B200 ~数月 $100M-$1B

2026 年关键变化:

  • H100/B200/Blackwell 成为标配,单卡算力是 A100 的 3-6x
  • 通信瓶颈 > 算力瓶颈——万卡集群的网络拓扑(NVLink / InfiniBand)是最难解决的问题
  • MoE(Mixture of Experts) 成为主流——激活参数远小于总参数量
  • FP8 训练 成为标配,FP4/NF4 开始探索

3.2 训练框架

框架 使用方 特点
Megatron-LM NVIDIA 生态 3D 并行(TP/PP/DP),工业级标准
DeepSpeed (ZeRO) Microsoft / 社区 最广泛使用,MoE 支持
FSDP (PyTorch) Meta / 社区 易用性最好
JAX + Pathways Google TPU 原生,自动并行编译器
自研框架 OpenAI / Anthropic 不公开,与硬件深度耦合

第 4 章:阶段 1——预训练

4.1 数据规模与来源

数据类型 估算规模 来源
Web 文本 10-50 TB (清洗后) CommonCrawl、互联网存档
书籍/学术 1-3 TB 图书、arXiv
代码 5-10 TB GitHub、文档
多语言 5-20 TB 各语言网页、平行语料
合成数据 逐步增加 模型生成的高质量文本

4.2 数据处理流程

原始数据 (EB 级)
    ↓ 去重(MinHash / SimHash / Bloom Filter)
    ↓ 质量过滤(困惑度、长度、语言、NSFW)
    ↓ 模型辅助过滤(小模型打分)
    ↓ 去毒 / PII 去除
    ↓ 分布平衡(各领域各语言合理配比)
    ↓ Tokenize(BPE / SentencePiece)
    ↓
训练数据集 (~10-15T tokens)

2026 年趋势: 质量 >> 数量已成共识,合成数据占比上升,数据配比是各厂商的核心商业机密。

4.3 训练目标与超参数

目标仍为 Next Token Prediction(自回归语言建模):

loss = -Σ log P(token_i | tokens_{<i})
超参数 典型值
学习率 3e-4 → 3e-5 (cosine decay)
Batch Size 2M-4M tokens
训练 token 数 3T-15T
Warmup 步数 2000-5000

关键进化:中间层也有 auxiliary loss——帮助 MoE 路由器学习、帮助中间层对齐。


第 5 章:阶段 2——继续预训练 / Domain Adaptation

在通用预训练之后,绝大多数模型做领域适配

通用预训练 (10T+ tokens)
    ↓
代码继续训练 (500B-1T tokens)
├── 结果:强代码能力
├── 代表:DeepSeek-Coder / CodeLlama
└── 数据:GitHub + 代码合成
    ↓
多语言继续训练 (200B-500B tokens)
    ↓
长上下文扩展(RoPE base frequency 调整)
├── 4K → 32K → 128K → 1M+

关键:这个阶段的目标不是"学新知识",而是"激活模型在该领域的潜在能力"。


第 6 章:阶段 3——Post-Training(对齐与增强)

2025-2026 变化最大的环节。以前 Post-Training = SFT + RLHF,现在是 SFT + 偏好对齐 + Reasoning RL 三阶段。

6.1 SFT(Supervised Fine-Tuning)

数据构成(2026 年典型配比):

├── 通用指令 30-50%     ("写一篇量子计算短文")
├── 多轮对话 20-30%     (跟踪上下文)
├── 推理/数学 10-20%   (CoT 轨迹)
├── 代码 10-20%        (code + explanation)
└── 工具调用 5-15%     (ReAct 轨迹) ← 2025+ 新增核心

注:各比例区间存在重叠(如一段代码推理轨迹同时计入"代码"和"推理"),
各项因模型定位不同而灵活调整,总和不要求精确等于 100%。

**业界共识:Post-Training 数据质量决定模型能力天花板,预训练只决定地板。**

**关键发现:**

- 数据多样性 > 数据量——10K 高质量多样化指令 >> 100K 单一类型
- 多轮对话 > 单轮指令——Agent 场景需要上下文和工具结果跟踪
- ReAct/CoT 轨迹是当前最佳实践——"思考→行动→观察"的循环

### 6.2 对齐与增强:RLHF / DPO / Reasoning RL

三条路线对应两个目标:RLHF 和 DPO 解决"模型是否说人话"(偏好对齐),Reasoning RL 解决"模型是否真的会思考"(推理增强)。2026 年的标准 Post-Training 是**三条路线依次执行**,而非三选一。

#### 路线 A:RLHF(经典,但贵)

训练 Reward Model:人类对两个回答做偏好排序 → RM 打分
PPO 训练:用 RM 分数做 reward + KL 惩罚
需同时加载 4 个模型(主模型、参考模型、RM、Value 模型)


目前只有 OpenAI / Anthropic / Google 完全掌握。

#### 路线 B:DPO(更简单,2024 年流行)

不需要 Reward Model,直接用偏好对 (chosen, rejected) 更新策略。

| 优点 | 缺点 |
|------|------|
| 简单,只需偏好数据 | 对数据质量更敏感 |
| 无需 RM/Value 模型 | 复杂推理任务不如 RLHF |
| 训练稳定、易收敛 | 分布外泛化差 |

**2026 年现状:** 多数团队用 DPO/RPO/SimPO 变体,RLHF 只在顶尖实验室使用。

#### 路线 C:Reasoning RL(2025 年最大突破)

Step 1: 长 CoT 数据 SFT → 模型学会输出 thinking process
Step 2: 基于结果的 RL
└── 不用 Reward Model,用客观结果做 reward
├── 数学题:答案对不对?
├── 编程题:测试用例通不通?
└── 工具调用:执行成功了没有?
Step 3: 拒绝采样 → 生成多条路径,只保留正确的 → 再做一轮 SFT


**革命性:不需要人工标注!模型自主发现推理策略——反思、自我纠错、延长思考时间。** 这是从"教会模型正确答案"到"让模型自己探索正确答案"的范式转变。

---

## 第 7 章:阶段 4——专项能力调优

### 7.1 Tool Use / Function Calling

合成多轮 ReAct 轨迹 → SFT → 执行验证 RLHF。(详见前文《LLM Agent 工具调用训练原理与准确性保障》)

### 7.2 Safety / 安全对齐

对抗训练:红队测试找漏洞 → 安全数据(有害请求+拒绝回答)→ 迭代修复
内容过滤器:输出侧安全分类器,最后一道防线
宪法 AI (Anthropic):用原则指导模型自我评估,减少人工标注


### 7.3 长上下文优化

RoPE base frequency 调高 → 支持更长序列
训练混入长文档(书籍、论文、代码文件)
Ring Attention / Flash Attention 工程侧优化


### 7.4 多模态扩展

```text
文本+图像:CLIP-style 对齐 + 图像 encoder + LLM decoder
文本+代码+图像+音频:Gemini 原生多模态训练

7.5 模型压缩 / 量化(部署前可选)

在部署前,多数模型会做推理优化,虽然不是"能力训练"但属于模型出厂前的标准工序:

量化(Quantization)
├── FP16 → INT8/INT4:显存减半,推理速度翻倍,精度损失 < 1%
├── 工具:GPTQ / AWQ / GGUF
└── 2026 趋势:训练时直接做量化感知训练(QAT),取代训练后量化

蒸馏(Distillation)
├── 大模型(Teacher)→ 小模型(Student)
├── 代表:DeepSeek-R1 蒸馏版(671B → 7B/14B/32B/70B)
└── 推理 RL + 蒸馏 = 小模型获得强推理能力的标准路径

---

## 第 8 章:阶段 5——评测与迭代闭环

### 8.1 评测基准

| 基准 | 测什么 | 2026 年水平 |
|------|--------|------------|
| MMLU / MMLU-Pro | 多学科知识 | ~90%+(饱和) |
| GPQA | 研究生级别推理 | ~80% |
| MATH / GSM8K | 数学推理 | ~95%+(饱和) |
| HumanEval / SWE-bench | 代码生成/编码 | SWE-bench ~70%+ |
| BFCL / Nexus | 工具调用 | ~85-90% |
| SimpleQA / LongBench | 知识准确/长上下文 | 持续改进 |
| 人工 Elo 盲测 | 综合体验 | 最可靠但最慢 |

### 8.2 Bad Case 驱动的迭代

评测发现 Bad Case → 分析归因 → 针对性补数据 → 重新训练 → 验证 → 检查 Regression


| 问题类型 | 根因 | 修复手段 |
|---------|------|---------|
| 知识错误 | 预训练不足 | 补充预训练数据 |
| 指令理解差 | SFT 不够多样 | 补充指令 |
| 有害输出 | 对齐不够 | 补充安全数据 |
| 工具调用格式错 | 缺少样本 | 补充格式样本 |
| 推理能力弱 | CoT/RL 不足 | 补充推理 RL |

---

## 第 9 章:2023 → 2026 Pipeline 演进对照

### 9.1 变化总表

| 维度 | 2023 年(GPT-4 / Llama 2) | 2026 年 |
|------|---------------------------|---------|
| **预训练** | 越大越好(Scaling Law) | 质量 > 数量,合成数据进入 |
| **Post-Training** | SFT + RLHF(两阶段) | SFT + 偏好对齐 + Reasoning RL(三阶段) |
| **工具调用** | 可选附加能力 | 核心训练目标,占 SFT 5-15% |
| **推理增强** | ❌ 不存在 | ✅ Reasoning RL 标配 |
| **合成数据** | 少量使用 | SFT/对齐阶段的主力来源 |
| **训练效率** | FP16/BF16 | FP8 标配,FP4 探索中 |

### 9.2 十年演进的底层逻辑

预训练价值 ─────────→

GPT-3 │ AI Agent / Agentic
(Scaling Law) │ ↑
│ o1 / R1
LLaMA (Reasoning RL)
(开源预训练) ↑
│ 对齐觉醒
│ ↑
│ InstructGPT (RLHF)
│ ↑
│ ChatGPT (Post-Training)

2019 ──── 2022 ──── 2024 ──── 2026
Post-Training 价值 ───→


| 阶段 | 核心矛盾 | 突破 | 结果 |
|------|---------|------|------|
| Scaling Law (2020-2022) | 模型不够大 | 更多参数 + 更多数据 | GPT-3 → 175B |
| 对齐觉醒 (2023-2024) | 聪明但不听话 | RLHF / DPO / SFT | ChatGPT → 可用 |
| 推理增强 (2025-2026) | 能说但不会想 | Reasoning RL | o1 / R1 → 能推理 |
| **下一个阶段 (2027+)** | 能想但不会行动 | Agent 原生训练 | 从"对话"到"任务完成" |

### 9.3 一句口诀

> **数据决定天花板,对齐决定实际表现,推理 RL 是 2025-2026 的最大变量。**

现代 LLM 训练完整流程可以浓缩为四个字——**喂、教、调、验**:

| 步骤 | 2023 年说法 | 2026 年说法 |
|------|-----------|-----------|
| **喂** | 海量数据 | 海量高质量数据 + 合成数据 |
| **教** | 指令微调 | 多层 SFT(对话+推理+工具+安全) |
| **调** | RLHF | RLHF/DPO + Reasoning RL |
| **验** | 评测 | 自动基准 + 人工盲测 + 红队 + 持续迭代闭环 |

---

## 第 10 章:未来趋势(2026-2028)

### 10.1 Post-Training 进一步细分

2026: 2028:
Post-Training Post-Training
├── SFT ├── Domain SFT
├── DPO / RLHF ├── Tool-Use SFT
├── Reasoning RL ├── Multi-Agent SFT
├── Preference Alignment
├── Reasoning RL variants
├── Tool-Use RL
└── Safety RL (continuous)


Post-Training 从"一个步骤"变成"持续递增的过程",每个新能力对应一套专门 pipeline。

### 10.2 Reasoning RL 工业化

| 2026 现状 | 2028 预测 |
|-----------|-----------|
| 只在数学/编程有效 | 泛化到所有领域 |
| 推理 token 消耗 2-10x | 可调节推理预算(类似压缩率滑块) |
| 思考过程不可控 | 用户可指定思考方向 |
| 主要针对闭源模型 | 开源普遍具备 |

下一步:**Tool-Use Reasoning RL**——模型在调工具前"深度思考"该调哪个、怎么调、怎么用结果。

### 10.3 Agent 原生训练

2026: 在通用模型上"加"工具调用能力(SFT 混入 ReAct 轨迹)
2028: 从设计上就是 Agent 模型
├── 训练数据中 Agent 场景占 30%+
├── 多 Agent 协作轨迹
├── 容错和自修正作为训练目标
└── 专门评估 Agent 行为的奖励模型


当 Agent 成为大模型的主要使用方式,训练会从"以对话为中心"转向"以任务完成为中心"。

### 10.4 持续学习 / 在线 RL

当前:训练 → 冻结 → 部署 → 几个月后出新版
未来:训练 → 部署 → 实时反馈 → 增量更新 → 持续部署


挑战:灾难性遗忘、分布偏移、评测稳定性。目前仅 Google / OpenAI / Anthropic 有初步实践。

### 10.5 合成数据完全取代人工标注

2019: 纯人工标注(贵、慢、规模小)
2022: 人工 seed + 机器扩增
2024: 合成为主,人工验证
2026: 合成占 SFT/对齐数据 80%+
2028: 合成 ≈ 95%,人工只做抽检


关键:**验证闭环**——"生成 → 执行验证 → 只保留正确/有用的",这正是 DeepSeek-R1 的核心方法论。

### 10.6 训练与推理边界模糊

Test-time Compute Scaling 核心理念:训练阶段学会"如何思考",推理阶段用更多 token 换取准确率。

未来:每个用户/每个任务动态分配推理算力,简单问题快速回答、复杂问题深度思考。

### 10.7 小模型的 Scaling Law 回归

2020-2023: 大的更好(175B → 1.8T MoE)
2024: 小模型+多数据可匹敌大模型(Llama 3 8B)
2025-2026:小模型+推理 RL 崛起(DeepSeek-R1 蒸馏版)


未来:70B 推理模型可能超过 500B 非推理模型,7B Agent 模型处理大多数日常编码任务。"大到不能跑"的时代正在结束。

---

## 第 11 章:实践指南——如何自己训练 / 微调一个模型

### 11.1 三种路径选择

路径 A:全量预训练(不建议,成本过高)
需要:$1M-$1B + 万卡集群 + 数十 TB 数据
适合:Google / OpenAI / Anthropic / Meta

路径 B:继续预训练 + Post-Training
需要:$50K-$500K + 百卡集群 + 领域数据
适合:大企业 / 垂直领域
例子:CodeLlama、DeepSeek-Coder、ChatGLM

路径 C:基于开源模型的 Post-Training(最实际)
需要:$1K-$50K + 单卡/几卡 GPU + 优质数据
适合:个人 / 小团队 / 垂直场景
例子:Llama 4 / DeepSeek-V4 Flash + SFT + DPO


### 11.2 最小可行 Pipeline

  1. 选基座模型
    ├── Llama 4 (behemoth / scout)
    ├── DeepSeek-V4 Flash(性价比最优)
    ├── Qwen 3(中文场景)
    └── Mistral Large(多语言场景)

  2. 准备数据
    ├── 场景指令/对话数据(100-10K 条)
    ├── 质量优先于数量
    └── 可混入合成数据(用更好模型生成)

  3. SFT
    ├── 工具:Axolotl / LLaMA-Factory / Unsloth
    ├── 硬件:1-8 GPUs
    ├── 时间:数小时到数天
    └── 学习率:1e-5 ~ 2e-5

  4. DPO
    ├── 需要偏好对 (chosen / rejected)
    ├── 可自构建(模型生成多个答案选最优)
    └── 时间:数小时

  5. 评测
    ├── 自有场景评测集
    └── 开放基准(MMLU / BFCL / GSM8K)

  6. 部署
    ├── Ollama / vLLM / llama.cpp
    └── 量化(GGUF / AWQ / GPTQ)

posted @ 2026-06-08 17:27  getmoon  阅读(11)  评论(0)    收藏  举报