现代 LLM 训练 Pipeline（2026 年版）

从零训练一个大模型需要哪些步骤？
从 GPT-3（2020）到 DeepSeek-R1 / Claude 4 / Gemini 2.5（2025-2026），训练流程发生了根本性变化。

第 1 章：历史回望——LLM 训练的三幕演进
第 2 章：2026 年全景——标准训练流水线
第 3 章：阶段 0——基础设施
- 3.1 硬件
- 3.2 训练框架
第 4 章：阶段 1——预训练
第 5 章：阶段 2——继续预训练 / Domain Adaptation
第 6 章：阶段 3——Post-Training（对齐与增强）
- 6.1 SFT（Supervised Fine-Tuning）
- 6.2 对齐与增强：RLHF / DPO / Reasoning RL
第 7 章：阶段 4——专项能力调优
第 8 章：阶段 5——评测与迭代闭环
- 8.1 评测基准
- 8.2 Bad Case 驱动的迭代
第 9 章：2023 → 2026 Pipeline 演进对照
第 10 章：未来趋势（2026-2028）
第 11 章：实践指南——如何自己训练 / 微调一个模型
- 11.1 三种路径选择
- 11.2 最小可行 Pipeline

术语表

术语	全称	一句话解释
LLM	Large Language Model	大语言模型，基于海量文本训练的神经网络，能理解和生成自然语言
Token	—	文本的最小处理单元（≈ 0.75 个英文单词或 1-2 个中文字），模型读写的"原子"
Params	模型参数（Parameters）	神经网络的权重数量。越多通常能力越强（但成本越高）
Pre-training	预训练	在原始文本上做 next token prediction，让模型学会语言知识
SFT	Supervised Fine-Tuning	有监督微调，用人工/合成的高质量对话数据训练模型学会"回答"
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习——用人类偏好排序训练奖励模型，再用 PPO 优化主模型
DPO	Direct Preference Optimization	直接偏好优化——不用奖励模型，直接用偏好对（好/坏回答）更新策略，比 RLHF 简单
PPO	Proximal Policy Optimization	RLHF 中使用的主流强化学习算法，通过策略梯度 + KL 惩罚稳定训练
Reasoning RL	Reinforcement Learning for Reasoning	对模型的推理过程做强化学习——用客观结果（答案对错/测试通过）做 reward，不需要人工标注
Rejection Sampling	拒绝采样	模型生成多条推理路径，只保留最终结果正确的，用这些高质量路径再做一轮 SFT
CoT	Chain-of-Thought	思维链——让模型输出"一步步推理"的过程，而不是直接给答案
ReAct	Reasoning + Acting	推理+行动——模型交替输出思考过程和工具调用，Agent 场景的标准模式
Tool Use / Function Calling	工具调用	模型通过 JSON 格式调用外部函数（读文件、执行命令、调 API）的能力
MoE	Mixture of Experts	混合专家——模型由多个"专家"子网络组成，每次只激活部分专家，用更少算力达到更大容量
Scaling Law	缩放定律	Kaplan et al. (2020) 发现：模型越大、数据越多、算力越大，性能持续提升
Chinchilla Law	—	Hoffmann et al. (2022) 发现：参数量和训练 token 数应等比例增长
Test-time Compute Scaling	推理时计算缩放	推理阶段给模型更多 token 去"思考"，可以换取更高的准确率
Extended Thinking	扩展思考	Claude 4 / Gemini 2.5 的"深度思考"模式，内部推理后再给最终答案
Alignment	对齐	让模型的行为符合人类期望——说人话、有用、无害、诚实
Red Teaming	红队测试	派专门的测试者攻击模型找漏洞，用于提升安全对齐
Constitutional AI	宪法 AI	Anthropic 的安全方法：用一套原则让模型自我评估、自我修正

第 1 章：历史回望——LLM 训练的三幕演进

理解现状必须先理解历史。2026 年的训练流水线不是一天建成的，它经历了三次范式转移。

1.1 第一幕：Scaling Law 时代（2020 — 2023 中）

核心信仰：更大 = 更好

GPT-3 (2020)      175B params    ~300B tokens    成本 ~$4.6M
    ↓
Chinchilla (2022)  70B params     1.4T tokens    → "更多token > 更多参数"
    ↓
LLaMA (2023)      7B-65B params  1T-1.4T tokens → 小模型+多数据可匹敌大模型
    ↓
GPT-4 (2023)      传闻 1.8T MoE   未知 token 数  → 闭源，但巨大

时代信条	内容
Scaling Law（Kaplan et al., 2020）	模型越大、数据越多、算力越大，loss 越低
Chinchilla Law（Hoffmann et al., 2022）	参数量与训练 token 应等比例增长
数据量压倒数据集质量	原始网页足够多就能训练好模型
Post-Training 是点缀	核心能力来自预训练

训练流程（简化版）：

海量数据 → 预训练 → SFT（少量指令数据）→ RLHF（可选）→ 发布

代表作： GPT-3、InstructGPT、LLaMA 1、Chinchilla、PaLM

1.2 第二幕：对齐觉醒时代（2023 中 — 2024 底）

核心信仰：Post-Training 质量决定实际表现

转折点：ChatGPT（2022.11）——GPT-3.5 不是模型架构的突破，而是 RLHF 的产品化。

闭源竞赛 (2023-2024)
├── GPT-4：RLHF 质量巅峰
├── Claude 3：Constitutional AI + RLHF
├── Gemini 1.5：超长上下文（1M）+ 多模态对齐

开源追赶 (2024)
├── Llama 3：15T token + 高质量 SFT → 接近 GPT-4
├── DeepSeek-V2：MoE + 低成本对齐
└── Qwen 2.5 / Mistral：各垂直方向对齐最佳实践

关键发现：

发现	影响
SFT 数据质量 > 数量	10K 高质量 >> 100K 低质量
DPO 可替代 RLHF	开源社区大规模对齐成为可能
合成数据取代人工标注	用 GPT-4 生成 SFT 数据训练小模型
多轮对话 > 单轮指令	模型需要跟踪上下文

训练流程：

预训练 → Continue Pre-training（代码/数学/领域）
    ↓
SFT（合成+人工混合，强调多轮对话）
    ↓
DPO / RLHF（偏好对齐）
    ↓
安全对齐 + Red Teaming → 发布

1.3 第三幕：推理增强时代（2025 初 — 至今）

核心信仰：比"答对"更重要的是"过程"——让模型自己学会思考

触发事件：DeepSeek-R1（2025.01） 和 OpenAI o1（2024.09）。核心创新不是模型结构，而是用强化学习训练推理过程。

DeepSeek-R1 (2025.01)
├── 不需要人工标注推理过程
├── 只需要客观结果做 reward（答案对错）
├── 模型自己学会：反思、自我纠错、延长思考
└── Post-Training 成本 ~$2M（基座 V3 预训练成本 ~$5.6M）

OpenAI o3 / GPT-5 (2025)
├── "推理预算"控制：min/medium/max thinking
└── Test-time Compute Scaling

Claude 4 / Gemini 2.5 (2025-2026)
├── Extended Thinking
└── Reasoning RL 成为 post-training 标配第三阶段

旧范式	新范式
SFT 教模型"答案是什么"	RL 让模型自己探索"怎么得到答案"
需要人工标注推理过程	只需标注最终答案对错
推理过程固定	推理时可用更多 token 换准确率
模型无"时间感"	模型能自我判断需要思考多久

1.4 时间线与关键转折点

2020 ─── GPT-3 | Scaling Law 诞生
2021 ─── Codex | 代码生成
2022 ─── Chinchilla | "更多 token" 范式
        ChatGPT | RLHF 产品化 ← 转折点
2023 ─── LLaMA | 开源起点
        GPT-4 | RLHF 质量巅峰
2024 ─── Llama 3 | 15T 开源标杆
        DPO 成为主流 | 对齐平民化
        o1-preview | Reasoning RL 雏形
2025 ─── DeepSeek-R1 | 开源 Reasoning RL ← 转折点
        Extended Thinking 普及
2026 ─── Reasoning RL 全面普及
        Post-Training 三阶段定型
        Agent 能力成为 SFT 核心组成部分

时间	事件	改变了什么
2020.06	GPT-3	证明 Scaling Law
2022.03	Chinchilla	"更多 token 比更多参数更香"
2022.11	ChatGPT	Post-Training > 预训练的时代开启
2023.07	LLaMA	开源可逼近闭源
2024.04	Llama 3	Post-training 方法公开化
2024.09	o1-preview	Reasoning RL 新方向
2025.01	DeepSeek-R1	开源 Reasoning RL，全球跟进

第 2 章：2026 年全景——标准训练流水线

阶段 0: 基础设施准备
    硬件集群（万卡 GPU/TPU）、网络拓扑、训练框架

阶段 1: 预训练
    数据收集 → 清洗 → tokenize → next token prediction

阶段 2: 继续预训练 / Domain Adaptation
    特定领域（代码/数学/多语言）继续训练

阶段 3: Post-Training（三阶段）
    ├── 3a. SFT（指令 + 对话 + 推理轨迹 + 工具调用）
    ├── 3b. 偏好对齐（DPO/RLHF）
    └── 3c. Reasoning RL ← 2025-2026 新增

阶段 4: 专项能力调优
    ├── Tool Use / Function Calling
    ├── Safety
    ├── 长上下文 / 多模态

阶段 5: 评测与迭代
    自动评测 → 人工评测 → Red Teaming → Bad Case → 回到阶段 1/3/4

第 3 章：阶段 0——基础设施

3.1 硬件

代际	典型集群	预训练耗时	成本估算
GPT-3 (2020)	~10K V100	数月	~$4.6M
Llama 3.1 405B (2024)	16K H100	~54 天	~$60M+
DeepSeek-V3 (2024)	2K H800	~2.7M GPU 小时	~$5.6M
Gemini 2.5 / GPT-5 (2025-2026)	10K+ H100/B200	~数月	$100M-$1B

2026 年关键变化：

H100/B200/Blackwell 成为标配，单卡算力是 A100 的 3-6x
通信瓶颈 > 算力瓶颈——万卡集群的网络拓扑（NVLink / InfiniBand）是最难解决的问题
MoE（Mixture of Experts） 成为主流——激活参数远小于总参数量
FP8 训练 成为标配，FP4/NF4 开始探索

3.2 训练框架

框架	使用方	特点
Megatron-LM	NVIDIA 生态	3D 并行（TP/PP/DP），工业级标准
DeepSpeed (ZeRO)	Microsoft / 社区	最广泛使用，MoE 支持
FSDP (PyTorch)	Meta / 社区	易用性最好
JAX + Pathways	Google	TPU 原生，自动并行编译器
自研框架	OpenAI / Anthropic	不公开，与硬件深度耦合

第 4 章：阶段 1——预训练

4.1 数据规模与来源

数据类型	估算规模	来源
Web 文本	10-50 TB (清洗后)	CommonCrawl、互联网存档
书籍/学术	1-3 TB	图书、arXiv
代码	5-10 TB	GitHub、文档
多语言	5-20 TB	各语言网页、平行语料
合成数据	逐步增加	模型生成的高质量文本

4.2 数据处理流程

原始数据 (EB 级)
    ↓ 去重（MinHash / SimHash / Bloom Filter）
    ↓ 质量过滤（困惑度、长度、语言、NSFW）
    ↓ 模型辅助过滤（小模型打分）
    ↓ 去毒 / PII 去除
    ↓ 分布平衡（各领域各语言合理配比）
    ↓ Tokenize（BPE / SentencePiece）
    ↓
训练数据集 (~10-15T tokens)

2026 年趋势： 质量 >> 数量已成共识，合成数据占比上升，数据配比是各厂商的核心商业机密。

4.3 训练目标与超参数

目标仍为 Next Token Prediction（自回归语言建模）：

loss = -Σ log P(token_i | tokens_{<i})

超参数	典型值
学习率	3e-4 → 3e-5 (cosine decay)
Batch Size	2M-4M tokens
训练 token 数	3T-15T
Warmup 步数	2000-5000

关键进化：中间层也有 auxiliary loss——帮助 MoE 路由器学习、帮助中间层对齐。

第 5 章：阶段 2——继续预训练 / Domain Adaptation

在通用预训练之后，绝大多数模型做领域适配：

通用预训练 (10T+ tokens)
    ↓
代码继续训练 (500B-1T tokens)
├── 结果：强代码能力
├── 代表：DeepSeek-Coder / CodeLlama
└── 数据：GitHub + 代码合成
    ↓
多语言继续训练 (200B-500B tokens)
    ↓
长上下文扩展（RoPE base frequency 调整）
├── 4K → 32K → 128K → 1M+

关键：这个阶段的目标不是"学新知识"，而是"激活模型在该领域的潜在能力"。

第 6 章：阶段 3——Post-Training（对齐与增强）

2025-2026 变化最大的环节。以前 Post-Training = SFT + RLHF，现在是 SFT + 偏好对齐 + Reasoning RL 三阶段。

6.1 SFT（Supervised Fine-Tuning）

数据构成（2026 年典型配比）：

├── 通用指令 30-50%     ("写一篇量子计算短文")
├── 多轮对话 20-30%     (跟踪上下文)
├── 推理/数学 10-20%   (CoT 轨迹)
├── 代码 10-20%        (code + explanation)
└── 工具调用 5-15%     (ReAct 轨迹) ← 2025+ 新增核心

注：各比例区间存在重叠（如一段代码推理轨迹同时计入"代码"和"推理"），
各项因模型定位不同而灵活调整，总和不要求精确等于 100%。

**业界共识：Post-Training 数据质量决定模型能力天花板，预训练只决定地板。**

**关键发现：**

- 数据多样性 > 数据量——10K 高质量多样化指令 >> 100K 单一类型
- 多轮对话 > 单轮指令——Agent 场景需要上下文和工具结果跟踪
- ReAct/CoT 轨迹是当前最佳实践——"思考→行动→观察"的循环

### 6.2 对齐与增强：RLHF / DPO / Reasoning RL

三条路线对应两个目标：RLHF 和 DPO 解决"模型是否说人话"（偏好对齐），Reasoning RL 解决"模型是否真的会思考"（推理增强）。2026 年的标准 Post-Training 是**三条路线依次执行**，而非三选一。

#### 路线 A：RLHF（经典，但贵）

训练 Reward Model：人类对两个回答做偏好排序 → RM 打分
PPO 训练：用 RM 分数做 reward + KL 惩罚
需同时加载 4 个模型（主模型、参考模型、RM、Value 模型）


目前只有 OpenAI / Anthropic / Google 完全掌握。

#### 路线 B：DPO（更简单，2024 年流行）

不需要 Reward Model，直接用偏好对 (chosen, rejected) 更新策略。

| 优点 | 缺点 |
|------|------|
| 简单，只需偏好数据 | 对数据质量更敏感 |
| 无需 RM/Value 模型 | 复杂推理任务不如 RLHF |
| 训练稳定、易收敛 | 分布外泛化差 |

**2026 年现状：** 多数团队用 DPO/RPO/SimPO 变体，RLHF 只在顶尖实验室使用。

#### 路线 C：Reasoning RL（2025 年最大突破）

Step 1: 长 CoT 数据 SFT → 模型学会输出 thinking process
Step 2: 基于结果的 RL
└── 不用 Reward Model，用客观结果做 reward
├── 数学题：答案对不对？
├── 编程题：测试用例通不通？
└── 工具调用：执行成功了没有？
Step 3: 拒绝采样 → 生成多条路径，只保留正确的 → 再做一轮 SFT


**革命性：不需要人工标注！模型自主发现推理策略——反思、自我纠错、延长思考时间。** 这是从"教会模型正确答案"到"让模型自己探索正确答案"的范式转变。

---

## 第 7 章：阶段 4——专项能力调优

### 7.1 Tool Use / Function Calling

合成多轮 ReAct 轨迹 → SFT → 执行验证 RLHF。（详见前文《LLM Agent 工具调用训练原理与准确性保障》）

### 7.2 Safety / 安全对齐

对抗训练：红队测试找漏洞 → 安全数据（有害请求+拒绝回答）→ 迭代修复
内容过滤器：输出侧安全分类器，最后一道防线
宪法 AI (Anthropic)：用原则指导模型自我评估，减少人工标注


### 7.3 长上下文优化

RoPE base frequency 调高 → 支持更长序列
训练混入长文档（书籍、论文、代码文件）
Ring Attention / Flash Attention 工程侧优化


### 7.4 多模态扩展

```text
文本+图像：CLIP-style 对齐 + 图像 encoder + LLM decoder
文本+代码+图像+音频：Gemini 原生多模态训练

7.5 模型压缩 / 量化（部署前可选）

在部署前，多数模型会做推理优化，虽然不是"能力训练"但属于模型出厂前的标准工序：

量化（Quantization）
├── FP16 → INT8/INT4：显存减半，推理速度翻倍，精度损失 < 1%
├── 工具：GPTQ / AWQ / GGUF
└── 2026 趋势：训练时直接做量化感知训练（QAT），取代训练后量化

蒸馏（Distillation）
├── 大模型（Teacher）→ 小模型（Student）
├── 代表：DeepSeek-R1 蒸馏版（671B → 7B/14B/32B/70B）
└── 推理 RL + 蒸馏 = 小模型获得强推理能力的标准路径

---

## 第 8 章：阶段 5——评测与迭代闭环

### 8.1 评测基准

| 基准 | 测什么 | 2026 年水平 |
|------|--------|------------|
| MMLU / MMLU-Pro | 多学科知识 | ~90%+（饱和） |
| GPQA | 研究生级别推理 | ~80% |
| MATH / GSM8K | 数学推理 | ~95%+（饱和） |
| HumanEval / SWE-bench | 代码生成/编码 | SWE-bench ~70%+ |
| BFCL / Nexus | 工具调用 | ~85-90% |
| SimpleQA / LongBench | 知识准确/长上下文 | 持续改进 |
| 人工 Elo 盲测 | 综合体验 | 最可靠但最慢 |

### 8.2 Bad Case 驱动的迭代

评测发现 Bad Case → 分析归因 → 针对性补数据 → 重新训练 → 验证 → 检查 Regression


| 问题类型 | 根因 | 修复手段 |
|---------|------|---------|
| 知识错误 | 预训练不足 | 补充预训练数据 |
| 指令理解差 | SFT 不够多样 | 补充指令 |
| 有害输出 | 对齐不够 | 补充安全数据 |
| 工具调用格式错 | 缺少样本 | 补充格式样本 |
| 推理能力弱 | CoT/RL 不足 | 补充推理 RL |

---

## 第 9 章：2023 → 2026 Pipeline 演进对照

### 9.1 变化总表

| 维度 | 2023 年（GPT-4 / Llama 2） | 2026 年 |
|------|---------------------------|---------|
| **预训练** | 越大越好（Scaling Law） | 质量 > 数量，合成数据进入 |
| **Post-Training** | SFT + RLHF（两阶段） | SFT + 偏好对齐 + Reasoning RL（三阶段） |
| **工具调用** | 可选附加能力 | 核心训练目标，占 SFT 5-15% |
| **推理增强** | ❌ 不存在 | ✅ Reasoning RL 标配 |
| **合成数据** | 少量使用 | SFT/对齐阶段的主力来源 |
| **训练效率** | FP16/BF16 | FP8 标配，FP4 探索中 |

### 9.2 十年演进的底层逻辑

预训练价值 ─────────→
↑
GPT-3 │ AI Agent / Agentic
(Scaling Law) │ ↑
│ o1 / R1
LLaMA (Reasoning RL)
(开源预训练) ↑
│ 对齐觉醒
│ ↑
│ InstructGPT (RLHF)
│ ↑
│ ChatGPT (Post-Training)
│
2019 ──── 2022 ──── 2024 ──── 2026
Post-Training 价值 ───→


| 阶段 | 核心矛盾 | 突破 | 结果 |
|------|---------|------|------|
| Scaling Law (2020-2022) | 模型不够大 | 更多参数 + 更多数据 | GPT-3 → 175B |
| 对齐觉醒 (2023-2024) | 聪明但不听话 | RLHF / DPO / SFT | ChatGPT → 可用 |
| 推理增强 (2025-2026) | 能说但不会想 | Reasoning RL | o1 / R1 → 能推理 |
| **下一个阶段 (2027+)** | 能想但不会行动 | Agent 原生训练 | 从"对话"到"任务完成" |

### 9.3 一句口诀

> **数据决定天花板，对齐决定实际表现，推理 RL 是 2025-2026 的最大变量。**

现代 LLM 训练完整流程可以浓缩为四个字——**喂、教、调、验**：

| 步骤 | 2023 年说法 | 2026 年说法 |
|------|-----------|-----------|
| **喂** | 海量数据 | 海量高质量数据 + 合成数据 |
| **教** | 指令微调 | 多层 SFT（对话+推理+工具+安全） |
| **调** | RLHF | RLHF/DPO + Reasoning RL |
| **验** | 评测 | 自动基准 + 人工盲测 + 红队 + 持续迭代闭环 |

---

## 第 10 章：未来趋势（2026-2028）

### 10.1 Post-Training 进一步细分

2026: 2028:
Post-Training Post-Training
├── SFT ├── Domain SFT
├── DPO / RLHF ├── Tool-Use SFT
├── Reasoning RL ├── Multi-Agent SFT
├── Preference Alignment
├── Reasoning RL variants
├── Tool-Use RL
└── Safety RL (continuous)


Post-Training 从"一个步骤"变成"持续递增的过程"，每个新能力对应一套专门 pipeline。

### 10.2 Reasoning RL 工业化

| 2026 现状 | 2028 预测 |
|-----------|-----------|
| 只在数学/编程有效 | 泛化到所有领域 |
| 推理 token 消耗 2-10x | 可调节推理预算（类似压缩率滑块） |
| 思考过程不可控 | 用户可指定思考方向 |
| 主要针对闭源模型 | 开源普遍具备 |

下一步：**Tool-Use Reasoning RL**——模型在调工具前"深度思考"该调哪个、怎么调、怎么用结果。

### 10.3 Agent 原生训练

2026: 在通用模型上"加"工具调用能力（SFT 混入 ReAct 轨迹）
2028: 从设计上就是 Agent 模型
├── 训练数据中 Agent 场景占 30%+
├── 多 Agent 协作轨迹
├── 容错和自修正作为训练目标
└── 专门评估 Agent 行为的奖励模型


当 Agent 成为大模型的主要使用方式，训练会从"以对话为中心"转向"以任务完成为中心"。

### 10.4 持续学习 / 在线 RL

当前：训练 → 冻结 → 部署 → 几个月后出新版
未来：训练 → 部署 → 实时反馈 → 增量更新 → 持续部署


挑战：灾难性遗忘、分布偏移、评测稳定性。目前仅 Google / OpenAI / Anthropic 有初步实践。

### 10.5 合成数据完全取代人工标注

2019: 纯人工标注（贵、慢、规模小）
2022: 人工 seed + 机器扩增
2024: 合成为主，人工验证
2026: 合成占 SFT/对齐数据 80%+
2028: 合成 ≈ 95%，人工只做抽检


关键：**验证闭环**——"生成 → 执行验证 → 只保留正确/有用的"，这正是 DeepSeek-R1 的核心方法论。

### 10.6 训练与推理边界模糊

Test-time Compute Scaling 核心理念：训练阶段学会"如何思考"，推理阶段用更多 token 换取准确率。

未来：每个用户/每个任务动态分配推理算力，简单问题快速回答、复杂问题深度思考。

### 10.7 小模型的 Scaling Law 回归

2020-2023: 大的更好（175B → 1.8T MoE）
2024: 小模型+多数据可匹敌大模型（Llama 3 8B）
2025-2026:小模型+推理 RL 崛起（DeepSeek-R1 蒸馏版）


未来：70B 推理模型可能超过 500B 非推理模型，7B Agent 模型处理大多数日常编码任务。"大到不能跑"的时代正在结束。

---

## 第 11 章：实践指南——如何自己训练 / 微调一个模型

### 11.1 三种路径选择

路径 A：全量预训练（不建议，成本过高）
需要：$1M-$1B + 万卡集群 + 数十 TB 数据
适合：Google / OpenAI / Anthropic / Meta

路径 B：继续预训练 + Post-Training
需要：$50K-$500K + 百卡集群 + 领域数据
适合：大企业 / 垂直领域
例子：CodeLlama、DeepSeek-Coder、ChatGLM

路径 C：基于开源模型的 Post-Training（最实际）
需要：$1K-$50K + 单卡/几卡 GPU + 优质数据
适合：个人 / 小团队 / 垂直场景
例子：Llama 4 / DeepSeek-V4 Flash + SFT + DPO


### 11.2 最小可行 Pipeline

选基座模型
├── Llama 4 (behemoth / scout)
├── DeepSeek-V4 Flash（性价比最优）
├── Qwen 3（中文场景）
└── Mistral Large（多语言场景）
准备数据
├── 场景指令/对话数据（100-10K 条）
├── 质量优先于数量
└── 可混入合成数据（用更好模型生成）
SFT
├── 工具：Axolotl / LLaMA-Factory / Unsloth
├── 硬件：1-8 GPUs
├── 时间：数小时到数天
└── 学习率：1e-5 ~ 2e-5
DPO
├── 需要偏好对 (chosen / rejected)
├── 可自构建（模型生成多个答案选最优）
└── 时间：数小时
评测
├── 自有场景评测集
└── 开放基准（MMLU / BFCL / GSM8K）
部署
├── Ollama / vLLM / llama.cpp
└── 量化（GGUF / AWQ / GPTQ）

posted @ 2026-06-08 17:27 getmoon 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

get_moon

现代 LLM 训练 Pipeline（2026 年版）

现代 LLM 训练 Pipeline（2026 年版）

目录

术语表

第 1 章：历史回望——LLM 训练的三幕演进

1.1 第一幕：Scaling Law 时代（2020 — 2023 中）

1.2 第二幕：对齐觉醒时代（2023 中 — 2024 底）

1.3 第三幕：推理增强时代（2025 初 — 至今）

1.4 时间线与关键转折点

第 2 章：2026 年全景——标准训练流水线

第 3 章：阶段 0——基础设施

3.1 硬件

3.2 训练框架

第 4 章：阶段 1——预训练

4.1 数据规模与来源

4.2 数据处理流程

4.3 训练目标与超参数

第 5 章：阶段 2——继续预训练 / Domain Adaptation

第 6 章：阶段 3——Post-Training（对齐与增强）

6.1 SFT（Supervised Fine-Tuning）

7.5 模型压缩 / 量化（部署前可选）

公告