现代 LLM 训练 Pipeline(2026 年版)
现代 LLM 训练 Pipeline(2026 年版)
从零训练一个大模型需要哪些步骤?
从 GPT-3(2020)到 DeepSeek-R1 / Claude 4 / Gemini 2.5(2025-2026),训练流程发生了根本性变化。
目录
- 第 1 章:历史回望——LLM 训练的三幕演进
- 第 2 章:2026 年全景——标准训练流水线
- 第 3 章:阶段 0——基础设施
- 第 4 章:阶段 1——预训练
- 第 5 章:阶段 2——继续预训练 / Domain Adaptation
- 第 6 章:阶段 3——Post-Training(对齐与增强)
- 第 7 章:阶段 4——专项能力调优
- 第 8 章:阶段 5——评测与迭代闭环
- 第 9 章:2023 → 2026 Pipeline 演进对照
- 第 10 章:未来趋势(2026-2028)
- 第 11 章:实践指南——如何自己训练 / 微调一个模型
术语表
| 术语 | 全称 | 一句话解释 |
|---|---|---|
| LLM | Large Language Model | 大语言模型,基于海量文本训练的神经网络,能理解和生成自然语言 |
| Token | — | 文本的最小处理单元(≈ 0.75 个英文单词 或 1-2 个中文字),模型读写的"原子" |
| Params | 模型参数(Parameters) | 神经网络的权重数量。越多通常能力越强(但成本越高) |
| Pre-training | 预训练 | 在原始文本上做 next token prediction,让模型学会语言知识 |
| SFT | Supervised Fine-Tuning | 有监督微调,用人工/合成的高质量对话数据训练模型学会"回答" |
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习——用人类偏好排序训练奖励模型,再用 PPO 优化主模型 |
| DPO | Direct Preference Optimization | 直接偏好优化——不用奖励模型,直接用偏好对(好/坏回答)更新策略,比 RLHF 简单 |
| PPO | Proximal Policy Optimization | RLHF 中使用的主流强化学习算法,通过策略梯度 + KL 惩罚稳定训练 |
| Reasoning RL | Reinforcement Learning for Reasoning | 对模型的推理过程做强化学习——用客观结果(答案对错/测试通过)做 reward,不需要人工标注 |
| Rejection Sampling | 拒绝采样 | 模型生成多条推理路径,只保留最终结果正确的,用这些高质量路径再做一轮 SFT |
| CoT | Chain-of-Thought | 思维链——让模型输出"一步步推理"的过程,而不是直接给答案 |
| ReAct | Reasoning + Acting | 推理+行动——模型交替输出思考过程和工具调用,Agent 场景的标准模式 |
| Tool Use / Function Calling | 工具调用 | 模型通过 JSON 格式调用外部函数(读文件、执行命令、调 API)的能力 |
| MoE | Mixture of Experts | 混合专家——模型由多个"专家"子网络组成,每次只激活部分专家,用更少算力达到更大容量 |
| Scaling Law | 缩放定律 | Kaplan et al. (2020) 发现:模型越大、数据越多、算力越大,性能持续提升 |
| Chinchilla Law | — | Hoffmann et al. (2022) 发现:参数量和训练 token 数应等比例增长 |
| Test-time Compute Scaling | 推理时计算缩放 | 推理阶段给模型更多 token 去"思考",可以换取更高的准确率 |
| Extended Thinking | 扩展思考 | Claude 4 / Gemini 2.5 的"深度思考"模式,内部推理后再给最终答案 |
| Alignment | 对齐 | 让模型的行为符合人类期望——说人话、有用、无害、诚实 |
| Red Teaming | 红队测试 | 派专门的测试者攻击模型找漏洞,用于提升安全对齐 |
| Constitutional AI | 宪法 AI | Anthropic 的安全方法:用一套原则让模型自我评估、自我修正 |
第 1 章:历史回望——LLM 训练的三幕演进
理解现状必须先理解历史。2026 年的训练流水线不是一天建成的,它经历了三次范式转移。
1.1 第一幕:Scaling Law 时代(2020 — 2023 中)
核心信仰:更大 = 更好
GPT-3 (2020) 175B params ~300B tokens 成本 ~$4.6M
↓
Chinchilla (2022) 70B params 1.4T tokens → "更多token > 更多参数"
↓
LLaMA (2023) 7B-65B params 1T-1.4T tokens → 小模型+多数据可匹敌大模型
↓
GPT-4 (2023) 传闻 1.8T MoE 未知 token 数 → 闭源,但巨大
| 时代信条 | 内容 |
|---|---|
| Scaling Law(Kaplan et al., 2020) | 模型越大、数据越多、算力越大,loss 越低 |
| Chinchilla Law(Hoffmann et al., 2022) | 参数量与训练 token 应等比例增长 |
| 数据量压倒数据集质量 | 原始网页足够多就能训练好模型 |
| Post-Training 是点缀 | 核心能力来自预训练 |
训练流程(简化版):
海量数据 → 预训练 → SFT(少量指令数据)→ RLHF(可选)→ 发布
代表作: GPT-3、InstructGPT、LLaMA 1、Chinchilla、PaLM
1.2 第二幕:对齐觉醒时代(2023 中 — 2024 底)
核心信仰:Post-Training 质量决定实际表现
转折点:ChatGPT(2022.11)——GPT-3.5 不是模型架构的突破,而是 RLHF 的产品化。
闭源竞赛 (2023-2024)
├── GPT-4:RLHF 质量巅峰
├── Claude 3:Constitutional AI + RLHF
├── Gemini 1.5:超长上下文(1M)+ 多模态对齐
开源追赶 (2024)
├── Llama 3:15T token + 高质量 SFT → 接近 GPT-4
├── DeepSeek-V2:MoE + 低成本对齐
└── Qwen 2.5 / Mistral:各垂直方向对齐最佳实践
关键发现:
| 发现 | 影响 |
|---|---|
| SFT 数据质量 > 数量 | 10K 高质量 >> 100K 低质量 |
| DPO 可替代 RLHF | 开源社区大规模对齐成为可能 |
| 合成数据取代人工标注 | 用 GPT-4 生成 SFT 数据训练小模型 |
| 多轮对话 > 单轮指令 | 模型需要跟踪上下文 |
训练流程:
预训练 → Continue Pre-training(代码/数学/领域)
↓
SFT(合成+人工混合,强调多轮对话)
↓
DPO / RLHF(偏好对齐)
↓
安全对齐 + Red Teaming → 发布
1.3 第三幕:推理增强时代(2025 初 — 至今)
核心信仰:比"答对"更重要的是"过程"——让模型自己学会思考
触发事件:DeepSeek-R1(2025.01) 和 OpenAI o1(2024.09)。核心创新不是模型结构,而是用强化学习训练推理过程。
DeepSeek-R1 (2025.01)
├── 不需要人工标注推理过程
├── 只需要客观结果做 reward(答案对错)
├── 模型自己学会:反思、自我纠错、延长思考
└── Post-Training 成本 ~$2M(基座 V3 预训练成本 ~$5.6M)
OpenAI o3 / GPT-5 (2025)
├── "推理预算"控制:min/medium/max thinking
└── Test-time Compute Scaling
Claude 4 / Gemini 2.5 (2025-2026)
├── Extended Thinking
└── Reasoning RL 成为 post-training 标配第三阶段
| 旧范式 | 新范式 |
|---|---|
| SFT 教模型"答案是什么" | RL 让模型自己探索"怎么得到答案" |
| 需要人工标注推理过程 | 只需标注最终答案对错 |
| 推理过程固定 | 推理时可用更多 token 换准确率 |
| 模型无"时间感" | 模型能自我判断需要思考多久 |
1.4 时间线与关键转折点
2020 ─── GPT-3 | Scaling Law 诞生
2021 ─── Codex | 代码生成
2022 ─── Chinchilla | "更多 token" 范式
ChatGPT | RLHF 产品化 ← 转折点
2023 ─── LLaMA | 开源起点
GPT-4 | RLHF 质量巅峰
2024 ─── Llama 3 | 15T 开源标杆
DPO 成为主流 | 对齐平民化
o1-preview | Reasoning RL 雏形
2025 ─── DeepSeek-R1 | 开源 Reasoning RL ← 转折点
Extended Thinking 普及
2026 ─── Reasoning RL 全面普及
Post-Training 三阶段定型
Agent 能力成为 SFT 核心组成部分
| 时间 | 事件 | 改变了什么 |
|---|---|---|
| 2020.06 | GPT-3 | 证明 Scaling Law |
| 2022.03 | Chinchilla | "更多 token 比更多参数更香" |
| 2022.11 | ChatGPT | Post-Training > 预训练的时代开启 |
| 2023.07 | LLaMA | 开源可逼近闭源 |
| 2024.04 | Llama 3 | Post-training 方法公开化 |
| 2024.09 | o1-preview | Reasoning RL 新方向 |
| 2025.01 | DeepSeek-R1 | 开源 Reasoning RL,全球跟进 |
第 2 章:2026 年全景——标准训练流水线
阶段 0: 基础设施准备
硬件集群(万卡 GPU/TPU)、网络拓扑、训练框架
阶段 1: 预训练
数据收集 → 清洗 → tokenize → next token prediction
阶段 2: 继续预训练 / Domain Adaptation
特定领域(代码/数学/多语言)继续训练
阶段 3: Post-Training(三阶段)
├── 3a. SFT(指令 + 对话 + 推理轨迹 + 工具调用)
├── 3b. 偏好对齐(DPO/RLHF)
└── 3c. Reasoning RL ← 2025-2026 新增
阶段 4: 专项能力调优
├── Tool Use / Function Calling
├── Safety
├── 长上下文 / 多模态
阶段 5: 评测与迭代
自动评测 → 人工评测 → Red Teaming → Bad Case → 回到阶段 1/3/4
第 3 章:阶段 0——基础设施
3.1 硬件
| 代际 | 典型集群 | 预训练耗时 | 成本估算 |
|---|---|---|---|
| GPT-3 (2020) | ~10K V100 | 数月 | ~$4.6M |
| Llama 3.1 405B (2024) | 16K H100 | ~54 天 | ~$60M+ |
| DeepSeek-V3 (2024) | 2K H800 | ~2.7M GPU 小时 | ~$5.6M |
| Gemini 2.5 / GPT-5 (2025-2026) | 10K+ H100/B200 | ~数月 | $100M-$1B |
2026 年关键变化:
- H100/B200/Blackwell 成为标配,单卡算力是 A100 的 3-6x
- 通信瓶颈 > 算力瓶颈——万卡集群的网络拓扑(NVLink / InfiniBand)是最难解决的问题
- MoE(Mixture of Experts) 成为主流——激活参数远小于总参数量
- FP8 训练 成为标配,FP4/NF4 开始探索
3.2 训练框架
| 框架 | 使用方 | 特点 |
|---|---|---|
| Megatron-LM | NVIDIA 生态 | 3D 并行(TP/PP/DP),工业级标准 |
| DeepSpeed (ZeRO) | Microsoft / 社区 | 最广泛使用,MoE 支持 |
| FSDP (PyTorch) | Meta / 社区 | 易用性最好 |
| JAX + Pathways | TPU 原生,自动并行编译器 | |
| 自研框架 | OpenAI / Anthropic | 不公开,与硬件深度耦合 |
第 4 章:阶段 1——预训练
4.1 数据规模与来源
| 数据类型 | 估算规模 | 来源 |
|---|---|---|
| Web 文本 | 10-50 TB (清洗后) | CommonCrawl、互联网存档 |
| 书籍/学术 | 1-3 TB | 图书、arXiv |
| 代码 | 5-10 TB | GitHub、文档 |
| 多语言 | 5-20 TB | 各语言网页、平行语料 |
| 合成数据 | 逐步增加 | 模型生成的高质量文本 |
4.2 数据处理流程
原始数据 (EB 级)
↓ 去重(MinHash / SimHash / Bloom Filter)
↓ 质量过滤(困惑度、长度、语言、NSFW)
↓ 模型辅助过滤(小模型打分)
↓ 去毒 / PII 去除
↓ 分布平衡(各领域各语言合理配比)
↓ Tokenize(BPE / SentencePiece)
↓
训练数据集 (~10-15T tokens)
2026 年趋势: 质量 >> 数量已成共识,合成数据占比上升,数据配比是各厂商的核心商业机密。
4.3 训练目标与超参数
目标仍为 Next Token Prediction(自回归语言建模):
loss = -Σ log P(token_i | tokens_{<i})
| 超参数 | 典型值 |
|---|---|
| 学习率 | 3e-4 → 3e-5 (cosine decay) |
| Batch Size | 2M-4M tokens |
| 训练 token 数 | 3T-15T |
| Warmup 步数 | 2000-5000 |
关键进化:中间层也有 auxiliary loss——帮助 MoE 路由器学习、帮助中间层对齐。
第 5 章:阶段 2——继续预训练 / Domain Adaptation
在通用预训练之后,绝大多数模型做领域适配:
通用预训练 (10T+ tokens)
↓
代码继续训练 (500B-1T tokens)
├── 结果:强代码能力
├── 代表:DeepSeek-Coder / CodeLlama
└── 数据:GitHub + 代码合成
↓
多语言继续训练 (200B-500B tokens)
↓
长上下文扩展(RoPE base frequency 调整)
├── 4K → 32K → 128K → 1M+
关键:这个阶段的目标不是"学新知识",而是"激活模型在该领域的潜在能力"。
第 6 章:阶段 3——Post-Training(对齐与增强)
2025-2026 变化最大的环节。以前 Post-Training = SFT + RLHF,现在是 SFT + 偏好对齐 + Reasoning RL 三阶段。
6.1 SFT(Supervised Fine-Tuning)
数据构成(2026 年典型配比):
├── 通用指令 30-50% ("写一篇量子计算短文")
├── 多轮对话 20-30% (跟踪上下文)
├── 推理/数学 10-20% (CoT 轨迹)
├── 代码 10-20% (code + explanation)
└── 工具调用 5-15% (ReAct 轨迹) ← 2025+ 新增核心
注:各比例区间存在重叠(如一段代码推理轨迹同时计入"代码"和"推理"),
各项因模型定位不同而灵活调整,总和不要求精确等于 100%。
**业界共识:Post-Training 数据质量决定模型能力天花板,预训练只决定地板。**
**关键发现:**
- 数据多样性 > 数据量——10K 高质量多样化指令 >> 100K 单一类型
- 多轮对话 > 单轮指令——Agent 场景需要上下文和工具结果跟踪
- ReAct/CoT 轨迹是当前最佳实践——"思考→行动→观察"的循环
### 6.2 对齐与增强:RLHF / DPO / Reasoning RL
三条路线对应两个目标:RLHF 和 DPO 解决"模型是否说人话"(偏好对齐),Reasoning RL 解决"模型是否真的会思考"(推理增强)。2026 年的标准 Post-Training 是**三条路线依次执行**,而非三选一。
#### 路线 A:RLHF(经典,但贵)
训练 Reward Model:人类对两个回答做偏好排序 → RM 打分
PPO 训练:用 RM 分数做 reward + KL 惩罚
需同时加载 4 个模型(主模型、参考模型、RM、Value 模型)
目前只有 OpenAI / Anthropic / Google 完全掌握。
#### 路线 B:DPO(更简单,2024 年流行)
不需要 Reward Model,直接用偏好对 (chosen, rejected) 更新策略。
| 优点 | 缺点 |
|------|------|
| 简单,只需偏好数据 | 对数据质量更敏感 |
| 无需 RM/Value 模型 | 复杂推理任务不如 RLHF |
| 训练稳定、易收敛 | 分布外泛化差 |
**2026 年现状:** 多数团队用 DPO/RPO/SimPO 变体,RLHF 只在顶尖实验室使用。
#### 路线 C:Reasoning RL(2025 年最大突破)
Step 1: 长 CoT 数据 SFT → 模型学会输出 thinking process
Step 2: 基于结果的 RL
└── 不用 Reward Model,用客观结果做 reward
├── 数学题:答案对不对?
├── 编程题:测试用例通不通?
└── 工具调用:执行成功了没有?
Step 3: 拒绝采样 → 生成多条路径,只保留正确的 → 再做一轮 SFT
**革命性:不需要人工标注!模型自主发现推理策略——反思、自我纠错、延长思考时间。** 这是从"教会模型正确答案"到"让模型自己探索正确答案"的范式转变。
---
## 第 7 章:阶段 4——专项能力调优
### 7.1 Tool Use / Function Calling
合成多轮 ReAct 轨迹 → SFT → 执行验证 RLHF。(详见前文《LLM Agent 工具调用训练原理与准确性保障》)
### 7.2 Safety / 安全对齐
对抗训练:红队测试找漏洞 → 安全数据(有害请求+拒绝回答)→ 迭代修复
内容过滤器:输出侧安全分类器,最后一道防线
宪法 AI (Anthropic):用原则指导模型自我评估,减少人工标注
### 7.3 长上下文优化
RoPE base frequency 调高 → 支持更长序列
训练混入长文档(书籍、论文、代码文件)
Ring Attention / Flash Attention 工程侧优化
### 7.4 多模态扩展
```text
文本+图像:CLIP-style 对齐 + 图像 encoder + LLM decoder
文本+代码+图像+音频:Gemini 原生多模态训练
7.5 模型压缩 / 量化(部署前可选)
在部署前,多数模型会做推理优化,虽然不是"能力训练"但属于模型出厂前的标准工序:
量化(Quantization)
├── FP16 → INT8/INT4:显存减半,推理速度翻倍,精度损失 < 1%
├── 工具:GPTQ / AWQ / GGUF
└── 2026 趋势:训练时直接做量化感知训练(QAT),取代训练后量化
蒸馏(Distillation)
├── 大模型(Teacher)→ 小模型(Student)
├── 代表:DeepSeek-R1 蒸馏版(671B → 7B/14B/32B/70B)
└── 推理 RL + 蒸馏 = 小模型获得强推理能力的标准路径
---
## 第 8 章:阶段 5——评测与迭代闭环
### 8.1 评测基准
| 基准 | 测什么 | 2026 年水平 |
|------|--------|------------|
| MMLU / MMLU-Pro | 多学科知识 | ~90%+(饱和) |
| GPQA | 研究生级别推理 | ~80% |
| MATH / GSM8K | 数学推理 | ~95%+(饱和) |
| HumanEval / SWE-bench | 代码生成/编码 | SWE-bench ~70%+ |
| BFCL / Nexus | 工具调用 | ~85-90% |
| SimpleQA / LongBench | 知识准确/长上下文 | 持续改进 |
| 人工 Elo 盲测 | 综合体验 | 最可靠但最慢 |
### 8.2 Bad Case 驱动的迭代
评测发现 Bad Case → 分析归因 → 针对性补数据 → 重新训练 → 验证 → 检查 Regression
| 问题类型 | 根因 | 修复手段 |
|---------|------|---------|
| 知识错误 | 预训练不足 | 补充预训练数据 |
| 指令理解差 | SFT 不够多样 | 补充指令 |
| 有害输出 | 对齐不够 | 补充安全数据 |
| 工具调用格式错 | 缺少样本 | 补充格式样本 |
| 推理能力弱 | CoT/RL 不足 | 补充推理 RL |
---
## 第 9 章:2023 → 2026 Pipeline 演进对照
### 9.1 变化总表
| 维度 | 2023 年(GPT-4 / Llama 2) | 2026 年 |
|------|---------------------------|---------|
| **预训练** | 越大越好(Scaling Law) | 质量 > 数量,合成数据进入 |
| **Post-Training** | SFT + RLHF(两阶段) | SFT + 偏好对齐 + Reasoning RL(三阶段) |
| **工具调用** | 可选附加能力 | 核心训练目标,占 SFT 5-15% |
| **推理增强** | ❌ 不存在 | ✅ Reasoning RL 标配 |
| **合成数据** | 少量使用 | SFT/对齐阶段的主力来源 |
| **训练效率** | FP16/BF16 | FP8 标配,FP4 探索中 |
### 9.2 十年演进的底层逻辑
预训练价值 ─────────→
↑
GPT-3 │ AI Agent / Agentic
(Scaling Law) │ ↑
│ o1 / R1
LLaMA (Reasoning RL)
(开源预训练) ↑
│ 对齐觉醒
│ ↑
│ InstructGPT (RLHF)
│ ↑
│ ChatGPT (Post-Training)
│
2019 ──── 2022 ──── 2024 ──── 2026
Post-Training 价值 ───→
| 阶段 | 核心矛盾 | 突破 | 结果 |
|------|---------|------|------|
| Scaling Law (2020-2022) | 模型不够大 | 更多参数 + 更多数据 | GPT-3 → 175B |
| 对齐觉醒 (2023-2024) | 聪明但不听话 | RLHF / DPO / SFT | ChatGPT → 可用 |
| 推理增强 (2025-2026) | 能说但不会想 | Reasoning RL | o1 / R1 → 能推理 |
| **下一个阶段 (2027+)** | 能想但不会行动 | Agent 原生训练 | 从"对话"到"任务完成" |
### 9.3 一句口诀
> **数据决定天花板,对齐决定实际表现,推理 RL 是 2025-2026 的最大变量。**
现代 LLM 训练完整流程可以浓缩为四个字——**喂、教、调、验**:
| 步骤 | 2023 年说法 | 2026 年说法 |
|------|-----------|-----------|
| **喂** | 海量数据 | 海量高质量数据 + 合成数据 |
| **教** | 指令微调 | 多层 SFT(对话+推理+工具+安全) |
| **调** | RLHF | RLHF/DPO + Reasoning RL |
| **验** | 评测 | 自动基准 + 人工盲测 + 红队 + 持续迭代闭环 |
---
## 第 10 章:未来趋势(2026-2028)
### 10.1 Post-Training 进一步细分
2026: 2028:
Post-Training Post-Training
├── SFT ├── Domain SFT
├── DPO / RLHF ├── Tool-Use SFT
├── Reasoning RL ├── Multi-Agent SFT
├── Preference Alignment
├── Reasoning RL variants
├── Tool-Use RL
└── Safety RL (continuous)
Post-Training 从"一个步骤"变成"持续递增的过程",每个新能力对应一套专门 pipeline。
### 10.2 Reasoning RL 工业化
| 2026 现状 | 2028 预测 |
|-----------|-----------|
| 只在数学/编程有效 | 泛化到所有领域 |
| 推理 token 消耗 2-10x | 可调节推理预算(类似压缩率滑块) |
| 思考过程不可控 | 用户可指定思考方向 |
| 主要针对闭源模型 | 开源普遍具备 |
下一步:**Tool-Use Reasoning RL**——模型在调工具前"深度思考"该调哪个、怎么调、怎么用结果。
### 10.3 Agent 原生训练
2026: 在通用模型上"加"工具调用能力(SFT 混入 ReAct 轨迹)
2028: 从设计上就是 Agent 模型
├── 训练数据中 Agent 场景占 30%+
├── 多 Agent 协作轨迹
├── 容错和自修正作为训练目标
└── 专门评估 Agent 行为的奖励模型
当 Agent 成为大模型的主要使用方式,训练会从"以对话为中心"转向"以任务完成为中心"。
### 10.4 持续学习 / 在线 RL
当前:训练 → 冻结 → 部署 → 几个月后出新版
未来:训练 → 部署 → 实时反馈 → 增量更新 → 持续部署
挑战:灾难性遗忘、分布偏移、评测稳定性。目前仅 Google / OpenAI / Anthropic 有初步实践。
### 10.5 合成数据完全取代人工标注
2019: 纯人工标注(贵、慢、规模小)
2022: 人工 seed + 机器扩增
2024: 合成为主,人工验证
2026: 合成占 SFT/对齐数据 80%+
2028: 合成 ≈ 95%,人工只做抽检
关键:**验证闭环**——"生成 → 执行验证 → 只保留正确/有用的",这正是 DeepSeek-R1 的核心方法论。
### 10.6 训练与推理边界模糊
Test-time Compute Scaling 核心理念:训练阶段学会"如何思考",推理阶段用更多 token 换取准确率。
未来:每个用户/每个任务动态分配推理算力,简单问题快速回答、复杂问题深度思考。
### 10.7 小模型的 Scaling Law 回归
2020-2023: 大的更好(175B → 1.8T MoE)
2024: 小模型+多数据可匹敌大模型(Llama 3 8B)
2025-2026:小模型+推理 RL 崛起(DeepSeek-R1 蒸馏版)
未来:70B 推理模型可能超过 500B 非推理模型,7B Agent 模型处理大多数日常编码任务。"大到不能跑"的时代正在结束。
---
## 第 11 章:实践指南——如何自己训练 / 微调一个模型
### 11.1 三种路径选择
路径 A:全量预训练(不建议,成本过高)
需要:$1M-$1B + 万卡集群 + 数十 TB 数据
适合:Google / OpenAI / Anthropic / Meta
路径 B:继续预训练 + Post-Training
需要:$50K-$500K + 百卡集群 + 领域数据
适合:大企业 / 垂直领域
例子:CodeLlama、DeepSeek-Coder、ChatGLM
路径 C:基于开源模型的 Post-Training(最实际)
需要:$1K-$50K + 单卡/几卡 GPU + 优质数据
适合:个人 / 小团队 / 垂直场景
例子:Llama 4 / DeepSeek-V4 Flash + SFT + DPO
### 11.2 最小可行 Pipeline
-
选基座模型
├── Llama 4 (behemoth / scout)
├── DeepSeek-V4 Flash(性价比最优)
├── Qwen 3(中文场景)
└── Mistral Large(多语言场景) -
准备数据
├── 场景指令/对话数据(100-10K 条)
├── 质量优先于数量
└── 可混入合成数据(用更好模型生成) -
SFT
├── 工具:Axolotl / LLaMA-Factory / Unsloth
├── 硬件:1-8 GPUs
├── 时间:数小时到数天
└── 学习率:1e-5 ~ 2e-5 -
DPO
├── 需要偏好对 (chosen / rejected)
├── 可自构建(模型生成多个答案选最优)
└── 时间:数小时 -
评测
├── 自有场景评测集
└── 开放基准(MMLU / BFCL / GSM8K) -
部署
├── Ollama / vLLM / llama.cpp
└── 量化(GGUF / AWQ / GPTQ)

浙公网安备 33010602011771号