大模型学习路线（三）后训练Post-training

后训练 Post-Training 主要有两种范式：SFT和RL

Pre-training (预训练) 通过海量无监督数据的自监督学习（Next Token Prediction），让模型习得语言语法与通用知识。
SFT (监督微调)：实现指令对齐 通过高质量问答对进行有监督学习，约束模型的输出空间，使其学会遵循人类指令的格式与规范。
RL (强化学习)：突破性能上限 引入奖励信号（Reward）进行价值对齐，鼓励模型在解空间中探索出比SFT数据更优的路径。

一：SFT (监督微调)

通过高质量问答对进行有监督学习，约束模型的输出空间，使其学会遵循人类指令的格式与规范。

Prompt 构造：处理 System/User/Assistant 等特殊 Token。Seed Prompt 的质量决定泛化能力。
Data Packing (数据打包)：
- 做法：多条短数据拼成长数据（如4096）塞入GPU。
- 关键：必须加 Attention Mask，防止样本间注意力越界（Cross-contamination）。

Loss Masking：
- 做法：只计算 Response 的 Loss，Prompt 部分 Loss 置零。
- 原因：Prompt 是已知条件，不需要预测。强行学 Prompt 会导致死记硬背，降低泛化性。
对齐税 (Alignment Tax)：
- 现象：微调后通用能力（如写作、逻辑）下降。
- 解法：在 SFT 数据中混入通用预训练数据（Replay）。

理解对齐算法前，必须掌握基本的强化学习概念。

RLHF 是使模型对齐人类价值观（3H原则：Helpful, Honest, Harmless）的标准范式。

SFT 训练一个 baseline
奖励模型训练 (RM)：
1. 基于 Bradley-Terry 模型，将排序数据转化为 Pairwise 损失进行二分类训练。
PPO 算法训练：
1. 四个模型：Actor（训练、策略）、Critic（训练、价值）、Reward（冻结、打分）、Reference（冻结、KL约束）。
2. KL 惩罚项：引入 KL 散度防止模型偏离原始分布太远（Reward Hacking）。
3. GAE (广义优势估计)：平衡方差与偏差。

DPO 是目前工业界最流行的非 RL 对齐方案。

针对推理模型（Reasoning Model）的最新优化技术。

GRPO (Group Relative Policy Optimization)：
- 去 Critic 化：针对同一个问题采样一组输出，通过组内奖励的相对大小（均值/标准差归一化）估计优势函数，省去了庞大的 Critic 模型。
- 应用场景：特别适用于数学、代码等具有确定性判别准则的任务。
过程奖励模型 (PRM)：相比结果奖励 (ORM)，PRM 对思维链 (CoT) 的每一步进行打分，缓解奖励稀疏问题。
其他变体：DAPO、GSPO等各类变体。

posted @ 2025-12-21 01:31 Orzjh 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部