大模型学习路线(三)后训练Post-training

后训练 Post-Training 主要有两种范式:SFT和RL

  1. Pre-training (预训练) 通过海量无监督数据的自监督学习(Next Token Prediction),让模型习得语言语法与通用知识。

  2. SFT (监督微调):实现指令对齐 通过高质量问答对进行有监督学习,约束模型的输出空间,使其学会遵循人类指令的格式与规范

  3. RL (强化学习):突破性能上限 引入奖励信号(Reward)进行价值对齐,鼓励模型在解空间中探索出比SFT数据更优的路径。

一:SFT (监督微调)

通过高质量问答对进行有监督学习,约束模型的输出空间,使其学会遵循人类指令的格式与规范。

  1. 数据工程 (决定上限)

  • Prompt 构造:处理 System/User/Assistant 等特殊 Token。Seed Prompt 的质量决定泛化能力。

  • Data Packing (数据打包)

    • 做法:多条短数据拼成长数据(如4096)塞入GPU。

    • 关键:必须加 Attention Mask,防止样本间注意力越界(Cross-contamination)。

  1. 训练策略 (决定下限)

  • Loss Masking

    • 做法:只计算 Response 的 Loss,Prompt 部分 Loss 置零

    • 原因:Prompt 是已知条件,不需要预测。强行学 Prompt 会导致死记硬背,降低泛化性。

  • 对齐税 (Alignment Tax)

    • 现象:微调后通用能力(如写作、逻辑)下降。

    • 解法:在 SFT 数据中混入通用预训练数据(Replay)。

二:强化学习基础

理解对齐算法前,必须掌握基本的强化学习概念。

  • 马尔可夫决策过程 (MDP):状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、折扣因子 (Gamma)。

  • 价值函数:状态价值 $$V(s)$$与动作价值 $$Q(s,a)$$

  • 策略梯度 (Policy Gradient):理解 REINFORCE 算法及其高方差问题。

  • Actor-Critic 架构:Actor 负责输出动作,Critic 负责评估状态价值,减少更新方差。

三:经典的 RLHF-PPO 流程

RLHF 是使模型对齐人类价值观(3H原则:Helpful, Honest, Harmless)的标准范式。

  1. SFT 训练一个 baseline

  2. 奖励模型训练 (RM)

    1. 基于 Bradley-Terry 模型,将排序数据转化为 Pairwise 损失进行二分类训练。
  3. PPO 算法训练

    1. 四个模型:Actor(训练、策略)、Critic(训练、价值)、Reward(冻结、打分)、Reference(冻结、KL约束)。

    2. KL 惩罚项:引入 KL 散度防止模型偏离原始分布太远(Reward Hacking)。

    3. GAE (广义优势估计):平衡方差与偏差。

  • 挑战:显存需求巨大、训练稳定性差、对齐税(Alignment Tax)导致通用能力下降。

四:直接偏好优化 (DPO, Direct Preference Optimization)

DPO 是目前工业界最流行的非 RL 对齐方案。

  • 核心逻辑:利用 Bradley-Terry 模型推导,将奖励函数直接替换为策略本身的表达,从而省去显式奖励模型训练和复杂的 PPO 采样过程。

  • 公式理解:本质是一种对比学习损失,增加 Chosen 答案的概率,降低 Rejected 答案的概率。

  • 优缺点:实现简单、计算开销小;但由于缺乏在线探索,性能上限受限于离线数据的质量。

五:基于PPO的优化算法

针对推理模型(Reasoning Model)的最新优化技术。

  • GRPO (Group Relative Policy Optimization)

    • 去 Critic 化:针对同一个问题采样一组输出,通过组内奖励的相对大小(均值/标准差归一化)估计优势函数,省去了庞大的 Critic 模型。

    • 应用场景:特别适用于数学、代码等具有确定性判别准则的任务。

  • 过程奖励模型 (PRM):相比结果奖励 (ORM),PRM 对思维链 (CoT) 的每一步进行打分,缓解奖励稀疏问题。

  • 其他变体:DAPO、GSPO等各类变体。

posted @ 2025-12-21 01:31  Orzjh  阅读(5)  评论(0)    收藏  举报