强化学习学习路径


不够。DPO 很重要,但不是“强化学习全貌”

先一句话

  • DPO:更像“偏好学习/对齐”的高性价比方法,工程上很好用。
  • RL(广义):还包括策略梯度、PPO/GRPO、奖励建模、探索、信用分配等。

如果你做 LLM/Agent 落地

可以按这个优先级:

  1. 先学 SFT(监督微调基础)
  2. 学 DPO(偏好对齐,性价比高)
  3. 再学 PPO/GRPO(在线交互优化、需要 reward)
  4. 补 Reward Model / 评估体系(不然容易 reward hacking)

什么时候“只学 DPO”也够用?

  • 你主要做离线偏好对齐
  • 有成对偏好数据(chosen/rejected)
  • 不做复杂在线决策任务

什么时候必须学更完整 RL?

  • 多步决策(工具调用、GUI Agent、长链路任务)
  • 在线训练
  • 需要过程级奖励、策略探索、稳定优化

所以结论:DPO 是必学“主干”,但不等于全部 RL。
对你这种 Agent 方向,建议至少再补 PPO/GRPO + 奖励设计

posted @ 2026-03-31 21:54  向着朝阳  阅读(4)  评论(0)    收藏  举报