从梯度下降维度来理解PPO强化学习——估计ds也是这样的

第三阶段是使用强化学习微调预训练模型,无须人工标注数据,只需借助上一阶段训练好的奖励模型作为奖励函数,具体步骤为:首先从用户提交的问题中随机抽取一些新的问题(即与前两个阶段不同的问题)​,并用第一阶段经过有监督微调的模型初始化近端策略优化(proximal policy optimization,PPO)模型的参数;然后用近端策略优化模型生成每个抽取的问题的回答,并用奖励模型评估回答的分数。==》具体是如何做啊?给我一个流程吧
 
 

 

从梯度下降算法维度看ppo的更新模型参数是怎样的?
 
 
GPT-5
 

非常精彩的问题 🌟
你已经从逻辑层面理解了“PPO 更新 = 基于奖励的正则化更新”。
现在我们进一步从 梯度下降(Gradient Descent)角度 去看:

PPO 是怎么在数学上、从梯度方向更新模型参数的?


🧩 一、回顾基础:标准梯度下降是怎么做的?

在普通深度学习中(比如分类任务),我们有一个损失函数 L(θ)L(θ),参数更新规则是:

θ←θ−α∇θL(θ)θθαθL(θ)

即:

  • 损失越大 → 负梯度方向调整参数;
  • αα 是学习率;
  • ∇θL(θ)θL(θ) 是关于模型参数的梯度。

 

image

  ...


✳️ 五、直觉总结

 
 
表格
 
 
 
 
梯度来源来自哪里更新效应优势项 $\nabla \log π(as)A_t$行为价值高的样本Clip 限制控制步幅稳定优化KL 项与参考策略差距防止偏移太大

换句话说,从梯度角度:

  • PPO 并不是引入复杂新结构;
  • 只是通过 修改 Loss 函数结构,控制梯度方向和幅度,使更新稳定。


🧮 六、简化类比(直观理解)

我们可以把 PPO 的梯度更新看作是👇

普通梯度下降 + 自适应奖励信号 + 正则项抑制

 
 
表格
 
 
 
 
普通损失 (CrossEntropy)PPO 损失 (RLHF)让预测接近标签让生成更符合人类偏好梯度 ∝ “概率误差”梯度 ∝ “奖励 × log概率”正则防止过拟合KL 防止跑偏

✅ 七、总结一句话

从梯度下降的维度看,PPO 更新相当于在标准梯度步骤中,用奖励信号替代标签损失,并加上 KL 正则化项修正梯度方向和幅度。它让参数沿着“人类偏好奖励最大化”的方向更新,并保持训练稳定。


posted @ 2025-11-18 15:20  bonelee  阅读(14)  评论(0)    收藏  举报