非常精彩的问题 🌟
你已经从逻辑层面理解了“PPO 更新 = 基于奖励的正则化更新”。
现在我们进一步从 梯度下降(Gradient Descent)角度 去看:
PPO 是怎么在数学上、从梯度方向更新模型参数的?
🧩 一、回顾基础:标准梯度下降是怎么做的?
在普通深度学习中(比如分类任务),我们有一个损失函数 L(θ)L(θ),参数更新规则是:
θ←θ−α∇θL(θ)θ←θ−α∇θL(θ)
即:
- 损失越大 → 负梯度方向调整参数;
- αα 是学习率;
- ∇θL(θ)∇θL(θ) 是关于模型参数的梯度。
![image]()
...
✳️ 五、直觉总结
表格