PPO算法感觉这篇讲的不错zz

https://zhuanlan.zhihu.com/p/614115887

Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始

 

posted @ 2025-12-30 19:42  blcblc  阅读(6)  评论(0)    收藏  举报