2024 年 12月 24 日随笔档案 - 白云千载尽

2024年12月24日

摘要： PPO近端策略优化算法我们今天还是主要来理解PPO算法的数学原理。PPO是一种策略梯度方法，简单的策略梯度对每个样本（或者一组样本）进行一次梯度更新，对单个样本执行多个梯度步骤会导致一些问题，因为梯度偏差太大，从而产生错误的策略。PPO允许我们在每个样本中进行多次梯度更新，方法是尽量使策略与用于采阅读全文

posted @ 2024-12-24 20:12 白云千载尽阅读(116) 评论(0) 推荐(0)

cyun2001

公告