2021 年 10月 7 日随笔档案 - 懒狗lg

2021年10月7日

摘要： PPO abstract PPO通过与环境交互来采样数据和使用随机梯度上升优化"替代"目标函数之间交替使用。鉴于标准策略梯度方法对每个数据严格不能执行一次梯度更新，本文章提出了一个新的目标函数，该函数支持多个epochs的小批量更新。 Introduction 本文使用的算法在仅使用一阶优化的情况下阅读全文

posted @ 2021-10-07 17:43 懒狗lg 阅读(525) 评论(0) 推荐(0)

深度强化学习——GAE(待重写)

摘要： GAE abstract 策略梯度算法可以直接优化累计奖励，并且可以直接用于神经网络等非线性函数逼近器。但是存在两个挑战：需要大量的样本很难让算法在变化的数据中获得稳定的上升。而在本章中，使用价值函数，通过类似于的优势函数的指数加权估计值，来答复减少策略梯度估计值的偏差。通过对策略和值函数使用阅读全文

posted @ 2021-10-07 17:38 懒狗lg 阅读(1415) 评论(0) 推荐(0)

Loading

lg'blog

公告