摘要: 广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化学习算法的核心因素之一。 GAE的理论基础建立在资格迹(eligibility traces 阅读全文
posted @ 2025-03-23 11:00 deephub 阅读(277) 评论(0) 推荐(0)