摘要: 本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。 最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization) 蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。 优化目标 策略 阅读全文
posted @ 2020-05-14 13:38 大浪淘沙、 阅读(616) 评论(0) 推荐(0)