2020 年 5月 14 日随笔档案 - 大浪淘沙、

2020年5月14日

摘要：本文主要是整理策略迭代的部分，重在阐明原理。李宏毅的视频，见网上。最终说明OpenAI的默认强化学习算法PPO的部分。（Proximal Policy Optimization）蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达，策略迭代更需要耐心、细心、思考。优化目标策略阅读全文

posted @ 2020-05-14 13:38 大浪淘沙、阅读(616) 评论(0) 推荐(0)

大浪淘沙、

不积跬步无以至千里，不积小流无以成江海，骐骥一跃不能十步，驽马十驾功在不舍。

公告