摘要: Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable(用于大模型和并行实现), data efficient(高效利用采样数据), robust(同一套超参,在大量不同的env上取得成功)上 阅读全文
posted @ 2020-11-19 11:50 dynmi 阅读(875) 评论(0) 推荐(0) 编辑
摘要: intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意,于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后,取代vanil 阅读全文
posted @ 2020-11-19 11:38 dynmi 阅读(150) 评论(0) 推荐(0) 编辑