2020 年 11月 19 日随笔档案 - dynmi

2020年11月19日

Proximal Policy Optimization(PPO)算法 / 2017

摘要： Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable（用于大模型和并行实现）, data efficient（高效利用采样数据）, robust（同一套超参，在大量不同的env上取得成功）上阅读全文

posted @ 2020-11-19 11:50 dynmi 阅读(3807) 评论(1) 推荐(1) 编辑

prioritied replay buffer / 2016

摘要： intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意，于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后，取代vanil 阅读全文

posted @ 2020-11-19 11:38 dynmi 阅读(633) 评论(0) 推荐(0) 编辑

Haris Wang's Blog