随笔分类 -  Sparse Reward

摘要:事后观察经验回放。OpenAI的论文。 1707.01495 摘要: 处理稀疏奖励。提出了Hindsight Experience Replay新技术,使得可以从稀疏二元的奖励中进行有效的学习。可以与任意off-policy的强化学习算法结合。可以看作一种implicit curriculum。 在 阅读全文
posted @ 2022-06-19 10:50 明2022 阅读(1069) 评论(0) 推荐(0)