摘要: 发表时间:2019 (NeurIPS 2019) 文章要点:这篇文章提出Episodic Backward Update (EBU)算法,采样一整条轨迹,然后从后往前依次更新做experience replay,这种方法对稀疏和延迟回报的环境有很好的效果(allows sparse and dela 阅读全文
posted @ 2024-02-11 02:47 initial_h 阅读(12) 评论(0) 推荐(0) 编辑