摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章的思路是运用distributed RL的形式,基于intrinsic reward,并行多个agent,将exploration策略和exploitation策略分开单独训练,这样可以设置一族探索程度不同的explorat 阅读全文
posted @ 2022-05-08 23:59 initial_h 阅读(223) 评论(0) 推荐(0) 编辑