摘要: **发表时间:**2018(NIPS 2018) **文章要点:**这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal,同时用off-po 阅读全文
posted @ 2022-05-30 23:43 initial_h 阅读(89) 评论(0) 推荐(0) 编辑