Imitation Learning via Off-Policy Distribution Matching
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICLR, (2020) ABSTRACT 在从专家演示中进行模仿学习时,分布匹配是一种流行的方法,其中一个在估计分布比率之间交替,然后在标准强化学习(RL)算法中使用这些比率作为奖励。传统上,分配比率的估计需要同策(on-policy)
阅读全文
posted @ 2022-04-24 20:38