摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICLR, (2020) ABSTRACT 在从专家演示中进行模仿学习时,分布匹配是一种流行的方法,其中一个在估计分布比率之间交替,然后在标准强化学习(RL)算法中使用这些比率作为奖励。传统上,分配比率的估计需要同策(on-policy) 阅读全文
posted @ 2022-04-24 20:38
穷酸秀才大草包
阅读(474)
评论(0)
推荐(0)

浙公网安备 33010602011771号