随笔分类 -  模拟学习

Imitation Learning via Off-Policy Distribution Matching
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICLR, (2020) ABSTRACT 在从专家演示中进行模仿学习时,分布匹配是一种流行的方法,其中一个在估计分布比率之间交替,然后在标准强化学习(RL)算法中使用这些比率作为奖励。传统上,分配比率的估计需要同策(on-policy) 阅读全文

posted @ 2022-04-24 20:38 穷酸秀才大草包 阅读(452) 评论(0) 推荐(0)

Generative Adversarial Imitation Learning
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain. Abstract 考虑从示例专家行为中学习策略,而不与专家交互 阅读全文

posted @ 2022-04-24 09:52 穷酸秀才大草包 阅读(832) 评论(0) 推荐(0)

导航