随笔分类 - 模拟学习

Imitation Learning via Off-Policy Distribution Matching

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICLR, (2020) ABSTRACT 在从专家演示中进行模仿学习时，分布匹配是一种流行的方法，其中一个在估计分布比率之间交替，然后在标准强化学习(RL)算法中使用这些比率作为奖励。传统上，分配比率的估计需要同策(on-policy) 阅读全文

posted @ 2022-04-24 20:38 穷酸秀才大草包阅读(525) 评论(0) 推荐(0)

Generative Adversarial Imitation Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain. Abstract 考虑从示例专家行为中学习策略，而不与专家交互阅读全文

posted @ 2022-04-24 09:52 穷酸秀才大草包阅读(872) 评论(0) 推荐(0)

穷酸秀才大艹包

随笔分类 - 模拟学习

导航

公告