摘要: 讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的,以及为什么Q-learning不需要进行重要性采样。 阅读全文
posted @ 2024-12-29 20:35 伊犁纯流莱 阅读(162) 评论(0) 推荐(0)