2024 年 12月 29 日随笔档案 - 伊犁纯流莱

摘要：讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的，以及为什么Q-learning不需要进行重要性采样。阅读全文

posted @ 2024-12-29 20:35 伊犁纯流莱阅读(163) 评论(0) 推荐(0)

伊犁纯流莱