随笔分类 - 强化学习

摘要：本文给出了使用RNN作为策略网络的AC算法代码示例，并在CartPole环境跑出结果。阅读全文

posted @ 2025-01-08 14:46 伊犁纯流莱阅读(110) 评论(0) 推荐(0)

摘要：讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的，以及为什么Q-learning不需要进行重要性采样。阅读全文

posted @ 2024-12-29 20:35 伊犁纯流莱阅读(182) 评论(0) 推荐(0)

伊犁纯流莱