随笔分类 -  强化学习

摘要:本文给出了使用RNN作为策略网络的AC算法代码示例,并在CartPole环境跑出结果。 阅读全文
posted @ 2025-01-08 14:46 伊犁纯流莱 阅读(81) 评论(0) 推荐(0)
摘要:讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的,以及为什么Q-learning不需要进行重要性采样。 阅读全文
posted @ 2024-12-29 20:35 伊犁纯流莱 阅读(150) 评论(0) 推荐(0)