会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
伊犁纯流莱
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
强化学习
策略梯度AC算法 - CartPole环境, 使用RNN作为策略网络
摘要:本文给出了使用RNN作为策略网络的AC算法代码示例,并在CartPole环境跑出结果。
阅读全文
posted @
2025-01-08 14:46
伊犁纯流莱
阅读(81)
评论(0)
推荐(0)
RL中on-policy和off-policy的本质区别/重要性采样
摘要:讨论了on-policy和off-policy的本质区别。说明了off-policy MC和off-policy TD是如何利用重要性采样的,以及为什么Q-learning不需要进行重要性采样。
阅读全文
posted @
2024-12-29 20:35
伊犁纯流莱
阅读(150)
评论(0)
推荐(0)
公告