会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Data and AI
博客园
首页
新随笔
联系
订阅
管理
2026年1月2日
RL MC ε-greedy (5.3)
摘要: 如书中所说算法很快收敛,但是实验发现结果不稳定。有待进一步探究。 ε-贪婪蒙特卡洛控制:5×5 网格世界实战 场景设定与实验目标 环境:\(5\times 5\) 网格,左上角为 \((1,1)\)。 动作集合:上、下、左、右、不动,共 5 个确定性动作。 奖励: 出格:\(-1\) 禁区(橙色格子
阅读全文
posted @ 2026-01-02 08:39 wlu
阅读(10)
评论(0)
推荐(0)
公告