摘要: 如书中所说算法很快收敛,但是实验发现结果不稳定。有待进一步探究。 ε-贪婪蒙特卡洛控制:5×5 网格世界实战 场景设定与实验目标 环境:\(5\times 5\) 网格,左上角为 \((1,1)\)。 动作集合:上、下、左、右、不动,共 5 个确定性动作。 奖励: 出格:\(-1\) 禁区(橙色格子 阅读全文
posted @ 2026-01-02 08:39 wlu 阅读(10) 评论(0) 推荐(0)