随笔档案「2026年1月2日」：RL MC ε-greedy (5.3) ... - wlu

2026年1月2日

摘要：如书中所说算法很快收敛，但是实验发现结果不稳定。有待进一步探究。 ε-贪婪蒙特卡洛控制：5×5 网格世界实战场景设定与实验目标环境：\(5\times 5\) 网格，左上角为 \((1,1)\)。动作集合：上、下、左、右、不动，共 5 个确定性动作。奖励：出格：\(-1\) 禁区（橙色格子阅读全文

posted @ 2026-01-02 08:39 wlu 阅读(10) 评论(0) 推荐(0)

Data and AI

公告