摘要: 免模型预测 这节学习的主要是蒙特卡洛方法和时序差分法 有模型与免模型 状态转移概率是已知的,这种情况下使用算法我们称为有模型算法,而对于智能体来说环境是未知的,在该情况下使用算法,我们称之为免模型算法。在这里应该注意,除了动态规划外,其他的基础强化学习算法都是免模型的。 有模型强化学习的优点是不与真 阅读全文
posted @ 2023-11-17 16:32 红茶加冰五分糖 阅读(79) 评论(0) 推荐(0)