会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wq0201coca
博客园
首页
新随笔
联系
订阅
管理
2023年11月17日
task02:免模型预测、免模型控制学习总结
摘要: 免模型预测 这节学习的主要是蒙特卡洛方法和时序差分法 有模型与免模型 状态转移概率是已知的,这种情况下使用算法我们称为有模型算法,而对于智能体来说环境是未知的,在该情况下使用算法,我们称之为免模型算法。在这里应该注意,除了动态规划外,其他的基础强化学习算法都是免模型的。 有模型强化学习的优点是不与真
阅读全文
posted @ 2023-11-17 16:32 红茶加冰五分糖
阅读(79)
评论(0)
推荐(0)
公告