会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
于风‘s blog
「博学之,审问之,慎思之,明辨之,笃行之」
联系
管理
2020年5月28日
DQN(Deep Q-learning)入门教程(三)之蒙特卡罗法算法与Q-learning算法
摘要: 蒙特卡罗法 在介绍Q-learing算法之前,我们还是对蒙特卡罗法(MC)进行一些介绍。MC方法是一种无模型(model-free)的强化学习方法,目标是得到最优的行为价值函数$q_*$。在前面一篇博客中,我们所介绍的动态规划算法则是一种有模型的算法。那么问题来了,什么是模型(model)?模型其实
阅读全文
posted @ 2020-05-28 02:37 渣渣辉啊
阅读(5273)
评论(0)
推荐(0)
公告