会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
兀凯奇
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
强化学习
记录强化学习历程
MDP-马尔可夫决策过程
摘要:马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容: 马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再
阅读全文
posted @
2020-10-04 13:48
兀凯奇
阅读(1150)
评论(0)
推荐(0)
公告