随笔分类 -  强化学习

记录强化学习历程
摘要:马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容: 马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再 阅读全文
posted @ 2020-10-04 13:48 兀凯奇 阅读(1150) 评论(0) 推荐(0)