摘要: 主要内容:解决MDP问题的算法:离散化;模型MDP的同化型; (model/similator)拟合值迭代算法;Q函数;近似政策迭代;笔记转自:http://blog.csdn.net/dark_scope/article/details/8252969连续状态的MDP之前我们的状态都是离散的,如果... 阅读全文
posted @ 2015-04-14 21:45 max_xbw 阅读(930) 评论(0) 推荐(0)