随笔档案「2018年8月17日」：强化学习（四）用蒙特卡罗法（MC）求解 ... - 刘建平Pinard

2018年8月17日

摘要：在强化学习（三）用动态规划（DP）求解中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的状态转化模型$P$都无法知道，这时动态规划法根本没法阅读全文

posted @ 2018-08-17 18:04 刘建平Pinard 阅读(73921) 评论(108) 推荐(18)

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告