2019 年 7月 3 日随笔档案 - qiynet

2019年7月3日

摘要：在强化学习（三）用动态规划（DP）求解中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的状态转化模型P都无法知道，这时动态规划法根本没法使用阅读全文

posted @ 2019-07-03 15:17 qiynet 阅读(326) 评论(0) 推荐(0)