摘要: 马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo 阅读全文
posted @ 2019-10-08 23:21 虔诚的树 阅读(673) 评论(0) 推荐(2)