随笔档案「2019年10月8日」：【强化学习】阶段总结 ... - 虔诚的树

2019年10月8日

摘要：马尔可夫决策过程 MDP 基于模型的动态规划方法（Model-Based，DP）策略搜索策略迭代值迭代无模型的强化学习方法（Model-Free）蒙特卡洛方法（MC）：效率不高，但是能够展现 model-free 类算法的特性；时序差分方法（TD，Important）：直接从 episo 阅读全文

posted @ 2019-10-08 23:21 虔诚的树阅读(682) 评论(0) 推荐(2)

公告