强化学习第二版目录

　　0 介绍

part Ⅰ：表格型解决方法

　　1 多臂赌徒问题(Multi-armed Bandits)

　　2 有限马尔可夫决策过程(Finite Markov Decision Processes)

　　3 动态规划(Dynamic Programming)

　　4 蒙特卡罗方法(Monte Carlo Methods)

　　5 时间差分学习(Temporal-Difference Learning)

　　6 n步自举法(n-step Bootstrapping)

　　7 带表格的规划和学习(Planning and Learning with Tabular Methods)

part Ⅱ：近似解决方法

　　1 带近似的on-policy预测(On-policy Prediction with Approximation)

　　2 带近似的on-policy控制(On-policy Control with Approximation)

　　3 带近似的off-policy方法(Off-policy Methods with Approximation)

　　4 适应度轨迹(Eligibility Traces)

　　5 策略梯度方法(Policy Gradient Methods)

part Ⅲ：更深层次的领域

　　1 心理学

　　2 神经科学

　　3 应用和案例学习

　　4 边界

posted @ 2020-02-22 17:23 yingfengwu 阅读(585) 评论(0) 收藏举报

刷新页面返回顶部

yingfengwu