DQN(Deep Reiforcement Learning) 发展历程（四）

不基于模型的控制
参考

DQN发展历程(一)

DQN发展历程(二)

DQN发展历程(三)

DQN发展历程(四)

DQN发展历程(五)

不基于模型的控制

选取动作的方法

贪婪法，每次控制都选择状态值最大的动作，容易局部收敛，找不到全局最优。
引入 epsilon-greedy，按 epsilon 的概率随机选择一个动作，按 1 - epsilon 的概率使用贪婪法，选择状态值最大的动作

在策略上的学习（on-policy）

代表方法：SARSA
每次按 epsilon-greedy 更新策略后，也按此方法更新后的策略选择下一步的动作。

不在策略上的学习（off-policy）

代表方法：Q-learning
更新策略和 SARSA 不同，每次直接按照贪婪法选择最大状态值来更新状态，但是选择动作时仍然使用 epsilon-greedy

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

posted @ 2019-02-26 11:27 范加索尔拉阅读(550) 评论(0) 收藏举报

刷新页面返回顶部