[强化学习论文笔记(3)]:DRQN

Deep Recurrent Q-Learning for Partially Observable MDPs

论文地址

DRQN

笔记

DQN 每一个decision time 需要该时刻前4个frame 来获得完整的状态信息。但是有的游戏四张图片也不能获取完整的状态信息。所以这篇论文就希望使用LSTM来记录状态信息。改动如下图,把第一个全连接层变成了LSTM 层。

实验结果证明对于POMDP DRQN 能有更好的效果,而且输入状态更小。

  • Bootstrapped Sequential Updates
    每个batch 是一个完整的episode
  • Bootstrapped Random Updates
    从episode中间随机采样
posted @ 2019-12-31 17:09  木子士心王大可  阅读(1341)  评论(0)    收藏  举报