摘要: 在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien 阅读全文
posted @ 2018-12-18 18:04 刘建平Pinard 阅读(115459) 评论(176) 推荐(14) 编辑