摘要: 本文首发于:行者AI 众所周知,在基于价值学习的强化学习算法中,如DQN,函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在,并提出了新的机制去最小化它对演员(策略函数)和评论家(估值函数)的影响。我们的算法建立在双Q学习的基础上,通过选取两个估值函数中的较小值,从而限 阅读全文
posted @ 2021-03-17 14:00 行者AI 阅读(3709) 评论(0) 推荐(0)