2021 年 3月 17 日随笔档案 - 行者AI

2021年3月17日

摘要：本文首发于：行者AI 众所周知，在基于价值学习的强化学习算法中，如DQN，函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在，并提出了新的机制去最小化它对演员（策略函数）和评论家（估值函数）的影响。我们的算法建立在双Q学习的基础上，通过选取两个估值函数中的较小值，从而限阅读全文

posted @ 2021-03-17 14:00 行者AI 阅读(3749) 评论(0) 推荐(0)

行者AI

为游戏插上人工智能的翅膀

公告