摘要: 2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象: Q值会莫名其妙地增长到很大,智能体变得异常自信,坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住,部分游戏的表现甚至开始崩盘。 问题出在哪?答案是DQN更新 阅读全文
posted @ 2025-10-03 21:50 deephub 阅读(7) 评论(0) 推荐(0)