2025 年 10月 3 日随笔档案 - deephub

2025年10月3日

从DQN到Double DQN：分离动作选择与价值评估，解决强化学习中的Q值过估计问题

摘要： 2015年DQN在Atari游戏上取得突破性进展，从此以后强化学习终于能处理复杂环境了，但没多久研究者就注意到一些奇怪的现象： Q值会莫名其妙地增长到很大，智能体变得异常自信，坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住，部分游戏的表现甚至开始崩盘。问题出在哪？答案是DQN更新阅读全文

posted @ 2025-10-03 21:50 deephub 阅读(7) 评论(0) 推荐(0)

deephub

overfit深度学习

公告