随笔档案「2026年1月29日」：让 Q 值估计更准确：从 DQN 到 Double DQN 的改进方案 ... - deephub

2026年1月29日

摘要： DQN 用 max Q(s',a') 计算目标值，等于在挑 Q 值最高的动作，但是这些动作中包括了那些因为估计噪声而被高估的动作，素以就会产生过估计偏差，直接后果是训练不稳定、策略次优。这篇文章要解决的就是这个问题，内容包括：DQN 为什么会过估计、Double DQN 怎么把动作选择和评估拆开、阅读全文

posted @ 2026-01-29 21:24 deephub 阅读(5) 评论(0) 推荐(0)

deephub

overfit深度学习

公告