会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2026年1月29日
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案
摘要: DQN 用 max Q(s',a') 计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。 这篇文章要解决的就是这个问题,内容包括:DQN 为什么会过估计、Double DQN 怎么把动作选择和评估拆开、
阅读全文
posted @ 2026-01-29 21:24 deephub
阅读(5)
评论(0)
推荐(0)
公告