会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
强化学习
/
强化学习的数学原理
/
第8章 值函数方法
/
8.4 深度Q-learning
8.4.1 算法描述
摘要:目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma
阅读全文
posted @
2025-08-30 15:14
最爱丁珰
阅读(3)
评论(0)
推荐(0)
公告