8.4 深度Q-learning

8.4.1 算法描述

摘要：目录P180 P180 式\((8.38)\)应该是有一点问题的，在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的，我们只要从期望误差很小的角度去思考就行了，但是这个时候就涉及书上说的一个点，就是\(\max\)的梯度是不好计算的，就有了书上那个技巧，而如果\(\ma 阅读全文

posted @ 2025-08-30 15:14 最爱丁珰阅读(3) 评论(0) 推荐(0)

最爱丁珰

随笔分类 - 强化学习 / 强化学习的数学原理 / 第8章 值函数方法 / 8.4 深度Q-learning

公告

随笔分类 - 强化学习 / 强化学习的数学原理 / 第8章值函数方法 / 8.4 深度Q-learning