随笔分类 -  强化学习 / 强化学习的数学原理 / 第8章 值函数方法 / 8.4 深度Q-learning

摘要:目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma 阅读全文
posted @ 2025-08-30 15:14 最爱丁珰 阅读(3) 评论(0) 推荐(0)