8.4.1 算法描述

P180

P180

式\((8.38)\)应该是有一点问题的，在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的，我们只要从期望误差很小的角度去思考就行了，但是这个时候就涉及书上说的一个点，就是\(\max\)的梯度是不好计算的，就有了书上那个技巧，而如果\(\max\)里面动作值没有帽子的话，那么就可以回避这个问题了；只不过回避了这个问题之后就不会有两个网络了，就应该跟\((8.37)\)一样了，但是这里有两个网络，估计是尝试出来两个网络更好吧

我觉得他这里对回放缓冲区的解释还是有一点问题。应该是这样的。我们现在求的是式\((8.38)\)，就需要对\((S,A)\)有一个先验分布的要求，这个先验分布就可以看做是行为策略；于是为了简单，我们可以就让行为策略是一个均匀分布（就像图8.11那个样子），这样不仅简单，而且具有很强的探索性；这里真正的问题在于相邻时刻的状态动作对是不符合独立同分布的，也就是说单独看一小部分时间，这个时间里面涉及的动作状态对的相关性很强，肯定就不是均匀分布，所以我们要打破相邻样本之间的相关性，于是使用回放缓冲区

posted @ 2025-08-30 15:14 最爱丁珰阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

最爱丁珰

8.4.1 算法描述

P180

公告