8.4.1 算法描述
目录
P180
式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\max\)里面动作值没有帽子的话,那么就可以回避这个问题了;只不过回避了这个问题之后就不会有两个网络了,就应该跟\((8.37)\)一样了,但是这里有两个网络,估计是尝试出来两个网络更好吧
我觉得他这里对回放缓冲区的解释还是有一点问题。应该是这样的。我们现在求的是式\((8.38)\),就需要对\((S,A)\)有一个先验分布的要求,这个先验分布就可以看做是行为策略;于是为了简单,我们可以就让行为策略是一个均匀分布(就像图8.11那个样子),这样不仅简单,而且具有很强的探索性;这里真正的问题在于相邻时刻的状态动作对是不符合独立同分布的,也就是说单独看一小部分时间,这个时间里面涉及的动作状态对的相关性很强,肯定就不是均匀分布,所以我们要打破相邻样本之间的相关性,于是使用回放缓冲区

浙公网安备 33010602011771号