Trick(待完善)
一些个有助于优化算法的trick
把部分可观测马尔可夫问题(POMDPs)转回马尔可夫问题(MDP)
解决方案是保持一些过去的观察结果,并将它们作为一种状态。以雅达利游戏为例,我们通常将k个随后的帧叠加在一起,并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态,例如,得到球的速度和方向。通常雅达利的“经典”k值是4。当然,这只是一个hack,因为在环境中可能存在更长的依赖关系,但对于大多数游戏来说,这是有效的。
目标网络(Target Network)
当Q(s,a)与Q(s',a')过于接近时,神经网络训练会不稳定。为了保证训练的稳定,可以采用目标网络(Target Network)。我们保留一个我们的网络的副本,并使用它来计算Bellman方程中的Q(s',a')值。这个网络只是周期性地与我们的主网络同步,例如,在N个步骤中(N通常是一个相当大的超参数,例如1k或10k的训练迭代)。

浙公网安备 33010602011771号