Trick(待完善)

一些个有助于优化算法的trick

把部分可观测马尔可夫问题(POMDPs)转回马尔可夫问题(MDP)

解决方案是保持一些过去的观察结果,并将它们作为一种状态。以雅达利游戏为例,我们通常将k个随后的帧叠加在一起,并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态,例如,得到球的速度和方向。通常雅达利的“经典”k值是4。当然,这只是一个hack,因为在环境中可能存在更长的依赖关系,但对于大多数游戏来说,这是有效的。

目标网络(Target Network)

当Q(s,a)与Q(s',a')过于接近时,神经网络训练会不稳定。为了保证训练的稳定,可以采用目标网络(Target Network)。我们保留一个我们的网络的副本,并使用它来计算Bellman方程中的Q(s',a')值。这个网络只是周期性地与我们的主网络同步,例如,在N个步骤中(N通常是一个相当大的超参数,例如1k或10k的训练迭代)。

posted @ 2022-05-17 16:18  Lumarkov  阅读(53)  评论(0)    收藏  举报