Trick（待完善）

一些个有助于优化算法的trick

把部分可观测马尔可夫问题（POMDPs）转回马尔可夫问题（MDP）

解决方案是保持一些过去的观察结果，并将它们作为一种状态。以雅达利游戏为例，我们通常将k个随后的帧叠加在一起，并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态，例如，得到球的速度和方向。通常雅达利的“经典”k值是4。当然，这只是一个hack，因为在环境中可能存在更长的依赖关系，但对于大多数游戏来说，这是有效的。

目标网络（Target Network）

当Q（s,a）与Q（s',a'）过于接近时，神经网络训练会不稳定。为了保证训练的稳定，可以采用目标网络（Target Network）。我们保留一个我们的网络的副本，并使用它来计算Bellman方程中的Q（s',a'）值。这个网络只是周期性地与我们的主网络同步，例如，在N个步骤中(N通常是一个相当大的超参数，例如1k或10k的训练迭代)。

posted @ 2022-05-17 16:18 Lumarkov 阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

Lumarkov

Trick（待完善）

一些个有助于优化算法的trick

把部分可观测马尔可夫问题（POMDPs）转回马尔可夫问题（MDP）

目标网络（Target Network）

公告