01 2020 档案
摘要:Q(λ) with Off Policy Corrections 摘要 我们提出并分析了一种off policy的多步骤时间TD学习的替代方法,其中off policy的回报是根据当前的Q函数在奖励方面进行校正,而不是根据目标策略在转移概率方面进行校正。我们证明,只要有一定条件,这种近似修正就足以在
阅读全文
摘要:策略算法(如TRPO,PPO)是一种流行的on policy方法。它可以提供无偏差的(或近似无偏差)梯度估计,但同时会导致高的方差。而像Q learning 和离线的actor critic(如DDPG)等off policy方法则可以用离线的样本来替代。它们可以使用其他学习过程产生的样本。这样的方
阅读全文

浙公网安备 33010602011771号