21/9/3 读书笔记 AC DDPG

21/9/3 读书笔记

强化学习 Actor-Critic

Actor-Critic思想的来源

Actor-Critic的基本思想来自于Policy Gradient,用于在连续的动作空间内选取动作。Actor-Critic中的Actor就是采用了Policy Gradient的算法,而Critic则采用了Q-Learning算法。引入使用Q-Learning的Critic,是为了让原本回合更新的Policy Gradient算法能够进行单步更新。

Actor和Critic分别可以用一个神经网络来代表。作为一个使用Policy Gradient的Actor,它根据环境的奖惩信息来更新自己的神经网络。而作为一个使用Q-Learning算法的Critic,它的工作是学习环境和奖惩之间的关系,并利用学习到的奖惩信息来指导Actor的行为。

我们必须注意到,Policy Gradient的更新是回合更新的,这意味着单独的Actor并不清楚每一步的具体奖惩,而是在所有步都走完后再来反推各步的奖惩情况,所有步在这一回合中更新的reward一荣俱荣一损俱损,这导致某些state-action在更新上的不断振荡。引入了Critic后,Critic负责学习环境给出的奖惩情况,从而对每一步都给出一定的奖惩预测,使得Actor-Critic能够实现单步更新。由于Critic给出的奖惩信息是经由神经网络得出的而不是单纯地从回合结果进行反向推导,这种预测通常更有效率。

原始的Actor-Critic每次都是在连续的状态中更新参数,使得每次参数更新都具有相关性,这就好比“每走一步,我就要重新学习如何走路”一样,过高的相关性使得原始的Actor-Critic容易片面地看待问题。

基本的Actor-Critic

形象上理解,Actor-Critic就是瞎子背瘸子。Actor就是瞎子,它只能让Critic来告诉它应该怎么走,而Critic负责感知和分析周围环境从而指导Actor。

具体上来看,Actor将环境的状态作为输入,输出动作空间中每个动作的概率值;Critic将环境的状态作为输入,输出对未来总回报的估计。Critic利用Q-Learning算法,其中神经网络训练的目标是最小化Q现实和Q估计的差值(TD-error);Actor根据Critic返回的TD-error来对自己当前的动作空间的各个动作概率进行学习。

Actor-Critic中的Q现实和Q估计又称为V现实和V估计。

Deep Deterministic Policy Gradient(DDPG)

DDPG中最为突出的特点是Deep和Deterministic。Deep指其学习了Double DQN采用两个结构一致但是更新频率不同的神经网络进行学习。Deterministic指其采用确定性策略的方式,在Actor输出动作时只在连续的动作空间内输出一个确定值,这有别于之前采用随机策略的方式输出动作的概率分布。

作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则决定简单点,虽然在同一个状态处,采用的动作概率不同,但是最大概率只有一个,如果我们只取最大概率的动作,去掉这个概率分布,那么就简单多了。作为确定性策略,相同的策略,在同一个状态处,动作是唯一确定的。

由于采用了两套神经网络,DDPG大致呈现以下形式:

  • 估计网络系统:用于实际执行,探索可能的行为,相当于Q-eval
    • 动作估计网络:属于Actor,输出当前确定实施的动作,切实影响智能体的状态。相当于Actor-eval。
    • 状态估计网络:属于Critic,输入动作估计网络给出的动作和当前观测的状态,输出状态的价值。相当于Q-eval。
  • 现实网络系统:用于更新价值网络系统,更新频率较低,相当于之前DQN中的Q-target
    • 动作现实网络:属于Actor,向状态现实网络输出一个动作,用于更新价值网络。相当于Actor-Target。
    • 状态现实网络:属于Critic,输入动作现实网络给出的动作和当前观测的状态来进行分析,输出状态的价值。相当于Q-target。
  • 记忆库:和Double DQN一样,用于存储记忆。

由于这种Double DQN思想的引入,很好地降低了每次更新间的相关性,解决了Actor-Critic容易片面看待问题的问题,相当于“先多走几步,再来学习如何走路”。

而其独有的特点还有:

  • 区别于Double DQN,在同步网络参数时采用了软更新,每次只更新一点点参数,而不是像Double DQN一样直接复制参数。
  • 为了增加对学习的覆盖,DDPG对Actor选择的动作加以一定的噪声。
posted @ 2021-09-04 08:26  neumy  阅读(188)  评论(0)    收藏  举报