强化学习(十二)-DDPG
一、概念
1、深度确定性策略梯度Deep Deterministic Policy Gradient
是Actor-Critic的升级版本,输出的不是动作概率,而是具体的动作,用于连续动作的预测,是连续控制领域经典的强化学习算法
2、深度Deep:结合了DQN,包含记忆库、现实网络、估计网络,提高了Actor-Critic的稳定性和收敛性
3、确定性Deterministic:
随机策略需要研究所有可能动作的概率,并计算价值,计算量太大
在连续动作中,只输出一个确定的动作值,可以简化问题
4、策略梯度Policy Gradient:连续动作中,随机筛选
5、DPG到DDPG,类似于DQN到DDQN,加上了经验回放、双网络
二、双网络
1、Policy Gradient双神经网络
动作现实网络(Actor当前网络):负责策略网络参数θ的更新,根据当前状态S,选择动作A,得到R和S‘
动作估计网络(Actor目标网络):根据经验回放池中采样的下一个状态S’,选择下一个动作A‘,网络参数θ’定期从θ复制过来
2、基于值的双神经网络
状态现实网络(Critic当前网络):负责价值网络参数w的更新、计算当前Q值;输入端会加上动作现实网络的输出
状态估计网络(Critic目标网络):负责计算目标Q值中的Q′(S′,A′,w′)部分,网路参数w'定期从w复制过来;输入端会加上动作估计网络的输出
三、算法原理
1、策略与目标:采用确定性策略,直接输出动作a,目标是最小化TD误差
2、Actor更新:近似动作价值函数,最小化TD误差
3、Critic更新:通过策略梯度,最大化Q值
四、D4PG
1、分布的分布式深度确定性策略梯度(distributed distributional deep deterministic policy gradient,D4PG)
2、优化的部分
分布式评论员
N步累计回报
多个分布式并行演员
优先经验回放
参考:
https://datawhalechina.github.io/easy-rl/#/