强化学习(十二)-DDPG

一、概念

1、深度确定性策略梯度Deep Deterministic Policy Gradient

是Actor-Critic的升级版本,输出的不是动作概率,而是具体的动作,用于连续动作的预测,是连续控制领域经典的强化学习算法

2、深度Deep:结合了DQN,包含记忆库、现实网络、估计网络,提高了Actor-Critic的稳定性和收敛性

3、确定性Deterministic:

随机策略需要研究所有可能动作的概率,并计算价值,计算量太大

在连续动作中,只输出一个确定的动作值,可以简化问题

image

4、策略梯度Policy Gradient:连续动作中,随机筛选

5、DPG到DDPG,类似于DQN到DDQN,加上了经验回放、双网络

 

二、双网络

1、Policy Gradient双神经网络

动作现实网络(Actor当前网络):负责策略网络参数θ的更新,根据当前状态S,选择动作A,得到R和S‘

动作估计网络(Actor目标网络):根据经验回放池中采样的下一个状态S’,选择下一个动作A‘,网络参数θ’定期从θ复制过来

2、基于值的双神经网络

状态现实网络(Critic当前网络):负责价值网络参数w的更新、计算当前Q值;输入端会加上动作现实网络的输出

状态估计网络(Critic目标网络):负责计算目标Q值中的Q(S,A,w)部分,网路参数w'定期从w复制过来;输入端会加上动作估计网络的输出

 

三、算法原理

1、策略与目标:采用确定性策略,直接输出动作a,目标是最小化TD误差

2、Actor更新:近似动作价值函数,最小化TD误差

3、Critic更新:通过策略梯度,最大化Q值

 

四、D4PG

1、分布的分布式深度确定性策略梯度(distributed distributional deep deterministic policy gradient,D4PG)

2、优化的部分

分布式评论员

N步累计回报

多个分布式并行演员

优先经验回放

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

 

posted @ 2025-08-18 17:51  牧云文仔  阅读(32)  评论(0)    收藏  举报