强化学习(十五)-TD3
一、简介
1、DDPG的缺点
在训练过程中,可能出现策略估计的过度估计(overestimation)和训练不稳定等问题,例如已经学习好的Q函数,会显著高估Q值,导致策略被破坏
2、TD3(Twin Delayed Deep Deterministic Policy Gradient)
通过引入双批评家网络(Twin Critics)和延迟策略更新等机制,提高了算法的稳定性和性能
二、双批评家网络
1、DDPG算法中的Critic网络,用于估计动作价值函数
2、但是单个Critic网络,可能会对动作价值进行过度估计
3、TD3有两个Critic网络,分别进行估计,取最小值作为目标Q值,减少过度估计
三、延迟更新策略
1、DDPG中,Critic网络和Actor网络同步更新,导致策略网络更新过快,从而影响训练的稳定性
2、TD3延迟了策略网络的更新,使其更新频率低于Critic网络的更新,提高稳定性
四、目标策略平滑
1、TD3算法引入了噪声
2、防止策略更新时出现剧烈波动
参考:
https://datawhalechina.github.io/easy-rl/#/
浙公网安备 33010602011771号