强化学习(十五)-TD3

一、简介

1、DDPG的缺点

在训练过程中,可能出现策略估计的过度估计(overestimation)和训练不稳定等问题,例如已经学习好的Q函数,会显著高估Q值,导致策略被破坏

2、TD3(Twin Delayed Deep Deterministic Policy Gradient)

通过引入双批评家网络(Twin Critics)和延迟策略更新等机制,提高了算法的稳定性和性能

 

二、双批评家网络

1、DDPG算法中的Critic网络,用于估计动作价值函数

2、但是单个Critic网络,可能会对动作价值进行过度估计

3、TD3有两个Critic网络,分别进行估计,取最小值作为目标Q值,减少过度估计

 

三、延迟更新策略

1、DDPG中,Critic网络和Actor网络同步更新,导致策略网络更新过快,从而影响训练的稳定性

2、TD3延迟了策略网络的更新,使其更新频率低于Critic网络的更新,提高稳定性

 

四、目标策略平滑

1、TD3算法引入了噪声

2、防止策略更新时出现剧烈波动

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

 

posted @ 2025-08-20 18:25  牧云文仔  阅读(29)  评论(0)    收藏  举报