强化学习（十五）-TD3

一、简介

1、DDPG的缺点

在训练过程中，可能出现策略估计的过度估计（overestimation）和训练不稳定等问题，例如已经学习好的Q函数，会显著高估Q值，导致策略被破坏

2、TD3（Twin Delayed Deep Deterministic Policy Gradient）

通过引入双批评家网络（Twin Critics）和延迟策略更新等机制，提高了算法的稳定性和性能

二、双批评家网络

1、DDPG算法中的Critic网络，用于估计动作价值函数

2、但是单个Critic网络，可能会对动作价值进行过度估计

3、TD3有两个Critic网络，分别进行估计，取最小值作为目标Q值，减少过度估计

三、延迟更新策略

1、DDPG中，Critic网络和Actor网络同步更新，导致策略网络更新过快，从而影响训练的稳定性

2、TD3延迟了策略网络的更新，使其更新频率低于Critic网络的更新，提高稳定性

四、目标策略平滑

1、TD3算法引入了噪声

2、防止策略更新时出现剧烈波动

参考：

https://datawhalechina.github.io/easy-rl/#/

posted @ 2025-08-20 18:25 牧云文仔阅读(57) 评论(0) 收藏举报

刷新页面返回顶部

牧云文仔