摘要: 一、简介 1、DDPG的缺点 在训练过程中,可能出现策略估计的过度估计(overestimation)和训练不稳定等问题,例如已经学习好的Q函数,会显著高估Q值,导致策略被破坏 2、TD3(Twin Delayed Deep Deterministic Policy Gradient) 通过引入双批 阅读全文
posted @ 2025-08-20 18:25 牧云文仔 阅读(58) 评论(0) 推荐(0)
摘要: 一、PPO简介 1、同策略和异策略 同策略:学习的智能体、和环境交互的智能体,是同一个 异策略:学习的智能体、和环境交互的智能体,不是同一个 2、传统的策略梯度算法,在更新策略时,可能出现不稳定,是同策略 3、近端策略优化(Proximal Policy Optimization, PPO) 是Po 阅读全文
posted @ 2025-08-20 18:15 牧云文仔 阅读(68) 评论(0) 推荐(0)