2025 年 8月 20 日随笔档案 - 牧云文仔

2025年8月20日

摘要：一、简介 1、DDPG的缺点在训练过程中，可能出现策略估计的过度估计（overestimation）和训练不稳定等问题，例如已经学习好的Q函数，会显著高估Q值，导致策略被破坏 2、TD3（Twin Delayed Deep Deterministic Policy Gradient）通过引入双批阅读全文

posted @ 2025-08-20 18:25 牧云文仔阅读(58) 评论(0) 推荐(0)

强化学习（十四）-PPO和DPPO

摘要：一、PPO简介 1、同策略和异策略同策略：学习的智能体、和环境交互的智能体，是同一个异策略：学习的智能体、和环境交互的智能体，不是同一个 2、传统的策略梯度算法，在更新策略时，可能出现不稳定，是同策略 3、近端策略优化(Proximal Policy Optimization, PPO) 是Po 阅读全文

posted @ 2025-08-20 18:15 牧云文仔阅读(68) 评论(0) 推荐(0)

牧云文仔

公告