hsr0316

2025年6月25日

摘要：第 14 章 SAC 算法 14.1 简介之前的章节提到过在线策略算法的采样效率比较低，我们通常更倾向于使用离线策略算法。然而，虽然 DDPG 是离线策略算法，但是它的训练非常不稳定，收敛性较差，对超参数比较敏感，也难以适应不同的复杂环境。2018 年，一个更加稳定的离线策略算法 Soft Act 阅读全文

posted @ 2025-06-25 10:25 hsr0316 阅读(231) 评论(0) 推荐(0)

强化学习 DDPG 算法

摘要： 13.1 简介之前的章节介绍了基于策略梯度的算法 REINFORCE、Actor-Critic 以及两个改进算法——TRPO 和 PPO。这类算法有一个共同的特点：它们都是在线策略算法，这意味着它们的样本效率（sample efficiency）比较低。我们回忆一下 DQN 算法，DQN 算法直接阅读全文

posted @ 2025-06-25 10:24 hsr0316 阅读(181) 评论(0) 推荐(0)

公告