摘要: 第 14 章 SAC 算法 14.1 简介 之前的章节提到过在线策略算法的采样效率比较低,我们通常更倾向于使用离线策略算法。然而,虽然 DDPG 是离线策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。2018 年,一个更加稳定的离线策略算法 Soft Act 阅读全文
posted @ 2025-06-25 10:25 hsr0316 阅读(231) 评论(0) 推荐(0)
摘要: 13.1 简介 之前的章节介绍了基于策略梯度的算法 REINFORCE、Actor-Critic 以及两个改进算法——TRPO 和 PPO。这类算法有一个共同的特点:它们都是在线策略算法,这意味着它们的样本效率(sample efficiency)比较低。我们回忆一下 DQN 算法,DQN 算法直接 阅读全文
posted @ 2025-06-25 10:24 hsr0316 阅读(181) 评论(0) 推荐(0)