摘要: 策略梯度算法 在强化学习领域,早期有基于值函数的方法,如 Q-learning 等,这些方法通过估计状态-动作对的值函数来确定最优策略。然而,当动作空间是连续的或者非常大时,基于值函数的方法会面临一些挑战。REINFORCE 算法,也被称为策略梯度算法(Policy Gradient Algorit 阅读全文
posted @ 2025-04-02 14:40 AI_Engineer 阅读(1041) 评论(1) 推荐(0)