摘要:
策略梯度算法 在强化学习领域,早期有基于值函数的方法,如 Q-learning 等,这些方法通过估计状态-动作对的值函数来确定最优策略。然而,当动作空间是连续的或者非常大时,基于值函数的方法会面临一些挑战。REINFORCE 算法,也被称为策略梯度算法(Policy Gradient Algorit 阅读全文
posted @ 2025-04-02 14:40
AI_Engineer
阅读(1041)
评论(1)
推荐(0)