随笔档案「2025年4月2日」：策略梯度算法reinforce算法原理理解和代码实现 ... - AI_Engineer

2025年4月2日

摘要：策略梯度算法在强化学习领域，早期有基于值函数的方法，如 Q-learning 等，这些方法通过估计状态-动作对的值函数来确定最优策略。然而，当动作空间是连续的或者非常大时，基于值函数的方法会面临一些挑战。REINFORCE 算法，也被称为策略梯度算法（Policy Gradient Algorit 阅读全文

posted @ 2025-04-02 14:40 AI_Engineer 阅读(1589) 评论(1) 推荐(0)

xd_xumaomao

公告