2025 年 4月 15 日随笔档案 - JackYang

2025年4月15日

摘要：一、引言强化学习是机器学习领域的重要分支，它研究如何让智能体（Agent）在环境中通过与环境的交互来学习最优的行为策略。策略梯度算法（Policy Gradient）是强化学习中一类重要的方法，它直接对策略进行优化，通过计算奖励关于策略参数的梯度，来更新策略参数，使智能体采取的行动能够获得更多奖励阅读全文

posted @ 2025-04-15 11:36 JackYang 阅读(192) 评论(0) 推荐(0)