随笔档案「2025年4月17日」：强化学习算法解析：Policy Gradient（策略梯度算法） ... - JackYang

2025年4月17日

摘要：一、引言强化学习是机器学习领域的重要分支，它研究如何让智能体（Agent）在环境中通过与环境的交互来学习最优的行为策略。策略梯度算法（Policy Gradient）是强化学习中一类重要的方法，它直接对策略进行优化，通过计算奖励关于策略参数的梯度，来更新策略参数，使智能体采取的行动能够获得更多奖励阅读全文

posted @ 2025-04-17 10:12 JackYang 阅读(391) 评论(0) 推荐(0)

强化学习算法解析：Deep Q - Network，DQN（深度 Q 网络）

摘要：一、引言强化学习（Reinforcement Learning, RL）是机器学习领域的重要分支，它研究如何让智能体（Agent）通过与环境的交互来学习最优的行为策略。在强化学习中，智能体的目标是最大化长期累积奖励，而环境则根据智能体的行为给出反馈。Q-learning 是强化学习中一种经典的算法阅读全文

posted @ 2025-04-17 10:10 JackYang 阅读(377) 评论(0) 推荐(0)