摘要: 强化学习 此笔记作为参考资料的补充,用于记录我在学习过程中不理解的地方。 请优先看西瓜书,里面讲解的更清晰。强烈推荐学习视频:深度强化学习背后的数学原理 强化学习的目标是:通过试错法找到一个最优策略 π,使智能体能够在不同状态下选择动作,从而最大化累积的折扣奖励。 马尔科夫决策 马尔可夫决策过程(M 阅读全文
posted @ 2025-01-09 17:13 ZCry 阅读(196) 评论(0) 推荐(0)
摘要: 强化学习 此笔记作为参考资料的补充,用于记录我在学习过程中不理解的地方。请优先看西瓜书,里面讲解的更清晰。 强化学习的目标是:通过试错法找到一个最优策略 π,使智能体能够在不同状态下选择动作,从而最大化累积的折扣奖励。 马尔科夫决策 马尔可夫决策过程(Markov Decision Process, 阅读全文
posted @ 2025-01-09 17:09 ZCry 阅读(36) 评论(0) 推荐(0)