摘要:
强化学习 此笔记作为参考资料的补充,用于记录我在学习过程中不理解的地方。 请优先看西瓜书,里面讲解的更清晰。强烈推荐学习视频:深度强化学习背后的数学原理 强化学习的目标是:通过试错法找到一个最优策略 π,使智能体能够在不同状态下选择动作,从而最大化累积的折扣奖励。 马尔科夫决策 马尔可夫决策过程(M 阅读全文
posted @ 2025-01-09 17:13
ZCry
阅读(196)
评论(0)
推荐(0)
摘要:
强化学习 此笔记作为参考资料的补充,用于记录我在学习过程中不理解的地方。请优先看西瓜书,里面讲解的更清晰。 强化学习的目标是:通过试错法找到一个最优策略 π,使智能体能够在不同状态下选择动作,从而最大化累积的折扣奖励。 马尔科夫决策 马尔可夫决策过程(Markov Decision Process, 阅读全文
posted @ 2025-01-09 17:09
ZCry
阅读(36)
评论(0)
推荐(0)

浙公网安备 33010602011771号