2025 年 1月 9 日随笔档案 - ZCry

2025年1月9日

摘要：强化学习此笔记作为参考资料的补充，用于记录我在学习过程中不理解的地方。请优先看西瓜书，里面讲解的更清晰。强烈推荐学习视频：深度强化学习背后的数学原理强化学习的目标是：通过试错法找到一个最优策略 π，使智能体能够在不同状态下选择动作，从而最大化累积的折扣奖励。马尔科夫决策马尔可夫决策过程（M 阅读全文

posted @ 2025-01-09 17:13 ZCry 阅读(196) 评论(0) 推荐(0)

强化学习学习笔记

摘要：强化学习此笔记作为参考资料的补充，用于记录我在学习过程中不理解的地方。请优先看西瓜书，里面讲解的更清晰。强化学习的目标是：通过试错法找到一个最优策略 π，使智能体能够在不同状态下选择动作，从而最大化累积的折扣奖励。马尔科夫决策马尔可夫决策过程（Markov Decision Process, 阅读全文

posted @ 2025-01-09 17:09 ZCry 阅读(36) 评论(0) 推荐(0)

zcry

公告