2021 年 2月 6 日随笔档案 - 凋零_(

摘要：强化学习：智慧决策的过程，通过过程模拟和观察来不断学习，提高决策能力策略：在特定状态下应该怎么采取行动目的：找到最佳策略，即能够获得最大奖励的策略数学模型：策略和目标：在马尔科夫决策过程中，最终需要求解一个策略，他是行动和状态之间的映射分为确定性策略和随机性策略目标：最大化累计奖励的阅读全文

posted @ 2021-02-06 14:23 凋零_( 阅读(80) 评论(0) 推荐(0)

你的撒凋零呦