摘要: 强化学习: 智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力 策略:在特定状态下应该怎么采取行动 目的:找到最佳策略,即能够获得最大奖励的策略 数学模型: 策略和目标: 在马尔科夫决策过程中,最终需要求解一个策略,他是行动和状态之间的映射 分为确定性策略和随机性策略 目标:最大化累计奖励的 阅读全文
posted @ 2021-02-06 14:23 凋零_( 阅读(76) 评论(0) 推荐(0)