摘要: 马尔科夫模型主要元素有3个部分 状态,动作,奖励。 对奖励的设置一定慎重,并且深谋远虑。如下图右侧: 绿色方块是 生 红色方块是 死,游戏目的是使agent尽快到达绿色方块。 1:动作奖励正数过高,会使agent一直在方格世界里兜圈子,不想出去。因为这样每多走一步,都会获得正的奖励。 2:动作奖励负 阅读全文
posted @ 2018-05-21 15:06 广目天王 阅读(989) 评论(0) 推荐(0)