会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
广目天王
博客园
首页
新随笔
联系
订阅
管理
2018年5月21日
马尔科夫模型(Markov)(MDP)
摘要: 马尔科夫模型主要元素有3个部分 状态,动作,奖励。 对奖励的设置一定慎重,并且深谋远虑。如下图右侧: 绿色方块是 生 红色方块是 死,游戏目的是使agent尽快到达绿色方块。 1:动作奖励正数过高,会使agent一直在方格世界里兜圈子,不想出去。因为这样每多走一步,都会获得正的奖励。 2:动作奖励负
阅读全文
posted @ 2018-05-21 15:06 广目天王
阅读(989)
评论(0)
推荐(0)
公告