09 2020 档案

摘要:1、前沿 state of art学习经典游戏的原因规则简单,细思又很深入历史悠久,已经被研究了几百年对IQ测试有意义是现实世界的问题的缩影已经有很多RL案例,战胜了人类,例如2、游戏理论 game theory游戏的最优性对于石头剪刀布来说,最优策略,显然和对手agent策略相关,我们期望找到一种一致的策略策略,对所有对手都有效什么是第i个玩家的最优策略\(\pi\)最佳响应 best resp... 阅读全文
posted @ 2020-09-08 14:58 Tolshao 阅读(810) 评论(0) 推荐(0)
摘要:RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲,方格世界—— 使用 动态规划 求解随机策略动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略生成。注意:动态规划和强化学习都用的价值函数,区别在于动态规划需要基于模型获取采取动作后下一时刻的状态,已进行评估,需要MDP模型已知;强化... 阅读全文
posted @ 2020-09-03 15:34 Tolshao 阅读(389) 评论(0) 推荐(0)