09 2020 档案

强化学习笔记10：经典游戏示例 classic games

摘要：1、前沿 state of art学习经典游戏的原因规则简单，细思又很深入历史悠久，已经被研究了几百年对IQ测试有意义是现实世界的问题的缩影已经有很多RL案例，战胜了人类，例如2、游戏理论 game theory游戏的最优性对于石头剪刀布来说，最优策略，显然和对手agent策略相关，我们期望找到一种一致的策略策略，对所有对手都有效什么是第i个玩家的最优策略\(\pi\)最佳响应 best resp... 阅读全文

posted @ 2020-09-08 14:58 Tolshao 阅读(810) 评论(0) 推荐(0)

RL实践1——动态规划值迭代

摘要：RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲，方格世界—— 使用动态规划求解随机策略动态规划的使用条件时MDP已知，在简单游戏中，这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数，迭代收敛之后，对应最优策略生成。注意：动态规划和强化学习都用的价值函数，区别在于动态规划需要基于模型获取采取动作后下一时刻的状态，已进行评估，需要MDP模型已知；强化... 阅读全文

posted @ 2020-09-03 15:34 Tolshao 阅读(389) 评论(0) 推荐(0)

Tolshao

09 2020 档案

公告