07 2019 档案

摘要:https://blog.csdn.net/leviopku/article/details/90634994 阅读全文
posted @ 2019-07-05 10:06 可爱小小畅 阅读(974) 评论(0) 推荐(0)
摘要:我的理解: Q learning Sarsa 在一个回合内: 初始化s 1. choose(s, Q) => action (策略) 2. move(action, s, Q) => s_ , R 3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略) 4. 阅读全文
posted @ 2019-07-04 10:47 可爱小小畅 阅读(270) 评论(0) 推荐(0)