你好啊渔夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2019年8月14日

摘要: Q-learning是off-policy,而Sarsa是on-policy学习。 Q-learning在更新Q table时,它只会需要Q值最大,但是不一定会选择使这个Q值最大的动作,因为选择哪个动作是由其他的策略决定的,但是Sarsa在更新Q table时,不一定是Q最大的那个,而且接下来会选择 阅读全文
posted @ 2019-08-14 16:56 你好啊渔夫 阅读(2305) 评论(0) 推荐(0) 编辑

摘要: Q-learning的算法: (1)先初始化一个Q table,Q table的行数是state的个数,列数是action的个数。 (2)先随机选择一个作为初始状态S1,根据一些策略选择此状态下的动作,比如贪心策略,假设选择的动作为A1。 (3)判断由A1动作之后的状态S2是不是终止状态,如果是终止 阅读全文
posted @ 2019-08-14 16:23 你好啊渔夫 阅读(750) 评论(0) 推荐(0) 编辑