2019 年 8月 14 日随笔档案 - 你好啊渔夫

公告

2019年8月14日

摘要： Q-learning是off-policy，而Sarsa是on-policy学习。 Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下来会选择阅读全文

posted @ 2019-08-14 16:56 你好啊渔夫阅读(2370) 评论(0) 推荐(0)

Q-learning之一维世界的简单寻宝

摘要： Q-learning的算法：（1）先初始化一个Q table，Q table的行数是state的个数，列数是action的个数。（2）先随机选择一个作为初始状态S1,根据一些策略选择此状态下的动作，比如贪心策略，假设选择的动作为A1。（3）判断由A1动作之后的状态S2是不是终止状态，如果是终止阅读全文

posted @ 2019-08-14 16:23 你好啊渔夫阅读(782) 评论(0) 推荐(0)