摘要: Q-learning是强化学习中一种经典的无监督学习方法,通过与环境交互来指导学习; 大部分强化学习都是基于马尔科夫决策(MDP)的。MDP是一个框架,而Q学习是应用了这种框架的一个具体的学习方法。 Q学习的四要素:(agent,状态 s,动作 a,奖励 r) 简而言之,agent从当前状态选择一个 阅读全文
posted @ 2020-10-19 14:20 liubilan 阅读(1703) 评论(0) 推荐(0)