摘要: 马尔可夫决策过程MDP,是强化学习的基础。 MDP <S,A,P,R,γ> AGENT STATE ENV REWARD ,由ENV给出。agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A >R 所有强化学习问题解决的目标都可以描述成最大化累积奖励。All g 阅读全文
posted @ 2020-02-05 14:11 dynmi 阅读(348) 评论(0) 推荐(0) 编辑