强化学习概念

0.

强化学习的方法有:Q Learning(基于价值),Sarsa(基于价值),Policy Gradients(基于概率).

1.经验(观察observation,激励reward,行动action)

2.状态(state)

 3.马尔科夫决策过程(MDP)

 4.大致步骤

5.

计算累计奖励的期望,下面是对某个状态而言的:

下面是对所有状态而言的:

6。

 

posted @ 2019-02-04 18:46  Jary霸  阅读(223)  评论(0)    收藏  举报