强化学习基础
贝尔曼方程
\[v_{\pi}(s)=\sum_{a,s'}\pi(a|s)p(s'|s,a)\{r(s,a,s')+\gamma v_\pi(s')\}
\]
\[q_\pi(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \sum_{a'}\pi(a'|s')q_\pi(s',a') \}
\]
贝尔曼最优方程
\[v_*(s)=\mathop{max}\limits_{a} \sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma v_*(s')\}
\]
\[q_*(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \mathop{max}\limits_{a'}q_*(s',a') \}
\]
最优策略
\[\begin{align}
\mu_*(s) & =\mathop{argmax}_a\ q_*(s,a) \\
& =\mathop{argmax}_a \sum_{s'}p(s'|s,a)\{r(s,a,s') + \gamma v_*(s') \}
\end{align}
\]
About me...

浙公网安备 33010602011771号