强化学习基础

贝尔曼方程

\[v_{\pi}(s)=\sum_{a,s'}\pi(a|s)p(s'|s,a)\{r(s,a,s')+\gamma v_\pi(s')\} \]

\[q_\pi(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \sum_{a'}\pi(a'|s')q_\pi(s',a') \} \]

\[v_*(s)=\mathop{max}\limits_{a} \sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma v_*(s')\} \]

\[q_*(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \mathop{max}\limits_{a'}q_*(s',a') \} \]

\[\begin{align} \mu_*(s) & =\mathop{argmax}_a\ q_*(s,a) \\ & =\mathop{argmax}_a \sum_{s'}p(s'|s,a)\{r(s,a,s') + \gamma v_*(s') \} \end{align} \]

posted @ 2025-05-03 10:17 -Z00- 阅读(37) 评论(0) 收藏举报

刷新页面返回顶部