About me...

强化学习基础

贝尔曼方程

\[v_{\pi}(s)=\sum_{a,s'}\pi(a|s)p(s'|s,a)\{r(s,a,s')+\gamma v_\pi(s')\} \]

\[q_\pi(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \sum_{a'}\pi(a'|s')q_\pi(s',a') \} \]

贝尔曼最优方程

\[v_*(s)=\mathop{max}\limits_{a} \sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma v_*(s')\} \]

\[q_*(s,a)=\sum_{s'}p(s'|s,a)\{r(s,a,s')+\gamma \mathop{max}\limits_{a'}q_*(s',a') \} \]

最优策略

\[\begin{align} \mu_*(s) & =\mathop{argmax}_a\ q_*(s,a) \\ & =\mathop{argmax}_a \sum_{s'}p(s'|s,a)\{r(s,a,s') + \gamma v_*(s') \} \end{align} \]

posted @ 2025-05-03 10:17  -Z00-  阅读(14)  评论(0)    收藏  举报