强化学习:马尔可夫决策过程(贝尔曼最优方程)

 

                       贝尔曼最优方程推导(来源:B站up主:shuhuai008)

1.明确一下概念间的关系

2.反证法证明 v*(s)=max(a)_q*(s,a)

3.“套娃”得到贝尔曼最优方程

 

 

参考资料:

1.https://www.bilibili.com/video/BV1RA411q7wt?p=5,B站UP主:shuhuai008

posted @ 2020-07-28 11:26  Feynmania  阅读(2143)  评论(0编辑  收藏  举报