强化学习理论-第3课-贝尔曼最优公式
1. 贝尔曼最优公式:
1.1 定义:
第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好

1.2 matrix-vector form:

2. 求解贝尔曼公式:

公式中,v是一个未知量,\(\pi\)也是要求解的最优策略。

假设a有5个action,


2.1 Contraction mapping theorem:

example:

theorem:

2.2 应用这个定理求解:


运用定理知道,一定存在一个解,并且这个解是唯一的,而且这个解可以通过迭代的方式进行。


浙公网安备 33010602011771号