10.3.2 Off-policy 策略梯度定理
目录
P220
\(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为策略和目标策略都是\(\pi\)的期望的话,可能方差会很大,因为现在\(s\)是根据\(\beta\)采样出来的,假设在区间\([a,b]\)中\(\beta(s)\)很大而且相近,于是很多样本都来自\([a,b]\),又假设在\([a,b]\)中,\(\pi(s)\)的波动很大(也就是一些概率很大另一些概率很小),那么在\([a,b]\)中\(\frac{\pi(s)}{\beta(s)}\)的波动就很大
那为什么我们要用异策略而不是直接用同策略?有两点原因
- 数据利用率:同策略中,策略一直在变化,根据之前的策略生成的样本在现在就不可以用了;异策略中,行为策略不变,所以根据之前策略生成的样本现在还可以用
- 探索与利用的平衡
那么抛开上面两点不谈,这个目标函数的实际意义是什么?实际上我们可以把\(\beta\)当做实际中智能体处于某一状态的概率,然后现在我们想要让智能体在这个状态下去做决策(也就是说起点是这个决策)。这个物理意义就不难理解了
update 2025.9.28
重要性采样也确实应用在了off-policy中

注意一个策略是在一个指定的状态如何选择动作的事情,而上面这张图中的\(\pi\)和\(\beta\)都是策略,所以的确跟前面举的例子的\(X_0\)和\(X_1\)是同种性质的东西的要求是一样的。至于式\((10.11)\)跟重要性采样有没有关系,这个就要看看证明了

浙公网安备 33010602011771号