10.3.2 Off-policy 策略梯度定理

目录

P220

\(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为策略和目标策略都是\(\pi\)的期望的话,可能方差会很大,因为现在\(s\)是根据\(\beta\)采样出来的,假设在区间\([a,b]\)\(\beta(s)\)很大而且相近,于是很多样本都来自\([a,b]\),又假设在\([a,b]\)中,\(\pi(s)\)的波动很大(也就是一些概率很大另一些概率很小),那么在\([a,b]\)\(\frac{\pi(s)}{\beta(s)}\)的波动就很大
那为什么我们要用异策略而不是直接用同策略?有两点原因

  • 数据利用率:同策略中,策略一直在变化,根据之前的策略生成的样本在现在就不可以用了;异策略中,行为策略不变,所以根据之前策略生成的样本现在还可以用
  • 探索与利用的平衡

那么抛开上面两点不谈,这个目标函数的实际意义是什么?实际上我们可以把\(\beta\)当做实际中智能体处于某一状态的概率,然后现在我们想要让智能体在这个状态下去做决策(也就是说起点是这个决策)。这个物理意义就不难理解了

update 2025.9.28
重要性采样也确实应用在了off-policy中
image
注意一个策略是在一个指定的状态如何选择动作的事情,而上面这张图中的\(\pi\)\(\beta\)都是策略,所以的确跟前面举的例子的\(X_0\)\(X_1\)是同种性质的东西的要求是一样的。至于式\((10.11)\)跟重要性采样有没有关系,这个就要看看证明了

posted @ 2025-08-29 20:35  最爱丁珰  阅读(7)  评论(0)    收藏  举报