Loading

摘要: TRPO 1.算法推导 ​ 由于我们希望每次在更新策略之后,新策略$\tilde\pi$能必当前策略$\pi$更优。因此我们希望能够将$\eta(\tilde\pi)\(写为\)\eta(\pi)+\cdots$的形式,这时我们只需要考虑$(\cdots)\geq 0$,就能保证$\eta(\til 阅读全文
posted @ 2021-09-10 14:33 懒狗lg 阅读(778) 评论(0) 推荐(0)