2021 年 9月 10 日随笔档案 - 懒狗lg

2021年9月10日

摘要： TRPO 1.算法推导由于我们希望每次在更新策略之后，新策略$\tilde\pi$能必当前策略$\pi$更优。因此我们希望能够将$\eta(\tilde\pi)$写为$\eta(\pi)+\cdots$的形式，这时我们只需要考虑$(\cdots)\geq 0$，就能保证$\eta(\til 阅读全文

posted @ 2021-09-10 14:33 懒狗lg 阅读(778) 评论(0) 推荐(0)

Loading

lg'blog

公告