会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
lg'blog
博客园
首页
新随笔
联系
订阅
管理
2021年9月10日
深度强化学习——TRPO
摘要: TRPO 1.算法推导 由于我们希望每次在更新策略之后,新策略$\tilde\pi$能必当前策略$\pi$更优。因此我们希望能够将$\eta(\tilde\pi)\(写为\)\eta(\pi)+\cdots$的形式,这时我们只需要考虑$(\cdots)\geq 0$,就能保证$\eta(\til
阅读全文
posted @ 2021-09-10 14:33 懒狗lg
阅读(778)
评论(0)
推荐(0)
公告