摘要:
① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 阅读全文
posted @ 2023-11-27 21:29
MoonOut
阅读(367)
评论(0)
推荐(0)
摘要:
一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。 阅读全文
posted @ 2023-11-27 15:47
MoonOut
阅读(57)
评论(0)
推荐(0)

浙公网安备 33010602011771号