强化学习算法 —— TRPO + GAE —— 原始的value function部分的实现算法

资料：

https://digitalassets.lib.berkeley.edu/techreports/ucb/text/EECS-2016-217.pdf

下面内容豆包AI生成：

posted on 2026-04-27 12:26 Angry_Panda 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

公告

导航