凯鲁嘎吉
用书写铭记日常,最迷人的不在远方

当前标签:强化学习

信赖域策略优化(Trust Region Policy Optimization, TRPO) 凯鲁嘎吉 2021-10-10 13:31 阅读:3767 评论:1 推荐:2   
强化学习(Reinforcement Learning) 凯鲁嘎吉 2021-09-29 21:19 阅读:7173 评论:2 推荐:8