凯鲁嘎吉
用书写铭记日常,最迷人的不在远方
摘要: 重要性采样(Importance Sampling)——TRPO与PPO的补充 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)与近端策略 阅读全文
posted @ 2021-10-13 11:32 凯鲁嘎吉 阅读(1386) 评论(0) 推荐(2) 编辑