摘要: 1\policy Gradient(Review) 三个组件:Actor\Enviroment\Reward Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward. 2\Policy of Actor policy:π, 阅读全文
posted @ 2019-06-09 00:42 马帅领 阅读(168) 评论(0) 推荐(0)