2019 年 6月 9 日随笔档案 - 马帅领

2019年6月9日

摘要： 1\policy Gradient(Review) 三个组件:Actor\Enviroment\Reward Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward. 2\Policy of Actor policy:π, 阅读全文

posted @ 2019-06-09 00:42 马帅领阅读(171) 评论(0) 推荐(0)

马帅领

公告