摘要: step 1:Neural Network as Actor step 2:goodness of function(训练一些Actor) 是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。 是一个奖励和,全部episode从开始到结束的总reward。 是某一设定好的参数获 阅读全文
posted @ 2020-02-28 17:31 yingfengwu 阅读(426) 评论(0) 推荐(0)