摘要: 这篇博客只是为了自己记录,思路比较跳跃。 Policy Gradients 不估计局面的价值,转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为,比如说某些资源有限的游戏,我们不可能一直在某一个地方一直获取资源。 更新函数是$\theta_{t+1}=\theta_t 阅读全文
posted @ 2019-03-17 00:33 LincHpin 阅读(139) 评论(0) 推荐(0)