摘要: Policy based Approach policy based 强化学习通常是要学习一个actor, actor可以用$\pi_\theta (S)$ 来确定。如果我们用actor来玩游戏,那么每一局可以看成是一个操作序列$\tau=\{s_1, a_1, r_1, s_2, a_2, r_2 阅读全文
posted @ 2018-04-08 09:45 狂徒归来 阅读(975) 评论(0) 推荐(0) 编辑