随笔档案「2018年4月8日」：Policy-Based Reinforcement Learning ... - 狂徒归来

2018年4月8日

摘要： Policy based Approach policy based 强化学习通常是要学习一个actor, actor可以用$\pi_\theta (S)$ 来确定。如果我们用actor来玩游戏，那么每一局可以看成是一个操作序列$\tau=\{s_1, a_1, r_1, s_2, a_2, r_2 阅读全文

posted @ 2018-04-08 09:45 狂徒归来阅读(1015) 评论(0) 推荐(0)

狂徒归来

人生如逆旅，我亦是行人

公告