12 2018 档案

该文被密码保护。

posted @ 2018-12-27 12:06 白婷阅读(0) 评论(0) 推荐(0)

摘要：RL分类： value based, policy based, actor critic. 一、value based. Q-learning Q表示的是，在状态s下采取动作a能够获得的期望最大收益，R是立即获得的收益，而未来一期的收益则取决于下一阶段的动作。更新公式 Q(S,A) ← (1-α 阅读全文