5. 值函数近似——Deep Q-learning
摘要:
前4篇,我们都是假设动作值函数Q是一张大表,状态-动作对都是一一对应的。这对于现实应用状态动作空间很大的情况来说,计算量就非常的大,甚至根本无法求解这样一张大表。因此,我们引入状态值函数v,由参数$\bf{w}$描述,我们希望, \[\hat v(s,{\bf{w}}) \approx {v_\pi 阅读全文
posted @ 2019-01-17 22:16 yijun0730 阅读(764) 评论(0) 推荐(0)
浙公网安备 33010602011771号