摘要:
我们通过参数θ定义偏好函数$h(s,a,\theta)$,通过h的softmax表示$\pi(a|s)$,然后根据$\pi(a,s)$计算优劣度$\eta(\theta)=v_{\pi_{\theta}}(s_0)$,最后,通过计算$\eta$对$\theta$的梯度,来实现$\theta$的更新。 阅读全文
posted @ 2017-10-08 22:33
米老虎M
阅读(2008)
评论(0)
推荐(0)
2017年10月8日
2017年10月7日
2017年10月5日
2017年10月3日