摘要:        
我们通过参数θ定义偏好函数$h(s,a,\theta)$,通过h的softmax表示$\pi(a|s)$,然后根据$\pi(a,s)$计算优劣度$\eta(\theta)=v_{\pi_{\theta}}(s_0)$,最后,通过计算$\eta$对$\theta$的梯度,来实现$\theta$的更新。    阅读全文
        
            posted @ 2017-10-08 22:33
米老虎M
阅读(2009)
评论(0)
推荐(0)
        
    2017年10月8日
2017年10月7日
2017年10月5日
2017年10月3日