摘要: 策略梯度 value based的强化学习方法对价值函数进行了近似表示,policy based使用了类似的思路,策略$\pi$可以被描述为一个包含参数$\theta$的函数 $$ \pi_{\theta}(s, a)=P(a | s, \theta) \approx \pi(a | s) $$ 我 阅读全文
posted @ 2020-03-27 19:35 lepeCoder 阅读(756) 评论(0) 推荐(0) 编辑