摘要:
1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向 阅读全文
posted @ 2017-10-20 19:52
_1024
阅读(1755)
评论(0)
推荐(0)
2017年10月20日