随笔档案「2017年10月20日」：强化学习(David Silver)7：策略梯度算法 ... - _1024

强化学习(David Silver)7：策略梯度算法

摘要： 1、简介 1.1、PolicyBased方法优劣优势：更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势：收敛到局部最优，而非全局最优 policy估计训练慢、高方差，有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向阅读全文

posted @ 2017-10-20 19:52 _1024 阅读(1755) 评论(0) 推荐(0)