摘要: 强化学习 值函数近似和策略梯度 [toc] 前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问题几乎无法求解,而许多实际问题拥有大量状态或动作,甚至是连续的状 阅读全文
posted @ 2020-03-12 08:57 小花技术大本营 阅读(2117) 评论(0) 推荐(0)