2020 年 3月 12 日随笔档案 - 小花技术大本营

2020年3月12日

摘要：强化学习值函数近似和策略梯度 [toc] 前两节内容都是强化学习的一些基础理论，只能解决一些中小规模的问题，实际情况下很多价值函数需要一张大表来存储，获取某一状态或动作价值的时候通常需要一个查表操作，这对于某些状态或动作空间很大的问题几乎无法求解，而许多实际问题拥有大量状态或动作，甚至是连续的状阅读全文

posted @ 2020-03-12 08:57 小花技术大本营阅读(2135) 评论(0) 推荐(0)

小花技术大本营

公告