随笔档案「2019年5月22日」：DQN算法原理详解 ... - 山竹小果

2019年5月22日

摘要：一、概述强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中阅读全文

posted @ 2019-05-22 21:27 山竹小果阅读(8495) 评论(1) 推荐(3)

公告