强化学习问题集锦
目录
1,为什么要有actor和critic,而不是仅仅一个critic就够用?
2,actor和critic是否能够在线训练,及原理
正文
1,为什么要有actor和critic,而不是仅仅一个critic就够用?
可以参考这个强化学习(Reinforcement learning)中Actor-Critic算法该如何深入理解? - 江申的回答 - 知乎
https://www.zhihu.com/question/56692640/answer/356076696
2,actor和critic是否能够在线训练,及原理
critic
以自动打超级玛丽来说:
输入图片(可保存),输出当前分数(可保存)。若用cnn的话是可以每一帧都训练。但是lstm是不行的,因为你虽然可以保留h向量。
但是你已经更新了权重,因此h的值在相同的情况下是不一样的。因此除非保存一整段视频和分数。
actor
同上
浙公网安备 33010602011771号