强化学习问题集锦

目录

1,为什么要有actor和critic,而不是仅仅一个critic就够用?
2,actor和critic是否能够在线训练,及原理

正文

1,为什么要有actor和critic,而不是仅仅一个critic就够用?

可以参考这个强化学习(Reinforcement learning)中Actor-Critic算法该如何深入理解? - 江申的回答 - 知乎
https://www.zhihu.com/question/56692640/answer/356076696

2,actor和critic是否能够在线训练,及原理

critic

以自动打超级玛丽来说:
输入图片(可保存),输出当前分数(可保存)。若用cnn的话是可以每一帧都训练。但是lstm是不行的,因为你虽然可以保留h向量。
但是你已经更新了权重,因此h的值在相同的情况下是不一样的。因此除非保存一整段视频和分数。

actor

同上

posted @ 2022-08-09 14:41  dasdascccc  阅读(50)  评论(0)    收藏  举报