摘要:
什么是Experience Replay, Seperate Target Network 最近看到的一篇论文中提到的面对RL network不稳定甚至发散两个方法。 non-linear function approximator is unstable or even to diverge. I 阅读全文
摘要:
什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。 现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文
摘要:
初识Stackelberg games 什么是Stackelberg game A stackelberg game is a two-player extensive game with perfect information. 两个player分别是leader和follower, Leader 阅读全文