摘要:
引言:为什么 Transformer 在 RL 上不 work Transformer 最早发源于自然语言处理领域(NLP),以一个非常惊人的标题 “Attention is All You Need” 催生了无数后续工作,而 Transformer 最近的一些变体已经在 NLP 领域证明了其可以在 阅读全文
摘要:
引言 探索和利用的平衡 (The banlance between exploration and exploitation) 是强化学习中最核心的问题之一。 一般来说,利用指的是利用当前已知知识做出最优动作,探索指的是探索未知的环境以获取新的知识,从而潜在地可能得到回报更大的动作。探索与利用如何平 阅读全文