摘要: 本文首发于:行者AI 2016年Google DeepMind提出了Dueling Network Architectures for Deep Reinforcement Learning,采用优势函数advantage function,使Dueling DQN在只收集一个离散动作的数据后,能够 阅读全文
posted @ 2021-04-15 17:08 行者AI 阅读(1957) 评论(0) 推荐(0)