摘要: **发表时间:**2019 **文章要点:**这篇文章主要是针对batch RL做了一个离散动作空间的benchmark,对比了DQN和一些batch RL算法的性能(DQN,REM,QR-DQN,KL-Control,BCQ)。并且把BCQ从连续动作空间改成适用离散动作空间,取得了SOTA的效果。 阅读全文
posted @ 2021-09-04 02:18 initial_h 阅读(181) 评论(0) 推荐(0)