摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章想说在offline RL的setting下,由于外推误差(extrapolation errors)的原因,标准的off-policy算法比如DQN,DDPG之类的,如果数据的分布和当前policy的分布差距很大的话,那就 阅读全文
posted @ 2023-05-21 12:11 initial_h 阅读(77) 评论(0) 推荐(0) 编辑