01 2023 档案

摘要:从样本利用效率,看强化学习的分类 on- policy:每次更新策略需要在重新收集数据,更新数据来自于当前策略,行为策略和目标策略是同一个策略 off-policy:行为策略和目标策略不是同一个策略,更新数据可以来自于更早之前的策略 batch rl,Offline Reinforcement Le 阅读全文
posted @ 2023-01-31 21:12 keycai 阅读(398) 评论(0) 推荐(0)