01 2023 档案

离线强化学习在序列决策中的应用

摘要：从样本利用效率，看强化学习的分类 on- policy：每次更新策略需要在重新收集数据，更新数据来自于当前策略，行为策略和目标策略是同一个策略 off-policy：行为策略和目标策略不是同一个策略，更新数据可以来自于更早之前的策略 batch rl，Offline Reinforcement Le 阅读全文

posted @ 2023-01-31 21:12 keycai 阅读(398) 评论(0) 推荐(0)

01 2023 档案

公告