摘要: 瑞吉外卖学习总结 阅读全文
posted @ 2023-06-20 12:30 lee_ing 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 利用基于模型的强化学习(MbRL)中组件驱动的新可学习特征来计算经验得分 阅读全文
posted @ 2023-06-04 12:14 lee_ing 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 本文提出了用于经验回放的清醒梦(LiDER),一个概念上的新框架,允许通过利用智能体的当前策略来刷新回放体验。 阅读全文
posted @ 2023-06-04 10:27 lee_ing 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 本文基于深度q网络算法提出了记忆高效的强化学习算法来缓解这一问题。通过将目标q网络中的知识整合Knowledge Consolidation到当前q网络中,所提算法减少了遗忘并保持了较高的样本效率。 阅读全文
posted @ 2023-05-31 12:19 lee_ing 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 将 replay memory视为经验 replay memory MDP (RM-MDP),并通过求解该经验MDP获得一个保守估计。MDP是非平稳的,可以通过采样有效地更新。基于保守估计设计了价值和策略正则化器,并将其与经验回放(CEER)相结合来正则化DQN的学习。 阅读全文
posted @ 2023-05-23 18:07 lee_ing 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 提出了Reducible Holdout Loss Selection (RHOLOSS),一种简单但有原则的技术,近似地选择那些最能减少模型泛化损失的点进行训练 阅读全文
posted @ 2023-05-21 17:54 lee_ing 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 本文建议通过对连续transition进行线性插值来合成新的transition用于训练。为了保持构建的transition的真实性,还开发了一个鉴别器来自动指导构建过程 阅读全文
posted @ 2023-05-21 10:44 lee_ing 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 提出了邻域混合经验回放(NMER),一种基于几何的回放缓冲区,用状态-动作空间中最近邻的transition进行插值。NMER仅通过混合transition与邻近状态-动作特征来保持trnaistion流形的局部线性近似。 阅读全文
posted @ 2023-05-20 11:28 lee_ing 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 设计了一种新的复合体验重放(CER)策略,并将其嵌入到深度确定性策略梯度(DDPG)算法中。CER提供了一种新的采样方案,**通过在奖励和时间差异(TD)误差之间进行权衡,可以深入挖掘存储变迁的信息 阅读全文
posted @ 2023-05-19 17:35 lee_ing 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 摘要: 深度强化学习通过智能体与环境进行交互获取原始输入信息,从而学习动作策略,通过不断地试错逐步形成具有强大学习能力的智能体。本文旨在解决深度强化学习中著名的异步优势行动者评论家算法A3C样本效率低下的问题。首先,设计了一种新的离策略actor-critic算法,该算法在在策略actor-crit 阅读全文
posted @ 2023-05-19 11:52 lee_ing 阅读(13) 评论(0) 推荐(0) 编辑