随笔档案「2020年9月8日」：Efficient Off-Policy Meta-Reinforcement ... - 穷酸秀才大草包

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ arXiv: Learning, (2019) Abstract 深度RL算法需要大量经验才能学习单个任务。原则上，元强化学习(meta-RL)算法使智能体能够从少量经验中学习新技能，但一些主要挑战阻碍了它们的实用性。当前的方法严重依赖于阅读全文

posted @ 2020-09-08 23:40 穷酸秀才大草包阅读(1483) 评论(0) 推荐(0)

On First-Order Meta-Learning Algorithms

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ arXiv: Learning, (2018) Abstract 本文考虑了存在任务分布的元学习问题，并且我们希望获得一个表现良好的智能体(即快速学习)，该智能体在从该分布中采样到以前没见过的任务时表现良好。我们分析了一组算法，用于学习可阅读全文

posted @ 2020-09-08 23:29 穷酸秀才大草包阅读(479) 评论(0) 推荐(0)

Meta-Q-Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICLR 2020 ABSTRACT 本文介绍了Meta-Q-Learning (MQL)，这是一种用于元强化学习(meta-RL)的新的异策算法。MQL基于三个简单的想法。首先，我们表明，如果可以访问表示过去轨迹的上下文变量，则Q学习将阅读全文

posted @ 2020-09-08 23:04 穷酸秀才大草包阅读(862) 评论(0) 推荐(0)

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICML 2017 Abstract 我们提出了一种与模型无关的元学习算法，从某种意义上说，该算法可与通过梯度下降训练的任何模型兼容，并适用于各种不同的学习问题，包括分类，回归和RL。元学习的目标是针对各种学习任务训练模型，以便仅使用少量阅读全文

posted @ 2020-09-08 17:27 穷酸秀才大草包阅读(1000) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告