首页
新闻
博问
专区
闪存
班级
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
2022年12月7日
HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS
摘要: **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章提出了一个分层强化学习算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自监督的方式来学习任务无关的options,避免了人为设计,同时利用这些optio
阅读全文
posted @ 2022-12-07 08:44 initial_h
阅读(12)
评论(0)
推荐(0)
编辑
2022年11月25日
PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS
摘要: **发表时间:**2022(ICLR2022) **文章要点:**这篇文章基于muzero来度量model-based agent的泛化能力。主要研究了三个因素:planning, self-supervised representation learning, and procedural dat
阅读全文
posted @ 2022-11-25 12:28 initial_h
阅读(13)
评论(0)
推荐(0)
编辑
2022年6月6日
Deep Exploration via Bootstrapped DQN
摘要: **发表时间:**2016(NIPS 2016) **文章要点:**这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exp
阅读全文
posted @ 2022-06-06 23:46 initial_h
阅读(115)
评论(0)
推荐(0)
编辑
Policy Distillation
摘要: **发表时间:**2016(ICLR 2016) **文章要点:**这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher m
阅读全文
posted @ 2022-06-06 23:44 initial_h
阅读(45)
评论(0)
推荐(0)
编辑
2022年6月2日
MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments
摘要: **发表时间:**2019 **文章要点:**这篇文章做了一个简化版的Atari。现在的Atari game还是太慢了,大家做实验基本上都跑不超过5个随机种子,实验说服力不够。这篇文章搞了个简化版,输入只有10*10*n的binary的表征,其中n表示channel(n channels corre
阅读全文
posted @ 2022-06-02 21:52 initial_h
阅读(53)
评论(0)
推荐(0)
编辑
2022年5月30日
Data-Efficient Hierarchical Reinforcement Learning
摘要: **发表时间:**2018(NIPS 2018) **文章要点:**这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal,同时用off-po
阅读全文
posted @ 2022-05-30 23:43 initial_h
阅读(43)
评论(0)
推荐(0)
编辑
2022年5月25日
An Investigation of Model-Free Planning
摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章主要是做实验探讨了一下什么形式算planning。之前的planning通常会设置一个具体的planning算法,比如Monte Carlo rollouts,MCTS等等,或者在网络里面嵌入类似planning的结构,比如
阅读全文
posted @ 2022-05-25 23:32 initial_h
阅读(18)
评论(0)
推荐(0)
编辑
2022年5月23日
A0C: Alpha Zero in Continuous Action Space
摘要: **发表时间:**2018 **文章要点:**这篇文章提出A0C算法,把AlphaZero做到连续动作空间上,主要使用的方式是progressive widening和continuous prior(就是continuous policy network)。具体的,progressive wide
阅读全文
posted @ 2022-05-23 23:05 initial_h
阅读(83)
评论(0)
推荐(0)
编辑
2022年5月20日
Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章想说,通常强化学习算法exploration和exploitation都是混在一起的,既探索环境的dynamics,同时也利用探索到的信息来提升策略。但是要想更好的更新策略,就需要好的探索来收集任务相关的信息;要想得到更好的
阅读全文
posted @ 2022-05-20 23:43 initial_h
阅读(39)
评论(0)
推荐(0)
编辑
2022年5月18日
Discovering symbolic policies with deep reinforcement learning
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章想说神经网络的解释性太差,用简单的符号式子来表示策略具有更好的解释性,而且性能也不错。这里符号式子就是一个简单的函数。作者就提出了一个叫deep symbolic policy的算法来搜索symbolic policies。
阅读全文
posted @ 2022-05-18 23:52 initial_h
阅读(42)
评论(0)
推荐(0)
编辑
2022年5月15日
Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章就是在小的环境上重新测试了一遍DQN以及一系列变种的效果,得出的结论就是说即使是在简单任务上进行测试,也能得到有价值的结果,呼吁降低研究RL的算力门槛。具体的,作者先说就算是Atari游戏上做研究,对算力的要求也是巨大的,A
阅读全文
posted @ 2022-05-15 23:07 initial_h
阅读(23)
评论(0)
推荐(0)
编辑
2022年5月13日
Planning to Explore via Self-Supervised World Models
摘要: **发表时间:**2020(ICML 2020) **文章要点:**这篇文章提出了一个Plan2Explore的model based方法,通过self-supervised方法来做Task-agnostic的探索,在这个过程中有效学习了world model,然后可以迁移到下游的具体任务上,实现z
阅读全文
posted @ 2022-05-13 22:54 initial_h
阅读(56)
评论(0)
推荐(0)
编辑
EXPLORATION BY RANDOM NETWORK DISTILLATION
摘要: **发表时间:**2018(ICLR 2019) **文章要点:**文章提出了一个random network distillation (RND)的算法,通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说,如果agent去过某个状态了,
阅读全文
posted @ 2022-05-13 22:50 initial_h
阅读(78)
评论(0)
推荐(0)
编辑
2022年5月8日
NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章的思路是运用distributed RL的形式,基于intrinsic reward,并行多个agent,将exploration策略和exploitation策略分开单独训练,这样可以设置一族探索程度不同的explorat
阅读全文
posted @ 2022-05-08 23:59 initial_h
阅读(82)
评论(0)
推荐(0)
编辑
2022年5月4日
Discovering and Achieving Goals via World Models
摘要: **发表时间:**2021(NeurIPS 2021) **文章要点:**这篇文章提出Latent Explorer Achiever (LEXA)算法,通过学习world model的imagined rollouts来训练一个explorer策略和一个achiever策略,通过unsupervi
阅读全文
posted @ 2022-05-04 22:23 initial_h
阅读(60)
评论(0)
推荐(0)
编辑
下一页