随笔分类 -  Reinforcement Learning

上一页 1 2 3 4 5 6 7 ··· 9 下一页
reinforcement learning algorithm
摘要:**发表时间:**2021 **文章要点:**这篇文章给AlphaZero设计了一个新的value targets,AlphaZero with greedy backups (A0GB)。 AlphaZero的树里面有探索,而value又是所有结果的平均,所以并不准确。而选动作也是依概率选的,但真 阅读全文
posted @ 2023-04-16 10:23 initial_h 阅读(37) 评论(0) 推荐(1)
摘要:**发表时间:**2021 **文章要点:**这篇文章主要想看看muzero里面的model具体学到了什么表征。通过PCA降维的方式,发现最开始编码状态的h函数学到的embedding和动态转移函数g学到的embedding并不统一,存在很大差异。因为muzero里面没有相关的loss来控制他俩一样 阅读全文
posted @ 2023-04-12 22:29 initial_h 阅读(60) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出了demonstration-conditioned reinforcement learning (DCRL)来做Few-Shot Imitation,将demonstration和当前状态作为输入,通过强化学习最大化 阅读全文
posted @ 2023-04-10 07:35 initial_h 阅读(67) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML 2021) **文章要点:**这篇文章想说,通常强化都有一个policy网络一个value网络,这两部分要么分开训两个网络,要么合到一起作为一个网络的两个头。分开的好处是policy和value互相不会影响,合到一起的好处是feature是共享的,训练的时候相互 阅读全文
posted @ 2023-04-06 23:43 initial_h 阅读(240) 评论(0) 推荐(0)
摘要:**发表时间:**2017(ICML 2017) **文章要点:**这篇文章设计了一个叫Predictron的结构,在abstract的状态上进行学习,通过multiple planning depths来使得model self-consistent,进行端对端的学习。这里的设定是MRP,不是MD 阅读全文
posted @ 2023-04-03 10:48 initial_h 阅读(43) 评论(0) 推荐(0)
摘要:**发表时间:**2008(ICML 2008) **文章要点:**这篇文章提出Dyna-2算法,把sample-based learning and sample-based search结合起来,并在Go上进行测试。作者认为,search算法是一种transient的算法,就是短期记忆用了就忘了 阅读全文
posted @ 2023-03-30 12:02 initial_h 阅读(35) 评论(0) 推荐(0)
摘要:**发表时间:**2017 **文章要点:**这篇文章想说,之前的文章去做planning的时候,都会去设计一个planning的方法。这篇文章提出了一个端到端的方法,Imagination-based Planner,不去设计planning的方式,做到全部的端对端训练,agent会决定什么时候去 阅读全文
posted @ 2023-03-27 23:24 initial_h 阅读(65) 评论(0) 推荐(0)
摘要:**发表时间:**2020(AAAI 2020) **文章要点:**作者想说,连续动作通常都假设每个维度是高斯分布的,这就限制了策略一定是一个单峰,而离散动作就没有这个约束,所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法,同时避免维度爆炸。通常如果一个连续空间有$M$个维度,如果 阅读全文
posted @ 2023-03-23 12:04 initial_h 阅读(89) 评论(0) 推荐(0)
摘要:**发表时间:**2002(Machine Learning, 47, 235–256, 2002) **文章要点:**这篇文章主要是分析了针对Multiarmed Bandit Problem的几个经典算法的收敛性。我们知道这类问题主要就是在解决exploration versus exploit 阅读全文
posted @ 2023-03-20 07:45 initial_h 阅读(242) 评论(0) 推荐(0)
摘要:**发表时间:**2018(Learning Disentangled Representations, NIPS 2017 Workshop) **文章要点:**这篇文章想说,可以分解出独立的可控的各种因素的表征才叫好的representation,作者就说通过policy和环境交互的过程是可以实 阅读全文
posted @ 2023-03-18 23:35 initial_h 阅读(18) 评论(0) 推荐(0)
摘要:**发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出Search with Amortized Value Estimates(SAVE)算法,将Q-learning和MCTS结合起来。用Q value来指导MCTS,然后用得到的Q-estimates来更新Q value 阅读全文
posted @ 2023-03-06 01:03 initial_h 阅读(95) 评论(0) 推荐(0)
摘要:**发表时间:**2006(ECML 2006) **文章要点:**这篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning里面。 首先假设我们有一个generative model,就是我给一个状态和动作,就告诉我下一个状态和reward。有了这个mode 阅读全文
posted @ 2023-03-04 00:18 initial_h 阅读(141) 评论(0) 推荐(0)
摘要:**发表时间:**2020(ICML 2020) **文章要点:**这篇文章把MCTS和policy optimization结合起来,说AlphaZero这类算法其实可以看作是带正则项的policy optimization(AlphaZero's search heuristics, along 阅读全文
posted @ 2023-02-25 23:04 initial_h 阅读(135) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICLR 2021) **文章要点:**这篇文章提出了一个分层强化学习算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自监督的方式来学习任务无关的options,避免了人为设计,同时利用这些optio 阅读全文
posted @ 2022-12-07 08:44 initial_h 阅读(123) 评论(0) 推荐(0)
摘要:**发表时间:**2022(ICLR2022) **文章要点:**这篇文章基于muzero来度量model-based agent的泛化能力。主要研究了三个因素:planning, self-supervised representation learning, and procedural dat 阅读全文
posted @ 2022-11-25 12:28 initial_h 阅读(48) 评论(0) 推荐(0)
摘要:**发表时间:**2016(NIPS 2016) **文章要点:**这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exp 阅读全文
posted @ 2022-06-06 23:46 initial_h 阅读(334) 评论(0) 推荐(1)
摘要:**发表时间:**2016(ICLR 2016) **文章要点:**这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher m 阅读全文
posted @ 2022-06-06 23:44 initial_h 阅读(129) 评论(0) 推荐(0)
摘要:**发表时间:**2019 **文章要点:**这篇文章做了一个简化版的Atari。现在的Atari game还是太慢了,大家做实验基本上都跑不超过5个随机种子,实验说服力不够。这篇文章搞了个简化版,输入只有10*10*n的binary的表征,其中n表示channel(n channels corre 阅读全文
posted @ 2022-06-02 21:52 initial_h 阅读(130) 评论(0) 推荐(0)
摘要:**发表时间:**2018(NIPS 2018) **文章要点:**这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal,同时用off-po 阅读全文
posted @ 2022-05-30 23:43 initial_h 阅读(143) 评论(0) 推荐(0)
摘要:**发表时间:**2019(ICML 2019) **文章要点:**这篇文章主要是做实验探讨了一下什么形式算planning。之前的planning通常会设置一个具体的planning算法,比如Monte Carlo rollouts,MCTS等等,或者在网络里面嵌入类似planning的结构,比如 阅读全文
posted @ 2022-05-25 23:32 initial_h 阅读(41) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 ··· 9 下一页