Reinforcement Learning - 随笔分类(第3页) - initial_h

Value targets in off-policy AlphaZero: a new greedy backup

摘要：**发表时间：**2021 **文章要点：**这篇文章给AlphaZero设计了一个新的value targets，AlphaZero with greedy backups (A0GB)。 AlphaZero的树里面有探索，而value又是所有结果的平均，所以并不准确。而选动作也是依概率选的，但真阅读全文

posted @ 2023-04-16 10:23 initial_h 阅读(37) 评论(0) 推荐(1)

Visualizing MuZero Models

摘要：**发表时间：**2021 **文章要点：**这篇文章主要想看看muzero里面的model具体学到了什么表征。通过PCA降维的方式，发现最开始编码状态的h函数学到的embedding和动态转移函数g学到的embedding并不统一，存在很大差异。因为muzero里面没有相关的loss来控制他俩一样阅读全文

posted @ 2023-04-12 22:29 initial_h 阅读(60) 评论(0) 推荐(0)

Demonstration-Conditioned Reinforcement Learning for Few-Shot Imitation

摘要：**发表时间：**2021（ICML 2021） **文章要点：**这篇文章提出了demonstration-conditioned reinforcement learning (DCRL)来做Few-Shot Imitation，将demonstration和当前状态作为输入，通过强化学习最大化阅读全文

posted @ 2023-04-10 07:35 initial_h 阅读(67) 评论(0) 推荐(0)

Phasic Policy Gradient

摘要：**发表时间：**2021（ICML 2021） **文章要点：**这篇文章想说，通常强化都有一个policy网络一个value网络，这两部分要么分开训两个网络，要么合到一起作为一个网络的两个头。分开的好处是policy和value互相不会影响，合到一起的好处是feature是共享的，训练的时候相互阅读全文

posted @ 2023-04-06 23:43 initial_h 阅读(240) 评论(0) 推荐(0)

The Predictron: End-To-End Learning and Planning

摘要：**发表时间：**2017（ICML 2017） **文章要点：**这篇文章设计了一个叫Predictron的结构，在abstract的状态上进行学习，通过multiple planning depths来使得model self-consistent，进行端对端的学习。这里的设定是MRP，不是MD 阅读全文

posted @ 2023-04-03 10:48 initial_h 阅读(43) 评论(0) 推荐(0)

Sample-Based Learning and Search with Permanent and Transient Memories

摘要：**发表时间：**2008（ICML 2008） **文章要点：**这篇文章提出Dyna-2算法，把sample-based learning and sample-based search结合起来，并在Go上进行测试。作者认为，search算法是一种transient的算法，就是短期记忆用了就忘了阅读全文

posted @ 2023-03-30 12:02 initial_h 阅读(35) 评论(0) 推荐(0)

Learning model-based planning from scratch

摘要：**发表时间：**2017 **文章要点：**这篇文章想说，之前的文章去做planning的时候，都会去设计一个planning的方法。这篇文章提出了一个端到端的方法，Imagination-based Planner，不去设计planning的方式，做到全部的端对端训练，agent会决定什么时候去阅读全文

posted @ 2023-03-27 23:24 initial_h 阅读(65) 评论(0) 推荐(0)

Discretizing Continuous Action Space for On-Policy Optimization

摘要：**发表时间：**2020（AAAI 2020） **文章要点：**作者想说，连续动作通常都假设每个维度是高斯分布的，这就限制了策略一定是一个单峰，而离散动作就没有这个约束，所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法，同时避免维度爆炸。通常如果一个连续空间有$M$个维度，如果阅读全文

posted @ 2023-03-23 12:04 initial_h 阅读(89) 评论(0) 推荐(0)

Finite-time Analysis of the Multiarmed Bandit Problem

摘要：**发表时间：**2002（Machine Learning, 47, 235–256, 2002） **文章要点：**这篇文章主要是分析了针对Multiarmed Bandit Problem的几个经典算法的收敛性。我们知道这类问题主要就是在解决exploration versus exploit 阅读全文

posted @ 2023-03-20 07:45 initial_h 阅读(242) 评论(0) 推荐(0)

Disentangling the independently controllable factors of variation by interacting with the world

摘要：**发表时间：**2018（Learning Disentangled Representations, NIPS 2017 Workshop） **文章要点：**这篇文章想说，可以分解出独立的可控的各种因素的表征才叫好的representation，作者就说通过policy和环境交互的过程是可以实阅读全文

posted @ 2023-03-18 23:35 initial_h 阅读(18) 评论(0) 推荐(0)

COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

摘要：**发表时间：**2020（ICLR 2020） **文章要点：**这篇文章提出Search with Amortized Value Estimates(SAVE)算法，将Q-learning和MCTS结合起来。用Q value来指导MCTS，然后用得到的Q-estimates来更新Q value 阅读全文

posted @ 2023-03-06 01:03 initial_h 阅读(95) 评论(0) 推荐(0)

Bandit based Monte-Carlo Planning

摘要：**发表时间：**2006（ECML 2006） **文章要点：**这篇文章提出了UCT算法，把bandit的UCB1算法用到Monte-Carlo planning里面。首先假设我们有一个generative model，就是我给一个状态和动作，就告诉我下一个状态和reward。有了这个mode 阅读全文

posted @ 2023-03-04 00:18 initial_h 阅读(141) 评论(0) 推荐(0)

Monte-Carlo tree search as regularized policy optimization

摘要：**发表时间：**2020（ICML 2020） **文章要点：**这篇文章把MCTS和policy optimization结合起来，说AlphaZero这类算法其实可以看作是带正则项的policy optimization（AlphaZero's search heuristics, along 阅读全文

posted @ 2023-02-25 23:04 initial_h 阅读(135) 评论(0) 推荐(0)

HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS

摘要：**发表时间：**2021（ICLR 2021） **文章要点：**这篇文章提出了一个分层强化学习算法HIDIO (HIerarchical RL by Discovering Intrinsic Options)，用自监督的方式来学习任务无关的options，避免了人为设计，同时利用这些optio 阅读全文

posted @ 2022-12-07 08:44 initial_h 阅读(123) 评论(0) 推荐(0)

PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS

摘要：**发表时间：**2022(ICLR2022) **文章要点：**这篇文章基于muzero来度量model-based agent的泛化能力。主要研究了三个因素：planning, self-supervised representation learning, and procedural dat 阅读全文

posted @ 2022-11-25 12:28 initial_h 阅读(48) 评论(0) 推荐(0)

Deep Exploration via Bootstrapped DQN

摘要：**发表时间：**2016（NIPS 2016） **文章要点：**这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为，当前的探索策略比如ϵ-greedy，并没有进行深度探索（temporally-extended (or deep) exploration）。Deep exp 阅读全文

posted @ 2022-06-06 23:46 initial_h 阅读(334) 评论(0) 推荐(1)

Policy Distillation

摘要：**发表时间：**2016（ICLR 2016） **文章要点：**这篇文章考虑的情形是从一个RL的policy网络提取策略，迁移到另一个policy网络。其实就是知识迁移（Distillation is a method to transfer knowledge from a teacher m 阅读全文

posted @ 2022-06-06 23:44 initial_h 阅读(129) 评论(0) 推荐(0)

MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments

摘要：**发表时间：**2019 **文章要点：**这篇文章做了一个简化版的Atari。现在的Atari game还是太慢了，大家做实验基本上都跑不超过5个随机种子，实验说服力不够。这篇文章搞了个简化版，输入只有10*10*n的binary的表征,其中n表示channel（n channels corre 阅读全文

posted @ 2022-06-02 21:52 initial_h 阅读(130) 评论(0) 推荐(0)

Data-Efficient Hierarchical Reinforcement Learning

摘要：**发表时间：**2018（NIPS 2018） **文章要点：**这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal，同时用off-po 阅读全文

posted @ 2022-05-30 23:43 initial_h 阅读(143) 评论(0) 推荐(0)

An Investigation of Model-Free Planning

摘要：**发表时间：**2019（ICML 2019） **文章要点：**这篇文章主要是做实验探讨了一下什么形式算planning。之前的planning通常会设置一个具体的planning算法，比如Monte Carlo rollouts,MCTS等等，或者在网络里面嵌入类似planning的结构，比如阅读全文

posted @ 2022-05-25 23:32 initial_h 阅读(41) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

随笔分类 - Reinforcement Learning

公告