摘要:
前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目 阅读全文
摘要:
前面的文章大致描述了基于高斯过程(GP)贝叶斯优化的原理框架,该框架中也存在了几个参数,本篇文章简单介绍如何对他们进行估计。 首先介绍一下贝叶斯优化框架的超参数有哪些: 回忆我们将高斯过程表述为以下形式: \[f ( x ) \sim G P \left( m ( x ) , k \left( x 阅读全文
摘要:
上节介绍过acquistion function(AC函数)是用来利用之前的信息寻找下一个xt+1。下面介绍AC函数的具体形式: 目前主流的AC函数主要有三种Probability of Improvement(PI),Excepted Improvement(EI),GP Upper C 阅读全文
摘要:
该文章是针对Hado van Hasselt于2010年提出的Double Q-learning算法的进一步拓展,是结合了DQN网络后,提出的关于DQN的Double Q-learning算法。该算法主要目的是修正DQN中max项所产生的过高估计问题,所谓过高估计,在前面的博客Issues in U 阅读全文