摘要: 仅做记录用 mac idea2019版本以上 操作方法: https://www.jianshu.com/p/c8493be0c586 如果指定agent包路径错误可能会导致IDEA直接打不开,此时解决方案: https://blog.csdn.net/u013047584/article/deta 阅读全文
posted @ 2020-04-15 09:27 Ruidongch 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目 阅读全文
posted @ 2019-05-13 13:35 Ruidongch 阅读(1818) 评论(0) 推荐(0) 编辑
摘要: 为什么需要引入决定性策略梯度? 决定性策略梯度算法对于策略函数的更新形式比较简单,就是action-value函数的期望,这种简单的形式能够在估计policy时变得更有效。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则决定简单点,虽然在同一 阅读全文
posted @ 2019-04-24 23:40 Ruidongch 阅读(2124) 评论(0) 推荐(0) 编辑
摘要: 该理解建立在Policy Gradient Methods for Reinforcement Learning with Function Approximation论文阅读理解之上 首先明确优化目标$\rho(\pi)$,其中策略$\pi$是包含参数$\theta$的未知函数,一般有两种形式。 阅读全文
posted @ 2019-04-23 12:37 Ruidongch 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数:最大化策略$\pi$下的累计回报$\rho(\pi)$ \[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | 阅读全文
posted @ 2019-04-07 08:12 Ruidongch 阅读(2232) 评论(0) 推荐(0) 编辑
摘要: 在前面的文章中,我们所解决的问题都可以看做是基于高斯过程的回归问题。假设输入为$\{x,y\}_{n=1}^N$,则对于隐变量f有:$f\sim \mathcal{N}(0,K)$,回归问题在于若$y=f+\varepsilon$,$\varepsilon$为服从某正态分布的误差项,在给定任意$x_ 阅读全文
posted @ 2019-03-25 21:29 Ruidongch 阅读(1224) 评论(0) 推荐(0) 编辑
摘要: 前面的文章大致描述了基于高斯过程(GP)贝叶斯优化的原理框架,该框架中也存在了几个参数,本篇文章简单介绍如何对他们进行估计。 首先介绍一下贝叶斯优化框架的超参数有哪些: 回忆我们将高斯过程表述为以下形式: \[f ( x ) \sim G P \left( m ( x ) , k \left( x 阅读全文
posted @ 2019-03-22 14:04 Ruidongch 阅读(4928) 评论(1) 推荐(0) 编辑
摘要: 上节介绍过acquistion function(AC函数)是用来利用之前的信息寻找下一个$x_{t+1}$。下面介绍AC函数的具体形式: 目前主流的AC函数主要有三种Probability of Improvement(PI),Excepted Improvement(EI),GP Upper C 阅读全文
posted @ 2019-03-19 14:37 Ruidongch 阅读(3022) 评论(1) 推荐(0) 编辑
摘要: 阅读本文默认具有一定的概率数理统计与随机过程基础。 假设我们有一个机器学习模型M(如XGBoost,SVM,神经网络等),其超参数为记为$x_i$,则每对M进行评估的结果可记为$y_i=f(x_i)$,在这里$y_i$可以是LOSS等评价指标。问题在于如何选择超参数找到我们的最优超参数$x^*$,使 阅读全文
posted @ 2019-03-19 11:20 Ruidongch 阅读(1974) 评论(1) 推荐(1) 编辑
摘要: 该文章是针对Hado van Hasselt于2010年提出的Double Q-learning算法的进一步拓展,是结合了DQN网络后,提出的关于DQN的Double Q-learning算法。该算法主要目的是修正DQN中max项所产生的过高估计问题,所谓过高估计,在前面的博客Issues in U 阅读全文
posted @ 2019-03-11 19:34 Ruidongch 阅读(1353) 评论(0) 推荐(0) 编辑