Ruidongch

2020年4月15日

2019IDEA激活记录

摘要：仅做记录用 mac idea2019版本以上操作方法： https://www.jianshu.com/p/c8493be0c586 如果指定agent包路径错误可能会导致IDEA直接打不开，此时解决方案： https://blog.csdn.net/u013047584/article/deta 阅读全文

posted @ 2020-04-15 09:27 Ruidongch 阅读(526) 评论(0) 推荐(0)

2019年5月13日

总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

摘要：前几天面试的时候被问到RL一些基础算法的区别，回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题，可以采用两个策略训练模型，一个策略为行为策略，用于保持探索性，提供多样化的数据，不断优化另一个策略(目标策略)。 on policy的目阅读全文

posted @ 2019-05-13 13:35 Ruidongch 阅读(1922) 评论(0) 推荐(0)

2019年4月24日

文献笔记:Deterministic Policy Gradient Algorithms

摘要：为什么需要引入决定性策略梯度？决定性策略梯度算法对于策略函数的更新形式比较简单，就是action-value函数的期望，这种简单的形式能够在估计policy时变得更有效。作为随机策略，在相同的策略，在同一个状态处，采用的动作是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一阅读全文

posted @ 2019-04-24 23:40 Ruidongch 阅读(2218) 评论(0) 推荐(0)

2019年4月23日

策略梯度方法

摘要：该理解建立在Policy Gradient Methods for Reinforcement Learning with Function Approximation论文阅读理解之上首先明确优化目标

ρ (π)

$\rho(\pi)$ ,其中策略

π

$\pi$ 是包含参数

θ

$\theta$ 的未知函数，一般有两种形式。阅读全文

posted @ 2019-04-23 12:37 Ruidongch 阅读(328) 评论(0) 推荐(0)

2019年4月7日

文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

摘要：本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数：最大化策略

π

$\pi$ 下的累计回报

ρ (π)

$\rho(\pi)$ \[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | 阅读全文

posted @ 2019-04-07 08:12 Ruidongch 阅读(2331) 评论(0) 推荐(0)

2019年3月25日

基于高斯过程的贝叶斯优化(四)分类问题

摘要：在前面的文章中，我们所解决的问题都可以看做是基于高斯过程的回归问题。假设输入为

{x, y}_{n = 1}^{N}

$\{x,y\}_{n=1}^N$ ，则对于隐变量f有：

f \sim N (0, K)

$f\sim \mathcal{N}(0,K)$ ，回归问题在于若

y = f + ε

$y=f+\varepsilon$ ，

ε

$\varepsilon$ 为服从某正态分布的误差项，在给定任意$x_ 阅读全文

posted @ 2019-03-25 21:29 Ruidongch 阅读(1283) 评论(0) 推荐(0)

2019年3月22日

基于高斯过程的贝叶斯优化(三)GP超参数的估计

摘要：前面的文章大致描述了基于高斯过程(GP)贝叶斯优化的原理框架，该框架中也存在了几个参数，本篇文章简单介绍如何对他们进行估计。首先介绍一下贝叶斯优化框架的超参数有哪些：回忆我们将高斯过程表述为以下形式: \[f ( x ) \sim G P \left( m ( x ) , k \left( x 阅读全文

posted @ 2019-03-22 14:04 Ruidongch 阅读(5777) 评论(1) 推荐(0)

2019年3月19日

基于高斯过程的贝叶斯优化(二)AC函数

摘要：上节介绍过acquistion function(AC函数)是用来利用之前的信息寻找下一个

x_{t + 1}

$x_{t+1}$ 。下面介绍AC函数的具体形式：目前主流的AC函数主要有三种Probability of Improvement(PI)，Excepted Improvement(EI)，GP Upper C 阅读全文

posted @ 2019-03-19 14:37 Ruidongch 阅读(4653) 评论(2) 推荐(0)

基于高斯过程的贝叶斯优化(一)引言

摘要：阅读本文默认具有一定的概率数理统计与随机过程基础。假设我们有一个机器学习模型M（如XGBoost，SVM，神经网络等），其超参数为记为

x_{i}

$x_i$ ，则每对M进行评估的结果可记为

y_{i} = f (x_{i})

$y_i=f(x_i)$ ，在这里

y_{i}

$y_i$ 可以是LOSS等评价指标。问题在于如何选择超参数找到我们的最优超参数

x^{*}

$x^*$ ，使阅读全文

posted @ 2019-03-19 11:20 Ruidongch 阅读(2216) 评论(1) 推荐(1)

2019年3月11日

文献笔记:Deep Reinforcement Learning with Double Q-learning

摘要：该文章是针对Hado van Hasselt于2010年提出的Double Q-learning算法的进一步拓展，是结合了DQN网络后，提出的关于DQN的Double Q-learning算法。该算法主要目的是修正DQN中max项所产生的过高估计问题，所谓过高估计，在前面的博客Issues in U 阅读全文

posted @ 2019-03-11 19:34 Ruidongch 阅读(1429) 评论(0) 推荐(0)

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论