博客园 - 刘建平Pinard
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=55967
2023-11-14T07:57:13Z
刘建平Pinard
https://www.cnblogs.com/pinard/
feed.cnblogs.com
https://www.cnblogs.com/pinard/p/11114748.html
XGBoost类库使用小结 - 刘建平Pinard
在XGBoost算法原理小结中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路。 本文主要参考了XGBoost的Python文档 和 XGBoost的参数文档。 1. XGBoost类库概述 XGBoost除了支持Pyth
2019-07-01T10:10:00Z
2019-07-01T10:10:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在XGBoost算法原理小结中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路。 本文主要参考了XGBoost的Python文档 和 XGBoost的参数文档。 1. XGBoost类库概述 XGBoost除了支持Pyth <a href="https://www.cnblogs.com/pinard/p/11114748.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10979808.html
XGBoost算法原理小结 - 刘建平Pinard
在两年半之前作过梯度提升树(GBDT)原理小结,但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现,但是里面也加入了很多独有的思路和方法,值得单独讲一讲。因此讨论的时候,我会重点分析和GBDT不同的地方。 本文主要参考了XGBoost的论文和陈天奇的P
2019-06-05T12:36:00Z
2019-06-05T12:36:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在两年半之前作过梯度提升树(GBDT)原理小结,但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现,但是里面也加入了很多独有的思路和方法,值得单独讲一讲。因此讨论的时候,我会重点分析和GBDT不同的地方。 本文主要参考了XGBoost的论文和陈天奇的P <a href="https://www.cnblogs.com/pinard/p/10979808.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10930902.html
机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导 - 刘建平Pinard
在矩阵向量求导前4篇文章中,我们主要讨论了标量对向量矩阵的求导,以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导,还有矩阵对向量,向量对矩阵求导这几种形式的求导方法。 本文所有求导布局以分母布局为准,为了适配矩阵对矩阵的求导,本文向量对向量的求导也以分母布局为准,这和前面的文章
2019-05-27T09:19:00Z
2019-05-27T09:19:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在矩阵向量求导前4篇文章中,我们主要讨论了标量对向量矩阵的求导,以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导,还有矩阵对向量,向量对矩阵求导这几种形式的求导方法。 本文所有求导布局以分母布局为准,为了适配矩阵对矩阵的求导,本文向量对向量的求导也以分母布局为准,这和前面的文章 <a href="https://www.cnblogs.com/pinard/p/10930902.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10825264.html
机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则 - 刘建平Pinard
在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中,我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。需要一些简洁的方法。 本文我们讨论矩阵向量求导链式法则,使用该法则很多时候可以帮我们快速求出导数结果
2019-05-07T07:59:00Z
2019-05-07T07:59:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中,我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。需要一些简洁的方法。 本文我们讨论矩阵向量求导链式法则,使用该法则很多时候可以帮我们快速求出导数结果 <a href="https://www.cnblogs.com/pinard/p/10825264.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10791506.html
机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法 - 刘建平Pinard
在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中,我们讨论了定义法求解矩阵向量求导的方法,但是这个方法对于比较复杂的求导式子,中间运算会很复杂,同时排列求导出的结果也很麻烦。因此我们需要其他的一些求导方法。本文我们讨论使用微分法来求解标量对向量的求导,以及标量对矩阵的求导。 本文的标量对向量
2019-04-29T11:42:00Z
2019-04-29T11:42:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中,我们讨论了定义法求解矩阵向量求导的方法,但是这个方法对于比较复杂的求导式子,中间运算会很复杂,同时排列求导出的结果也很麻烦。因此我们需要其他的一些求导方法。本文我们讨论使用微分法来求解标量对向量的求导,以及标量对矩阵的求导。 本文的标量对向量 <a href="https://www.cnblogs.com/pinard/p/10791506.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10773942.html
机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法 - 刘建平Pinard
在机器学习中的矩阵向量求导(一) 求导定义与求导布局中,我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导,标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。 对于本文中的标量对向量或矩阵求导这两种情况,如前文所说,以分母布局为默认布局。向量对向量求导
2019-04-26T10:42:00Z
2019-04-26T10:42:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在机器学习中的矩阵向量求导(一) 求导定义与求导布局中,我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导,标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。 对于本文中的标量对向量或矩阵求导这两种情况,如前文所说,以分母布局为默认布局。向量对向量求导 <a href="https://www.cnblogs.com/pinard/p/10773942.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10750718.html
机器学习中的矩阵向量求导(一) 求导定义与求导布局 - 刘建平Pinard
在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用几篇博文来讨论下机器学习中的矩阵向量求导,今天是第一篇。 本系列主要参考文献为维基百科的Matrix Caculas和张贤达的
2019-04-22T10:03:00Z
2019-04-22T10:03:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用几篇博文来讨论下机器学习中的矩阵向量求导,今天是第一篇。 本系列主要参考文献为维基百科的Matrix Caculas和张贤达的 <a href="https://www.cnblogs.com/pinard/p/10750718.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10609228.html
强化学习(十九) AlphaGo Zero强化学习原理 - 刘建平Pinard
在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaG
2019-03-27T12:11:00Z
2019-03-27T12:11:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaG <a href="https://www.cnblogs.com/pinard/p/10609228.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10470571.html
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS) - 刘建平Pinard
在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。 本篇主要参
2019-03-04T09:09:00Z
2019-03-04T09:09:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。 本篇主要参 <a href="https://www.cnblogs.com/pinard/p/10470571.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10384424.html
强化学习(十七) 基于模型的强化学习与Dyna算法框架 - 刘建平Pinard
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。 本篇主要参考了UCL强化学习课程的第8讲和Dy
2019-02-15T12:22:00Z
2019-02-15T12:22:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。 本篇主要参考了UCL强化学习课程的第8讲和Dy <a href="https://www.cnblogs.com/pinard/p/10384424.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10345762.html
强化学习(十六) 深度确定性策略梯度(DDPG) - 刘建平Pinard
在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Poli
2019-02-01T11:42:00Z
2019-02-01T11:42:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Poli <a href="https://www.cnblogs.com/pinard/p/10345762.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10334127.html
强化学习(十五) A3C - 刘建平Pinard
在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C
2019-01-29T10:09:00Z
2019-01-29T10:09:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C <a href="https://www.cnblogs.com/pinard/p/10334127.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10272023.html
强化学习(十四) Actor-Critic - 刘建平Pinard
在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。 在本篇我们讨论策略(Policy
2019-01-15T09:46:00Z
2019-01-15T09:46:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。 在本篇我们讨论策略(Policy <a href="https://www.cnblogs.com/pinard/p/10272023.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/10137696.html
强化学习(十三) 策略梯度(Policy Gradient) - 刘建平Pinard
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien
2018-12-18T10:04:00Z
2018-12-18T10:04:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien <a href="https://www.cnblogs.com/pinard/p/10137696.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9923859.html
强化学习(十二) Dueling DQN - 刘建平Pinard
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文<Dueling N
2018-11-08T06:04:00Z
2018-11-08T06:04:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文<Dueling N <a href="https://www.cnblogs.com/pinard/p/9923859.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9797695.html
强化学习(十一) Prioritized Replay DQN - 刘建平Pinard
在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay
2018-10-16T08:46:00Z
2018-10-16T08:46:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay <a href="https://www.cnblogs.com/pinard/p/9797695.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9778063.html
强化学习(十)Double DQN (DDQN) - 刘建平Pinard
在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点,文本就关注于Nature DQN的一个改进版本: Double DQN算法(以下简称D
2018-10-12T08:52:00Z
2018-10-12T08:52:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点,文本就关注于Nature DQN的一个改进版本: Double DQN算法(以下简称D <a href="https://www.cnblogs.com/pinard/p/9778063.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9756075.html
强化学习(九)Deep Q-Learning进阶之Nature DQN - 刘建平Pinard
在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 201
2018-10-08T12:40:00Z
2018-10-08T12:40:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 201 <a href="https://www.cnblogs.com/pinard/p/9756075.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9714655.html
强化学习(八)价值函数的近似表示与Deep Q-Learning - 刘建平Pinard
在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数
2018-09-28T08:49:00Z
2018-09-28T08:49:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数 <a href="https://www.cnblogs.com/pinard/p/9714655.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pinard/p/9669263.html
强化学习(七)时序差分离线控制算法Q-Learning - 刘建平Pinard
在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learning算法。 Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部
2018-09-19T11:32:00Z
2018-09-19T11:32:00Z
刘建平Pinard
https://www.cnblogs.com/pinard/
【摘要】在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learning算法。 Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部 <a href="https://www.cnblogs.com/pinard/p/9669263.html" target="_blank">阅读全文</a>