摘要: 在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中,我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。需要一些简洁的方法。 本文我们讨论矩阵向量求导链式法则,使用该法则很多时候可以帮我们快速求出导数结果阅读全文
posted @ 2019-05-07 15:59 刘建平Pinard 阅读(687) 评论(1) 编辑
摘要: 在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中,我们讨论了定义法求解矩阵向量求导的方法,但是这个方法对于比较复杂的求导式子,中间运算会很复杂,同时排列求导出的结果也很麻烦。因此我们需要其他的一些求导方法。本文我们讨论使用微分法来求解标量对向量的求导,以及标量对矩阵的求导。 本文的标量对向量阅读全文
posted @ 2019-04-29 19:42 刘建平Pinard 阅读(558) 评论(6) 编辑
摘要: 在机器学习中的矩阵向量求导(一) 求导定义与求导布局中,我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导,标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。 对于本文中的标量对向量或矩阵求导这两种情况,如前文所说,以分母布局为默认布局。向量对向量求导阅读全文
posted @ 2019-04-26 18:42 刘建平Pinard 阅读(598) 评论(2) 编辑
摘要: 在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用几篇博文来讨论下机器学习中的矩阵向量求导,今天是第一篇。 本系列主要参考文献为维基百科的Matrix Caculas和张贤达的阅读全文
posted @ 2019-04-22 18:03 刘建平Pinard 阅读(1049) 评论(6) 编辑
摘要: 在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaG阅读全文
posted @ 2019-03-27 20:11 刘建平Pinard 阅读(1223) 评论(7) 编辑
摘要: 在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。 本篇主要参阅读全文
posted @ 2019-03-04 17:09 刘建平Pinard 阅读(1698) 评论(2) 编辑
摘要: 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。 本篇主要参考了UCL强化学习课程的第8讲和Dy阅读全文
posted @ 2019-02-15 20:22 刘建平Pinard 阅读(1162) 评论(9) 编辑
摘要: 在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Poli阅读全文
posted @ 2019-02-01 19:42 刘建平Pinard 阅读(1810) 评论(17) 编辑
摘要: 在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C阅读全文
posted @ 2019-01-29 18:09 刘建平Pinard 阅读(1595) 评论(12) 编辑
摘要: 在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。 在本篇我们讨论策略(Policy阅读全文
posted @ 2019-01-15 17:46 刘建平Pinard 阅读(2528) 评论(11) 编辑